robots.txt
Die Datei "robots.txt" beinhaltet Anweisungen
für Suchmaschinen-Robots und Spider, welche Webverzeichnisse gelesen
werden sollen und welche nicht.
Die meisten Robots heutiger Suchmaschinen beachten die Existenz der robots.txt, lesen den Inhalt und befolgen
darin enthaltene robots-Anweisungen.
Die zentrale robots.txt legt unabhängig von der Datei- und Verlinkungsstruktur der Internet-Präsenz fest,
welche Verzeichnisse und Verzeichniszweige ausgelesen werden sollen und
welche nicht. Inhalt und Speicherplatz der robots.txt
Die Datei robots.txt muss mit exakt diesem Namen (Kleinschreibung aller Buchstaben beachten!) im Stammverzeichnis
(root- oder Wurzelverzeichnis) der Domain gespeichert werden. Heist
die Domain z.B. beispielname.de, muss die robots.txt in dem Verzeichnis
gespeichert werden, in dem sich auch die oberste Einstiegsdatei von www.beispielname.de
befindet.
Syntax und Dateiformat der robots.txt
Beim Erstellen und Bearbeiten der robots.txt
muß darauf geachtet werden, daß ein reiner Texteditor und nicht
etwa ein HTML-Editor verwendet wird (z.B. notepad.exe unter Windows).
Ebenso muß beim Übertragen der robots.txt auf den Webserver unbedingt beachtet werden, die Datei im ASCII
Modus und nicht binär zu übertragen. (Dateiformat-Einstellunden im jeweiligen FTP-Programm beachten !)
Da einige Suchmaschinen-Robots
das Fehlen der robots.txt mit "noindex, nofollow" interpretieren und unnötige
Fehlermeldungen im Serverlog (Error 404 = File not found) vermieden werden
können, sollte wenigstens eine Minimalversion der robots.txt mit folgendem
Inhalt erstellt und auf den Server übertragen werden:
Minimalversion
der robots.txt:
# robots.txt zu http://www.beispielname.de/
User-agent: *
Disallow:
Erklärung:
Mit dem Gatterzeichen # beginnen Kommentarzeilen, die von Robots nicht beachtet werden.
Durch die fehlende Angabe hinter Disallow: wird allen Robots erlaubt alles zu indexieren
Bestimmte
Verzeichnisse von der Indexierung ausnehmen:
# robots.txt zu http://www.beispielname.de/
User-agent: *
Disallow: /verbotenes-verzeichnis/
Disallow: /dieses-auch-nicht/
Erklärung:
Verzeichnisse, die Robots nicht indexieren sollen, werden mit einem / (Slash) begonnen und
nach dem entsprechenden Verzeichnisnamen wieder mit einem / beendet.
Bestimmte
Robots ausschließen:
# robots.txt zu http://www.beispielname.de/
User-agent: msnbot
Disallow: /
Erklärung:
Die Angabe des Robot-Names (hier z.B. msnbot) verbietet speziell diesem komplett, die Domain zu indexieren. Es können natürlich
beliebig viele Robots in die robots.txt nach dem oberen Muster eingetragen werden.
Alle
Verzeichnisse für alle Robots verbieten:
User-agent: *
Disallow: /
Erklärung:
Mit dem * nach User-agent: und dem / dach Disallow: wird allen Robots global untersagt,
die Domain zu indexieren ...
Was
funktioniert mit der robots.txt nicht ?
Da Webbrowser die robots.txt ignorieren, können mit Hilfe der robots.txt keine Dateien oder Verzeichnisse vor
Zugriffen geschützt werden.
Robots sind auch nicht unbedingt verpflichtet, den Exclusion Standard einzuhalten, obwohl sich die meisten danach richten.
Nach den Disallow: Anweisungen sind keine wildcards wie ? oder * erlaubt.
In der robots.txt können keine Dateiverweise erstellt und Robots auch nicht angewiesen werden, bestimmte Inhalte zu indexieren.
|
robots.txt - Verwendung der Datei robots.txt - SieberNET - Netzwerk - PC - Service - München