robots.txt - Verwendung und Syntax der Datei robots.txt

Die Datei „robots.txt“ beinhaltet Anweisungen für Suchmaschinen-Robots und Spider, welche Webverzeichnisse gelesen werden sollen und welche nicht.

Die meisten Robots heutiger Suchmaschinen beachten die Existenz der robots.txt, lesen den Inhalt und befolgen darin enthaltene robots-Anweisungen.

Die zentrale robots.txt legt unabhängig von der Datei- und Verlinkungsstruktur der Internet-Präsenz fest, welche Verzeichnisse und Verzeichniszweige ausgelesen werden sollen und welche nicht.

Inhalt und Speicherplatz der robots.txt

Die Datei robots.txt muss mit exakt diesem Namen (Kleinschreibung aller Buchstaben beachten!) im Stammverzeichnis (root- oder Wurzelverzeichnis) der Domain gespeichert werden. Heißt die Domain z.B. beispielname.de, muss die robots.txt in dem Verzeichnis gespeichert werden, in dem sich auch die oberste Einstiegsdatei von www.beispielname.de befindet.
In diesem Fall also https://www.beispielname.de/robots.txt. Nur dann können Suchmaschinen-Robots die robots.txt finden.
Man kann die Möglichkeiten der robots.txt also nur nutzen, wenn auch Zugriff auf das Stammverzeichniss der eigenen Domain besteht.

Syntax und Dateiformat der robots.txt

Beim Erstellen und Bearbeiten der robots.txt muss darauf geachtet werden, dass ein reiner Texteditor und nicht etwa ein HTML-Editor verwendet wird (z.B. notepad.exe unter Windows).

Ebenso muss beim Übertragen der robots.txt auf den Webserver unbedingt beachtet werden, die Datei im ASCII Modus und nicht binär zu übertragen. (Dateiformat-Einstellunden im jeweiligen FTP-Programm beachten !)

Da einige Suchmaschinen-Robots das Fehlen der robots.txt mit „noindex, nofollow“ interpretieren und unnötige Fehlermeldungen im Serverlog (Error 404 = File not found) vermieden werden können, sollte wenigstens eine Minimalversion der robots.txt mit folgendem Inhalt erstellt und auf den Server übertragen werden:

Minimalversion der robots.txt:

# robots.txt zu https://www.beispielname.de/

User-agent: *

Disallow:

Erklärung:

Mit dem Gatterzeichen # beginnen Kommentarzeilen, die von Robots nicht beachtet werden.

Durch die fehlende Angabe hinter Disallow: wird allen Robots erlaubt alles zu indexieren

Bestimmte Verzeichnisse von der Indexierung ausnehmen:

# robots.txt zu https://www.beispielname.de/

User-agent: *

Disallow: /verbotenes-verzeichnis/

Disallow: /dieses-auch-nicht/

Erklärung:

Verzeichnisse, die Robots nicht indexieren sollen, werden mit einem / (Slash) begonnen und nach dem entsprechenden Verzeichnisnamen wieder mit einem / beendet.

Bestimmte Robots ausschließen:

<# robots.txt zu https://www.beispielname.de/

User-agent: msnbot

Disallow: /

Erklärung:

Die Angabe des Robot-Names (hier z.B. msnbot) verbietet speziell diesem komplett, die Domain zu indexieren. Es können natürlich beliebig viele Robots in die robots.txt nach dem oberen Muster eingetragen werden.

Alle Verzeichnisse für alle Robots verbieten:

User-agent: *

Disallow: /

Erklärung:

Mit dem * nach User-agent: und dem / dach Disallow: wird allen Robots global untersagt, die Domain zu indexieren …

Was funktioniert mit der robots.txt nicht ?

Da Webbrowser die robots.txt ignorieren, können mit Hilfe der robots.txt keine Dateien oder Verzeichnisse vor Zugriffen geschützt werden.
Hierfür muss man den Paßwortschutz des Webservers verwenden, bzw. die Datei .htaccess einsetzen.

Robots sind auch nicht unbedingt verpflichtet, den Exclusion Standard einzuhalten, obwohl sich die meisten danach richten.

Nach den Disallow: Anweisungen sind keine wildcards wie ? oder * erlaubt.

In der robots.txt können keine Dateiverweise erstellt und Robots auch nicht angewiesen werden, bestimmte Inhalte zu indexieren.
Hierfür benutzt man den Meta Tag „robots“ im Head-Bereich der einzelnen HTML-Dateien.