Häufig herrscht Verwirrung über die richtige Verwendung der robots.txt, damit möchte ich jetzt aufräumen.
In diesem Artikel möchte ich dir die robots.txt näher bringen und auf einige der häufigsten Fragen eingehen.

Was ist die Robots.txt?

Die robots.txt ist eine Textdatei die auf dem Root deiner Webseite abgelegt wird, um die Zugriffsberechtigung und Crawlinggeschwindigkeit von sogenannten Crawlern zu steuern. Die Datei muss wie folgt abrufbar sein:

www.DeineDomain.tld/robots.txt

Das bedeutet, dass du die Robots.txt nur anpassen und verwenden kannst, wenn du Zugriff auf das Wurzelverzeichnis deines Hosts hast. Verwendest du Domains wie z.B. deineSubdomain.wordpress.com kannst du keinen einfluss auf die robots.txt nehmen.

Wofür ist die Robots.txt geeignet?

Besucht ein Crawler, der dem Robots Exclusion Standard folgt, deine Webseite, so liest dieser zuerst die robots.txt aus, um sich die Zugriffsberechtigung für deine Webseite abzuholen. Hier lassen sich Verzeichnisse, Seiten und Dateien vom Crawling durch (bestimmte) Bots ausschließen.
Wird der Zugriff auf eine Seite ausgeschlossen ruft der Bot die Seite nicht auf, Weiterleitungen & Canonicals können vom Bot nicht gesehen werden und haben damit keine Funktion mehr.

Sensible Dateien lassen sich NICHT schützen

 Wichtiger Hinweis: Die robots.txt ist keine Gesetzgebung sondern ein Hinweis für den Bot etwas nicht zu tun. „Böse“ Bots (und vom Webmaster selbst beauftragte Bots) ignorieren die Datei einfach und gestatten sich Zugriff auf die verbotenen Verzeichnisse und Dateien. 

Seiten lassen sich NICHT aus dem Index entfernen

Viele glauben auch, dass man über die robots.txt Seiten und Dateien aus dem Index von Google & Co. entfernen kann. Dafür sollte man allerdings die sog. Meta-Robots verwenden, die robots.txt ist dafür nicht geeignet. Man kann lediglich Bilder aus dem Index heraushalten, solange diese noch nicht aufgenommen wurden.

Wie sieht eine robots.txt aus?

Eine simple, alles freigebende robots.txt sieht dann wie folgt aus:

User-agent: *
Disallow:

Sitemap: http://www.DeineDomain.tld/sitemap.xml

Robots.txt Disallow all – Wie man die gesamte Webseite ausschließt

Es gibt viele Gründe, die gesamte Webseite aus dem Index halten zu wollen. Um dies erfolgreich zu tun gibt es drei Möglichkeiten:

  • Ideal: Das Verzeichnis über die .httaccess sperren
  • Gut: Alle Meta-Robots auf „noindex,nofollow“ setzen
  • Ausreichend: Die gesamte Webseite per robots.txt sperren
htaccessMeta-RobotsRobots txt
Was macht den Unterschied? Sperrt man das ganze Hauptverzeichnis, muss man einen Benutzernamen und ein Password eingeben um die Webseite zu öffnen. Das kann kein Bot einfach so. Dieser Vorgang ist für Anfänger nicht geeignet, da einiges schief gehen kann.Über die Meta-Robots kann man sicher stellen, dass die Seite niemals im Index angezeigt wird. Die Crawler können aber auf die Inhalte Webseite zugrifen.Über die robots.txt lässt sich der Zugriff für gute Bots (wie Google, etc.) sperren. Böse Bots hören nicht auf die robots.txt. Die Inhalte werden dadurch nicht gelesen, aber die URL kann in den Index gelangen. Der größte Vorteil ist die Einfachheit dieser Methode.

Disallow All Robots.txt Vorlage:

User-agent: *
Disallow: /

User-agent: * spricht jeden Bot an
Disallow: / bedeutet, dass wir alle Verzeichnisse und Seiten sperren.

Robots.txt Allow all – Wie man die gesamte Webseite in der Robots.txt freigibt

Solange die .httacces den Zugriff nicht sperrt und die Meta-Robots auf „index,follow“ gesetzt sind, lässt sich die gesamte Webseite mit folgender robots.txt für den Index freigeben.

Allow All Robots.txt Vorlage:

User-agent: *
Disallow:

User-agent: * spricht jeden Bot an
Disallow: bedeutet, dass wir alle Verzeichnisse und Seiten zulassen. Übersetzt bedeutet der Befehl „Verbiete: Nichts“.