Das Robots.txt [2020]

Anleitung, Spezifikationen & Mehr [+Beispiele]

Share on facebook
Share on linkedin
Share on twitter

Was ist eine robots.txt-Datei?

Robots.txt ist eine Textdatei, die Webmaster erstellen, um Web-Robots (in der Regel Suchmaschinen-Robots) anzuweisen, Seiten auf ihrer Website zu durchsuchen. Die Datei robots.txt ist Teil des Robots-Exclusion-Protokolls (REP), einer Gruppe von Webstandards, die regeln, wie Robots das Web durchsuchen, auf Inhalte zugreifen und diese indexieren und den Benutzern zur Verfügung stellen. Das REP umfasst auch Richtlinien wie Meta-Robots sowie seiten-, unterverzeichnis- oder standortweite Anweisungen, wie Suchmaschinen Links behandeln sollen (wie „follow“ oder „nofollow“).

In der Praxis zeigen robots.txt-Dateien an, ob bestimmte User Agents (Web-Crawling-Software) Teile einer Website durchsuchen können oder nicht. Diese Crawling-Anweisungen werden durch das „Verbieten“ oder „Zulassen“ des Verhaltens bestimmter (oder aller) Benutzeragenten spezifiziert.

Grundlegendes Robots.txt Format:

User-agent: [Name des Benutzer-Agenten]Disallow: [URL-String der nicht gecrawlt werden darf]

Zusammen werden diese beiden Zeilen als eine vollständige robots.txt-Datei betrachtet – obwohl eine Robot-Datei mehrere Zeilen mit User-Agents und Direktiven enthalten kann (d.h. Sperren, Erlauben, Crawl-Verzögerungen usw.).

Innerhalb einer robots.txt-Datei erscheint jeder Satz von User-Agent-Direktiven als ein diskreter Satz, der durch einen Zeilenumbruch getrennt ist:

In einer robots.txt-Datei mit mehreren User-Agent-Direktiven gilt jede Sperr- oder Erlauben-Regel nur für den/die User-Agent(en), der/die in dieser bestimmten durch Zeilenumbruch getrennten Menge angegeben ist/sind. Wenn die Datei eine Regel enthält, die auf mehr als einen Benutzer-Agenten zutrifft, wird ein Crawler nur auf die spezifischste Gruppe von Anweisungen achten (und den Anweisungen in dieser Gruppe folgen).

Hier ein Beispiel:

Msnbot, discobot und Slurp werden alle speziell aufgerufen, so dass diese User-Agenten nur auf die Direktiven in ihren Abschnitten der robots.txt-Datei achten werden. Alle anderen User-Agenten werden den Anweisungen im User-agent: * Group folgen.

Beispiel robots.txt:

Hier sind ein paar Beispiele von robots.txt in Aktion für eine www.example.com Seite:

Robots.txt-Datei URL: www.example.com/robots.txt

Blockieren aller Webcrawler von allen Inhalten

User-agent: *disallow: /

Mit dieser Syntax in einer robots.txt-Datei würden alle Webcrawler angewiesen, keine Seiten auf www.example.com zu crawlen, auch nicht die Homepage.

Allen Webcrawlern den Zugriff auf alle Inhalte erlauben

User-agent: * Disallow:

Mit dieser Syntax in einer robots.txt-Datei werden Webcrawler angewiesen, alle Seiten auf www.example.com zu crawlen, einschließlich der Homepage.

Einen bestimmten Webcrawler aus einem bestimmten Ordner blockieren

User-agent: Googlebot Disallow: /Beispiel-Unterordner/

Diese Syntax weist nur den Crawler von Google (User-Agent-Name Googlebot) an, keine Seiten zu crawlen, die den URL-String www.example.com/beispiel-unterordner/ enthalten.

Blockieren eines bestimmten Webcrawlers von einer bestimmten Webseite

User-agent: Bingbot Disallow: /Beispiel-Unterordner/blockierte-seite

Diese Syntax sagt nur dem Crawler von Bing (User-Agent-Name Bing), um das Crawlen der spezifischen Seite auf www.example.com/beispiel-unterordner/blockierte-seite zu vermeiden.

Wie funktioniert robots.txt?

Suchmaschinen haben zwei Hauptaufgaben:

  1. Sie crawlen das Web, um Inhalte zu entdecken;
  2. Indizierung dieser Inhalte, damit sie Suchern, die auf der Suche nach Informationen sind, angezeigt werden können.

Um Seiten zu durchforsten, folgen Suchmaschinen den Links, um von einer Seite zur anderen zu gelangen – letztendlich crawlen sie über viele Milliarden Links und Websites. Dieses Crawling-Verhalten wird manchmal auch als „Spidern“ bezeichnet.

Nachdem er auf einer Website angekommen ist, aber bevor er sie spidert, sucht der Such-Crawler nach einer robots.txt-Datei. Wenn er eine findet, liest der Crawler zuerst diese Datei, bevor er die Seite weiter durchsucht. Da die robots.txt-Datei Informationen darüber enthält, wie die Suchmaschine crawlen soll, werden die dort gefundenen Informationen weitere Crawler-Aktionen auf dieser speziellen Seite anweisen. Wenn die robots.txt-Datei keine Direktiven enthält, die die Aktivität eines User-Agenten verbieten (oder wenn die Seite keine robots.txt-Datei hat), wird sie mit dem Crawlen anderer Informationen auf der Seite fortfahren.

Wichtige Robots.txt Hinweise

  • Um gefunden zu werden, muss sich eine robots.txt-Datei im obersten Verzeichnis einer Website befinden.
  • Robots.txt unterscheidet Groß- und Kleinschreibung: die Datei muss „robots.txt“ heißen (nicht Robots.txt, robots.TXT oder anders).
  • Einige User Agents (Robots) können sich dafür entscheiden, deine robots.txt-Datei zu ignorieren. Dies ist besonders häufig bei ruchloseren Crawlern wie Malware-Robotern oder E-Mail-Adressen-Scrapern der Fall.
  • Die Datei /robots.txt ist eine öffentlich zugängliche Datei: fügen Sie einfach /robots.txt an das Ende einer beliebigen Root-Domain an, um die Direktiven dieser Website zu sehen (wenn diese Site eine robots.txt-Datei hat!). Das bedeutet, dass jeder sehen kann, welche Seiten du gecrawlt werden oder nicht gecrawlt werden wollen, also benutze sie nicht, um private Benutzerinformationen zu verstecken.
  • Jede Subdomain auf einer Root-Domain verwendet separate robots.txt-Dateien. Das bedeutet, dass sowohl blog.example.com als auch example.com ihre eigenen robots.txt-Dateien haben sollten (unter blog.example.com/robots.txt und example.com/robots.txt).
  • Im Allgemeinen ist es am besten, die Position aller Sitemaps, die mit dieser Domain verbunden sind, unten in der robots.txt-Datei anzugeben. Hier ist ein Beispiel:

Technischer Roboter.txt Syntax

Die Robots.txt-Syntax kann man sich als die „Sprache“ der robots.txt-Dateien vorstellen. Es gibt fünf gebräuchliche Begriffe, die dir wahrscheinlich in einer robots-Datei begegnen. Sie beinhalten:

  • User-agent: Der spezielle Webcrawler, dem du Crawl-Anweisungen gibst (normalerweise eine Suchmaschine). Eine Liste der meisten User-Agents findest du hier.
  • Diswallow: Der Befehl, mit dem ein User-Agent angewiesen wird, eine bestimmte URL nicht zu crawlen. Für jede URL ist nur eine „Disallow:“-Zeile erlaubt.
  • Allow: (Nur für Googlebot anwendbar): Der Befehl, mit dem Googlebot mitgeteilt wird, dass er auf eine Seite oder einen Unterordner zugreifen kann, auch wenn die übergeordnete Seite oder der Unterordner nicht erlaubt ist.
  • Crawl-delay: Wie viele Sekunden ein Crawler warten soll, bevor er Seiteninhalte lädt und crawlt. Beachte, dass Googlebot diesen Befehl nicht bestätigt, aber die Crawl-Rate kann in der Google-Suchkonsole eingestellt werden.
  • Sitemap: Wird verwendet, um die Position jeder XML-Sitemap(s) aufzurufen, die mit dieser URL verknüpft ist. Hinweis: Dieser Befehl wird nur von Google, Ask, Bing und Yahoo unterstützt.

Pattern-Matching beim Robots.txt

Wenn es um die URLs geht, die blockiert oder zugelassen werden sollen, können die robots.txt-Dateien ziemlich komplex werden, da sie die Verwendung von Pattern-Matching erlauben, um eine Reihe von möglichen URL-Optionen abzudecken. Google und Bing achten beide auf zwei reguläre Ausdrücke, die verwendet werden können, um Seiten oder Unterordner zu identifizieren, die ein SEO ausgeschlossen haben möchte. Diese beiden Zeichen sind das Sternchen (*) und das Dollarzeichen ($).

  • * ist ein Platzhalter, der eine beliebige Folge von Zeichen darstellt
  • $ stimmt mit dem Ende der URL überein

Google bietet hier eine große Liste von möglichen Mustervergleichs-Syntaxen und Beispielen.

Wo kommt robots.txt auf einer Website hin?

Immer wenn Sie eien Website crawlen, wissen Suchmaschinen und andere Webcrawler (wie Facebooks Crawler, Facebot), dass sie nach einer robots.txt-Datei suchen. Aber sie suchen diese Datei nur an einem bestimmten Ort: im Hauptverzeichnis (normalerweise deine Root-Domain oder Homepage).

Wenn ein User-Agent www.example.com/robots.txt besucht und dort keine Robots-Datei findet, geht er davon aus, dass die Site keine hat und crawlt alles auf der Seite (und vielleicht sogar auf der gesamten Site). Selbst wenn die robots.txt-Seite z.B. unter example.com/index/robots.txt oder www.example.com/homepage/robots.txt existieren würde, würde sie von den User Agents nicht entdeckt werden und die Seite würde so behandelt werden, als hätte sie gar keine Robots-Datei.

Um sicherzustellen, dass deine robots.txt-Datei gefunden wird, solltest du sie immer in dein Hauptverzeichnis oder deine Root-Domain einbinden.

Warum brauchst du ein robots.txt?

Robots.txt-Dateien kontrollieren den Crawler-Zugriff auf bestimmte Bereiche deiner Site. Das kann zwar sehr gefährlich sein, wenn du Googlebot versehentlich daran hinderst, deine gesamte Website zu crawlen (!!), aber es gibt einige Situationen, in denen eine robots.txt-Datei sehr nützlich sein kann.

Einige häufige Anwendungsfälle sind unter anderem:

  • Verhindern, dass doppelte Inhalte in SERPs erscheinen (beachte, dass Meta-Robots dafür oft die bessere Wahl sind)
  • Ganze Bereiche einer Website privat halten (zum Beispiel die Staging-Site deines Ingenieurteams)
  • Interne Suchergebnisseiten davon abhalten, auf einer öffentlichen SERP aufzutauchen
  • Den Standort der Sitemap(s) angeben
  • Verhindern, dass Suchmaschinen bestimmte Dateien auf deiner Website (Bilder, PDFs usw.) indexieren.
  • Angabe einer Crawl-Verzögerung, um zu verhindern, dass eure Server überlastet werden, wenn Crawler mehrere Inhalte auf einmal laden

Wenn es keine Bereiche auf deiner Seite gibt, zu denen du den Zugang von User-Agenten kontrollieren möchtest, brauchst du möglicherweise überhaupt keine robots.txt-Datei.

Überprüfe, ob du eine robots.txt-Datei hast

Nicht sicher, ob du eine robots.txt-Datei hast? Gib einfach deine Root-Domain ein und füge dann /robots.txt an das Ende der URL an. Die robots-Datei von YOYABA befindet sich zum Beispiel auf yoyaba.com/robots.txt.

Wenn keine .txt-Seite erscheint, hast du momentan keine (live) robots.txt-Seite.

Wie man eine Robots.txt-Datei erstellt

Wenn du festgestellt hast, dass du keine robots.txt-Datei hast oder deine ändern möchtest, ist das Erstellen einer solchen Datei ein einfacher Prozess. Dieser Artikel von Google geht durch den Erstellungsprozess der robots.txt-Datei, und mit diesem Tool kannst du testen, ob deine Datei korrekt eingerichtet ist.

Beste SEO-Praktiken fürs Robots.txt

  • Stelle sicher, dass du keine Inhalte oder Abschnitte deiner Website blockierst, die du gecrawlt haben möchtest.
  • Links auf Seiten, die von robots txt blockiert werden, werden nicht verfolgt. Das bedeutet: 1.) Sofern sie nicht auch von anderen Suchmaschinen-zugänglichen Seiten verlinkt sind (d.h. Seiten, die nicht durch robots.txt, Meta-Robots oder anderweitig blockiert sind), werden die verlinkten Ressourcen nicht gecrawlt und möglicherweise nicht indiziert. 2.) Es kann keine Linkgerechtigkeit von der blockierten Seite auf das Linkziel übertragen werden. Wenn du Seiten hast, auf die du Gleichheit übertragen lassen möchtest, verwende einen anderen Blockierungsmechanismus als robots.txt.
  • Benutze robots.txt nicht, um zu verhindern, dass sensible Daten (wie private Benutzerinformationen) in den SERP-Ergebnissen erscheinen. Da andere Seiten möglicherweise direkt auf die Seite mit den privaten Informationen verlinken (und so die robots.txt-Direktiven auf deiner Root-Domain oder Homepage umgehen), kann es sein, dass sie trotzdem indiziert wird. Wenn du deine Seite von den Suchergebnissen blockieren möchtest, benutze eine andere Methode wie Passwortschutz oder die noindex-Meta-Direktive.
  • Einige Suchmaschinen haben mehrere Benutzer-Agents. Google benutzt zum Beispiel Googlebot für die organische Suche und Googlebot-Image für die Bildersuche. Die meisten User-Agents derselben Suchmaschine folgen den gleichen Regeln, so dass es nicht notwendig ist, für jeden der mehreren Crawler einer Suchmaschine eine Direktive anzugeben, aber wenn du die Möglichkeit hast, dies zu tun, kannst du die Art und Weise, wie der Inhalt deiner Seite gecrawlt wird, feinabstimmen.
  • Eine Suchmaschine wird die robots.txt-Inhalte zwischenspeichern, aber normalerweise aktualisiert sie die zwischengespeicherten Inhalte mindestens einmal am Tag. Wenn du die Datei änderst und sie schneller aktualisieren möchtest, als es der Fall ist, kannst du deine robots.txt-URL an Google senden.

Robots.txt vs. Meta-Roboter vs. X-Roboter

So viele Roboter! Was ist der Unterschied zwischen diesen drei Arten von Roboteranweisungen? Zunächst einmal ist robots.txt eine echte Textdatei, während meta- und x-robots Meta-Anweisungen sind. Jenseits dessen, was sie eigentlich sind, dienen die drei alle unterschiedlichen Funktionen. Robots.txt diktiert das Site- oder verzeichnisweite Crawl-Verhalten, während meta- und x-Roboter das Indexierungsverhalten auf der Ebene der einzelnen Seite (oder des Seitenelements) diktieren können.

Share on facebook
Share on linkedin
Share on twitter

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

×

Inhaltsverzeichnis

Office Hamburg
Gertigstraße 12-14,
22303 Hamburg