Robots – Häufig gestellte Fragen (FAQ)

Haben wir eine wichtige häufig gestellte Frage nicht beantwortet? Falls du weitere Hilfe benötigst, kannst du gern eine Frage in der Hilfe der Google Suche-Zentrale stellen.

Allgemeine Fragen zu Robots

Benötigt meine Website eine robots.txt-Datei?

Nein. Wenn der Googlebot eine Website besucht, versucht er zuerst, eine Erlaubnis zum Crawlen bekommen. Dazu ruft er nach Möglichkeit die robots.txt-Datei ab. Websites ohne robots.txt-Datei, Robots-Meta-Tags oder X-Robots-Tag-HTTP-Header werden im Allgemeinen ganz normal gecrawlt und indexiert.

Welche Methode sollte ich verwenden?

Das ist unterschiedlich. Für jede der folgenden Methoden gibt es gute Gründe:

  1. robots.txt: Verwende diese Methode, falls das Crawlen deiner Inhalte auf deinem Server Probleme verursacht. Beispielsweise ist es sinnvoll, das Crawlen der Skripts von unendlichen Kalendern zu unterbinden. Du solltest die robots.txt-Datei nicht verwenden, um private Inhalte zu blockieren (nutze stattdessen die serverseitige Authentifizierung) oder um die Kanonisierung festzulegen. Falls du sichergehen musst, dass eine URL nicht indexiert wird, verwende stattdessen das Robots-Meta-Tag oder den X-Robots-Tag-HTTP-Header.
  2. Robots-Meta-Tag: Diese Methode empfiehlt sich, wenn du beeinflussen möchtest, wie eine einzelne HTML-Seite in den Suchergebnissen angezeigt wird, oder wenn du sicher sein willst, dass sie nicht angezeigt wird.
  3. X-Robots-Tag-HTTP-Header: Dieser ist geeignet, wenn du beeinflussen möchtest, wie Nicht-HTML-Inhalte in den Suchergebnissen angezeigt werden, oder wenn du sicher sein willst, dass sie nicht angezeigt werden.

Kann ich mithilfe dieser Methoden die Website einer anderen Person entfernen?

Nein. Diese Methoden gelten nur für Websites, auf denen du den Code ändern oder Dateien hinzufügen kannst. Falls du Inhalte von der Website eines Drittanbieters entfernen möchtest, musst du den Websiteinhaber bitten, die Inhalte zu entfernen.

Wie kann ich erreichen, dass Google meine Website langsamer crawlt?

Du kannst die allgemeine Einstellung für die Crawling-Frequenz in deinem Google Search Console-Konto anpassen.

Fragen zur robots.txt-Datei

Ich verwende dieselbe robots.txt-Datei für mehrere Websites. Kann ich statt eines relativen Pfads eine vollständige URL verwenden?

Nein. Die Anweisungen in der robots.txt-Datei (mit Ausnahme von Sitemap:) gelten nur für relative Pfade.

Kann ich die robots.txt-Datei in einem Unterverzeichnis ablegen?

Nein. Die Datei muss im obersten Verzeichnis der Website gespeichert werden.

Ich möchte einen privaten Ordner sperren. Kann ich andere daran hindern, meine robots.txt-Datei zu lesen?

Nein, die robots.txt-Datei kann von verschiedenen Nutzern gelesen werden. Falls die Ordner oder Dateinamen von Inhalten nicht öffentlich sein sollen, sollten sie nicht in der robots.txt-Datei aufgeführt werden. Es wird davon abgeraten, auf der Grundlage des User-Agents oder sonstiger Attribute verschiedene robots.txt-Dateien bereitzustellen.

Muss ich eine allow-Anweisung verwenden, um das Crawlen zu erlauben?

Nein, du musst keine allow-Anweisung hinzufügen. Mit der allow-Anweisung werden disallow-Anweisungen in derselben robots.txt-Datei überschrieben.

Was geschieht, wenn meine robots.txt-Datei einen Fehler enthält oder ich eine nicht unterstützte Anweisung verwende?

Web-Crawler sind in der Regel sehr flexibel und werden normalerweise nicht durch geringfügige Fehler in der robots.txt-Datei außer Gefecht gesetzt. Im Allgemeinen kann nichts Schlimmeres passieren, als dass fehlerhafte oder nicht unterstützte Anweisungen ignoriert werden. Bedenke, dass Google bei der Interpretation einer robots.txt-Datei keine Gedanken lesen kann – sondern dass er sich darauf beschränken muss, die abgerufene robots.txt-Datei auszuwerten. Sollten dir Probleme in deiner robots.txt-Datei bekannt sein, sind diese normalerweise einfach zu beheben.

Mit welchem Programm sollte ich die robots.txt-Datei erstellen?

Du kannst jedes Programm verwenden, mit dem du eine gültige Textdatei erstellen kannst. Gängige Programme zur Erstellung von robots.txt-Dateien sind beispielsweise Editor, Textedit, vi oder Emacs. Hier findest du weitere Informationen zum Erstellen von robots.txt-Dateien. Nachdem du die Datei erstellt hast, validiere sie mit dem robots.txt-Tester.

Wenn ich das Crawling einer Seite durch Google mithilfe einer disallow-Anweisung in robots.txt verhindere, verschwindet die Seite dann aus den Suchergebnissen?

Durch das Sperren einer Seite für das Crawlen durch Google wird die Seite wahrscheinlich aus dem Google-Index entfernt.

Allerdings garantiert die Disallow-Anweisung in robots.txt nicht, dass eine Seite nicht in den Ergebnissen erscheint. Google kann mithilfe externer Informationen, wie z. B. eingehender Links, entscheiden, dass die Seite relevant ist. Falls du eine Seite explizit für die Indexierung sperren möchtest, verwende stattdessen das Robots-Meta-Tag noindex oder den X-Robots-Tag-HTTP-Header. Du solltest in diesem Fall die Seite nicht mit „disallow“ in der robots.txt-Datei sperren, da die Seite gecrawlt werden muss, damit das Tag erkannt und befolgt werden kann.

Wie lange dauert es, bis sich Änderungen an meiner robots.txt-Datei auf meine Suchergebnisse auswirken?

Der Cache der robots.txt-Datei muss erst aktualisiert werden. Die Inhalte werden in der Regel maximal einen Tag lang im Cache gespeichert. Das Crawling und die Indexierung sind komplizierte Prozesse, die bei bestimmten URLs manchmal recht lange dauern können. Daher können wir nicht genau angeben, in welchem zeitlichem Abstand nach der Erkennung eine Änderung wirksam wird. Beachte außerdem, dass eine URL auch dann in den Suchergebnissen angezeigt werden kann, wenn wir sie nicht crawlen können, weil deine robots.txt-Datei dies nicht zulässt. Wenn du das Entfernen der Seiten, die du für Google blockiert hast, beschleunigen möchtest, reiche über die Google Search Console einen Antrag auf Entfernung ein.

Wie kann ich das Crawling meiner Website vorübergehend komplett aussetzen?

Du kannst das Crawling vorübergehend komplett aussetzen, wenn du für URLs, auch für die robots.txt-Datei, den HTTP-Ergebniscode 503 zurückgeben lässt. Es wird dann in regelmäßigen Abständen versucht, die robots.txt-Datei abzurufen, bis der Zugriff wieder möglich ist. Wir raten davon ab, das Crawling über deine robots.txt-Datei zu unterbinden.

Mein Server unterscheidet nicht zwischen Groß- und Kleinschreibung. Wie kann ich das Crawlen einiger Ordner komplett unterbinden?

Die Anweisungen in der robots.txt-Datei unterscheiden zwischen Groß- und Kleinschreibung. In diesem Fall solltest du mithilfe von Kanonisierungsmethoden dafür sorgen, dass nur eine Version der URL indexiert wird. Auf diese Weise kannst du deine robots.txt-Datei vereinfachen. Sollte dies nicht möglich sein, empfehlen wir, häufige Varianten des Ordnernamens aufzuführen oder ihn so weit wie möglich zu kürzen. Gib nur die ersten paar Zeichen statt des vollständigen Namens an. Statt alle groß- oder kleingeschriebenen Varianten von /MyPrivateFolder anzugeben, könntest du beispielsweise die Varianten von „/MeinP“ angeben, sofern du sicher bist, dass es keine anderen crawlbaren URLs gibt, die mit diesen Buchstaben beginnen. Wahlweise kannst du auch ein Robots-Meta-Tag oder einen X-Robots-Tag-HTTP-Header verwenden, solange das Crawling selbst problemlos möglich ist.

Meine Website gibt für alle URLs, auch für die robots.txt-Datei, 403 Forbidden zurück. Warum wird die Website dennoch gecrawlt?

Der HTTP-Ergebniscode 403 wird wie alle anderen HTTP-Ergebniscodes des Typs „4xx“ so interpretiert, dass keine robots.txt-Datei existiert. Daher gehen die Crawler generell davon aus, dass alle URLs der Website gecrawlt werden können. Damit das Crawlen einer Website unterbunden werden kann, muss die robots.txt-Datei normal zurückgegeben werden, d. h. mit dem HTTP-Ergebniscode „200 OK“, und eine gültige disallow-Anweisung enthalten.

Fragen zu Robots-Meta-Tags

Kann das Robots-Meta-Tag die robots.txt-Datei ersetzen?

Nein, die robots.txt-Datei legt fest, auf welche Seiten zugegriffen wird. Das Robots-Meta-Tag steuert, ob eine Seite indexiert wird. Damit dieses Tag jedoch erkannt wird, muss die Seite gecrawlt werden. Sollte das Crawlen einer Seite problematisch sein, beispielsweise, weil die Seite eine starke Auslastung des Servers bewirkt, verwende die robots.txt-Datei. Falls es nur darum geht, ob eine Seite in den Suchergebnissen angezeigt wird, kannst du das Robots-Meta-Tag verwenden.

Kann mit dem Robots-Meta-Tag verhindert werden, dass ein Teil einer Seite indexiert wird?

Nein, beim Robots-Meta-Tag handelt es sich um eine Einstellung auf Seitenebene.

Kann ich das Robots-Meta-Tag außerhalb von <head>-Abschnitten verwenden?

Nein, das Robots-Meta-Tag muss sich derzeit im <head>-Abschnitt einer Seite befinden.

Wird das Crawling durch das Robots-Meta-Tag unzulässig?

Nein. Selbst wenn das Robots-Meta-Tag derzeit noindex angibt, müssen wir diese URL gelegentlich noch einmal crawlen, um zu prüfen, ob das Meta-Tag geändert wurde.

Inwiefern lässt sich das Robots-Meta-Tag nofollow mit dem Linkattribut rel="nofollow" vergleichen?

Das Robots-Meta-Tag nofollow gilt für alle Links auf einer Seite. Das Linkattribut rel="nofollow" gilt hingegen nur für bestimmte Links auf einer Seite. Weitere Informationen zum Linkattribut rel="nofollow" findest du in unseren Hilfeartikeln zu nutzergeneriertem Spam und zu rel="nofollow".

Fragen zum X-Robots-Tag-HTTP-Header

Wie kann ich das X-Robots-Tag für eine URL prüfen?

Eine einfache Möglichkeit zum Prüfen der Server-Header ist die Verwendung eines webbasierten Server-Header-Prüftools oder der Funktion Abruf wie durch Googlebot in der Google Search Console.