Häufig gestellte Fragen (FAQ) zur robots.txt-Datei und ähnlichen Methoden

Allgemeine Fragen zur robots.txt-Datei und ähnlichen Methoden

Benötigt meine Website eine robots.txt-Datei?

Nein. Wenn der Googlebot eine Website besucht, versucht er zuerst, eine Erlaubnis zum Crawlen zu bekommen. Dazu ruft er nach Möglichkeit die robots.txt-Datei ab. Aber auch Websites ohne robots.txt-Datei, Robots-Meta-Tags oder X-Robots-Tag-HTTP-Header werden im Allgemeinen ganz normal gecrawlt und indexiert.

Mit welcher Methode sollte ich Crawler blockieren?

Das ist unterschiedlich. Für jede der folgenden Methoden gibt es gute Gründe:

  • robots.txt: Verwende diese Methode, falls das Crawlen deiner Inhalte auf deinem Server Probleme verursacht. Beispielsweise ist es sinnvoll, das Crawlen der Skripts von unendlichen Kalendern zu unterbinden. Du solltest die robots.txt-Datei nicht verwenden, um private Inhalte zu blockieren (nutze stattdessen die serverseitige Authentifizierung) oder um die Kanonisierung festzulegen. Wenn du erreichen möchtest, dass eine URL nicht indexiert wird, verwende stattdessen das Robots-Meta-Tag oder den X-Robots-Tag-HTTP-Header.
  • Robots-Meta-Tag: Diese Methode empfiehlt sich, wenn du beeinflussen möchtest, wie eine einzelne HTML-Seite in den Suchergebnissen angezeigt wird, oder wenn du sicher sein willst, dass sie nicht angezeigt wird.
  • X-Robots-Tag-HTTP-Header: Dieser ist geeignet, wenn du beeinflussen möchtest, wie Nicht-HTML-Inhalte in den Suchergebnissen angezeigt werden, oder wenn du sicher sein willst, dass sie nicht angezeigt werden.

Kann ich mithilfe dieser Methoden die Website einer anderen Person aus den Suchergebnissen entfernen?

Nein. Diese Methoden sind nur für Websites geeignet, auf denen du selbst den Code ändern oder Dateien hinzufügen kannst. Weitere Informationen zum Entfernen von Inhalten aus Google

Wie kann ich das Crawlen meiner Website durch Google verlangsamen?

Du kannst die allgemeine Einstellung für die Crawling-Frequenz in deinem Google Search Console-Konto anpassen.

Fragen zur robots.txt-Datei

Ich verwende dieselbe robots.txt-Datei für mehrere Websites. Kann ich eine vollständige URL statt eines relativen Pfads verwenden?

Nein. Die Anweisungen in der robots.txt-Datei (mit Ausnahme von Sitemap:) gelten nur für relative Pfade.

Kann ich die robots.txt-Datei in einem Unterverzeichnis ablegen?

Nein. Die Datei muss im obersten Verzeichnis der Website gespeichert werden.

Ich möchte einen privaten Ordner sperren. Kann ich andere daran hindern, meine robots.txt-Datei zu lesen?

Nein, die robots.txt-Datei kann von verschiedenen Nutzern gelesen werden. Falls die Ordner oder Dateinamen von Inhalten nicht öffentlich sein sollen, sollten sie nicht in der robots.txt-Datei aufgeführt werden. Wir raten davon ab, unterschiedliche robots.txt-Dateien je nach User-Agent oder anderen Attributen bereitzustellen.

Muss ich in der robots.txt-Datei eine allow-Anweisung verwenden, um das Crawling zu erlauben?

Nein, du musst keine allow-Anweisung hinzufügen. Mit der allow-Anweisung werden disallow-Anweisungen in derselben robots.txt-Datei überschrieben.

Was geschieht, wenn meine robots.txt-Datei einen Fehler enthält oder ich eine nicht unterstützte Anweisung verwende?

Web-Crawler sind in der Regel sehr flexibel und werden normalerweise nicht durch geringfügige Fehler in der robots.txt-Datei außer Gefecht gesetzt. Im Allgemeinen kann nichts Schlimmeres passieren, als dass fehlerhafte oder nicht unterstützte Anweisungen ignoriert werden. Bedenke, dass Google bei der Interpretation einer robots.txt-Datei keine Gedanken lesen kann – sondern dass der Googlebot sich darauf beschränken muss, die abgerufene robots.txt-Datei auszuwerten. Sollten dir Probleme in deiner robots.txt-Datei bekannt sein, sind diese normalerweise einfach zu beheben.

Mit welchem Programm sollte ich die robots.txt-Datei erstellen?

Du kannst jedes Programm verwenden, mit dem du eine gültige Textdatei erstellen kannst. Gängige Programme zur Erstellung von robots.txt-Dateien sind beispielsweise Editor, TextEdit, vi oder Emacs. Hier findest du weitere Informationen zum Erstellen von robots.txt-Dateien. Nachdem du die Datei erstellt hast, validiere sie mit dem robots.txt-Tester.

Wenn ich das Crawling einer Seite durch Google mithilfe einer disallow-Anweisung in robots.txt verhindere, verschwindet die Seite dann aus den Suchergebnissen?

Durch das Sperren einer Seite für das Crawlen durch Google wird die Seite wahrscheinlich aus dem Google-Index entfernt.

Die Anweisung Disallow in der robots.txt-Datei garantiert jedoch nicht, dass eine Seite nicht in den Ergebnissen erscheint. Google kann aufgrund von externen Informationen wie z. B. eingehenden Links trotzdem zu dem Schluss kommen, dass die Seite relevant ist. Falls du eine Seite explizit für die Indexierung sperren möchtest, verwende stattdessen das Robots-Meta-Tag noindex oder den X-Robots-Tag-HTTP-Header. Du solltest in diesem Fall die Seite nicht mit „disallow“ in der robots.txt-Datei sperren, da die Seite gecrawlt werden muss, damit das Tag erkannt und befolgt werden kann.

Wie lange dauert es, bis sich Änderungen an meiner robots.txt-Datei auf meine Suchergebnisse auswirken?

Der Cache der robots.txt-Datei muss erst aktualisiert werden. Die Inhalte werden in der Regel maximal einen Tag lang im Cache gespeichert. Das Crawling und die Indexierung sind komplizierte Prozesse, die bei bestimmten URLs manchmal recht lange dauern können. Daher können wir nicht genau angeben, in welchem zeitlichen Abstand nach der Erkennung eine Änderung wirksam wird. Beachte außerdem, dass eine URL auch dann in den Suchergebnissen angezeigt werden kann, wenn wir sie nicht crawlen können, weil deine robots.txt-Datei dies nicht zulässt. Wenn du das Entfernen der Seiten, die du für Google blockiert hast, beschleunigen möchtest, reiche bitte über die Google Search Console einen Antrag auf Entfernung ein.

Wie kann ich das Crawling meiner Website vorübergehend komplett aussetzen?

Du kannst das Crawling vorübergehend komplett aussetzen, wenn du für URLs, auch für die robots.txt-Datei, den HTTP-Ergebniscode 503 zurückgeben lässt. Es wird dann in regelmäßigen Abständen versucht, die robots.txt-Datei abzurufen, bis der Zugriff wieder möglich ist. Wir raten davon ab, das Crawling über deine robots.txt-Datei zu unterbinden.

Mein Server unterscheidet nicht zwischen Groß- und Kleinschreibung. Wie kann ich das Crawlen einiger Ordner komplett unterbinden?

Die Anweisungen in der robots.txt-Datei unterscheiden zwischen Groß- und Kleinschreibung. In diesem Fall solltest du mithilfe von Kanonisierungsmethoden dafür sorgen, dass nur eine Version der URL indexiert wird. Dadurch kommst du in deiner robots.txt-Datei mit weniger Zeilen aus und sie ist für dich einfacher zu pflegen. Sollte dies nicht möglich sein, empfehlen wir, häufige Varianten des Ordnernamens aufzuführen oder ihn so weit wie möglich zu kürzen. Gib nur die ersten paar Zeichen statt des vollständigen Namens an. Statt alle groß- oder kleingeschriebenen Varianten von /MyPrivateFolder anzugeben, könntest du beispielsweise bei einem Ordner namens „MeinprivaterOrdner“ lediglich „/MeinprO“ angeben, sofern du sicher bist, dass es keine anderen crawlbaren URLs gibt, die mit diesen Buchstaben beginnen. Wahlweise kannst du auch ein Robots-Meta-Tag oder einen X-Robots-Tag-HTTP-Header verwenden, solange das Crawling selbst problemlos möglich ist.

Meine Website gibt für alle URLs, auch für die robots.txt-Datei, 403 Forbidden zurück. Warum wird die Website dennoch gecrawlt?

Der 403 Forbidden-HTTP-Statuscode wird wie alle anderen HTTP-Statuscodes des Typs „4xx“ so interpretiert, dass keine robots.txt-Datei existiert. Daher gehen die Crawler generell davon aus, dass alle URLs der Website gecrawlt werden können. Damit das Crawlen einer Website unterbunden werden kann, muss die robots.txt-Datei mit einem 200 OK-HTTP-Statuscode zurückgegeben werden und eine entsprechende disallow-Anweisung enthalten.

Fragen zu Robots-Meta-Tags

Kann das Robots-Meta-Tag die robots.txt-Datei ersetzen?

Nein, die robots.txt-Datei legt fest, auf welche Seiten zugegriffen wird. Das Robots-Meta-Tag steuert, ob eine Seite indexiert wird. Damit dieses Tag jedoch erkannt wird, muss die Seite gecrawlt werden. Sollte das Crawlen einer Seite problematisch sein, z. B. weil die Seite eine starke Auslastung des Servers bewirkt, verwende die robots.txt-Datei. Falls es nur darum geht, ob eine Seite in den Suchergebnissen angezeigt werden soll, kannst du das Robots-Meta-Tag verwenden.

Kann mit dem Robots-Meta-Tag verhindert werden, dass ein Teil einer Seite indexiert wird?

Nein, beim Robots-Meta-Tag handelt es sich um eine Einstellung auf Seitenebene.

Kann ich das Robots-Meta-Tag außerhalb von <head>-Abschnitten verwenden?

Nein, das Robots-Meta-Tag muss sich im <head>-Abschnitt einer Seite befinden.

Wird das Crawling durch das Robots-Meta-Tag unzulässig?

Nein. Auch wenn das Robots-Meta-Tag derzeit noindex angibt, müssen wir diese URL gelegentlich noch einmal crawlen, um zu prüfen, ob das Meta-Tag geändert wurde.

Worin bestehen die Unterschiede zwischen dem Robots-Meta-Tag nofollow und dem Linkattribut rel="nofollow"?

Das Robots-Meta-Tag nofollow gilt für alle Links auf einer Seite. Das Linkattribut rel="nofollow" gilt hingegen nur für bestimmte Links auf einer Seite. Weitere Informationen zum Linkattribut rel="nofollow" findest du in unserer Dokumentation zu nutzergeneriertem Spam und zu rel="nofollow".

Fragen zu X-Robots-Tag-HTTP-Headern

Wie kann ich das X-Robots-Tag für eine URL prüfen?

Eine einfache Möglichkeit zum Prüfen der Server-Header ist die Verwendung eines webbasierten Server-Header-Prüftools oder des URL-Prüftools in der Google Search Console.

Sie finden die Antwort auf Ihre Frage nicht?

Falls Sie die Antwort auf Ihre Frage auf dieser Seite nicht finden können, ziehen Sie die Google-Hilferessourcen für Websiteinhaber zurate.

Außerdem bieten wir offizielle Hilfeforen der Google Suche in folgenden Sprachen: EnglishDeutschEspañolFrançaisItalianoNederlandsPolskiPortuguêsTürkçeРусскийالعربية中文(简体)日本語한국어