Einführung zu robots.txt-Dateien

Was ist eine robots.txt-Datei?

Eine robots.txt-Datei teilt Suchmaschinen-Crawlern mit, welche Seiten oder Dateien sie von deiner Website anfordern können und welche nicht. Dies dient hauptsächlich dazu, eine Überlastung deiner Website mit Anfragen zu vermeiden. Die robots.txt-Datei stellt jedoch keinen Mechanismus dar, um eine Website aus der Google-Suche auszuschließen. Dafür solltest du noindex-Anweisungen verwenden oder deine Seite mit einem Passwort schützen.

Wofür wird die robots.txt-Datei verwendet?

Die robots.txt-Datei wird hauptsächlich zur Verwaltung des Crawler-Traffics auf deiner Website verwendet und dient normalerweise dazu, eine Seite aus Google auszuschließen. Dies hängt vom Dateityp ab:

Seitentyp Traffic-Verwaltung Vor Google verbergen Beschreibung
Webseite

Für Webseiten (HTML, PDF oder andere Formate, die von Google gelesen werden können) kannst du mithilfe der robots.txt-Datei den Crawling-Traffic verwalten. Dies ist z. B. sinnvoll, wenn du der Ansicht bist, dass dein Server mit Anfragen vom Google-Crawler überlastet ist, oder um das Crawlen unwichtiger oder ähnlicher Seiten auf deiner Website zu vermeiden.

Verwende die robots.txt-Datei nicht, um deine Webseiten vor der Google-Suche zu verbergen. Der Grund dafür ist, dass eine Seite trotzdem auch ohne Seitenaufruf indexiert werden kann, wenn andere Seiten mit beschreibendem Text auf sie verweisen. Wenn du deine Seite von den Suchergebnissen ausschließen möchtest, solltest du eine andere Methode wie den Passwortschutz oder eine noindex-Anweisung verwenden.

Wenn deine Seite über eine robots.txt-Datei blockiert ist, kann sie zwar weiterhin in den Suchergebnissen erscheinen, aber das betreffende Suchergebnis enthält keine Beschreibung und sieht in etwa so aus. Bilddateien, Videodateien, PDFs und andere Nicht-HTML-Dateien werden ausgeschlossen. Wenn du dieses Suchergebnis für deine Seite siehst und dieses Problem beheben möchtest, entferne einfach den robots.txt-Eintrag, der die Seite blockiert. Wenn du die Seite vollständig von den Suchergebnissen ausschließen möchtest, verwende eine andere Methode.

Mediendatei

Mit der robots.txt-Datei kannst du den Crawling-Traffic verwalten oder verhindern, dass Bild-, Video- und Audiodateien in den Google-Suchergebnissen angezeigt werden. Beachte jedoch, dass dies andere Seiten oder Nutzer nicht daran hindert, auf deine Bild-/Video-/Audiodatei zu verweisen.

Ressourcendatei Du kannst mit der robots.txt-Datei Ressourcendateien, wie unwichtige Bild-, Skript- oder Stildateien, blockieren. Dies empfiehlt sich, wenn du glaubst, dass Seiten nicht erheblich beeinträchtigt werden, wenn sie ohne diese Ressourcen geladen werden. Wenn jedoch die Abwesenheit dieser Ressourcen dazu führt, dass der Google-Crawler die Seite schlechter versteht, solltest du sie nicht blockieren. Ansonsten kann Google Seiten, die diese Ressourcen benötigen, nicht gut analysieren.

Ich verwende einen Hostanbieter

Wenn du einen Hostanbieter wie Wix, Drupal oder Blogger verwendest, musst bzw. kannst du deine robots.txt-Datei möglicherweise nicht direkt bearbeiten. Stattdessen kann dein Anbieter eine Seite mit Sucheinstellungen oder einen anderen Mechanismus zur Verfügung stellen, um Suchmaschinen mitzuteilen, ob deine Seite gecrawlt werden soll oder nicht.

Wenn du überprüfen möchtest, ob deine Seite von Google gecrawlt wurde, suche in Google nach der Seiten-URL.

Möchten Sie erreichen, dass Ihre Seite von Suchmaschinen angezeigt bzw. nicht angezeigt wird, können Sie jegliche Anmeldeanforderungen für Seiten hinzufügen bzw. entfernen. Außerdem können Sie nach einer Anleitung suchen, die erklärt, wie Sie bei Ihrem Hostanbieter die Sichtbarkeit Ihrer Seite in Suchmaschinen ändern. Hier eine Beispielsuche: wix Seite vor Suchmaschinen verbergen

Einschränkungen von robots.txt

Bevor du robots.txt erstellst oder bearbeitest, solltest du die Einschränkungen dieser URL-Blockierungsmethode kennen. Manchmal sind andere Methoden besser geeignet, um sicherzustellen, dass deine URLs im Internet nicht auffindbar sind.

  • Robots.txt-Anweisungen werden möglicherweise nicht von allen Suchmaschinen unterstützt
    Die Anweisungen in robots.txt-Dateien können das Verhalten von Crawlern auf deiner Website nicht erzwingen – es liegt am Crawler, sie zu befolgen. Der Googlebot und andere seriöse Web-Crawler befolgen die Anweisungen in einer robots.txt-Datei, andere Crawler tun dies jedoch vielleicht nicht. Wenn du sicherstellen möchtest, dass Web-Crawler auf bestimmte Informationen nicht zugreifen können, solltest du daher andere Blockierungsmethoden einsetzen, beispielsweise passwortgeschützte private Dateien auf deinem Server.
  • Unterschiedliche Crawler interpretieren die Syntax unterschiedlich
    Die in einer robots.txt-Datei festgelegten Anweisungen werden zwar von seriösen Web-Crawlern respektiert, allerdings können verschiedene Crawler sie jeweils unterschiedlich interpretieren. Informiere dich über die korrekte Syntax für Anweisungen an verschiedene Web-Crawler, da sonst manche von ihnen möglicherweise nicht alle Befehle verstehen.
  • Eine Seite, auf der eine robots.txt.-Datei verwendet wird, kann weiterhin indiziert werden, wenn von anderen Websites auf sie verwiesen wird
    Zwar crawlt oder indexiert Google die von der robots.txt-Datei blockierten Inhalte nicht, aber es ist dennoch möglich, dass nicht zugelassene URLs gefunden und indexiert werden, wenn von anderen Orten im Internet auf sie verwiesen wird. Aus diesem Grund können die URL und eventuell andere öffentlich verfügbare Daten, wie der Ankertext im Link zu einer Webseite, weiterhin in den Google-Suchergebnissen erscheinen. Wenn du verhindern möchtest, dass deine URL in den Suchergebnissen von Google erscheint, kannst du Dateien auf deinem Server mit einem Passwort schützen, noindex-Meta-Tags oder Antwortheader verwenden oder die Seite vollständig entfernen.
Hinweis: Der kombinierte Einsatz mehrerer Crawling- und Indexierungsrichtlinien kann Konflikte zwischen sich widersprechenden Richtlinien verursachen. Im Abschnitt zur Kombination von Crawling-Richtlinien mit Indexierungs-/Bereitstellungsrichtlinien der Google Developers-Dokumentation können Sie nachlesen, wie Sie diese Richtlinien richtig konfigurieren.

Seite auf robots.txt-Blockierungen prüfen

Sie können prüfen, ob eine Seite oder Ressource durch eine robots.txt-Regel blockiert wird.

Verwende zum Prüfen auf noindex-Anweisungen das URL-Prüftool.