Einführung in robots.txt-Dateien

Was ist die robots.txt-Datei?

Mit der robots.txt-Datei kannst du Suchmaschinen-Crawlern mitteilen, welche Seiten oder Dateien sie von deiner Website anfordern können und welche nicht. Dies dient hauptsächlich dazu, eine Überlastung deiner Website mit Anfragen zu vermeiden. Sinn und Zweck von robots.txt-Dateien ist es nicht, Webseiten aus der Google Suche auszuschließen. Dafür solltest du noindex-Anweisungen verwenden oder deine Seite mit einem Passwort schützen.

Wofür werden robots.txt-Dateien verwendet?

Die robots.txt-Datei wird hauptsächlich zur Verwaltung des Crawler-Traffics auf deiner Website verwendet und dient üblicherweise dazu, eine Seite aus Google auszuschließen. Hierbei spielt auch der Seitentyp eine Rolle:

Seitentyp Traffic-Verwaltung Vor Google verbergen Beschreibung
Webseite

Bei Webseiten (HTML, PDF oder anderen von Google lesbaren Nicht-Medien-Formaten) kannst du die robots.txt-Datei verwenden, um den Crawling-Traffic zu verwalten. Dies ist z. B. sinnvoll, wenn du den Eindruck hast, dass dein Server mit Anfragen vom Google-Crawler überlastet ist, oder wenn du das Crawling von unwichtigen oder ähnlichen Seiten auf deiner Website vermeiden möchtest.

Verwende die robots.txt-Datei nicht, um deine Webseiten vor der Google Suche zu verbergen. Der Grund dafür ist, dass deine Seite auch ohne Seitenaufruf indexiert werden kann. Dazu brauchen nur andere Seiten mit beschreibendem Text auf die Seite zu verweisen. Wenn du deine Seite aus den Suchergebnissen ausschließen möchtest, solltest du eine andere Methode wie den Passwortschutz oder eine noindex-Anweisung verwenden.

Wenn deine Seite über eine robots.txt-Datei blockiert ist, kann sie zwar weiterhin in den Suchergebnissen erscheinen, aber das betreffende Suchergebnis enthält keine Beschreibung und sieht in etwa so aus. Bilddateien, Videodateien, PDFs und andere Nicht-HTML-Dateien werden ausgeschlossen. Wenn du dieses Suchergebnis für deine Seite siehst und das Problem beheben möchtest, entferne einfach den robots.txt-Eintrag, der die Seite blockiert. Wenn du die Seite vollständig aus den Suchergebnissen ausschließen möchtest, verwende eine andere Methode.

Mediendatei

Mit einer robots.txt-Datei kannst du den Crawling-Traffic verwalten und verhindern, dass Bild-, Video- und Audiodateien in den Google-Suchergebnissen angezeigt werden. Du musst jedoch wissen, dass trotzdem andere Seiten oder Nutzer immer noch auf deine Bild-/Video-/Audiodatei verlinken können.

Ressourcendatei Du kannst mit einer robots.txt-Datei Ressourcendateien, wie unwichtige Bild-, Skript- oder Stildateien, blockieren. Dies empfiehlt sich, wenn deiner Meinung nach die ohne diese Ressourcen geladenen Seiten nicht erheblich beeinträchtigt werden. Wenn jedoch das Fehlen dieser Ressourcen dazu führt, dass der Google-Crawler die Seite schlechter versteht, solltest du sie nicht blockieren. Ansonsten kann Google Seiten, die diese Ressourcen benötigen, nicht gut analysieren.

Ich verwende einen Hostanbieter

Wenn du einen Hostanbieter wie Wix, Drupal oder Blogger verwendest, kann es sein, dass du deine robots.txt-Datei weder bearbeiten musst noch kannst. Stattdessen kann dein Anbieter eine Seite mit Sucheinstellungen oder einen anderen Mechanismus zur Verfügung stellen, um Suchmaschinen mitzuteilen, ob deine Seite gecrawlt werden soll.

Wenn du überprüfen möchtest, ob deine Seite von Google gecrawlt wurde, suche in Google nach der Seiten-URL.

Möchtest du die Sichtbarkeit deiner Seite in Suchmaschinen ändern, kannst du nach einer Anleitung dafür suchen. Hier eine Beispielsuche: Wix Seite vor Suchmaschinen verbergen

Einschränkungen für eine robots.txt-Datei

Bevor du die robots.txt-Datei erstellst oder bearbeitest, solltest du die Einschränkungen dieser URL-Blockierungsmethode kennen. Manchmal sind andere Methoden besser geeignet, um deine URLs im Internet unauffindbar zu machen.

  • Robots.txt-Anweisungen werden möglicherweise nicht von allen Suchmaschinen unterstützt
    Crawler sind nicht verpflichtet, die robots.txt-Anweisungen einzuhalten. Ob sie sie befolgen, hängt vom jeweiligen Crawler ab. Der Googlebot und andere seriöse Web-Crawler befolgen die Anweisungen in robots.txt-Dateien, andere Crawler tun dies jedoch vielleicht nicht. Wenn du nicht möchtest, dass Web-Crawler auf bestimmte Informationen zugreifen können, solltest du daher andere Blockierungsmethoden einsetzen, beispielsweise passwortgeschützte private Dateien auf deinem Server.
  • Wie die Syntax interpretiert wird, hängt vom Crawler ab
    Auch wenn seriöse Web-Crawler die Anweisungen in robots.txt-Dateien in der Regel respektieren, können sie sie doch jeweils unterschiedlich interpretieren. Informiere dich über die korrekte Syntax für Anweisungen an verschiedene Web-Crawler, da manche von ihnen möglicherweise nicht alle Befehle verstehen.
  • Eine Seite in einer robots.txt-Datei kann weiterhin indexiert werden, wenn von anderen Websites auf sie verwiesen wird
    Zwar crawlt oder indexiert Google die von der robots.txt-Datei blockierten Inhalte nicht, aber es ist dennoch möglich, dass nicht zugelassene URLs gefunden und indexiert werden, wenn von anderen Orten im Internet auf sie verwiesen wird. Aus diesem Grund können die URL und eventuell andere öffentlich verfügbare Daten, wie der Ankertext im Link zu einer Webseite, weiterhin in den Google-Suchergebnissen erscheinen. Wenn du verhindern möchtest, dass deine URL in den Suchergebnissen von Google erscheint, kannst du Dateien auf deinem Server mit einem Passwort schützen, noindex-Meta-Tags oder Antwortheader verwenden oder die Seite vollständig entfernen.

Seite auf robots.txt-Blockierungen prüfen

Du kannst auch prüfen, ob eine Seite oder Ressource durch eine robots.txt-Regel blockiert wird.

Verwende zum Prüfen auf noindex-Anweisungen das URL-Prüftool.