Einführung zu robots.txt-Dateien

Mit der robots.txt-Datei kannst du Suchmaschinen-Crawlern mitteilen, auf welche URLs deiner Website sie zugreifen können. Dies dient hauptsächlich dazu, eine Überlastung deiner Website mit Anfragen zu vermeiden. Sinn und Zweck von robots.txt-Dateien ist es nicht, Webseiten aus der Google Suche auszuschließen. Dafür solltest du das Indexieren mit noindex blockieren oder deine Seite mit einem Passwort schützen.

Wofür werden robots.txt-Dateien verwendet?

Eine robots.txt-Datei wird hauptsächlich zur Verwaltung des Crawler-Traffics auf deiner Website verwendet und dient üblicherweise dazu, eine Datei aus Google auszuschließen. Hierbei spielt auch der Dateityp eine Rolle:

Wie sich robots.txt auf verschiedene Dateitypen auswirkt

Webseite

Wie sich robots.txt auf verschiedene Dateitypen auswirkt
Webseite	Bei Webseiten (HTML, PDF oder anderen von Google lesbaren Nicht-Medien-Formaten) kannst du die robots.txt-Datei verwenden, um den Crawling-Traffic zu verwalten. Dies ist z. B. sinnvoll, wenn du den Eindruck hast, dass dein Server mit Anfragen vom Google-Crawler überlastet ist, oder wenn du das Crawling von unwichtigen oder ähnlichen Seiten auf deiner Website vermeiden möchtest. Warnung: Verwende die robots.txt-Datei nicht, um deine Webseiten (einschließlich PDFs und anderer von Google unterstützter textbasierter Formate) vor der Google Suche zu verbergen. Wenn andere Seiten mit beschreibendem Text auf deine Seite verweisen, kann Google die URL auch ohne Seitenaufruf indexieren. Wenn du deine Seite aus den Suchergebnissen ausschließen möchtest, solltest du eine andere Methode wie den Passwortschutz oder `noindex` verwenden. Wenn deine Seite über eine robots.txt-Datei blockiert ist, kann die URL der Seite zwar weiterhin in den Suchergebnissen erscheinen, aber das betreffende Suchergebnis enthält keine Beschreibung. Bilddateien, Videodateien, PDFs und andere Nicht-HTML-Dateien, die auf der blockierten Seite eingebettet sind, werden ebenfalls vom Crawling ausgeschlossen, es sei denn, es wird von anderen für das Crawling zulässigen Seiten auf sie verwiesen. Wenn du dieses Suchergebnis für deine Seite siehst und das Problem beheben möchtest, entferne einfach den robots.txt-Eintrag, der die Seite blockiert. Wenn du die Seite vollständig aus den Suchergebnissen ausschließen möchtest, verwende eine andere Methode.
Mediendatei	Mit einer robots.txt-Datei kannst du den Crawling-Traffic verwalten und verhindern, dass Bild-, Video- und Audiodateien in den Google-Suchergebnissen angezeigt werden. Andere Seiten oder Nutzer können jedoch trotzdem auf deine Bild-, Video- oder Audiodatei verlinken. Weitere Informationen dazu, wie du verhinderst, dass Bilder in Google angezeigt werden Weitere Informationen dazu, wie du Videodateien aus Google entfernen oder deren Anzeige einschränken kannst
Ressourcendatei	Du kannst mit einer robots.txt-Datei Ressourcendateien, wie unwichtige Bild-, Script- oder Stildateien, blockieren. Dies empfiehlt sich, wenn du der Meinung bist, dass die Qualität dieser Seiten nicht sehr darunter leidet, wenn sie ohne diese Ressourcen geladen werden. Wenn jedoch das Fehlen dieser Ressourcen dazu führt, dass der Google-Crawler die Seite schlechter versteht, solltest du sie nicht blockieren. Ansonsten kann Google Seiten, die diese Ressourcen benötigen, nicht gut analysieren.

Bei Webseiten (HTML, PDF oder anderen von Google lesbaren Nicht-Medien-Formaten) kannst du die robots.txt-Datei verwenden, um den Crawling-Traffic zu verwalten. Dies ist z. B. sinnvoll, wenn du den Eindruck hast, dass dein Server mit Anfragen vom Google-Crawler überlastet ist, oder wenn du das Crawling von unwichtigen oder ähnlichen Seiten auf deiner Website vermeiden möchtest.

Wenn deine Seite über eine robots.txt-Datei blockiert ist, kann die URL der Seite zwar weiterhin in den Suchergebnissen erscheinen, aber das betreffende Suchergebnis enthält keine Beschreibung. Bilddateien, Videodateien, PDFs und andere Nicht-HTML-Dateien, die auf der blockierten Seite eingebettet sind, werden ebenfalls vom Crawling ausgeschlossen, es sei denn, es wird von anderen für das Crawling zulässigen Seiten auf sie verwiesen. Wenn du dieses Suchergebnis für deine Seite siehst und das Problem beheben möchtest, entferne einfach den robots.txt-Eintrag, der die Seite blockiert. Wenn du die Seite vollständig aus den Suchergebnissen ausschließen möchtest, verwende eine andere Methode.

Mediendatei

Mit einer robots.txt-Datei kannst du den Crawling-Traffic verwalten und verhindern, dass Bild-, Video- und Audiodateien in den Google-Suchergebnissen angezeigt werden. Andere Seiten oder Nutzer können jedoch trotzdem auf deine Bild-, Video- oder Audiodatei verlinken.

Ressourcendatei Du kannst mit einer robots.txt-Datei Ressourcendateien, wie unwichtige Bild-, Script- oder Stildateien, blockieren. Dies empfiehlt sich, wenn du der Meinung bist, dass die Qualität dieser Seiten nicht sehr darunter leidet, wenn sie ohne diese Ressourcen geladen werden. Wenn jedoch das Fehlen dieser Ressourcen dazu führt, dass der Google-Crawler die Seite schlechter versteht, solltest du sie nicht blockieren. Ansonsten kann Google Seiten, die diese Ressourcen benötigen, nicht gut analysieren.

Einschränkungen bei robots.txt-Dateien

Bevor du die robots.txt-Datei erstellst oder bearbeitest, solltest du die Einschränkungen dieser URL-Blockierungsmethode kennen. Je nach Situation und deinen Zielen sind andere Methoden möglicherweise besser geeignet, um deine URLs im Internet unauffindbar zu machen.

Robots.txt-Regeln werden möglicherweise nicht von allen Suchmaschinen unterstützt.
Crawler sind nicht verpflichtet, die robots.txt-Anweisungen einzuhalten. Ob sie sie befolgen, hängt vom jeweiligen Crawler ab. Der Googlebot und andere seriöse Web-Crawler befolgen die Anweisungen in robots.txt-Dateien, andere Crawler tun dies jedoch vielleicht nicht. Wenn du nicht möchtest, dass Web-Crawler auf bestimmte Informationen zugreifen können, solltest du daher andere Blockierungsmethoden einsetzen, beispielsweise passwortgeschützte private Dateien auf deinem Server.
Unterschiedliche Crawler interpretieren auch die Syntax unterschiedlich.
Die in einer robots.txt-Datei festgelegten Regeln werden zwar von seriösen Web-Crawlern respektiert, allerdings können verschiedene Crawler sie jeweils unterschiedlich interpretieren. Informiere dich über die korrekte Syntax für Anweisungen an verschiedene Web-Crawler, da manche von ihnen möglicherweise bestimmte Befehle nicht verstehen.
Eine Seite, die in der robots.txt-Datei als nicht zugelassen angegeben ist, kann weiterhin indexiert werden, wenn von anderen Websites auf sie verwiesen wird.
Zwar crawlt oder indexiert Google die von der robots.txt-Datei blockierten Inhalte nicht, aber es ist dennoch möglich, dass nicht zugelassene URLs gefunden und indexiert werden, wenn von anderen Orten im Internet auf sie verwiesen wird. Aus diesem Grund können die URL und eventuell andere öffentlich verfügbare Daten, wie der Ankertext im Link zu einer Webseite, weiterhin in den Google-Suchergebnissen erscheinen. Wenn du verhindern möchtest, dass deine URL in den Suchergebnissen von Google erscheint, kannst du die Dateien auf deinem Server mit einem Passwort schützen, das meta-noindex-Tag oder einen entsprechenden Antwortheader verwenden oder die Seite vollständig entfernen.

robots.txt-Datei erstellen oder aktualisieren

Falls du eine robots.txt-Datei erstellen möchtest, findest du hier weitere Informationen. Wenn du bereits eine robots.txt-Datei erstellt hast, kannst du hier nachlesen, wie du sie aktualisierst.

Möchtest du mehr erfahren? Folgende Ressourcen stehen dir zur Verfügung: