Verbesserungen des Robots-Exclusion-Protokolls

Dienstag, 10. Juni 2008

Webmaster fragen uns oft, wie sie ihre Sichtbarkeit im Netz steigern können. Viel davon hat mit Suchmaschinenoptimierung zu tun, d. h. sicherzustellen, dass der Content eines Publishers in allen Suchmaschinen erscheint.

Jedoch gibt es einige Fälle, in denen Webmaster den Suchmaschinen zusätzliche Information mitteilen müssen - beispielsweise, wenn sie gewisse Seiten davon abhalten wollten, in den Suchergebnissen aufzutauchen. Dafür verwenden sie das sogenannte Robots-Exclusion-Protokoll (REP) , über welches Webmaster kontrollieren können, wie Suchmaschinen auf ihre Site zugreifen - ob es nun darum geht, die Sichtbarkeit des Contents der gesamten Site zu kontrollieren (über die robots.txt-Datei) oder auf kleinerem Level für einzelne Seiten (über META-Tags).

Seit seiner Einführung in den frühen 90ern ist REP zum Standard geworden, mit dem Webmaster spezifizieren können, welche Teile ihrer Site sie veröffentlichen und welche Teile sie privat halten möchten. Heute benutzen Millionen von Publishern REP, um einfach und effizient mit Suchmaschinen zu kommunizieren. Die Stärke von REP liegt in dessen Flexibilität, sich parallel zum Netz mit zu entwickeln, in dessen übergreifenden Einsatzmöglichkeiten für alle großen Suchmaschinen und alle großen Robots und in der Art und Weise, wie es von jedem Publisher, ob groß oder klein, angewendet werden kann.

Obwohl REP im Grunde von allen Suchmaschinen anerkannt wird, haben wir nie versucht, gemeinsam genauer zu bestimmen, wie wir die unterschiedlichen Tags jeweils interpretieren. In den letzten Jahren haben wir mit Microsoft und Yahoo! zusammengearbeitet, um Standards wie Sitemaps festzulegen und zusätzliche Tools für Webmaster anzubieten. Seit der ursprünglichen Ankündigung haben wir weitere Verbesserungen basierend auf Feedback der Community eingeführt - und wir werden dies auch in Zukunft tun.

Unserem Motto folgend, den Webmastern das Leben einfacher zu machen, werden wir heute eine genauere Dokumentation darüber veröffentlichen, wie wir REP implementieren. Dies soll Webmastern eine übergreifende Implementierung anbieten und es für Publisher deutlicher machen, wie ihre REP-Anweisungen von drei großen Suchmaschinen interpretiert werden - REP wird also für noch mehr Webmaster im Netz intuitiver und leichter zu handhaben sein.

Allgemeine REP-Anweisungen
Die folgende Liste zeigt alle größeren REP-Features, die derzeitig von Google, Microsoft und Yahoo! implementiert sind. Bei jedem Feature seht ihr, was es tut und wir ihr es einsetzen solltet.

Jede dieser Anweisungen kann dahingehend spezifiziert werden, ob sie für alle oder nur bestimmte Crawler bestimmt ist, indem sie nur bestimmte User-Agents ansprechen - anhand dessen kann jeder Crawler identifiziert werden. Zusätzlich zur Identifikation des User-Agents unterstützen alle unserer Crawler auch die Authentifizierung basierend auf Reverse-DNS , was hilft, deren Identität zu bestimmen.

1. Robots.txt-Anweisungen
ANWEISUNG
WIRKUNG
EINSATZMÖGLICHKEITEN
Disallow Veranlasst den Crawler, eure Site nicht zu indexieren - das robots.txt eurer Site muss jedoch gecrawlt werden, um diese Anweisung zu finden. Die per Disallow gesperrten Seiten werden jedoch nicht gecrawlt. 'No Crawl'-Seite einer Site. Diese Anweisung ist die Default-Syntax und bewahrt (einen) bestimmte(n) Pfad(e) einer Site davor, gecrawlt zu werden.
Allow Sagt dem Crawler, welche Seiten eurer Site indexiert werden sollen, so dass ihr diese Anweisung in Kombination mit Disallow verwenden könnt.
Dies ist vor allem im Zusammenhang mit Disallow-Anweisungen nützlich, durch die große Teile einer Site mit Disallow gesperrt sind außer eines kleinen Teils, der darin eingeschlossen ist.
$ Wildcard Support Sagt dem Crawler, alles ausgehend vom Ende einer URL zu suchen - bezieht sich auf eine große Anzahl von Verzeichnissen, ohne bestimmt Seiten anzugeben. 'No Crawl'-Dateien mit bestimmten Mustern, z. B. Dateien eines bestimmten Dateityps, der immer eine bestimmte Erweiterung hat, wie etwa pdf.
* Wildcard Support Sagt dem Crawler, dass er nach einer Sequenz von Zeichen suchen soll. 'No Crawl'-URLs von einem bestimmten Muster, z. B. Disallow -URLs mit Session-IDs oder anderen überflüssigen Parametern.
Sitemaps Location Sagt dem Crawler, wo er eure Sitemaps finden kann. Auf andere Orte verweisen, an denen sich Feeds befinden, die Crawlern helfen, URLs auf einer Site zu finden.

2. HTML-META-Anweisungen
ANWEISUNG
WIRKUNG
EINSATZMÖGLICHKEITEN
NOINDEX META Tag Veranlasst den Crawler, eine bestimmte Seite nicht zu indexieren. Seiten sollen nicht indexiert werden. Dies ermöglicht es, dass Seiten, die gecrawlt wurden, nicht in den Index aufgenommen werden.
NOFOLLOW META Tag Sagt dem Crawler, dass er einem Link zu anderem Content auf einer bestimmten Seite nicht folgen soll. Schützt Bereiche, die öffentlich zugänglich sind, davor, von Spammern zu Linkzwecken missbraucht zu werden. Indem ihr NOFOLLOW einsetzt, lasst ihr den Robot wissen, dass ihr alle Links dieser Seite nicht zählen wollt.
NOSNIPPET META Tag Sagt dem Crawler, dass Snippets für eine bestimmte Seite in den Suchergebnissen nicht anzeigt werden sollen. Es soll kein Snippet für eine Seite in den Suchergebnissen angezeigt werden.
NOARCHIVE META Tag Sagt der Suchmaschine, dass für eine bstimmte Seite kein "cached" Link angezeigt werden soll. Ihr wollt den Usern keine Kopie der Seite im Cache der Suchmaschine zur Verfügung stellen.
NOODP META Tag Sagt dem Crawler, dass für eine bestimmte Seite nicht der Titel und das Snippet des Open Directory Projects verwendet werden soll. F ü r eine bestimmte Seite soll nicht der Titel und das Snippet aus dem ODP (Open Directory Project) verwendet werden.


Diese Anweisungen können auf alle Arten von Content angewendet werden. Sie können entweder in das HTML einer Seite oder in den HTTP-Header für Nicht-HTML-Content eingebunden sein, wie z. B. PDF oder Video, die einen X-Robots-Tag verwenden. Mehr darüber könnte ihr hier lesen: Post über den X-Robots-Tag oder in unserer Serie von Posts über Bots und Meta-Tags.

Andere REP-Anweisungen
Die oben gelisteten Anweisungen werden von Microsoft, Google und Yahoo! verwendet, sie sind aber unter Umständen nicht von allen Suchmaschinen implementiert. Zusätzlich werden die folgenden Anweisungen zwar von Google, nicht aber wie die obigen Anweisungen durchgängig von allen drei Suchmaschinen unterstützt.

UNAVAILABLE_AFTER Meta Tag - Sagt dem Crawler, wann eine Seite "verfallen" soll , z. B. nach welchem Datum sie nicht mehr in den Suchergebnissen auftauchen soll.

NOIMAGEINDEX Meta Tag - Sagt dem Crawler, dass Bilder für eine bestimmte Seite nicht in den Suchergebnissen angezeigt werden sollen.

NOTRANSLATE Meta Tag - Sagt dem Crawler, dass der Content einer Seite nicht für die Suchergebnisse übersetzt werden soll.

In Zukunft wollen wir weiter zusammenarbeiten, um es Webmastern so einfach wie möglich zu machen, neue Einsatzweisen von REP verwenden zu können, sobald diese aufkommen. Bleibt also dran!

Weitere Informationen
Mehr zum Thema robots.txt könnt ihr auf https://www.robotstxt.org finden, und in Googles Hilfe für Webmaster , die hilfreiche Informationen enthält wie:
Wir haben auch einige Posts in unserem Webmaster-Blog zur robots.txt-Datei, die ihr vielleicht hilfreich findet, wie:
Es gibt auch eine hilfreiche Liste der Bots , die von anderen großen Suchmaschinen eingesetzt werden.

Ihr könnt auch die Blogposts von Yahoo! und Microsoft lesen, um zu sehen, was unsere Kollegen zu dem Thema zu sagen haben.

Englisches Original

Post von Prashanth Koppula, Product Manager (Übersetzung von Claudia, Search Quality)