robots.txt-Parser von Google ist jetzt Open Source

Montag, 1. Juli 2019

25 Jahre lang war das Protokoll zum Ausschluss von Robots (Robots Exclusion Protocol, REP) nur ein De-facto-Standard. Das hatte manchmal negative Auswirkungen. Für Webmaster bedeutete das einerseits, dass in speziellen Fälle Unklarheiten auftraten, z. B. wenn ihr Texteditor BOM-Zeichen in den robots.txt-Dateien enthielt. Andererseits hat es für Entwickler von Crawlern und Tools Ungewissheit gebracht. Wie sollen sie z. B. mit robots.txt-Dateien umgehen, die Hunderte von Megabyte groß sind?

Googlebot packt eine Website aus einem Karton aus

Heute haben wir angekündigt, dass wir uns bemühen, das REP zum Internetstandard zu machen. Das ist ein wichtiger Schritt, der aber mehr Arbeit für Entwickler bedeutet, die robots.txt-Dateien parsen.

Wir helfen euch gerne weiter: Wir haben die C++-Bibliothek, die unsere Produktionssysteme zum Parsen und Abgleichen von Regeln in robots.txt-Dateien verwenden, zu Open Source gemacht. Diese Bibliothek gibt es schon seit 20 Jahren und sie enthält Code, der in den 90er-Jahren geschrieben wurde. Seitdem hat sich die Bibliothek weiterentwickelt. Wir haben viel darüber gelernt, wie Webmaster robots.txt-Dateien erstellen, sowie über spezielle Fälle, die berücksichtigt werden müssen, und haben das, was wir im Laufe der Jahre gelernt haben, auch dem Internetentwurf hinzugefügt.

Außerdem haben wir dem Open-Source-Paket ein Testtool hinzugefügt, mit dem ihr einige Regeln testen könnt. Nach der Erstellung ist die Nutzung ganz einfach:

robots_main <robots.txt content> <user_agent> <url>

Wenn ihr die Bibliothek ausprobieren möchtet, findet ihr sie in unserem GitHub-Repository für den robots.txt-Parser. Wir würden auch gern sehen, was ihr daraus machen könnt. Wenn ihr etwas mit der Bibliothek erstellt habt, lasst es uns über Twitter wissen. Bei Kommentaren oder Fragen zur Bibliothek könnt ihr uns auf GitHub erreichen.

Gepostet von Edu Pereda, Lode Vandevenne und Gary Illyes, Search Open Sourcing-Team