Freitag, 28. März 2025
In den vorherigen Beiträgen zum Protokoll zum Ausschluss von Robots (Robots Exclusion Protocol; REP) haben wir uns angesehen, was Sie bereits mit den verschiedenen Komponenten tun können, nämlich mit robots.txt und den Steuerelementen auf URI-Ebene. In diesem Beitrag erfahren Sie, wie der REP eine unterstützende Rolle in der sich ständig weiterentwickelnden Beziehung zwischen automatischen Clients und dem Web spielen kann.
Das REP – insbesondere robots.txt – wurde 2022 als RFC9309 standardisiert.
Die Hauptarbeit wurde jedoch vor der Standardisierung geleistet: Die Zeit zwischen 1994 und 2022 hat es so beliebt gemacht, dass es von Milliarden von Hosts und praktisch allen großen Crawler-Betreibern (außer schädlichen Crawlern wie Malware-Scannern) übernommen wurde. Es ist eine einfache und elegante Lösung, um Einstellungen mit einer einfachen, aber vielseitigen Syntax auszudrücken.
In seinen 25 Jahren hat sich das Format kaum verändert. Es gibt nur eine allow
-Regel, wenn wir nur die Regeln berücksichtigen, die von Crawlern universell unterstützt werden.
Das bedeutet nicht, dass es keine anderen Regeln gibt. Jeder Crawler-Betreiber kann seine eigenen Regeln festlegen. Regeln wie „clean-param
“ und „crawl-delay
“ sind beispielsweise nicht Teil von RFC9309, werden aber von einigen Suchmaschinen unterstützt, nicht jedoch von der Google Suche.
Die Regel „sitemap
“, die ebenfalls nicht Teil von RFC9309 ist, wird von allen großen Suchmaschinen unterstützt. Bei ausreichender Unterstützung kann sie zu einer offiziellen Regel im REP werden.
Weil das REP tatsächlich „Updates“ erhalten kann. Es ist ein weithin unterstütztes Protokoll und sollte mit dem Internet wachsen. Es ist zwar nicht unmöglich, Änderungen daran vorzunehmen, aber es ist auch nicht einfach. Das sollte auch nicht der Fall sein, da der REP weithin unterstützt wird. Wie bei jeder Änderung eines Standards muss Einigkeit darüber bestehen, dass die Änderungen der Mehrheit der Nutzer des Protokolls zugutekommen, sowohl auf Seiten der Publisher als auch der Crawler-Betreiber.
Aufgrund seiner Einfachheit und der breiten Akzeptanz eignet sich der REP hervorragend für die Übertragung neuer Crawling-Einstellungen: Unzählige Publisher sind beispielsweise bereits mit robots.txt und der zugehörigen Syntax vertraut, sodass Änderungen daran für sie leichter fallen. Crawler-Betreiber haben jedoch bereits robuste, gut getestete Parser und Matcher. Außerdem hat Google seinen eigenen robots.txt-Parser als Open Source veröffentlicht. Es ist also sehr wahrscheinlich, dass es bei neuen Regeln keine Probleme beim Parsen gibt.
Dasselbe gilt für die Erweiterungen auf REP-URI-Ebene, den X-robots-tag
-HTTP-Header und das entsprechende Meta-Tag. Wenn für die Einstellungen zur Deaktivierung eine neue Regel erforderlich ist, lässt sich diese ganz einfach erweitern. Aber wie?
Das Wichtigste, was Sie als Leser tun können, ist, öffentlich über Ihre Idee zu sprechen und Unterstützer für diese Idee zu gewinnen. Da der REP ein öffentlicher Standard ist, kann keine Entität einseitig Änderungen daran vornehmen. Natürlich kann sie auf ihrer Seite Unterstützung für etwas Neues implementieren, aber das wird nicht zum Standard. Wenn wir jedoch über diese Änderung sprechen und dem gesamten System zeigen, dass sie sowohl für Crawler-Betreiber als auch für das Verlags- und Webpublishing-System von Vorteil ist, wird dies zu einem Konsens führen und den Weg zur Aktualisierung des Standards ebnen.
Wenn dem Protokoll etwas fehlt, sprechen Sie auch öffentlich darüber. sitemap
wurde zu einer weithin unterstützten Regel in robots.txt, da sie sowohl für Creator als auch für Suchmaschinen nützlich war. Das ebnete den Weg für die Einführung der Erweiterung. Wenn Sie eine neue Idee für eine Regel haben, fragen Sie die Nutzer von robots.txt-Dateien und die Ersteller, was sie davon halten. Besprechen Sie mit ihnen potenzielle (und wahrscheinliche) Probleme, die sie ansprechen, und formulieren Sie einen Vorschlag.
Wenn ihr dem Allgemeinwohl dienen möchtet, lohnt es sich.