Freitag, 14. März 2025
Mit der robots.txt-Datei können Websiteinhaber ganz einfach festlegen, auf welche Teile einer Website Crawler zugreifen dürfen.
Um Websiteinhabern zu helfen, genauer anzugeben, wie Suchmaschinen und Webcrawler ihre Seiten verwenden können, erfand die Community, die an der Entwicklung von Webstandards beteiligt war, 1996 Robots-meta
-Tags, nur wenige Monate nachdem meta
-Tags für HTML vorgeschlagen worden waren (und nebenbei bemerkt auch vor der Gründung von Google). Später wurden X-Robots-Tag
-HTTP-Antwortheader hinzugefügt.
Diese Anweisungen werden zusammen mit einer URL gesendet. Crawler können sie also nur berücksichtigen, wenn sie nicht durch die robots.txt-Datei daran gehindert werden, die URL zu crawlen. Zusammen bilden sie das Protokoll zum Ausschluss von Robots (Robots Exclusion Protocol, REP).
Robots-meta
-Tags
Meta-Tags (oder Meta-Elemente) sind eine Möglichkeit, maschinenlesbare Metadaten einzufügen.
Robots-meta
-Tags sind eine Art von meta
-Tag und gelten für Crawler, einschließlich Suchmaschinen-Crawlern. Sie geben an, ob die Inhalte von der Indexierung ausgeschlossen sind und ob Links auf der Seite beim Crawling nicht berücksichtigt werden sollen. Mithilfe von meta
-Robots-Tags können diese Informationen ganz einfach direkt auf der Seite angegeben werden.
Ein Protokoll zum Ausschluss von Robots für beliebige URLs
Um auch bei Nicht-HTML-Inhalten dieselbe Kontrolle zu bieten, wurde der HTTP-Antwortheader „X-Robots-Tag
“ geschaffen. Diese HTTP-Header werden ebenfalls als Teil des REP betrachtet.
Der Header unterstützt dieselben Werte wie das Robots-meta
-Tag und kann jedem Inhalt hinzugefügt werden, der online bereitgestellt wird.
Neben HTML unterstützt Google ihn auch für Inhalte wie PDFs, Dokumentdateien und sogar Bilder.
Die meisten dieser Dateiformate haben keinen Mechanismus, der meta
-Tags entspricht. Daher ist ein HTTP-Antwortheader hilfreich.
Erste Schritte mit Robots-meta
-Tags und Headern
Die Syntax ist einfach und erweiterbar. Die Regeln werden meist entweder vom Webentwickler oder über ein Content-Management-System (CMS) implementiert. Dort können Websiteinhaber ihre Einstellungen über Kästchen oder Drop-down-Menüs auswählen. Diese Einstellungen können auf einen bestimmten Crawler wie den Googlebot oder, wenn kein bestimmter Name angegeben wird, auf alle Crawler angewendet werden, die diese Werte unterstützen.
Mit den folgenden Regeln werden beispielsweise alle Crawler angewiesen, die zugehörige Seite nicht für die Indexierung zu verwenden:
- In Form eines HTML-
meta
-Tags auf einer Webseite:<meta name="robots" content="noindex">
Die Prüfung vorhandener
meta
-Tags oder Antwortheader ist etwas aufwendiger und erfordert eine direkte Prüfung des Seiteninhalts oder der Header. Ihr könnt euch HTML-meta
-Tags auf jeder Seite ansehen, indem ihr euch die Seitenquelle in eurem Browser anseht oder die Seite mit den Entwicklertools von Chrome prüft.
- In Form eines HTTP-Antwortheaders:
X-Robots-Tag: noindex
Ihr könnt die HTTP-Antwortheader für einzelne URLs mit den Chrome-Entwicklertools im Netzwerkbereich prüfen.
Weitere Beispiele dafür, was ihr festlegen könnt:
Kein Snippet für diese Seite oder dieses Dokument anzeigen. |
Im HTTP-Header:
X-Robots-Tag: nosnippet <meta name="robots" content="nosnippet"> |
Diese Seite nicht in Mit diesen Steuerelementen wird explizit ein einzelner Crawler angegeben. |
X-Robots-Tag: examplebot-news: noindex <meta name="examplebot-news" content="noindex"> |
Es gelten die restriktivsten gültigen Anweisungen. Für |
X-Robots-Tag: examplebot: nosnippet X-Robots-Tag: nofollow <meta name="examplebot" content="nosnippet"> <meta name="robots" content="nofollow"> |
REP-Mechanismus auswählen
Wie entscheidet ihr, welchen ihr verwendet? Grundsätzlich sind die Einstellungen in der robots.txt-Datei und auf Seitenebene ähnlich, aber nicht vollständig austauschbar. Manchmal ist eine bestimmte Aktion nur mit einem der Mechanismen möglich, z. B. wenn das Crawling beendet werden soll (z. B. für endlose Suchergebnisseiten, möglich mit robots.txt), wenn eine Einstellung für einen FTP-Server erforderlich ist (möglich mit robots.txt) oder wenn für eine Seite kein Snippet angezeigt werden soll (nur mit Elementen auf Seitenebene möglich). Wenn ihr nicht zwischen dem Blockieren des Crawlings und dem Blockieren der Indexierung unterscheiden müsst, könnt ihr die robots.txt-Datei für umfassendere Einstellungen (zum Blockieren großer Teile einer Website) und für die Einstellungen auf Seitenebene zum Blockieren einzelner Seiten verwenden.
Protokoll zum Ausschluss von Robots – ein leistungsstarker, lebendiger Standard
Alle diese Einstellungen sind erweiterbar. Im Laufe der Jahre haben Websiteinhaber, Crawler-Betreiber und Suchmaschinenbetreiber gemeinsam daran gearbeitet, sie weiterzuentwickeln.
Ursprünglich begann es mit einer Handvoll von Werten, darunter noindex
und nofollow
. Später wurden weitere Werte wie nosnippet
, noarchive
und max-snippet:
eingeführt.
Manchmal werden Werte verworfen, wie es bei noodp
der Fall war, wofür Snippets aus dem DMOZ / Open Directory Project verwendet wurden, bevor das Verzeichnis geschlossen wurde.
Google unterstützt eine Vielzahl von Werten für Websiteinhaber und eine ähnliche Anzahl von anderen großen Crawler-Betreibern.
Im Rahmen des REP können Websiteinhaber festlegen, was gecrawlt wird und wie die gecrawlten Daten in Suchmaschinen verwendet werden. Das kann auf einer allgemeinen Ebene für größere Teile von Websites oder auf einer sehr detaillierten Ebene für einzelne Seiten oder sogar für Bilder auf Seiten erfolgen. Diese Einstellungen sind allgemein bekannt, in allen gängigen Content-Management-Systemen verfügbar, werden von kommerziellen Betreibern weithin unterstützt und werden heute auf Milliarden von Hosts im Internet verwendet.