Spezifikationen für Robots-Meta-Tags und X-Robots-Tag-HTTP-Header

Zusammenfassung

In diesem Dokument wird beschrieben, wie Google die Indexierungseinstellungen auf Seitenebene handhabt, über die Sie steuern können, wie Google Inhalte in Form von Suchergebnissen zur Verfügung stellt. Sie können diese Einstellungen spezifizieren, indem Sie auf (X)HTML-Seiten oder in einem HTTP-Header ein Meta-Tag angeben.

Hinweis: Diese Einstellungen können nur gelesen und befolgt werden, sofern Crawlern der Zugriff auf die Seiten gestattet ist, die diese Einstellungen enthalten.

Zurück nach oben

Robots-Meta-Tag verwenden

Das Robots-Meta-Tag ermöglicht Ihnen eine detaillierte, seitenspezifische Herangehensweise, um festzulegen, wie eine bestimmte Seite indexiert und den Nutzern in Suchergebnissen angezeigt werden soll. Platzieren Sie das Robots-Meta-Tag wie folgt im <head>-Abschnitt der jeweiligen Seite:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

Durch das Robots-Meta-Tag im obigen Beispiel werden alle Suchmaschinen angewiesen, die Seite nicht in Suchergebnissen anzuzeigen. Der Wert des name-Attributs (robots) gibt an, dass die Anweisung für alle Crawler gilt. Wenn Sie einen bestimmten Crawler ansprechen möchten, ersetzen Sie den Wert robots des name-Attributs durch den Namen des entsprechenden Crawlers. Bestimmte Crawler sind auch als User-Agents bekannt. Ein Crawler verwendet seinen User-Agent, um eine Seite anzufordern. Der Standard-Web-Crawler von Google trägt den User-Agent-Namen Googlebot. Wenn Sie nur den Googlebot am Crawlen Ihrer Seite hindern möchten, aktualisieren Sie das Tag wie folgt:

<meta name="googlebot" content="noindex" />

Dieses Tag weist nun Google, aber keine anderen Suchmaschinen an, diese Seite nicht in den Ergebnissen der Google Websuche anzuzeigen. Bei den Attributen name und content wird die Groß- und Kleinschreibung nicht berücksichtigt.

Suchmaschinen setzen unter Umständen für unterschiedliche Produkte oder Zwecke unterschiedliche Crawler ein. Weitere Informationen finden Sie in der vollständigen Liste der Google-Crawler. Wenn Sie beispielsweise möchten, dass eine Seite in den Ergebnissen der Google Websuche, aber nicht in Google News angezeigt wird, verwenden Sie das folgende Meta-Tag:

<meta name="googlebot-news" content="noindex" />

Für den Fall, dass Sie mehrere Crawler einzeln angeben müssen, ist die Verwendung mehrerer Robots-Meta-Tags möglich:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

Falls die Google-Crawler mehrere Anweisungen vorfinden, wird die restriktivste Anweisung verwendet.

Zurück nach oben

X-Robots-Tag-HTTP-Header verwenden

Das X-Robots-Tag kann als Element der HTTP-Header-Antwort für die jeweilige URL verwendet werden. Jede Anweisung, die in einem Robots-Meta-Tag verwendet werden kann, kann auch als X-Robots-Tag angegeben werden. Hier ist ein Beispiel für eine HTTP-Antwort mit einem X-Robots-Tag, das Crawlern das Indexieren eine Seite verbietet:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

Sie können in der HTTP-Antwort mehrere X-Robots-Tag-Header kombinieren oder eine durch Kommas getrennte Liste von Anweisungen bereitstellen. Hier ist ein Beispiel für einen HTTP-Header, in dem ein noarchive-X-Robots-Tag mit einem unavailable_after-X-Robots-Tag kombiniert ist.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

Im X-Robots-Tag kann bei Bedarf vor den Anweisungen ein User-Agent angegeben werden. Mit dem folgenden Satz von X-Robots-Tag-HTTP-Headern kann zum Beispiel das Anzeigen einer Seite in den Suchergebnissen für verschiedene Suchmaschinen unter bestimmten Bedingungen erlaubt werden:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Anweisungen, die ohne einen User-Agent angegeben werden, sind für alle Crawler gültig. Im Abschnitt unten ist dargestellt, wie kombinierte Anweisungen zu behandeln sind. Die Groß- und Kleinschreibung muss weder beim Namen noch bei den angegebenen Werten beachtet werden.

Zurück nach oben

Gültige Indexierungs- und Bereitstellungsanweisungen

Es gibt weitere Anweisungen, mit denen die Indexierung und Bereitstellung über das Robots-Meta-Tag und das X-Robots-Tag gesteuert werden kann. Jeder Wert stellt eine spezifische Anweisung dar. In der folgenden Tabelle werden alle Anweisungen, die von Google beachtet werden, und ihre jeweilige Bedeutung aufgeführt. Hinweis: Es ist möglich, dass diese Anweisungen von anderen Suchmaschinen-Crawlern nicht auf die gleiche Art und Weise interpretiert werden. Mehrere Anweisungen können in einer durch Kommas getrennten Liste kombiniert werden. Weitere Informationen über die Behandlung kombinierter Anweisungen finden Sie unten. Die Groß- und Kleinschreibung muss bei diesen Anweisungen nicht beachtet werden.

AnweisungBedeutung
all Es bestehen keine Einschränkungen hinsichtlich der Indexierung oder Bereitstellung. Hinweis: Diese Anweisung ist der Standardwert und hat bei expliziter Auflistung keine Auswirkungen.
noindex Diese Seite nicht in Suchergebnissen anzeigen und keinen Link "im Cache gespeichert" in Suchergebnissen anzeigen
nofollow Den Links auf dieser Seite nicht folgen
none Entspricht noindex, nofollow
noarchive Keinen Link "im Cache gespeichert" in Suchergebnissen anzeigen
nosnippet Kein Snippet für diese Seite in den Suchergebnissen anzeigen
noodp Keine Metadaten aus dem Open Directory Project zu für diese Seite angezeigten Titeln oder Snippets verwenden
notranslate Keine Übersetzung dieser Seite in Suchergebnissen anbieten
noimageindex Bilder auf dieser Seite nicht indexieren
unavailable_after: [RFC-850 date/time] Diese Seite nach dem angegebenen Datum bzw. der angegebenen Uhrzeit nicht mehr in Suchergebnissen anzeigen. Das Datum bzw. die Uhrzeit muss im RFC 850-Format angegeben werden.

Nachdem durch die robots.txt-Datei oder durch ihr Fehlen die Erlaubnis zum Crawlen einer Seite gewährt wurde, werden Seiten standardmäßig als crawlbar, indexierbar und archivierbar behandelt und ihr Inhalt darf in Snippets verwendet werden, die in den Suchergebnissen auftauchen. Voraussetzung ist, dass dies nicht in einem Robots-Meta-Tag oder einem X-Robots-Tag ausdrücklich untersagt wird.

Zurück nach oben

Umgang mit kombinierten Indexierungs- und Bereitstellungsanweisungen

Sie können eine Anweisung mit mehreren Anweisungen erstellen, indem Sie Robots-Meta-Tag-Anweisungen mit Kommas kombinieren. Hier ist ein Beispiel eines Robots-Meta-Tags, das Web-Crawler anweist, die Seite nicht zu indexieren und keinen der Links auf der Seite zu crawlen:

<meta name="robots" content="noindex, nofollow">

In Situationen, in denen mehrere Crawler zusammen mit unterschiedlichen Anweisungen angegeben sind, wird von der Suchmaschine die Summe der negativen Anweisungen verwendet. Beispiel:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Wenn die Seite mit diesen Meta-Tags vom Googlebot gecrawlt wird, wird sie so behandelt, als enthielte sie die Anweisung noindex, nofollow.

Zurück nach oben

Praktische Implementierung von X-Robots-Tag mit Apache

Sie können das X-Robots-Tag den HTTP-Antworten einer Website hinzufügen. Verwenden Sie dazu die .htaccess- und httpd.conf-Dateien, die standardmäßig auf Apache-basierten Webservern zur Verfügung stehen. Die Verwendung eines X-Robots-Tags in Verbindung mit HTTP-Antworten hat den Vorteil, dass Sie Crawling-Anweisungen angeben können, die für die gesamte Website gelten. Die Unterstützung regulärer Ausdrücke ermöglicht einen hohen Grad an Flexibilität.

Wenn Sie zum Beispiel das X-Robots-Tag noindex, nofollow für alle PDF-Dateien auf einer Website der HTTP-Antwort hinzufügen möchten, fügen Sie das folgende Snippet in die .htaccess- oder httpd.conf-Stammdatei der Website ein:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

Sie können das X-Robots-Tag bei Nicht-HTML-Dateien wie z. B. Bilddateien einsetzen, bei denen die Verwendung von Robots-Meta-Tags nicht möglich ist. Hier ist ein Beispiel für das Hinzufügen einer noindex-X-Robots-Tag-Anweisung für PNG-, JPEG-, JPG- und GIF-Bilddateien auf einer ganzen Website:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

Zurück nach oben

Crawling mit Indexierungs-/Bereitstellungsanweisungen kombinieren

Robots-Meta-Tags und X-Robots-Tag-HTTP-Header werden beim Crawlen einer URL gefunden. Falls eine Seite aufgrund der robots.txt-Datei nicht gecrawlt werden darf, werden mögliche Informationen über Indexierung oder Bereitstellung nicht gefunden und daher ignoriert. Falls Indexierungs- oder Bereitstellungsanweisungen befolgt werden sollen, müssen die URLs, die diese Anweisungen enthalten, gecrawlt werden dürfen.

Zurück nach oben

Feedback geben zu...