Specificaties voor de robots-metatag en de HTTP-header X-Robots-Tag

Samenvatting

In dit document wordt uitgelegd hoe Google de indexeringsinstellingen op paginaniveau verwerkt, zodat u kunt bepalen hoe Google inhoud beschikbaar stelt via de zoekresultaten. U kunt deze instellingen specificeren door een metatag in de (X)HTML-pagina's of in een HTTP-header op te nemen.

Opmerking: Vergeet niet dat deze instellingen alleen kunnen worden gelezen en gevolgd als crawlers toegang hebben tot de pagina's met deze instellingen.

Terug naar boven

De robots-metatag gebruiken

Met de robots-metatag kunt u op een gedetailleerde, paginaspecifieke manier aangeven hoe een afzonderlijke pagina moet worden geïndexeerd en in zoekresultaten moet worden weergegeven aan gebruikers. Plaats de robots-metatag als volgt in het <head>-gedeelte van een pagina:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

De robots-metatag in het bovenstaande voorbeeld instrueert alle zoekmachines de pagina niet weer te geven in zoekresultaten. De waarde van het kenmerk name (robots) geeft aan dat de instructie van toepassing is op alle crawlers. Als de instructie alleen geldt voor een specifieke crawler, vervangt u de waarde robots voor het kenmerk name door de naam van de betreffende crawler. Bepaalde crawlers worden ook wel user-agents genoemd (een crawler gebruikt de bijbehorende user-agent om een pagina op te vragen). De user-agent van de standaardwebcrawler van Google is Googlebot. Als u alleen wilt voorkomen dat Googlebot uw pagina crawlt, updatet u de tag als volgt:

<meta name="googlebot" content="noindex" />

Deze tag instrueert Google (maar niet andere zoekmachines) deze webpagina niet weer te geven in zoekresultaten. De kenmerken name en content zijn niet hoofdlettergevoelig.

Zoekmachines hebben mogelijk verschillende crawlers voor verschillende property's of doeleinden. Bekijk de volledige lijst met crawlers van Google. Als u een pagina bijvoorbeeld wel in de zoekresultaten van Google Zoeken wilt weergeven maar niet in Google Nieuws, gebruikt u de volgende metatag:

<meta name="googlebot-news" content="noindex" />

Als u meerdere crawlers afzonderlijk moet opgeven, kunt u meerdere robots-metatags gebruiken:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

Als onze crawlers tegenstrijdige instructies aantreffen, gebruiken we de instructie die de meeste beperkingen oplegt.

Terug naar boven

De HTTP-header X-Robots-Tag gebruiken

De X-Robots-Tag kan worden gebruikt als element van de HTTP-headerreactie voor een bepaalde URL. Elke instructie die kan worden gebruikt in een robots-metatag, kan ook worden opgegeven als X-Robots-Tag. Hier volgt een voorbeeld van een HTTP-reactie met een X-Robots-Tag die crawlers instrueert een pagina niet te indexeren:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

U kunt meerdere X-Robots-Tag-headers combineren in de HTTP-reactie of u kunt een door komma's gescheiden lijst met instructies opgeven. Hier volgt een voorbeeld van een HTTP-headerreactie waarin de X-Robots-Tag noarchive wordt gecombineerd met de X-Robots-Tag unavailable_after.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

Er kan voor de instructie in de X-Robots-Tag eventueel een user-agent worden gespecificeerd. De volgende reeks X-Robots-Tag HTTP-headers kan bijvoorbeeld worden gebruikt om de weergave van een pagina in de zoekresultaten van zoekmachines onder bepaalde voorwaarden toe te staan:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Instructies zonder user-agent gelden voor alle crawlers. In het onderstaande gedeelte wordt gedemonstreerd hoe u instructies kunt combineren. De naam en de opgegeven waarden zijn niet hoofdlettergevoelig.

Terug naar boven

Geldige instructies voor indexeren en weergeven

Er kunnen verschillende andere instructies worden gebruikt om met de robots-metatag en de X-Robots-Tag te bepalen hoe en wat er wordt geïndexeerd en weergegeven. Elke waarde staat voor een specifieke instructie. In de volgende tabel kunt u zien welke instructies Google herkent en wat de instructies betekenen. Opmerking: Het is mogelijk dat niet alle crawlers van zoekmachines deze instructies op dezelfde manier behandelen. U kunt meerdere instructies combineren in een door komma's gescheiden lijst (zie hieronder voor het gebruik van gecombineerde instructies). Deze instructies zijn niet hoofdlettergevoelig.

InstructieBetekenis
all Er gelden geen beperkingen voor het indexeren of de weergave. Opmerking: Deze instructie is de standaardwaarde en heeft geen effect als deze expliciet wordt vermeld.
noindex Deze pagina niet weergeven in zoekresultaten en geen link 'In het cachegeheugen opgeslagen' weergeven in zoekresultaten.
nofollow De links op deze pagina niet volgen.
none Gelijk aan noindex, nofollow.
noarchive Geen link 'In het cachegeheugen opgeslagen' weergeven in zoekresultaten.
nosnippet Geen fragment in de zoekresultaten weergeven voor deze pagina.
noodp Geen metadata uit het Open Directory-project voor titels of fragmenten weergeven voor deze pagina.
notranslate Geen vertaling voor deze pagina aanbieden in zoekresultaten.
noimageindex De afbeeldingen op deze pagina niet indexeren.
unavailable_after: [RFC-850 date/time] Deze pagina niet na de opgegeven datum/tijd weergeven in zoekresultaten. De datum/tijd moet worden opgegeven in RFC 850-indeling.

Nadat via het robots.txt-bestand (of door de afwezigheid daarvan) toestemming is gegeven een pagina te crawlen, worden pagina's standaard behandeld als crawlbaar, indexeerbaar en archiveerbaar en wordt de inhoud goedgekeurd voor gebruik in fragmenten die worden weergegeven in de zoekresultaten, tenzij de toegang expliciet wordt geweigerd via een robots-metatag of X-Robots-Tag.

Terug naar boven

Instructies voor indexeren en weergeven combineren

U kunt een instructie met meerdere richtlijnen maken door de instructies voor robots-metatags door middel van komma's met elkaar te combineren. Hier volgt een voorbeeld van een robots-metatag die webcrawlers instrueert de pagina niet te indexeren en de links op de pagina niet te crawlen:

<meta name="robots" content="noindex, nofollow">

Wanneer er meerdere crawlers en instructies zijn gespecificeerd, gebruikt de zoekmachine een combinatie van de negatieve richtlijnen. Bijvoorbeeld:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

De pagina met deze metatags wordt geïnterpreteerd als een pagina die de instructie noindex, nofollow bevat wanneer de pagina wordt gecrawld door Googlebot.

Terug naar boven

Praktische implementatie van X-Robots-Tag met Apache

U kunt de X-Robots-Tag toevoegen aan de HTTP-reacties van een site door .htaccess- en httpd.conf-bestanden te gebruiken. Deze zijn standaard beschikbaar op Apache-webservers. Het voordeel van het gebruik van een X-Robots-Tag met HTTP-reacties is dat u crawlinstructies kunt opgeven die van toepassing zijn op de hele site. De ondersteuning van reguliere expressies biedt een hoge mate van flexibiliteit.

Als u bijvoorbeeld de X-Robots-Tag noindex, nofollow aan de HTTP-reactie voor alle pdf-bestanden voor een hele site wilt toevoegen, voegt u het volgende fragment aan het .htaccess- of httpd.conf-hoofdbestand van de site toe:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

U kunt de X-Robots-Tag gebruiken voor niet-HTML-bestanden zoals afbeeldingsbestanden, waarvoor u geen robots-metatags kunt gebruiken. Hier volgt een voorbeeld waarin de X-Robots-Tag-instructie noindex voor afbeeldingsbestanden (.png, .jpeg, .jpg, .gif) wordt toegevoegd voor een hele site:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

Terug naar boven

Crawlinstructies combineren met instructies voor indexeren/weergeven

Robots-metatags en X-Robots-Tag HTTP-headers worden ontdekt wanneer een URL wordt gecrawld. Als via het robots.txt-bestand wordt aangegeven dat een pagina niet mag worden gecrawld, worden er geen instructies met informatie voor het indexeren en weergeven gevonden en worden ze daarom genegeerd. Als er instructies voor indexeren of weergeven moeten worden gevolgd, moet u toestaan dat de URL's met deze instructies worden gecrawld.

Terug naar boven