Especificaciones de la metaetiqueta "robots" y de la cabecera HTTP "X-Robots-Tag"

Resumen

En este documento se explica cómo interpreta Google la configuración de la indexación de páginas que permite controlar la forma en que Google muestra el contenido a través de los resultados de búsqueda. Esta información se puede especificar incluyendo una metaetiqueta en páginas HTML (X) o en una cabecera HTTP.

Nota: Ten en cuenta que la configuración solo se puede leer y seguir si los rastreadores pueden acceder a las páginas en las que se encuentra esta información.

Volver al principio

Usar la metaetiqueta "robots"

La metaetiqueta "robots" permite utilizar un enfoque preciso y específico de una página para controlar la forma en que se debe indexar una página en concreto y cómo se debe mostrar a los usuarios en los resultados de búsqueda. Incluye la metaetiqueta "robots" en la sección <head> de una página determinada. Por ejemplo:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

La metaetiqueta "robots" introducida en el ejemplo anterior indica a todos los motores de búsqueda que no muestren la página en los resultados de búsqueda. El valor del atributo name (robots) especifica que la directiva se aplica a todos los rastreadores. Para actuar sobre un rastreador en concreto, sustituye el valor robots del atributo name por el nombre del rastreador que te interese. Los rastreadores específicos también se conocen como agentes de usuario (un rastreador utiliza su agente de usuario para solicitar acceso a una página). El nombre de agente de usuario del rastreador web estándar de Google es Googlebot. Si quieres impedir que Googlebot rastree tu página, modifica la etiqueta como se indica a continuación:

<meta name="googlebot" content="noindex" />

Esta etiqueta impedirá que Google (pero no otros motores de búsqueda) muestre la página en los resultados de búsqueda web. Tanto el atributo name como el atributo content no distinguen entre mayúsculas y minúsculas.

Los motores de búsqueda pueden tener distintos rastreadores con propiedades y fines diferentes. Consulta una lista completa de los rastreadores de Google. Por ejemplo, para mostrar una página en los resultados de búsqueda web de Google, pero no en Google Noticias, utiliza la siguiente metaetiqueta:

<meta name="googlebot-news" content="noindex" />

Si necesitas especificar varios rastreadores de forma individual, puedes utilizar varias metaetiquetas "robots":

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

Si nuestros rastreadores se encuentran con directivas en conflicto, utilizarán la más restrictiva.

Volver al principio

Usar la cabecera HTTP X-Robots-Tag

La cabecera X-Robots-Tag se puede utilizar como elemento de la respuesta de cabecera HTTP para una URL determinada. Cualquier directiva que se pueda utilizar en una metaetiqueta "robots" también se puede especificar como X-Robots-Tag. A continuación, se muestra un ejemplo de una respuesta HTTP con la cabecera X-Robots-Tag, que indica a los rastreadores que no indexen una página determinada:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

Se pueden combinar varias cabeceras X-Robots-Tag en la respuesta HTTP o especificar una lista de directivas separada por comas. A continuación, se muestra un ejemplo de una respuesta de cabecera HTTP con X-Robots-Tag noarchive combinado con X-Robots-Tag unavailable_after.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

Opcionalmente, X-Robots-Tag puede especificar un agente de usuario antes de las directivas. Por ejemplo, se puede utilizar el siguiente grupo de cabeceras HTTP X-Robots-Tag para permitir que se muestre, con reservas, una página en los resultados de búsqueda de diferentes motores de búsqueda:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Las directivas sin agente de usuario son válidas para todos los rastreadores. En la sección que encontrarás a continuación, se muestra cómo procesar directivas combinadas. Ni el nombre ni los valores especificados distinguen entre mayúsculas y minúsculas.

Volver al principio

Directivas de indexación y publicación válidas

Se pueden utilizar muchas otras directivas para controlar la indexación y la publicación con la metaetiqueta "robots" y X-Robots-Tag. Cada valor representa una directiva. En la tabla que encontrarás a continuación, se muestran todas las directivas que Google reconoce y su significado. Nota: Puede que no todos los rastreadores de motores de búsqueda traten por igual estas directivas. Se pueden combinar varias directivas en una lista separada por comas (en el siguiente apartado se explica el uso de directivas combinadas). En estas directivas no se distingue entre mayúsculas y minúsculas.

DirectivaSignificado
all No hay restricciones de indexación ni de presentación de contenido. Nota: Esta directiva es el valor predeterminado y no tiene ningún efecto si se muestra de forma explícita.
noindex No se muestra ni esta página ni un enlace "en caché" en los resultados de búsqueda.
nofollow No se siguen los enlaces de esta página.
none Equivalente a noindex, nofollow.
noarchive No se muestra ningún enlace "en caché" en los resultados de búsqueda.
nosnippet No se muestra ningún fragmento en los resultados de búsqueda de esta página.
noodp No se utilizan metadatos del proyecto de Open Directory para los títulos o los fragmentos que se muestran en esta página.
notranslate No se ofrece una traducción de esta página en los resultados de búsqueda.
noimageindex No se indexan las imágenes de esta página.
unavailable_after: [RFC-850 date/time] No se muestra esta página en los resultados de búsqueda después de la fecha y la hora especificadas. La fecha y la hora deben especificarse en el formato RFC 850.

Después de que el archivo robots.txt (o su ausencia) conceda permiso para rastrear una página, de forma predeterminada se considera que las páginas se pueden rastrear, indexar y archivar, y su contenido se puede utilizar en fragmentos para mostrarse en los resultados de búsqueda a menos que se deniegue específicamente el permiso en una metaetiqueta robots o en X-Robots-Tag.

Volver al principio

Usar las directivas de indexación y publicación combinadas

Puedes crear una instrucción con varias directivas que combine directivas de metaetiquetas "robots" con comas. A continuación, se muestra un ejemplo de una metaetiqueta "robots" que indica a los rastreadores web que no indexen la página y que no rastreen ninguno de los enlaces que contiene:

<meta name="robots" content="noindex, nofollow">

Cuando se especifiquen varios rastreadores y diferentes directivas, el motor de búsqueda utilizará la suma de las directivas negativas. Por ejemplo:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Durante el rastreo, Googlebot interpretará una página que contenga estas metaetiquetas como si tuviera una directiva noindex, nofollow.

Volver al principio

Implementación práctica de X-Robots-Tag con Apache

Puedes añadir X-Robots-Tag a las respuestas HTTP de un sitio mediante archivos .htaccess y httpd.conf que están disponibles de forma predeterminada en servidores web basados en Apache. La ventaja de utilizar X-Robots-Tag con respuestas HTTP es que se pueden especificar las directivas de rastreo que se aplicarán globalmente en el sitio. La posibilidad de utilizar expresiones regulares ofrece un gran nivel de flexibilidad.

Por ejemplo, para añadir X-Robots-Tag noindex, nofollow a la respuesta HTTP para todos los archivos .PDF de todo un sitio, añade el fragmento siguiente al archivo raíz .htaccess o al archivo httpd.conf del sitio:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

Puedes utilizar X-Robots-Tag para archivos que no sean HTML, como archivos de imagen en los que no se puedan utilizar metaetiquetas "robots". A continuación, se muestra un ejemplo de cómo añadir la directiva X-Robots-Tag noindex en archivos de imagen (.png, .jpeg, .jpg, .gif) de todo un sitio:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

Volver al principio

Combinar el rastreo con las directivas de indexación y publicación

Las metaetiquetas "robots" y las cabeceras HTTP X-Robots-Tag se descubren al rastrear una URL. Si no se permite rastrear una página a través del archivo robots.txt, no se podrá encontrar ninguna información sobre directivas de indexación y publicación, y la página se ignorará. Si se deben seguir directivas de indexación o de presentación de contenido, no se debe impedir el rastreo de las URL que contengan esas directivas.

Volver al principio