Especificaciones de la metaetiqueta robots y del encabezado HTTP X-Robots-Tag

Resumen

En este documento, se explica cómo la configuración de indexación a nivel de la página permite controlar la forma en que Google muestra contenido a través de los resultados de la búsqueda. Esta información se puede especificar incluyendo una metaetiqueta en páginas (X)HTML o en un encabezado HTTP.

Notas

  • Ten en cuenta que esta configuración solo se puede leer y seguir si los rastreadores tienen permiso para acceder a las páginas que la incluyen.
  • La etiqueta o directiva <meta name="robots" content="noindex" /> se aplica a los rastreadores de motores de búsqueda. Para bloquear rastreadores que no son de búsqueda, como "AdsBot-Google", es posible que debas agregar directivas para el rastreador específico (por ejemplo, <meta name="AdsBot-Google" content="noindex" />).

Cómo usar la metaetiqueta robots

La metaetiqueta robots permite utilizar un enfoque preciso y específico de una página para controlar la forma en que se debe indexar una página en particular y cómo se debe mostrar a los usuarios en los resultados de la búsqueda. Coloca la metaetiqueta robots en la sección <head> de una página, como se muestra a continuación:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

En el ejemplo anterior, la metaetiqueta robots indica a la mayoría de los motores de búsqueda que no muestren la página en los resultados de la búsqueda. El valor del atributo name (robots) especifica que la directiva se aplica a todos los rastreadores. Para enfocarte en un rastreador específico, reemplaza el valor robots del atributo name por el nombre del rastreador en cuestión. Los rastreadores específicos también se conocen como "usuarios-agentes" (un rastreador utiliza su usuario-agente para solicitar acceso a una página). El nombre del usuario-agente del rastreador web estándar de Google es Googlebot. Para evitar que Googlebot rastree una página, modifica la etiqueta como se muestra a continuación:

<meta name="googlebot" content="noindex" />

La etiqueta ahora indica a Google (pero no a los demás motores de búsqueda) que no muestre esta página en los resultados de la búsqueda web. Los atributos name y content no distinguen entre mayúsculas ni minúsculas.

Los motores de búsqueda pueden tener distintos rastreadores con propiedades y objetivos diferentes. Consulta la lista completa de rastreadores de Google. Por ejemplo, para mostrar una página en los resultados de la búsqueda web de Google, pero no en Google Noticias, usa la siguiente metaetiqueta:

<meta name="googlebot-news" content="noindex" />

Si necesitas especificar varios rastreadores por separado, usa varias metaetiquetas robots:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

Si nuestros rastreadores se encuentran con directivas en conflicto, utilizarán la más restrictiva que encuentren.

Volver al principio

Cómo usar el encabezado HTTP X-Robots-Tag

Se puede usar el atributo X-Robots-Tag como elemento de la respuesta de encabezado HTTP para una URL determinada. Las directivas que se pueden usar en una metaetiqueta robots también se pueden especificar como X-Robots-Tag. A continuación, se muestra un ejemplo de una respuesta HTTP con el encabezado X-Robots-Tag, que indica a los rastreadores que no indexen una página determinada:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

Se pueden combinar varios encabezados X-Robots-Tag dentro de la respuesta HTTP o bien puedes especificar una lista de directivas separada por comas. A continuación, se muestra un ejemplo de una respuesta de encabezado HTTP con noarchive X-Robots-Tag combinado con unavailable_after X-Robots-Tag.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

De manera opcional, X-Robots-Tag puede especificar un usuario-agente antes de las directivas. Por ejemplo, se puede utilizar el siguiente grupo de encabezados HTTP X-Robots-Tag para permitir que se muestre de forma condicional una página en los resultados de la búsqueda de diferentes motores de búsqueda:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Las directivas que se especifican sin un usuario-agente son válidas para todos los rastreadores. En la siguiente sección, se explica cómo manejar directivas combinadas. Ni el nombre ni los valores especificados distinguen entre mayúsculas y minúsculas.

Volver al principio

Directivas de indexación y publicación válidas

Se pueden utilizar muchas otras directivas para controlar la indexación y la publicación con la metaetiqueta robots y X-Robots-Tag. Cada valor representa una directiva específica. En la siguiente tabla, se muestran todas las directivas que distingue Google y su significado. Nota: Es posible que no todos los rastreadores de motores de búsqueda traten estas directivas por igual. Se pueden combinar diferentes elementos en una lista separada por comas (consulta más abajo la información sobre cómo administrar directivas combinadas). Estas directivas no distinguen entre mayúsculas ni minúsculas.

DirectivaSignificado
all No hay restricciones de indexación ni de publicación. Nota: Esta directiva es el valor predeterminado y no tiene ningún efecto si se muestra de forma explícita.
noindex No muestra esta página ni un vínculo "en caché" en los resultados de la búsqueda.
nofollow No sigue los vínculos de esta página.
none Equivale a noindex, nofollow.
noarchive No muestra un vínculo "en caché" en los resultados de la búsqueda.
nosnippet No muestra un fragmento de texto ni una vista previa de video en los resultados de la búsqueda de esta página. Si está disponible, se verá una miniatura estática.
notranslate No ofrece una versión traducida de esta página en los resultados de la búsqueda.
noimageindex No indexa las imágenes de esta página.
unavailable_after: [RFC-850 date/time] No muestra esta página en los resultados de la búsqueda después de la fecha y la hora especificadas. Ambos datos deben especificarse en el formato RFC 850.

Después de que el archivo robots.txt (o su ausencia) conceda permiso para rastrear una página, de forma predeterminada, se considera que las páginas se pueden rastrear, indexar y archivar, y que su contenido se puede utilizar en fragmentos para mostrarse en los resultados de la búsqueda, a menos que se rechace específicamente el permiso en una metaetiqueta robots o en X-Robots-Tag.

Volver al principio

Cómo administrar las directivas de indexación y publicación combinadas

Puedes crear una instrucción con varios elementos que combine directivas de metaetiquetas robots con comas. A continuación, se muestra un ejemplo de una metaetiqueta robots que indica a los rastreadores web que no indexen la página y que no rastreen ninguno de los vínculos que contiene:

<meta name="robots" content="noindex, nofollow">

Cuando se especifiquen varios rastreadores y diferentes directivas, el motor de búsqueda utilizará la suma de los elementos negativos. Por ejemplo:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Durante el rastreo, Googlebot interpretará una página que contenga estas metaetiquetas como si tuviera una directiva noindex, nofollow.

Volver al principio

Implementación práctica de X-Robots-Tag con Apache

Puedes agregar X-Robots-Tag a las respuestas HTTP de un sitio mediante archivos .htaccess y httpd.conf que estén disponibles de forma predeterminada en servidores de Apache basados en la Web. La ventaja de usar X-Robots-Tag con respuestas HTTP es que puedes especificar las directivas de rastreo que se aplicarán en el sitio de forma global. La posibilidad de utilizar expresiones regulares ofrece un gran nivel de flexibilidad.

Por ejemplo, para agregar noindex, nofollow X-Robots-Tag a la respuesta HTTP para todos los archivos .PDF de un sitio, agrega el siguiente fragmento al archivo raíz .htaccess o httpd.conf del sitio:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

Puedes usar X-Robots-Tag para los archivos que no estén en formato HTML, como los de imagen, en los que no es posible utilizar metaetiquetas robots. A continuación, se muestra un ejemplo de cómo agregar la directiva noindex X-Robots-Tag para los archivos de imagen (.png, .jpeg, .jpg o .gif) de todo un sitio:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

Volver al principio

Cómo combinar el rastreo con las directivas de indexación y publicación

Las metaetiquetas robots y los encabezados HTTP X-Robots-Tag se descubren al rastrear una URL. Si no está permitido rastrear una página a través del archivo robots.txt, no se encontrará ninguna instrucción sobre directivas de indexación o publicación, y, en consecuencia, se ignorará la página. Si se deben seguir directivas de indexación o publicación, no se podrá impedir el rastreo de las URL que contengan esas directivas.

Volver al principio

Enviar comentarios sobre…