Especificaciones de la etiqueta meta Robots, y los elementos data-nosnippet y X-Robots-Tag

En este documento se explica cómo cambiar la forma en que Google muestra tu contenido en los resultados de búsqueda mediante ajustes a nivel de página y de texto. Los ajustes a nivel de página se pueden configurar incluyendo una etiqueta meta en páginas HTML o en encabezados HTTP. En cambio, los ajustes a nivel de texto deben especificarse añadiendo el atributo data-nosnippet a elementos HTML de las páginas.

Recuerda que los rastreadores solo pueden ver y respetar estos ajustes si tienen acceso a las páginas en cuestión.

La regla <meta name="robots" content="noindex"> se aplica a los rastreadores de buscadores. Para bloquear rastreadores que no pertenezcan a buscadores, como AdsBot-Google, debes añadir reglas dirigidas específicamente al rastreador que quieras bloquear; por ejemplo, <meta name="AdsBot-Google" content="noindex">.

Usar la etiqueta meta robots

La etiqueta meta robots permite utilizar un enfoque granular y a nivel de página para controlar cómo se deben indexar y servir a los usuarios páginas concretas en los resultados de la Búsqueda de Google. Incluye la etiqueta meta robots en la sección <head> de una página determinada. Por ejemplo:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex">
(…)
</head>
<body>(…)</body>
</html>

En este ejemplo, la etiqueta meta robots indica a los buscadores que no muestren esa página en los resultados de búsqueda. Como el atributo name tiene el valor robots, la regla se aplica a todos los rastreadores. En los atributos name y content se distingue entre mayúsculas y minúsculas. Para que afecte solo a un rastreador concreto, sustituye el valor robots del atributo name por el token de user-agent del rastreador en cuestión. Google admite dos tokens de user-agent en la etiqueta meta robots; otros valores se ignoran:

  1. googlebot: para todos los resultados de texto.
  2. googlebot-news: para resultados de noticias.

Por ejemplo, para indicar a Google que no muestre ninguna página en los resultados de búsqueda, puedes especificar googlebot como nombre de la etiqueta meta:

<meta name="googlebot" content="noindex">

Para mostrar una página en los resultados de búsqueda web de Google, pero no en Google News, usa la etiqueta meta googlebot-news:

<meta name="googlebot-news" content="noindex">

Para especificar varios rastreadores de forma individual, puedes utilizar varias etiquetas meta robots:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

Si quieres bloquear la indexación de recursos que no sean HTML (como archivos PDF, de vídeo o de imagen), usa el encabezado de respuesta X-Robots-Tag.

Usar la cabecera HTTP X-Robots-Tag

X-Robots-Tag se puede utilizar como un elemento de la respuesta de cabecera HTTP de una URL determinada. Cualquier regla que se pueda usar en una etiqueta meta robots también se puede especificar como X-Robots-Tag. A continuación, se muestra un ejemplo de una respuesta HTTP con una cabecera X-Robots-Tag que indica a los rastreadores que no indexen una página:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

Es posible combinar varias cabeceras X-Robots-Tag en la respuesta HTTP o especificar una lista de reglas separadas por comas. A continuación, se muestra un ejemplo de una respuesta de cabecera HTTP que incluye una cabecera X-Robots-Tag noarchive y una cabecera X-Robots-Tag unavailable_after.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

En la cabecera X-Robots-Tag, se puede especificar de forma opcional un user-agent antes de las reglas. Por ejemplo, con el siguiente conjunto de cabeceras HTTP X-Robots-Tag, se puede permitir que se muestre una página en los resultados de búsqueda de diferentes buscadores de forma condicional:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Las reglas sin user-agent son válidas para todos los rastreadores. El encabezado HTTP, el nombre de user-agent y los valores especificados no distinguen entre mayúsculas y minúsculas.

Reglas de indexación y publicación válidas

Las siguientes reglas, que también están disponibles en formato electrónico, se pueden utilizar para controlar la indexación y el servicio de un fragmento con la etiqueta meta robots y X-Robots-Tag. Cada valor representa una regla. Se pueden combinar varias reglas en una lista separada por comas o en etiquetas meta independientes. En estas reglas no se distingue entre mayúsculas y minúsculas.

Reglas

all

No hay restricciones de indexación ni de publicación. Esta regla es el valor predeterminado y no tiene ningún efecto si se utiliza de forma explícita.

noindex

No se muestra la página, el contenido multimedia o el recurso en los resultados de búsqueda. Si no incluyes esta regla, puede que la página, el contenido multimedia o el recurso se indexe y aparezca en los resultados de búsqueda.

Para quitar información de Google, sigue nuestra guía detallada.

nofollow

No se siguen los enlaces de esta página. Si no incluyes esta regla, Google puede seguir los enlaces que hay en la página para descubrir las páginas enlazadas. Más información sobre nofollow

none

Es equivalente a noindex, nofollow.

noarchive

No se muestra ningún enlace en caché en los resultados de búsqueda. Si no incluyes esta regla, Google puede almacenar en caché una versión de la página, por lo que los usuarios podrían acceder a esa versión desde los resultados de búsqueda.

nositelinkssearchbox

No se muestra ningún cuadro de búsqueda de enlaces de sitios en los resultados de búsqueda de esta página. Si no incluyes esta regla, Google puede generar un cuadro de búsqueda específico de tu sitio en los resultados de búsqueda, junto con otros enlaces directos que lleven a tu sitio.

nosnippet

No se muestra ningún fragmento ni la vista previa de ningún vídeo en los resultados de búsqueda de esta página. Es posible que se siga mostrando una miniatura de imagen estática si hay una disponible en el caso de que mejore la experiencia de usuario. Esta directiva afecta a todos los tipos de resultados de búsqueda (en el caso de Google, la Búsqueda web, Google Imágenes y Discover). En los resúmenes de SGE de Google tampoco se mostrará contenido bloqueado mediante nosnippet.

Si no incluyes esta regla, Google puede generar fragmentos de texto y vistas previas de vídeos a partir de la información que haya en la página.

indexifembedded

Google puede indexar el contenido de una página si está insertada en otra página mediante iframes o etiquetas HTML similares, a pesar de la regla noindex.

indexifembedded solo tiene efecto si se acompaña con noindex.

max-snippet: [número]

Se usan un máximo de [número] caracteres como fragmento de texto para este resultado de búsqueda. Recuerda que una URL puede aparecer como varios resultados de búsqueda en una página de resultados de búsqueda. No afecta a las vistas previas de imágenes o vídeos. Se aplica a todo tipo de resultados de búsqueda, como la Búsqueda web de Google, Google Imágenes, Discover o el Asistente. En los resúmenes de SGE de Google tampoco se mostrará contenido que supere el límite especificado. Sin embargo, si un editor ha dado permiso por separado para usar su contenido, este límite no se tendrá en cuenta. Por ejemplo, si el editor proporciona contenido en forma de datos estructurados en la página o tiene un contrato de licencia con Google, lo definido en este ajuste no interrumpe los usos permitidos más específicos. Esta regla se ignora si no se especifica ningún elemento [número] que se pueda analizar.

Si no incluyes esta regla, Google elegirá la longitud del fragmento que considere oportuna.

Valores especiales:

  • 0: no se mostrará ningún fragmento. Es equivalente a nosnippet.
  • -1: Google elegirá la longitud que considere más eficaz para que los usuarios descubran tu contenido y accedan a tu sitio.

Ejemplos:

Para que no aparezca ningún fragmento en los resultados de búsqueda, incluye esta etiqueta:

<meta name="robots" content="max-snippet:0">

Para permitir que el fragmento de una página pueda tener hasta 20 caracteres, utiliza esta etiqueta:

<meta name="robots" content="max-snippet:20">

Para indicar que se pueden usar tantos caracteres como hagan falta en el fragmento de una página, añade esta etiqueta:

<meta name="robots" content="max-snippet:-1">

max-image-preview: [ajuste]

Se fija el tamaño máximo de la vista previa de las imágenes de esta página cuando aparecen en los resultados de búsqueda.

Si no incluyes la regla max-image-preview, Google puede mostrar vistas previas de imágenes del tamaño predeterminado.

Valores [ajuste] aceptados:

  • none: no se mostrarán vistas previas de ninguna imagen.
  • standard: es posible que se muestre una vista previa de la imagen predeterminada.
  • large: es posible que se muestre una vista previa más grande de una imagen, con el máximo definido por el ancho del viewport.

Se aplica a todo tipo de resultados de búsqueda (como la Búsqueda web de Google, Google Imágenes, Discover o el Asistente). Sin embargo, no se aplica en los casos en los que un editor haya dado un permiso por separado para utilizar el contenido. Por ejemplo, si un editor proporciona contenido en forma de datos estructurados en una página (como versiones AMP y canónica de un artículo) o tiene un contrato de licencia con Google, este ajuste no interrumpirá los usos permitidos más específicos.

Si no quieres que Google muestre imágenes en miniatura de mayor tamaño cuando sus páginas AMP y la versión canónica de un artículo aparezcan en la Búsqueda o en Discover, da un valor standard o none a la directiva max-image-preview.

Ejemplo:

<meta name="robots" content="max-image-preview:standard">

max-video-preview: [número]

Utiliza fragmentos de vídeo de [número] segundos como máximo al incluir vídeos de esta página en los resultados de búsqueda.

Si no incluyes la regla max-video-preview, Google puede mostrar en los resultados de búsqueda un fragmento de vídeo que dure lo que Google considere oportuno.

Valores especiales:

  • 0: como máximo, se puede utilizar una imagen estática, de acuerdo con la configuración de max-image-preview.
  • -1: no hay límite.

Se aplica a todo tipo de resultados de búsqueda (en la Búsqueda web de Google, Google Imágenes, Google Vídeos, Discover o el Asistente). Esta regla se ignora si no se especifica ningún elemento [número] que se pueda analizar.

Ejemplo:

<meta name="robots" content="max-video-preview:-1">

notranslate

No se ofrece la traducción de esta página en los resultados de búsqueda. Si no incluyes esta regla, Google puede proporcionar una traducción del enlace de título y del fragmento de un resultado de búsqueda que no esté en el mismo idioma que la consulta de búsqueda. Si el usuario hace clic en el enlace de título traducido, todas las interacciones posteriores con la página se hacen a través del Traductor de Google, que traduce automáticamente los enlaces que se van siguiendo.

noimageindex

No se indexan las imágenes de esta página. Si no incluyes este valor, las imágenes de la página pueden indexarse y aparecer en los resultados de búsqueda.

unavailable_after: [fecha/hora]

No se muestra esta página en los resultados de búsqueda después de la fecha y hora especificadas. La fecha y la hora deben especificarse en formatos ampliamente aceptados, como RFC 822, RFC 850 o ISO 8601. Esta regla se ignora si no se especifica ningún valor de fecha y hora válido. De forma predeterminada, el contenido no tiene fecha de vencimiento.

Si no incluyes esta regla, esta página puede mostrarse en los resultados de búsqueda de forma indefinida. El robot de Google reducirá considerablemente la frecuencia con la que rastrea la URL después de la fecha y la hora indicadas.

Ejemplo:

<meta name="robots" content="unavailable_after: 2020-09-21">

Usar conjuntamente reglas de indexación y publicación

Puedes crear una instrucción con varias reglas que combine reglas de etiquetas meta robots con comas o usando varias etiquetas meta. A continuación, se muestra un ejemplo de una etiqueta meta robots que indica a los rastreadores web que no indexen la página y que no rastreen ninguno de los enlaces que contiene:

Lista separada por comas

<meta name="robots" content="noindex, nofollow">

Varias etiquetas meta

<meta name="robots" content="noindex">
<meta name="robots" content="nofollow">

A continuación, se muestra un ejemplo que incluye un fragmento de texto con límite de 20 caracteres y que permite previsualizar una imagen de gran tamaño:

<meta name="robots" content="max-snippet:20, max-image-preview:large">

Cuando se especifiquen varios rastreadores y reglas, el buscador concatenará las reglas negativas. Por ejemplo:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

La página que contiene estas etiquetas meta se interpretará como si tuviera una regla noindex, nofollow cuando el robot de Google la rastree.

Utilizar el atributo HTML de data-nosnippet

Puedes marcar partes del texto de una página HTML para que no se incluyan en fragmentos. Se puede hacer a nivel de elemento HTML incluyendo el atributo HTML data-nosnippet en los elementos span, div y section. El atributo data-nosnippet se considera booleano y, por tanto, se ignorará cualquier valor que incluya. Para que los sistemas automatizados puedan interpretar correctamente las directivas, el código HTML de la sección debe ser válido y todas las etiquetas deben estar cerradas según corresponda.

Ejemplos:

<p>This text can be shown in a snippet
<span data-nosnippet>and this part would not be shown</span>.</p>

<div data-nosnippet>not in snippet</div>
<div data-nosnippet="true">also not in snippet</div>
<div data-nosnippet="false">also not in snippet</div>
<!-- all values are ignored -->

<div data-nosnippet>some text</html>
<!-- unclosed "div" will include all content afterwards -->

<mytag data-nosnippet>some text</mytag>
<!-- NOT VALID: not a span, div, or section -->

<p>This text can be shown in a snippet.</p>
<div data-nosnippet>
  <p>However, this is not in snippet.</p>
  <ul>
    <li>Stuff not in snippet</li>
    <li>More stuff not in snippet</li>
  </ul>
</div>

Normalmente, Google procesa las páginas para indexarlas, pero no se garantiza el renderizado. Por este motivo, la extracción de data-nosnippet puede producirse tanto antes como después del renderizado. Para evitar el renderizado ambiguo, no añadas ni elimines el atributo data-nosnippet de los nodos existentes a través de JavaScript. Al añadir elementos DOM a través de JavaScript, incluye el atributo data-nosnippet según sea necesario cuando añadas inicialmente el elemento al DOM de la página. Si vas a utilizar elementos personalizados, encapsúlalos o renderízalos con elementos div, span o section si tienes que usar data-nosnippet.

Usar datos estructurados

Las etiquetas meta Robots controlan la cantidad de contenido que Google extrae automáticamente de las páginas web para mostrarlo como resultados de búsqueda. No obstante, muchos editores también utilizan los datos estructurados de schema.org para que determinada información aparezca en las búsquedas. Las limitaciones de las etiquetas meta Robots no afectan al uso de esos datos estructurados, a excepción de los valores article.description y description que se especifican en otras obras creativas. Con la regla max-snippet, puedes especificar la longitud máxima de una vista previa basada en los valores description. Por ejemplo, los datos estructurados recipe de una página se pueden incluir en el carrusel de recetas, aunque la vista previa de texto esté limitada. Con el valor max-snippet, puedes limitar la longitud de una vista previa de texto, pero la etiqueta meta robots no se aplica cuando la información se proporciona mediante datos estructurados para resultados enriquecidos.

Para gestionar el uso de datos estructurados en tus páginas web, puedes modificar los tipos y valores de estos datos. Para hacerlo, añade o quita información para proporcionar solo los datos que quieres que estén disponibles. Ten en cuenta también que los resultados de búsqueda seguirán pudiendo aprovechar los datos estructurados si se declaran dentro de un elemento data-nosnippet.

Implementación práctica de X-Robots-Tag

Puedes añadir X-Robots-Tag a las respuestas HTTP de un sitio a través de los archivos de configuración del software de servidor web de tu sitio. Por ejemplo, en los servidores web Apache puedes utilizar archivos .htaccess y httpd.conf. La ventaja que ofrece el uso de una cabecera X-Robots-Tag con respuestas HTTP es que permite especificar las reglas de rastreo que se deben aplicar globalmente en un sitio. La posibilidad de utilizar expresiones regulares ofrece un gran nivel de flexibilidad.

Por ejemplo, para añadir una directiva X-Robots-Tag noindex, nofollow a la respuesta HTTP de todos los archivos .PDF de un sitio, añade el siguiente fragmento al archivo raíz .htaccess o al archivo httpd.conf del sitio en Apache, o al archivo .conf en NGINX.

Apache

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

NGINX

location ~* \.pdf$ {
  add_header X-Robots-Tag "noindex, nofollow";
}

Puedes utilizar X-Robots-Tag para archivos que no sean HTML, como archivos de imagen en los que no se puedan utilizar etiquetas meta robots en HTML. A continuación, se muestra un ejemplo de cómo añadir una regla X-Robots-Tag noindex para archivos de imagen (.png ,.jpeg ,.jpg ,.gif) en todo un sitio:

Apache

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

NGINX

location ~* \.(png|jpe?g|gif)$ {
  add_header X-Robots-Tag "noindex";
}

También puedes configurar los encabezados X-Robots-Tag de archivos estáticos concretos:

Apache

# the htaccess file must be placed in the directory of the matched file.
<Files "unicorn.pdf">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

NGINX

location = /secrets/unicorn.pdf {
  add_header X-Robots-Tag "noindex, nofollow";
}

Combinar reglas de robots.txt con reglas de indexación y publicación

Las etiquetas meta robots y los encabezados HTTP X-Robots-Tag se descubren al rastrear una URL. Si no se permite rastrear una página a través del archivo robots.txt, no se podrá encontrar ninguna información sobre reglas para indexar y servir contenido, y la página se ignorará. Si se deben seguir reglas para indexar o servir contenido, no se debe impedir el rastreo de las URLs que contengan esas reglas.