Introducción a los archivos robots.txt

¿Qué es un archivo robots.txt?

Un archivo robots.txt indica a los rastreadores de los buscadores qué páginas o archivos de tu sitio pueden solicitar y cuáles no. Principalmente, se utiliza para evitar que las solicitudes que recibe tu sitio lo sobrecarguen; no es un mecanismo para impedir que una página web aparezca en Google. Si lo que buscas es esto último, debes usar directivas noindex o proteger esas páginas con contraseña.

¿Para qué sirve el archivo robots.txt?

El archivo robots.txt se utiliza sobre todo para gestionar el tráfico de los rastreadores a tu sitio, aunque también suele emplearse para que Google no rastree páginas según su tipo de archivo:

Tipo de página Gestión del tráfico Ocultar de Google Descripción
Página web

En el caso de las páginas web (HTML, PDF y otros formatos no multimedia que Google puede leer), los archivos robots.txt pueden servir para gestionar el tráfico de los rastreadores si crees que tu servidor se sobrecargará con solicitudes del rastreador de Google, o bien para evitar que se rastreen páginas sin importancia o similares de tu sitio.

No uses robots.txt para ocultar una página web de los resultados de la Búsqueda de Google, ya que es posible que acabe indexándose aunque no se visite si hay otras páginas que dirigen a ella con texto descriptivo. Si quieres bloquear una página para que no aparezca en los resultados de búsqueda, usa otro método; por ejemplo, protégela con una contraseña o utiliza una directiva noindex.

Si tu página web está bloqueada por un archivo robots.txt, puede seguir apareciendo en los resultados de búsqueda, pero sin ninguna descripción y más o menos con este aspecto. Se excluirán los archivos de imagen y vídeo, así como los archivos PDF y otros archivos que no sean HTML. Si en la búsqueda se muestra este resultado con tu página y quieres corregirlo, quita del archivo robots.txt la entrada que está bloqueando la página. Si quieres ocultar la página completamente de la búsqueda, utiliza otro método.

Archivo multimedia

Con archivos robots.txt, puedes gestionar el tráfico de los rastreadores y evitar que aparezcan archivos de imagen, vídeo y audio en los resultados de la Búsqueda de Google. De todas formas, ten en cuenta que no impedirá que otras páginas u otros usuarios incluyan enlaces a tu archivo de imagen, vídeo o audio.

Archivo de recursos Con archivos robots.txt, puedes bloquear archivos de recursos (como los de imagen, secuencias de comandos o estilo que no sean importantes) si crees que prescindir de ellos no perjudicará considerablemente a las páginas. No obstante, si crees que complicaría el análisis del rastreador de Google, no debes bloquearlos; si lo haces, Google no podrá analizar correctamente páginas que dependan de estos recursos.

Utilizo un servicio de alojamiento de sitios

Si utilizas un servicio de alojamiento de sitios web, como Wix, Drupal o Blogger, es posible que no tengas que editar tu archivo robots.txt directamente. En su lugar, seguramente tu proveedor tenga una página de configuración de búsqueda o algún otro mecanismo con el que indicar a los buscadores si deben o no rastrear alguna página en concreto.

Si quieres saber si Google ha rastreado tu página, busca su URL en Google.

Para permitir o impedir que los buscadores puedan ver tu página, añade o quita los requisitos de inicio de sesión de la página (si los hubiera) y busca en Google cómo bloquear páginas en tu servicio de alojamiento; por ejemplo, puedes buscar ocultar página de Wix de los buscadores.

Limitaciones del archivo robots.txt

Antes de crear o editar un archivo robots.txt, deberías conocer los límites de este método de bloqueo de URLs. Quizás te interese usar otros mecanismos para que tus URL no se puedan encontrar en la Web.

  • Es posible que las directivas del archivo robots.txt no sean compatibles con algunos buscadores
    Los archivos robots.txt no pueden obligar a los rastreadores a seguir sus instrucciones cuando rastrean tu sitio; son los propios rastreadores los que deciden si seguirlas o no. El robot de Google y otros rastreadores web respetables sí cumplen las instrucciones de los archivos robots.txt, pero es posible que haya rastreadores que no lo hagan. Por tanto, si quieres ocultar información a los rastreadores web, es mejor que utilices otros métodos de bloqueo, como proteger los archivos privados con contraseña en el servidor.
  • Cada rastreador interpreta la sintaxis de una forma
    Aunque los rastreadores web respetables siguen las indicaciones de los archivos robots.txt, cada rastreador puede interpretar las indicaciones de forma distinta. Por tanto, debes dirigirte a los diferentes rastreadores web usando la sintaxis adecuada, ya que es posible que algunos no entiendan determinadas instrucciones.
  • Es posible que las páginas bloqueadas mediante un archivo robots.txt se indexen si otros sitios incluyen enlaces a ellas
    Si bien Google no rastrea ni indexa el contenido que se haya bloqueado con un archivo robots.txt, puede que encontremos e indexemos URL bloqueadas si hay enlaces a ellas en otros sitios de la Web. En consecuencia, tanto estas URL como otra información pública, como el texto de los enlaces que llevan a las páginas en cuestión, pueden seguir apareciendo en los resultados de la Búsqueda de Google. Para evitarlo, protege los archivos de tu servidor con contraseña, usa la metaetiqueta o el encabezado de respuesta noindex o simplemente retira la página por completo.
Nota: Al combinar varias directivas de rastreo e indexación, es posible que se contradigan entre sí. Para obtener más información sobre cómo configurar estas directivas correctamente, consulta la sección Combinar el rastreo con las directivas de indexación y publicación de la documentación de Google Developers.

Probar los bloqueos de robots.txt de una página

Puedes probar si una página o un recurso han sido bloqueados por una regla de robots.txt.

Si quieres probar las directivas noindex, utiliza la herramienta de inspección de URLs.