Introducción a los archivos robots.txt

¿Qué es un archivo robots.txt?

Un archivo robots.txt indica a los rastreadores de los buscadores qué páginas o archivos de tu sitio pueden solicitar y cuáles no. Principalmente, se utiliza para evitar que las solicitudes que recibe tu sitio lo sobrecarguen; no es un mecanismo para impedir que una página web aparezca en Google. Si lo que buscas es esto último, debes usar directivas noindex o proteger esas páginas con contraseña.

¿Para qué sirve un archivo robots.txt?

Los archivos robots.txt sirven sobre todo para gestionar el tráfico de los rastreadores a tu sitio, aunque también suelen emplearse para que Google no rastree determinadas páginas, según el tipo de página:

Tipo de página Gestión del tráfico Ocultar de Google Descripción
Página web

En el caso de las páginas web (HTML, PDF y otros formatos no multimedia que Google puede leer), los archivos robots.txt pueden servir para gestionar el tráfico de los rastreadores si crees que tu servidor se sobrecargará con solicitudes del rastreador de Google, o bien para evitar que se rastreen páginas sin importancia o similares de tu sitio.

No uses un archivo robots.txt para ocultar una página web de los resultados de la Búsqueda de Google, ya que es posible que acabe indexándose aunque no se visite si hay otras páginas que dirigen a ella con texto descriptivo. Si quieres bloquear una página para que no aparezca en los resultados de búsqueda, usa otro método. Por ejemplo, protégela con una contraseña o utiliza una directiva noindex.

Si tu página web está bloqueada por un archivo robots.txt, puede seguir apareciendo en los resultados de búsqueda, pero sin ninguna descripción y más o menos con este aspecto. Se excluirán los archivos de imagen y vídeo, así como los archivos PDF y otros archivos que no sean HTML. Si en la búsqueda se muestra este resultado con tu página y quieres corregirlo, quita del archivo robots.txt la entrada que está bloqueando la página. Si quieres ocultar la página completamente de la búsqueda, utiliza otro método.

Archivo multimedia

Con un archivo robots.txt, puedes gestionar el tráfico de los rastreadores y evitar que aparezcan archivos de imagen, vídeo y audio en los resultados de la Búsqueda de Google. De todas formas, ten en cuenta que no impedirá que otras páginas o usuarios enlacen a tu archivo de imagen, vídeo o audio.

Archivo de recursos Con un archivo robots.txt, puedes bloquear archivos de recursos (como los de imagen, secuencias de comandos o estilo que no sean importantes) si crees que prescindir de ellos no perjudicará considerablemente a las páginas. No obstante, si crees que complicaría el análisis del rastreador de Google, no debes bloquearlos; si lo haces, Google no podrá analizar correctamente páginas que dependan de estos recursos.

Utilizo un servicio de alojamiento de sitios

Si utilizas un servicio de alojamiento de sitios web, como Wix, Drupal o Blogger, es posible que no tengas que editar tu archivo robots.txt directamente. En su lugar, seguramente tu proveedor tenga una página de configuración de búsqueda o algún otro mecanismo con el que indicar a los buscadores si deben o no rastrear alguna página en concreto.

Si quieres saber si Google ha rastreado tu página, busca su URL en Google.

Si quieres permitir o impedir que los buscadores puedan ver tu página, añade o quita los requisitos de inicio de sesión que pueda haber y busca instrucciones sobre cómo modificar la visibilidad de tu página; por ejemplo, puedes buscar ocultar página de Wix de los buscadores.

Limitaciones de los archivos robots.txt

Antes de crear o editar un archivo robots.txt, deberías conocer los límites de este método de bloqueo de URLs. Quizás te interese usar otros mecanismos para que tus URLs no se puedan encontrar en la Web.

  • Es posible que las directivas del archivo robots.txt no sean compatibles con algunos buscadores
    Los archivos robots.txt no pueden obligar a los rastreadores a seguir sus instrucciones cuando rastrean tu sitio; son los propios rastreadores los que deciden si seguirlas o no. El robot de Google y otros rastreadores web respetables sí cumplen las instrucciones de los archivos robots.txt, pero puede que otros rastreadores no lo hagan. Por tanto, si quieres ocultar la información a los rastreadores web, es mejor que utilices otros métodos de bloqueo, como proteger los archivos privados con contraseña en el servidor.
  • Cada rastreador interpreta la sintaxis de una forma
    Aunque los rastreadores web respetables siguen las indicaciones de los archivos robots.txt, cada rastreador puede interpretar las indicaciones de forma distinta. Por tanto, debes dirigirte a los diferentes rastreadores web mediante la sintaxis adecuada, ya que es posible que algunos no entiendan determinadas instrucciones.
  • Es posible que las páginas bloqueadas mediante un archivo robots.txt se indexen si otros sitios incluyen enlaces a ellas
    Si bien Google no rastrea ni indexa el contenido que se haya bloqueado con un archivo robots.txt, puede que encontremos e indexemos URLs bloqueadas si hay enlaces a ellas en otros sitios de la Web. En consecuencia, tanto esas URLs como otra información pública, como el texto de los enlaces que llevan a las páginas en cuestión, pueden seguir apareciendo en los resultados de la Búsqueda de Google. Para evitarlo, protege los archivos con contraseña en tu servidor, usa la metaetiqueta o el encabezado de respuesta noindex o simplemente quita la página por completo.

Probar los bloqueos de robots.txt de una página

Puedes probar si una página o un recurso están bloqueados por una regla de robots.txt.

Si quieres probar las directivas noindex, utiliza la herramienta de inspección de URLs.