Introducción a los archivos robots.txt

Un archivo robots.txt indica a los rastreadores de los buscadores a qué URLs de tu sitio pueden acceder. Principalmente, se utiliza para evitar que las solicitudes que recibe tu sitio lo sobrecarguen; no es un mecanismo para impedir que una página web aparezca en Google. Si quieres que una página web no aparezca en Google, bloquea la indexación con noindex o protege la página con una contraseña.

¿Para qué sirve un archivo robots.txt?

Los archivos robots.txt sirven principalmente para gestionar el tráfico de los rastreadores a tu sitio, aunque también suelen usarse para que Google no rastree determinados archivos, según el tipo de archivo:

El efecto de robots.txt en diferentes tipos de archivo
Página web

Puedes usar un archivo robots.txt en páginas web (HTML, PDF y otros formatos no multimedia que Google pueda leer) para gestionar el tráfico de los rastreadores si crees que tu servidor se sobrecargará con solicitudes del rastreador de Google, o para evitar que se rastreen páginas sin importancia o similares de tu sitio.

Si tu página web está bloqueada por un archivo robots.txt, la URL puede seguir apareciendo en los resultados de búsqueda, pero sin ninguna descripción. Se excluirán los archivos de imagen y vídeo, así como los archivos PDF y otros archivos que no sean HTML. Si en la búsqueda se muestra este resultado con tu página y quieres corregirlo, quita del archivo robots.txt la entrada que esté bloqueando la página. Si quieres ocultar la página completamente de la Búsqueda, utiliza otro método.

Archivo multimedia

Con un archivo robots.txt, puedes gestionar el tráfico de los rastreadores y evitar que aparezcan archivos de imagen, vídeo y audio en los resultados de la Búsqueda de Google. Aun así, no impedirá que otras páginas o usuarios incluyan enlaces a tu archivo de imagen, vídeo o audio.

Archivo de recursos Con un archivo robots.txt, puedes bloquear archivos de recursos (como los de imagen, secuencias de comandos o estilo que no sean importantes) si crees que prescindir de ellos no perjudicará considerablemente a las páginas. No obstante, si crees que complicaría el análisis del rastreador de Google, no debes bloquearlos, ya que si lo haces, Google no podrá analizar correctamente páginas que dependan de estos recursos.

Limitaciones de un archivo robots.txt

Antes de crear o editar un archivo robots.txt, deberías conocer las limitaciones de este método de bloqueo de URLs. En función de tus objetivos y de tu situación, quizás te interese usar otros mecanismos para que tus URLs no se puedan encontrar en la Web.

  • Es posible que algunos buscadores no sigan determinadas directivas del archivo robots.txt.
    Los archivos robots.txt no pueden obligar a los rastreadores a seguir sus instrucciones cuando rastrean tu sitio; son los propios rastreadores los que deciden si seguirlas o no. El robot de Google y otros rastreadores web fiables sí cumplen las instrucciones de los archivos robots.txt, pero puede que otros rastreadores no lo hagan. Por tanto, si quieres ocultar información a los rastreadores web, es mejor que utilices otros métodos de bloqueo, como el de proteger con una contraseña los archivos privados que haya en tu servidor.
  • Cada rastreador interpreta la sintaxis de una forma.
    Aunque los rastreadores web de confianza siguen las directivas de los archivos robots.txt, cada rastreador puede interpretar las directivas de forma distinta. Por tanto, debes dirigirte a los diferentes rastreadores web con la sintaxis adecuada, ya que es posible que algunos no entiendan determinadas instrucciones.
  • Es posible que las páginas bloqueadas mediante un archivo robots.txt se indexen si otros sitios incluyen enlaces a ellas.
    Si bien Google no rastrea ni indexa el contenido que está bloqueado con un archivo robots.txt, puede que encontremos e indexemos URLs bloqueadas si hay enlaces a ellas en otros sitios de la Web. En consecuencia, esas URLs y otra información pública, como el texto de los enlaces que llevan a las páginas en cuestión, pueden seguir apareciendo en los resultados de la Búsqueda de Google. Para evitarlo, protege los archivos con contraseña en tu servidor, usa la metaetiqueta o el encabezado de respuesta noindex o simplemente quita la página por completo.

Crear un archivo robots.txt

Consulta cómo crear un archivo robots.txt si piensas que necesitas uno.