Introducción a los archivos robots.txt

Un archivo robots.txt indica a los rastreadores de los buscadores a qué URLs de tu sitio pueden acceder. Principalmente, se utiliza para evitar que las solicitudes que recibe tu sitio lo sobrecarguen; no es un mecanismo para impedir que una página web aparezca en Google. Si quieres que una página web no aparezca en Google, bloquea la indexación con noindex o protege la página con una contraseña.

¿Para qué sirve un archivo robots.txt?

Los archivos robots.txt sirven principalmente para gestionar el tráfico de los rastreadores a tu sitio, aunque también suelen usarse para que Google no rastree determinados archivos, según el tipo de archivo:

El efecto de robots.txt en diferentes tipos de archivo

Página web

El efecto de robots.txt en diferentes tipos de archivo
Página web	Puedes usar un archivo robots.txt en páginas web (HTML, PDF y otros formatos no multimedia que Google pueda leer) para gestionar el tráfico de los rastreadores si crees que tu servidor se sobrecargará con solicitudes del rastreador de Google, o para evitar que se rastreen páginas sin importancia o similares de tu sitio. Advertencia: No utilices un archivo robots.txt para impedir que tus páginas web (incluidos PDFs y otros formatos de texto compatibles con Google) aparezcan en los resultados de la Búsqueda de Google. Es posible que acaben indexándose, aunque no se visiten, si hay otras páginas que dirigen a ella con texto descriptivo. Si quieres impedir que una página aparezca en los resultados de búsqueda, usa otro método. Por ejemplo, protégela con una contraseña o utiliza una directiva `noindex`. Si tu página web está bloqueada por un archivo robots.txt, la URL puede seguir apareciendo en los resultados de búsqueda, pero sin ninguna descripción. Los archivos de imagen, de vídeo, PDFs y otros archivos que no sean HTML insertados en la página bloqueada tampoco se rastrearán, a menos que se haga referencia a ellos en otras páginas que sí se puedan rastrear. Si en la búsqueda se muestra este resultado con tu página y quieres corregirlo, quita del archivo robots.txt la entrada que está bloqueando la página. Si quieres ocultar la página completamente de la Búsqueda, utiliza otro método.
Archivo multimedia	Con un archivo robots.txt, puedes gestionar el tráfico de los rastreadores y evitar que aparezcan archivos de imagen, vídeo y audio en los resultados de la Búsqueda de Google. Aun así, no impedirá que otras páginas o usuarios incluyan enlaces a tu archivo de imagen, vídeo o audio. Más información sobre cómo evitar que aparezcan imágenes en Google Más información sobre cómo retirar o restringir archivos de vídeo para que no se muestren en Google
Archivo de recursos	Con un archivo robots.txt, puedes bloquear archivos de recursos (como los de imagen, secuencias de comandos o estilo que no sean importantes) si crees que prescindir de ellos no perjudicará considerablemente a las páginas. No obstante, si crees que complicaría el análisis del rastreador de Google, no debes bloquearlos, ya que si lo haces, Google no podrá analizar correctamente páginas que dependan de estos recursos.

Puedes usar un archivo robots.txt en páginas web (HTML, PDF y otros formatos no multimedia que Google pueda leer) para gestionar el tráfico de los rastreadores si crees que tu servidor se sobrecargará con solicitudes del rastreador de Google, o para evitar que se rastreen páginas sin importancia o similares de tu sitio.

Si tu página web está bloqueada por un archivo robots.txt, la URL puede seguir apareciendo en los resultados de búsqueda, pero sin ninguna descripción. Los archivos de imagen, de vídeo, PDFs y otros archivos que no sean HTML insertados en la página bloqueada tampoco se rastrearán, a menos que se haga referencia a ellos en otras páginas que sí se puedan rastrear. Si en la búsqueda se muestra este resultado con tu página y quieres corregirlo, quita del archivo robots.txt la entrada que está bloqueando la página. Si quieres ocultar la página completamente de la Búsqueda, utiliza otro método.

Archivo multimedia

Con un archivo robots.txt, puedes gestionar el tráfico de los rastreadores y evitar que aparezcan archivos de imagen, vídeo y audio en los resultados de la Búsqueda de Google. Aun así, no impedirá que otras páginas o usuarios incluyan enlaces a tu archivo de imagen, vídeo o audio.

Archivo de recursos Con un archivo robots.txt, puedes bloquear archivos de recursos (como los de imagen, secuencias de comandos o estilo que no sean importantes) si crees que prescindir de ellos no perjudicará considerablemente a las páginas. No obstante, si crees que complicaría el análisis del rastreador de Google, no debes bloquearlos, ya que si lo haces, Google no podrá analizar correctamente páginas que dependan de estos recursos.

Limitaciones de un archivo robots.txt

Antes de crear o editar un archivo robots.txt, deberías conocer las limitaciones de este método de bloqueo de URLs. En función de tus objetivos y de tu situación, quizás te interese usar otros mecanismos para que tus URLs no se puedan encontrar en la Web.

Algunos buscadores pueden no seguir determinadas reglas del archivo robots.txt.
Los archivos robots.txt no pueden obligar a los rastreadores a seguir sus instrucciones cuando rastrean tu sitio; son los propios rastreadores los que deciden si seguirlas o no. El robot de Google y otros rastreadores web fiables sí cumplen las instrucciones de los archivos robots.txt, pero puede que otros rastreadores no lo hagan. Por tanto, si quieres ocultar información a los rastreadores web, es mejor que utilices otros métodos de bloqueo, como el de proteger con una contraseña los archivos privados que haya en tu servidor.
Cada rastreador interpreta la sintaxis de una forma.
Aunque los rastreadores web de confianza siguen las reglas de los archivos robots.txt, cada rastreador puede interpretar las reglas de forma distinta. Por tanto, debes dirigirte a los diferentes rastreadores web con la sintaxis adecuada, ya que es posible que algunos no entiendan determinadas instrucciones.
Es posible que las páginas bloqueadas mediante un archivo robots.txt se indexen si otros sitios incluyen enlaces a ellas.
Si bien Google no rastrea ni indexa el contenido que está bloqueado con un archivo robots.txt, puede que encontremos e indexemos URLs bloqueadas si hay enlaces a ellas en otros sitios de la Web. En consecuencia, esas URLs y otra información pública, como el texto de los enlaces que llevan a las páginas en cuestión, pueden seguir apareciendo en los resultados de la Búsqueda de Google. Para evitarlo, protege los archivos con contraseña en tu servidor, usa la etiqueta meta o el encabezado de respuesta noindex o simplemente quita la página por completo.

Crear o actualizar un archivo robots.txt

Consulta cómo crear un archivo robots.txt si piensas que necesitas uno. Si ya tienes uno, consulta cómo actualizarlo.

¿Quieres obtener más información? Consulta los siguientes recursos: