Preguntas frecuentes sobre robots

Preguntas generales sobre robots

¿Necesita mi sitio web un archivo robots.txt?

No es necesario. Cuando el robot de Google visita un sitio web, lo primero que hace es intentar obtener el archivo robots.txt para saber si puede rastrear el sitio. Por lo general, los sitios web que no tienen un archivo robots.txt, metaetiquetas robots ni encabezados HTTP X-Robots-Tag se rastrean e indexan con normalidad.

¿Qué método debo utilizar para bloquear rastreadores?

Dependiendo del caso, es recomendable utilizar uno de los métodos que se indican a continuación:

  • robots.txt se utiliza si el rastreo de contenido causa problemas en el servidor. Por ejemplo, con robots.txt, puedes impedir que se rastreen secuencias de comandos de calendarios infinitos. No utilices este método para bloquear contenido privado (usa un método de autenticación en el servidor) ni para gestionar la canonicalización. Para asegurarte de que no se indexe una URL en particular, utiliza la metaetiqueta robots o el encabezado HTTP X-Robots-Tag.
  • Metaetiqueta robots: sirve para controlar cómo se muestra una página HTML concreta en los resultados de búsqueda o para impedir que aparezca en ellos.
  • Encabezado HTTP X-Robots-Tag: sirve para controlar cómo se muestra el contenido en los resultados de búsqueda o para impedir que aparezca en ellos.

¿Puedo retirar el sitio de otro usuario de los resultados de búsqueda usando un archivo robots.txt, una metaetiqueta robots o un encabezado HTTP X-Robots-Tag?

No, estos métodos solo se aplican a los sitios en los que puedes editar el código o añadir archivos. Más información sobre cómo quitar información de Google.

¿Cómo puedo reducir la frecuencia con la que Google rastrea mi sitio web?

Por lo general, puedes modificar el ajuste que controla la frecuencia de rastreo en tu cuenta de Google Search Console.

Preguntas sobre el archivo robots.txt

Si utilizo el mismo archivo robots.txt para diversos sitios web, ¿puedo usar una URL completa en vez de una ruta relativa?

No, las directivas del archivo robots.txt (salvo sitemap:) solo funcionan con rutas relativas.

¿Puedo colocar el archivo robots.txt en un subdirectorio?

No, debes ubicar el archivo en el directorio superior del sitio web.

Si quiero bloquear una carpeta privada, ¿puedo impedir que otras personas lean el archivo robots.txt?

No. El archivo robots.txt lo pueden leer distintos usuarios. Si tienes carpetas o archivos con contenido privado, no los incluyas en el archivo robots.txt. No recomendamos servir archivos robots.txt diferentes en función del user-agent ni de ningún otro atributo.

¿Tengo que incluir una directiva allow para permitir el rastreo?

No, no hace falta que incluyas una directiva allow. Todas las URLs están permitidas de forma implícita, y la directiva allow se utiliza para anular las directivas disallow que haya en el mismo archivo robots.txt.

¿Qué ocurre si hay un error en el archivo robots.txt o si utilizo una directiva no admitida?

Los rastreadores web suelen ser muy flexibles y no pasa nada si hay pequeños errores en el archivo robots.txt. En general, lo peor que puede suceder es que se ignoren las directivas incorrectas o no admitidas. Recuerda que Google no puede saber lo que querías que pusiera un archivo robots.txt, sino que únicamente se limita a interpretar lo que contiene. No obstante, si sabes qué problemas tiene tu archivo robots.txt, será más fácil solucionarlos.

¿Con qué programa tengo que crear mi archivo robots.txt?

Puedes usar cualquier programa que genere un archivo de texto válido. Para crear archivos robots.txt, suelen usarse programas como Bloc de notas, TextEdit, vi o emacs. Consulta más información sobre cómo crear archivos robots.txt. Una vez que hayas creado tu archivo, valídalo con la herramienta Probador de robots.txt.

Si impido que Google rastree una página incluyendo una directiva disallow en el archivo robots.txt, ¿desaparecerá esa página de los resultados de búsqueda?

Si impides que Google rastree una página, es probable que se quite del índice de Google.

Sin embargo, no se garantiza que las páginas que se hayan bloqueado con la directiva disallow en un archivo robots.txt no aparezcan en los resultados, ya que Google puede decidir que esas páginas son pertinentes basándose en información externa (por ejemplo, si hay enlaces a ellas en otras páginas) y mostrar su URL en los resultados. Si quieres impedir explícitamente que se indexe una página, utiliza la metaetiqueta robots noindex o el encabezado HTTP X-Robots-Tag. En ese caso, no bloquees el rastreo de la página en tu archivo robots.txt, ya que hay que rastrearla para ver y seguir las reglas de la etiqueta. Consulta cómo controlar lo que compartes con Google.

¿Cuánto tiempo tiene que pasar para que los cambios hechos en el archivo robots.txt se reflejen en los resultados de búsqueda?

En primer lugar, hay que actualizar la caché del archivo robots.txt, en la que el contenido se suele almacenar durante un día como máximo. Si quieres acelerar este proceso, envía el archivo robots.txt actualizado a Google. Aunque se detecte un cambio, el rastreo y la indexación son procesos complejos, así que los cambios hechos en URLs concretas pueden tardar bastante en aparecer reflejados. Por este motivo, es imposible indicar un plazo exacto. Además, ten en cuenta que, aunque no podamos rastrear una URL porque nos has impedido con el archivo robots.txt acceder a ella, es posible que se muestre igualmente en los resultados de búsqueda. Si quieres que las páginas que has bloqueado para que no aparezcan en Google se retiren cuanto antes, envía una solicitud de retirada.

¿Cómo puedo suspender de manera temporal el rastreo de mi sitio web?

Puedes suspender de manera temporal el rastreo de todas las URLs devolviendo un código de estado HTTP 503 (service unavailable) en todas ellas, incluida en la del archivo robots.txt. Se intentará consultar periódicamente el archivo robots.txt hasta que se recupere el acceso. No es recomendable editar el archivo robots.txt para impedir que se rastree.

Si mi servidor no distingue entre mayúsculas y minúsculas, ¿cómo puedo impedir que se rastreen determinadas carpetas?

En las directivas del archivo robots.txt se distingue entre mayúsculas y minúsculas. En este caso, deberías utilizar métodos de canonicalización para asegurarte de que solo se indexe una versión de las URLs. Al hacerlo, habrá menos líneas en el archivo robots.txt, lo que te permitirá gestionarlas más fácilmente. Si no puedes hacerlo, te recomendamos que indiques las formas habituales de escribir los nombres de las carpetas o que los acortes lo máximo posible utilizando únicamente los primeros caracteres en lugar de los nombres completos. Por ejemplo, en lugar de incluir todas las diferentes permutaciones de mayúsculas y minúsculas de /MyPrivateFolder, podrías indicar solo las permutaciones de "/MyP" (si sabes seguro que no hay ninguna otra URL rastreable que empiece por esos caracteres). Otra alternativa sería utilizar una metaetiqueta robots o un encabezado HTTP X-Robots-Tag si el rastreo no supone un problema.

Si mi sitio devuelve el mensaje 403 Forbidden en todas las URLs, incluido el archivo robots.txt, ¿por qué se sigue rastreando mi sitio?

El código de estado HTTP 403 Forbidden, así como los otros códigos de estado HTTP 4xx, se interpretan como que el archivo robots.txt no existe. Por tanto, los rastreadores suelen asumir que pueden rastrear todas las URLs de un sitio web. Si no quieres que se rastree tu sitio web, devuelve el archivo robots.txt con un código de estado HTTP 200 OK e incluye en él una regla disallow adecuada.

Preguntas sobre la metaetiqueta robots

¿Sustituye la metaetiqueta robots al archivo robots.txt?

No, el archivo robots.txt es quien controla a qué páginas se accede. Por su parte, la metaetiqueta robots determina si una página se puede indexar; sin embargo, para que los rastreadores puedan respetar esta etiqueta, primero tienen que poder acceder a la página. Si el rastreo de una página resulta problemático (por ejemplo, porque la página sobrecargaría el servidor), te recomendamos utilizar el archivo robots.txt. Si basta con que la página no aparezca en los resultados de búsqueda, puedes usar la metaetiqueta robots.

¿Puedo impedir que se indexe una parte de una página con la metaetiqueta robots?

No, la metaetiqueta robots es un ajuste a nivel de página.

¿Puedo utilizar la metaetiqueta robots fuera de una sección <head>?

No, la metaetiqueta robots tiene que incluirse en la sección <head> de las páginas.

¿Impide la metaetiqueta robots el rastreo?

No. Aunque incluyas la metaetiqueta robots noindex en una página, tendremos que volver a rastrear la URL de vez en cuando para comprobar si ha cambiado la metaetiqueta.

¿Qué diferencias hay entre la metaetiqueta robots nofollow y el atributo de enlace rel="nofollow"?

La metaetiqueta robots nofollow afecta a todos los enlaces de una página, mientras que el atributo de enlace rel="nofollow" indica que no debe seguirse el enlace en el que está incluido. Para obtener más información sobre el atributo de enlace rel="nofollow", consulta la documentación sobre spam generado por usuarios y sobre rel="nofollow".

Preguntas sobre el encabezado HTTP X-Robots-Tag

¿Cómo puedo ver el encabezado X-Robots-Tag de una URL?

Para ver fácilmente los encabezados de servidor, puedes utilizar la herramienta de inspección de URLs de Google Search Console. Para comprobar los encabezados de respuesta de cualquier URL, prueba a buscar "comprobador de encabezado de servidor".

¿No encuentras la respuesta que buscas?

Si no encuentras la respuesta a tu pregunta en esta página, consulta los recursos de ayuda de Google para propietarios de sitios.

También tenemos comunidades de ayuda oficiales del Centro de la Búsqueda de Google en los siguientes idiomas: EnglishDeutschEspañolFrançaisItalianoNederlandsPolskiPortuguêsTürkçeРусскийالعربية中文(简体)日本語한국어