Preguntas frecuentes sobre robots

Preguntas generales sobre robots

¿Necesita mi sitio web un archivo robots.txt?

No es necesario. Cuando el robot de Google visita un sitio web, lo primero que hace es intentar obtener el archivo robots.txt para saber si puede rastrear el sitio. Por lo general, los sitios web que no tienen un archivo robots.txt, metaetiquetas robots ni cabeceras HTTP X-Robots-Tag se rastrean e indexan con normalidad.

¿Qué método debo utilizar para bloquear rastreadores?

Dependiendo del caso, es recomendable utilizar uno de los métodos que se indican a continuación:

  • robots.txt se utiliza si el rastreo de contenido causa problemas en el servidor. Por ejemplo, con robots.txt, puedes impedir que se rastreen secuencias de comandos de calendarios infinitos. No utilices este método para bloquear contenido privado (usa un método de autenticación en el servidor) ni para elegir páginas canónicas. Para asegurarte de que no se indexe una URL en particular, utiliza la metaetiqueta robots o la cabecera HTTP X-Robots-Tag.
  • Metaetiqueta robots: sirve para controlar cómo se muestra una página HTML concreta en los resultados de búsqueda o para impedir que aparezca.
  • Cabecera HTTP X-Robots-Tag: se usa para controlar cómo se muestra contenido que no es HTML en los resultados de búsqueda o para impedir que aparezca.

¿Puedo retirar el sitio de otra persona de los resultados de búsqueda con estos métodos?

No, estos métodos solo se aplican a los sitios en los que puedes editar el código o añadir archivos. Más información sobre cómo quitar información de Google.

¿Cómo puedo reducir la frecuencia con la que Google rastrea mi sitio web?

Por lo general, puedes modificar el ajuste que controla la frecuencia de rastreo en tu cuenta de Google Search Console.

Preguntas sobre el archivo robots.txt

Si utilizo el mismo archivo robots.txt para diversos sitios web, ¿puedo usar una URL completa en lugar de una ruta relativa?

No, las directivas del archivo robots.txt (salvo Sitemap:) solo funcionan con rutas relativas.

¿Puedo colocar el archivo robots.txt en un subdirectorio?

No, debes ubicar el archivo en el directorio superior del sitio web.

Si quiero bloquear una carpeta privada, ¿puedo impedir que otras personas lean el archivo robots.txt?

No, el archivo robots.txt lo pueden leer diversos usuarios. Si tienes carpetas o archivos con contenido que no debe ser público, no los incluyas en el archivo robots.txt. No recomendamos servir archivos robots.txt diferentes en función del user-agent ni de ningún otro atributo.

¿Tengo que incluir una directiva allow para permitir el rastreo?

No, no hace falta que incluyas una directiva allow. Las directivas allow se utilizan para anular directivas disallow que haya en el mismo archivo robots.txt.

¿Qué ocurre si hay un error en el archivo robots.txt o si utilizo una directiva no admitida?

Los rastreadores web suelen ser muy flexibles y no pasa nada si hay pequeños errores en el archivo robots.txt. En general, lo peor que puede suceder es que se ignoren las directivas incorrectas o no admitidas. Recuerda que Google no puede saber lo que querías que pusiera un archivo robots.txt, sino que únicamente se limita a interpretar lo que contiene. No obstante, si sabes qué problemas tiene tu archivo robots.txt, será más fácil solucionarlos.

¿Con qué programa tengo que crear mi archivo robots.txt?

Puedes usar cualquier programa que genere un archivo de texto válido. Para crear archivos robots.txt, suelen usarse programas como Bloc de notas, TextEdit, vi o emacs. Consulta más información sobre cómo crear archivos robots.txt. Una vez que hayas creado tu archivo, valídalo con la herramienta Probador de robots.txt.

Si impido que Google rastree una página incluyendo una directiva disallow en el archivo robots.txt, ¿desaparecerá esa página de los resultados de búsqueda?

Si impides que Google rastree una página, es probable que se quite del índice de Google.

Sin embargo, no se garantiza que las páginas que se hayan bloqueado con la directiva Disallow en un archivo robots.txt no aparezcan en los resultados, ya que Google puede decidir que esas páginas son pertinentes basándose en información externa (por ejemplo, en enlaces a ellas presentes en otras páginas). Si quieres impedir explícitamente que se indexe una página, utiliza la metaetiqueta robots noindex o la cabecera HTTP X-Robots-Tag. En ese caso, no bloquees el rastreo de la página en tu archivo robots.txt porque hay que rastrearla para ver y obedecer la etiqueta.

¿Cuánto tiempo tiene que pasar para que los cambios hechos en el archivo robots.txt se reflejen en los resultados de búsqueda?

En primer lugar, hay que actualizar la caché del archivo robots.txt, en la que el contenido se suele almacenar durante un día como máximo. Aunque se detecte un cambio, el rastreo y la indexación son procesos complejos, así que los cambios hechos en URLs concretas pueden tardar bastante en aparecer reflejados. Por este motivo, es imposible indicar un plazo exacto. Además, ten en cuenta que, aunque no podamos rastrear una URL porque nos has impedido con el archivo robots.txt acceder a ella, es posible que se muestre igualmente en los resultados de búsqueda. Si quieres que las páginas que has bloqueado para que no aparezcan en Google se retiren cuanto antes, envía una solicitud de retirada mediante Google Search Console.

¿Cómo puedo suspender de manera temporal el rastreo de mi sitio web?

Puedes suspender de manera temporal el rastreo de todas las URLs devolviendo un código de resultado HTTP 503 en todas ellas, incluida en la del archivo robots.txt. Se intentará consultar periódicamente el archivo robots.txt hasta que se recupere el acceso. No es recomendable editar el archivo robots.txt para impedir el rastreo.

Si mi servidor no distingue entre mayúsculas y minúsculas, ¿cómo puedo impedir que se rastreen determinadas carpetas?

En las directivas del archivo robots.txt se distingue entre mayúsculas y minúsculas. En este caso, deberías utilizar métodos de canonicalización para asegurarte de que solo se indexe una versión de las URLs. Al hacerlo, habrá menos líneas en el archivo robots.txt, lo que te permitirá gestionarlas más fácilmente. Si no puedes hacerlo, te recomendamos que indiques las ortografías habituales de los nombres de las carpetas o que los acortes lo máximo posible mediante los primeros caracteres en lugar de los nombres completos. Por ejemplo, en lugar de incluir todas las diferentes permutaciones de mayúsculas y minúsculas de /MyPrivateFolder, podrías indicar solo las permutaciones de "/MyP" (si sabes seguro que no hay ninguna otra URL rastreable que empiece por esos caracteres). Otra alternativa sería utilizar una metaetiqueta robots o una cabecera HTTP X-Robots-Tag si el rastreo no supone un problema.

Si mi sitio devuelve el mensaje 403 Forbidden en todas las URLs, incluido el archivo robots.txt, ¿por qué se sigue rastreando mi sitio?

El código de estado HTTP 403 Forbidden, al igual que el resto de los códigos de estado HTTP 4xx, se interpreta como que el archivo robots.txt no existe. Por tanto, los rastreadores suelen asumir que pueden rastrear todas las URLs del sitio web. Si no quieres que se rastree tu sitio web, devuelve el archivo robots.txt con un código de estado HTTP 200 OK e incluye en él una regla disallow adecuada.

Preguntas sobre la metaetiqueta robots

¿Sustituye la metaetiqueta robots al archivo robots.txt?

No, el archivo robots.txt es quien controla a qué páginas se accede. Por su parte, la metaetiqueta robots determina si una página se puede indexar; sin embargo, para que los rastreadores puedan respetar esta etiqueta, primero tienen que poder acceder a la página. Si el rastreo de una página resulta problemático (por ejemplo, porque la página sobrecargaría el servidor), te recomendamos utilizar el archivo robots.txt. Si basta con que la página no aparezca en los resultados de búsqueda, puedes usar la metaetiqueta robots.

¿Puedo impedir que se indexe una parte de una página con la metaetiqueta robots?

No, la metaetiqueta robots es un ajuste a nivel de página.

¿Puedo utilizar la metaetiqueta robots fuera de una sección <head>?

No, la metaetiqueta robots tiene que incluirse en la sección <head> de las páginas.

¿Impide la metaetiqueta robots el rastreo?

No. Aunque incluyas la metaetiqueta robots noindex en una página, tendremos que volver a rastrear la URL de vez en cuando para comprobar si ha cambiado la metaetiqueta.

¿Qué diferencias hay entre la metaetiqueta robots nofollow y el atributo de enlace rel="nofollow"?

La metaetiqueta robots nofollow afecta a todos los enlaces de una página, mientras que el atributo de enlace rel="nofollow" indica que no debe seguirse el enlace en el que está incluido. Para obtener más información sobre el atributo de enlace rel="nofollow", consulta la documentación sobre spam generado por usuarios y sobre rel="nofollow".

Preguntas sobre la cabecera HTTP X-Robots-Tag

¿Cómo puedo ver la cabecera X-Robots-Tag de una URL?

Para ver fácilmente las cabeceras de servidor, puedes utilizar un verificador de cabeceras de servidor basado en la Web o la herramienta de inspección de URLs de Google Search Console.

¿No encuentras la respuesta que buscas?

Si no encuentras la respuesta a tu pregunta en esta página, consulta los recursos de ayuda de Google para propietarios de sitios.

También tenemos comunidades de ayuda oficiales del Centro de la Búsqueda de Google en los siguientes idiomas: EnglishDeutschEspañolFrançaisItalianoNederlandsPolskiPortuguêsTürkçeРусскийالعربية中文(简体)日本語한국어