Cómo escribir y enviar un archivo robots.txt

Puedes controlar a qué archivos pueden acceder los rastreadores en tu sitio mediante un archivo robots.txt.

Los archivos robots.txt deben situarse en la raíz de los sitios. Por ejemplo, si tu sitio es www.example.com, este archivo debe estar en www.example.com/robots.txt. Se trata de un archivo de texto sin formato que debe cumplir el estándar de exclusión de robots. Los archivos robots.txt constan de una o varias reglas. Cada regla bloquea o permite el acceso de todos o de un rastreador determinado a una ruta de archivo concreta del dominio o subdominio en el que se aloja el archivo robots.txt. A menos que especifiques lo contrario en el archivo robots.txt, de forma implícita das permiso para rastrear todos los archivos.

A continuación, se muestra un archivo robots.txt sencillo con dos reglas:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: https://www.example.com/sitemap.xml

Esto es lo que hace el archivo robots.txt:

El user-agent Googlebot no puede rastrear ninguna URL que comience por https://example.com/nogooglebot/.
El resto de los user-agents pueden rastrear todo el sitio. Se podría haber omitido esta regla y el resultado habría sido el mismo, ya que los user-agents pueden rastrear todo el sitio de forma predeterminada.
El archivo de sitemap del sitio está en https://www.example.com/sitemap.xml.

Consulta más ejemplos en la sección Sintaxis.

Directrices básicas para crear un archivo robots.txt

Para crear un archivo robots.txt y hacer que sea accesible y útil, hay que seguir cuatro pasos:

Crear un archivo llamado robots.txt.
Añadir reglas al archivo robots.txt.
Sube el archivo robots.txt a la raíz de tu sitio.
Probar el archivo robots.txt.

Crear un archivo robots.txt

Puedes crear archivos robots.txt con prácticamente cualquier editor de texto; por ejemplo, Bloc de notas, TextEdit, vi y emacs pueden crear archivos robots.txt válidos. No utilices procesadores de texto, ya que suelen guardar los archivos en formatos propios y pueden añadir caracteres inesperados, como comillas curvas, que pueden causar problemas a los rastreadores. Guarda el archivo con la codificación UTF-8 si aparece la opción para hacerlo en el cuadro de diálogo para guardar.

Reglas de formato y ubicación:

El archivo debe llamarse robots.txt.
Solo puede haber un archivo robots.txt por sitio.
El archivo robots.txt debe incluirse en la raíz del host del sitio web al que se aplica. Por ejemplo, para controlar el rastreo de todas las URLs de https://www.example.com/, el archivo robots.txt debe estar en https://www.example.com/robots.txt. No se puede colocar en un subdirectorio, como https://example.com/pages/robots.txt. Si no sabes cómo acceder a la raíz de tu sitio web o necesitas permisos para hacerlo, ponte en contacto con tu proveedor de servicios de alojamiento web. Si no puedes acceder a esa raíz, usa un método de bloqueo alternativo, como las etiquetas meta.
Los archivos robots.txt se pueden publicar en un subdominio (como https://website.example.com/robots.txt) o en puertos no estándar (como https://example.com:8181/robots.txt).
Los archivos robots.txt se aplican únicamente a las rutas del protocolo, del host y del puerto en los que se publican. Es decir, las reglas de https://example.com/robots.txt solo se aplican a los archivos de https://example.com/, no a sus subdominios, como https://m.example.com/, o a protocolos alternativos, como http://example.com/.
Los archivos robots.txt deben estar codificados en UTF-8, que incluye ASCII. Google puede ignorar los caracteres que no formen parte del intervalo de UTF-8, lo que puede provocar que las reglas de robots.txt no sean válidas.

Cómo escribir reglas de robots.txt

Las reglas son instrucciones que permiten a los rastreadores saber qué partes de un sitio pueden rastrear. Sigue estas directrices al añadir reglas a tu archivo robots.txt:

Los archivos robots.txt constan de uno o varios grupos (conjunto de reglas).
Cada grupo consta de varias reglas (también denominadas "directivas"). Debe añadirse una directiva por línea. Cada grupo comienza con una línea User-agent en la que se indica el objetivo de los grupos.
En un grupo se proporciona la siguiente información:
- A quién o quiénes se aplica el grupo; es decir, el user‑agent.
- A qué directorios o archivos puede acceder ese user-agent.
- A qué directorios o archivos no puede acceder ese user-agent.
Los rastreadores procesan grupos de arriba abajo y los user-agents solo pueden coincidir con un conjunto de reglas, que es el primer grupo más específico que coincide con un user-agent determinado. Si hay varios grupos para el mismo user-agent, se combinarán en un solo grupo antes del procesamiento.
De forma predeterminada, los user‑agent pueden rastrear todas las páginas y directorios que no estén bloqueados por una regla disallow.
En las reglas se distingue entre mayúsculas y minúsculas. Por ejemplo, disallow: /file.asp se aplica a https://www.example.com/file.asp, pero no a https://www.example.com/FILE.asp.
El carácter # marca el principio de un comentario. Los comentarios se ignoran durante el procesamiento.

Los rastreadores de Google admiten las siguientes reglas en archivos robots.txt:

user-agent: [Debe haber al menos una por grupo] Esta regla indica el nombre del cliente automático, denominado "rastreador de buscador", al que se aplica la regla. Es la primera línea de cualquier grupo de reglas. Puedes consultar nombres de user-agents en la lista de Google de user-agents. El asterisco (*) se aplica a todos los rastreadores, excepto a los de AdsBot, que deben nombrarse explícitamente. Por ejemplo:
```
# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly)
User-agent: *
Disallow: /
```
disallow: [En cada regla debe haber por lo menos una entrada disallow o allow] Indica un directorio o una página del dominio raíz que no quieres que rastree el user-agent. Si la regla hace referencia a una página, debe ser el nombre completo de la página, tal como se muestra en el navegador. Debe comenzar con un carácter / y, si hace referencia a un directorio, debe terminar con el carácter /.
allow: [En cada regla debe haber por lo menos una entrada disallow o allow] Indica los directorios o las páginas del dominio raíz que el user‑agent que se haya especificado en el grupo debe rastrear. Sirve para anular la regla disallow y permitir que se rastree un determinado subdirectorio o una determinada página de un directorio bloqueado. Si se trata de una sola página, especifica su nombre completo tal como se muestra en el navegador. Debe comenzar con un carácter / y, si hace referencia a un directorio, debe terminar con el carácter /.
sitemap: [Opcional; puede haber uno, varios o ninguno en cada archivo] Indica la ubicación de un sitemap de este sitio web. La URL del sitemap debe ser una URL cualificada, ya que Google no comprueba alternativas con o sin www, o con http o https. Los sitemaps son una buena forma de indicar el contenido que Google debe, puede o no puede rastrear. Consulta más información sobre los sitemaps. Ejemplo:
```
Sitemap: https://example.com/sitemap.xml
Sitemap: https://www.example.com/sitemap.xml
```

En todas las reglas, salvo en sitemap, se puede usar el comodín * como prefijo, sufijo o cadena de ruta.

Se ignorarán las líneas que no coincidan con ninguna de estas reglas.

Lee nuestra página acerca de la interpretación de Google sobre la especificación de robots.txt para consultar una descripción completa de cada regla.

Subir el archivo robots.txt

Una vez que hayas guardado el archivo robots.txt en tu ordenador, podrás ponerlo a disposición de los rastreadores de los buscadores. No hay ninguna herramienta que pueda ayudarte con este paso, ya que la forma de subir el archivo robots.txt al sitio depende de la arquitectura del servidor y del sitio. Ponte en contacto con tu empresa de alojamiento o busca su documentación. Por ejemplo, busca "subir archivos infomaniak".

Después de subir el archivo robots.txt, comprueba si es de acceso público y si Google puede analizarlo.

Probar el marcado del archivo robots.txt

Para comprobar si el archivo robots.txt que has subido es de acceso público, abre una ventana de navegación privada (o equivalente) en tu navegador y desplázate a la ubicación del archivo robots.txt. Por ejemplo, https://example.com/robots.txt. Si ves el contenido del archivo robots.txt, ya puedes probar el marcado.

Google ofrece dos opciones para probar el marcado de los archivos robots.txt:

El Probador de robots.txt de Search Console. Esta herramienta solo se puede utilizar con archivos robots.txt que ya estén accesibles en tu sitio.
Si eres desarrollador, consulta la biblioteca de robots.txt de código abierto de Google, que también se utiliza en la Búsqueda de Google. Puedes usar esta herramienta para probar archivos robots.txt en tu propio ordenador.

Enviar el archivo robots.txt a Google

Una vez que hayas subido y probado tu archivo robots.txt, los rastreadores de Google buscarán y empezarán a usar el archivo robots.txt automáticamente. No tienes que hacer nada. Si has actualizado tu archivo robots.txt y necesitas actualizar la copia almacenada en caché de Google lo antes posible, consulta cómo enviar un archivo robots.txt actualizado.

Reglas útiles de los archivos robots.txt

A continuación, se indican algunas reglas de robots.txt habituales que te pueden resultar útiles:

Reglas útiles
Bloquear el rastreo de todo el sitio web	Recuerda que, en algunas situaciones, las URLs del sitio web se indexarán aunque no se hayan rastreado previamente. Nota: Esta regla no afecta a los rastreadores de AdsBot, que deben nombrarse explícitamente. User-agent: * Disallow: /
Bloquear el rastreo de un directorio y de su contenido	Añade una barra inclinada al final del nombre del directorio para impedir el rastreo de un directorio completo. Advertencia: Recuerda que no debes bloquear el acceso al contenido privado mediante el archivo robots.txt. Para eso, debes usar una autenticación adecuada. Las URLs bloqueadas por el archivo robots.txt podrían seguir indexándose aunque no se rastreen, y el archivo robots.txt puede ser visto por cualquiera, lo cual podría revelar la ubicación de tu contenido privado. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
Permitir que acceda un solo rastreador	Solo `googlebot-news` puede rastrear todo el sitio. User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
Permitir que accedan todos los rastreadores, excepto uno concreto	`Unnecessarybot` no puede rastrear el sitio, pero el resto de los robots sí podrán hacerlo. User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
Bloquear el rastreo de una sola página web	Por ejemplo, puedes bloquear la página `useless_file.html` que se encuentra en `https://example.com/useless_file.html` y `other_useless_file.html` en el directorio `junk`. User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
Bloquear el rastreo de todo el sitio excepto un subdirectorio	Los rastreadores solo pueden acceder al subdirectorio `public`. User-agent: * Disallow: / Allow: /public/
Bloquear una imagen concreta para que no aparezca en Google Imágenes	Por ejemplo, puedes inhabilitar la imagen `dogs.jpg`. User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Bloquear todas las imágenes que haya en tu sitio para que no aparezcan en Google Imágenes	Google no puede indexar imágenes ni vídeos sin rastrearlos. User-agent: Googlebot-Image Disallow: /
Bloquear el rastreo de un tipo de archivo concreto	Por ejemplo, impedir que se rastreen todos los archivos `.gif`. User-agent: Googlebot Disallow: /*.gif$
Bloquear el rastreo de todo el sitio, pero permitir `Mediapartners-Google`	Con esta regla, las páginas no aparecen en los resultados de búsqueda, pero el rastreador web `Mediapartners-Google` aún puede analizarlas para decidir qué anuncios se mostrarán a los visitantes del sitio. User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Usar los comodines `*` y `$` para que las URLs coincidan y terminen en una cadena concreta	Por ejemplo, no se permiten archivos `.xls`. User-agent: Googlebot Disallow: /*.xls$