Reglas útiles de robots.txt

A continuación, detallamos algunas reglas comunes de robots.txt que pueden resultarte útiles:

Reglas útiles
Inhabilitar el rastreo de todo el sitio

Ten en cuenta que, en determinadas situaciones, se pueden indexar las URL del sitio, incluso si no se las rastreó.

User-agent: *
Disallow: /
Permitir el rastreo de todo un sitio (con una regla Disallow vacía)

Esto permite explícitamente que todos los rastreadores accedan a todo el sitio. Es funcionalmente equivalente a no tener ningún archivo robots.txt o usar una regla Allow: /.

User-agent: *
Disallow:
Inhabilita el rastreo de un directorio y su contenido.

Agrega una barra inclinada al nombre del directorio para inhabilitar el rastreo de un directorio completo.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/

Inhabilitar el rastreo de una sola página web

Por ejemplo, inhabilita la página useless_file.html ubicada en https://example.com/useless_file.html, y other_useless_file.html en el directorio junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Inhabilitar el rastreo de todo el sitio, excepto de un subdirectorio

Los rastreadores solo pueden acceder al subdirectorio public.

User-agent: *
Disallow: /
Allow: /public/
Permitir acceso a un solo rastreador

Solo Googlebot-News puede rastrear todo el sitio.

User-agent: Googlebot-News
Allow: /

User-agent: *
Disallow: /
Permitir acceso a todos los rastreadores excepto uno

Unnecessarybot no puede rastrear el sitio, pero todos los demás bots sí.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Inhabilitar el rastreo de todo el sitio, pero permitir Storebot-Google

Esta implementación oculta tus páginas de los resultados de la Búsqueda de Google, pero el rastreador web Storebot-Google puede analizarlas para mostrar tus productos en Google Shopping.

User-agent: *
Disallow: /

User-agent: Storebot-Google
Allow: /

Bloquear todas las imágenes de tu sitio en Google (incluye todos los lugares en los que se muestran imágenes en Google, como Google Imágenes y Descubre)

Google no puede indexar imágenes ni videos sin rastrearlos.

User-agent: Googlebot-Image
Disallow: /

Bloquear el uso de una imagen específica en Google Imágenes

Por ejemplo, inhabilita la imagen dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Inhabilitar el rastreo de archivos de un tipo de archivo específico

Por ejemplo, inhabilita el rastreo de todos los archivos .gif.

User-agent: Googlebot
Disallow: /*.gif$
Usa los comodines * y $ para hacer coincidir las URLs que terminan con una cadena específica

Por ejemplo, inhabilita todos los archivos .xls:

User-agent: Googlebot
Disallow: /*.xls$
Combinar varios usuarios-agentes en un solo grupo

Consolidar las reglas de varios rastreadores en un solo grupo hace que el archivo sea más corto y más fácil de administrar, ya que todas las reglas del grupo se aplican a cada usuario-agente que se enumera. Esto equivale a enumerar los usuarios-agentes dos veces con las reglas respectivas.

User-agent: Googlebot
User-agent: Storebot-Google
Allow: /cats
Disallow: /