Reglas útiles de los archivos robots.txt

A continuación, se indican algunas reglas de robots.txt habituales que te pueden resultar útiles:

Reglas útiles
Bloquear el rastreo de todo el sitio

Recuerda que, en algunas situaciones, las URLs del sitio web se indexarán aunque no se hayan rastreado previamente.

User-agent: *
Disallow: /
Permitir el rastreo de todo un sitio (con una regla Disallow vacía)

De esta forma, se permite explícitamente que todos los rastreadores accedan a todo el sitio. Funcionalmente, es lo mismo que no tener ningún archivo robots.txt o usar una regla Allow: /.

User-agent: *
Disallow:
Bloquear el rastreo de un directorio y de su contenido

Añade una barra inclinada al final del nombre del directorio para impedir el rastreo de un directorio completo.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/

Bloquear el rastreo de una sola página web

Por ejemplo, puedes bloquear la página useless_file.html que se encuentra en https://example.com/useless_file.html y other_useless_file.html en el directorio junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Bloquear el rastreo de todo el sitio excepto un subdirectorio

Los rastreadores solo pueden acceder al subdirectorio public.

User-agent: *
Disallow: /
Allow: /public/
Permitir que acceda un solo rastreador

Solo Googlebot-News puede rastrear todo el sitio.

User-agent: Googlebot-News
Allow: /

User-agent: *
Disallow: /
Permitir que accedan todos los rastreadores, excepto uno concreto

Unnecessarybot no puede rastrear el sitio, pero el resto de los robots sí podrán hacerlo.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Bloquear el rastreo de todo el sitio, pero permitir Storebot-Google

Con esta regla, las páginas no aparecen en los resultados de la Búsqueda de Google, pero el rastreador web Storebot-Google puede seguir analizándolas para mostrar sus productos en Google Shopping.

User-agent: *
Disallow: /

User-agent: Storebot-Google
Allow: /

Bloquear todas las imágenes de tu sitio en Google (incluidas las que se muestran en cualquier lugar de Google, como Google Imágenes y Discover)

Google no puede indexar imágenes ni vídeos sin rastrearlos.

User-agent: Googlebot-Image
Disallow: /

Bloquear una imagen concreta para que no aparezca en Google Imágenes

Por ejemplo, puedes inhabilitar la imagen dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Bloquear el rastreo de un tipo de archivo concreto

Por ejemplo, impedir que se rastreen todos los archivos .gif.

User-agent: Googlebot
Disallow: /*.gif$
Usar los comodines * y $ para que las URLs coincidan y terminen en una cadena concreta

Por ejemplo, no se permiten archivos .xls:

User-agent: Googlebot
Disallow: /*.xls$
Combinar varios user-agents en un solo grupo

Al consolidar las reglas de varias rastreadores en un solo grupo, el archivo es más corto y fácil de gestionar, ya que todas las reglas del grupo se aplican a todos los user-agents incluidos. Esto equivale a enumerar los user-agents dos veces con sus respectivas reglas.

User-agent: Googlebot
User-agent: Storebot-Google
Allow: /cats
Disallow: /