Reglas útiles de los archivos robots.txt
A continuación, se indican algunas reglas de robots.txt habituales que te pueden resultar útiles:
| Reglas útiles | |
|---|---|
| Bloquear el rastreo de todo el sitio |
Recuerda que, en algunas situaciones, las URLs del sitio web se indexarán aunque no se hayan rastreado previamente. User-agent: * Disallow: / |
Permitir el rastreo de todo un sitio (con una regla Disallow vacía)
|
De esta forma, se permite explícitamente que todos los rastreadores accedan a todo el sitio. Funcionalmente, es lo mismo que no tener ningún archivo robots.txt o usar una regla User-agent: * Disallow: |
| Bloquear el rastreo de un directorio y de su contenido |
Añade una barra inclinada al final del nombre del directorio para impedir el rastreo de un directorio completo. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
|
Bloquear el rastreo de una sola página web |
Por ejemplo, puedes bloquear la página User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Bloquear el rastreo de todo el sitio excepto un subdirectorio |
Los rastreadores solo pueden acceder al subdirectorio User-agent: * Disallow: / Allow: /public/ |
| Permitir que acceda un solo rastreador |
Solo User-agent: Googlebot-News Allow: / User-agent: * Disallow: / |
| Permitir que accedan todos los rastreadores, excepto uno concreto |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Bloquear el rastreo de todo el sitio, pero permitir |
Con esta regla, las páginas no aparecen en los resultados de la Búsqueda de Google, pero el rastreador web User-agent: * Disallow: / User-agent: Storebot-Google Allow: / |
|
Bloquear todas las imágenes de tu sitio en Google (incluidas las que se muestran en cualquier lugar de Google, como Google Imágenes y Discover) |
Google no puede indexar imágenes ni vídeos sin rastrearlos. User-agent: Googlebot-Image Disallow: / |
|
Bloquear una imagen concreta para que no aparezca en Google Imágenes |
Por ejemplo, puedes inhabilitar la imagen User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Bloquear el rastreo de un tipo de archivo concreto |
Por ejemplo, impedir que se rastreen todos los archivos User-agent: Googlebot Disallow: /*.gif$ |
Usar los comodines * y $ para que las URLs coincidan y terminen en una cadena concreta
|
Por ejemplo, no se permiten archivos User-agent: Googlebot Disallow: /*.xls$ |
| Combinar varios user-agents en un solo grupo |
Al consolidar las reglas de varias rastreadores en un solo grupo, el archivo es más corto y fácil de gestionar, ya que todas las reglas del grupo se aplican a todos los user-agents incluidos. Esto equivale a enumerar los user-agents dos veces con sus respectivas reglas. User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: / |