Reglas útiles de robots.txt
A continuación, detallamos algunas reglas comunes de robots.txt que pueden resultarte útiles:
| Reglas útiles | |
|---|---|
| Inhabilitar el rastreo de todo el sitio |
Ten en cuenta que, en determinadas situaciones, se pueden indexar las URL del sitio, incluso si no se las rastreó. User-agent: * Disallow: / |
Permitir el rastreo de todo un sitio (con una regla Disallow vacía)
|
Esto permite explícitamente que todos los rastreadores accedan a todo el sitio. Es funcionalmente equivalente a no tener ningún archivo robots.txt o usar una regla User-agent: * Disallow: |
| Inhabilita el rastreo de un directorio y su contenido. |
Agrega una barra inclinada al nombre del directorio para inhabilitar el rastreo de un directorio completo. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
|
Inhabilitar el rastreo de una sola página web |
Por ejemplo, inhabilita la página User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Inhabilitar el rastreo de todo el sitio, excepto de un subdirectorio |
Los rastreadores solo pueden acceder al subdirectorio User-agent: * Disallow: / Allow: /public/ |
| Permitir acceso a un solo rastreador |
Solo User-agent: Googlebot-News Allow: / User-agent: * Disallow: / |
| Permitir acceso a todos los rastreadores excepto uno |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Inhabilitar el rastreo de todo el sitio, pero permitir |
Esta implementación oculta tus páginas de los resultados de la Búsqueda de Google, pero el rastreador web User-agent: * Disallow: / User-agent: Storebot-Google Allow: / |
|
Bloquear todas las imágenes de tu sitio en Google (incluye todos los lugares en los que se muestran imágenes en Google, como Google Imágenes y Descubre) |
Google no puede indexar imágenes ni videos sin rastrearlos. User-agent: Googlebot-Image Disallow: / |
|
Bloquear el uso de una imagen específica en Google Imágenes |
Por ejemplo, inhabilita la imagen User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Inhabilitar el rastreo de archivos de un tipo de archivo específico |
Por ejemplo, inhabilita el rastreo de todos los archivos User-agent: Googlebot Disallow: /*.gif$ |
Usa los comodines * y $ para hacer coincidir las URLs que terminan con una cadena específica
|
Por ejemplo, inhabilita todos los archivos User-agent: Googlebot Disallow: /*.xls$ |
| Combinar varios usuarios-agentes en un solo grupo |
Consolidar las reglas de varios rastreadores en un solo grupo hace que el archivo sea más corto y más fácil de administrar, ya que todas las reglas del grupo se aplican a cada usuario-agente que se enumera. Esto equivale a enumerar los usuarios-agentes dos veces con las reglas respectivas. User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: / |