Règles utiles relatives aux fichiers robots.txt

Voici quelques règles courantes utiles concernant les fichiers robots.txt :

Règles utiles
Interdire l'exploration de l'ensemble du site

Notez que dans certains cas, les URL d'un site peuvent être indexées, même sans avoir été explorées.

User-agent: *
Disallow: /
Autoriser l'exploration de tout un site (avec une règle Disallow vide)

Cela autorise explicitement tous les robots d'exploration à accéder à l'ensemble du site. Cela revient à n'avoir aucun fichier robots.txt ou à utiliser une règle Allow: /.

User-agent: *
Disallow:
Interdire l'exploration d'un répertoire et de son contenu

Ajoutez une barre oblique au nom du répertoire pour en empêcher l'exploration.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/

Interdire l'exploration d'une seule page Web

Par exemple, interdisez l'exploration de la page useless_file.html située aux emplacements https://example.com/useless_file.html et other_useless_file.html dans le répertoire junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Interdire l'exploration de tout le site Web, sauf un sous-répertoire

Les robots d'exploration ont uniquement accès au sous-répertoire public.

User-agent: *
Disallow: /
Allow: /public/
Autoriser l'accès pour un seul robot d'exploration

Seul Googlebot-News peut explorer l'ensemble du site.

User-agent: Googlebot-News
Allow: /

User-agent: *
Disallow: /
Autoriser l'accès pour tous les robots d'exploration sauf un

Unnecessarybot risque de ne pas explorer le site, contrairement à tous les autres robots.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Interdire l'exploration de tout un site, mais autoriser Storebot-Google

Cette implémentation masque vos pages dans les résultats de recherche Google, mais le robot d'exploration Storebot-Google peut toujours les analyser pour afficher vos produits sur Google Shopping.

User-agent: *
Disallow: /

User-agent: Storebot-Google
Allow: /

Bloquer toutes les images de votre site sur Google (y compris partout où elles s'affichent sur Google, y compris Google Images et Discover)

Nous ne pouvons pas indexer les images ni les vidéos sans les explorer.

User-agent: Googlebot-Image
Disallow: /

Bloquer une image spécifique sur Google Images

Par exemple, interdisez l'exploration de l'image dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Interdire l'exploration de certains types de fichiers

Par exemple, interdisez l'exploration de tous les fichiers .gif.

User-agent: Googlebot
Disallow: /*.gif$
Utilisez les caractères génériques * et $ pour cibler les URL qui se terminent par une chaîne spécifique.

Par exemple, interdisez l'exploration de tous les fichiers .xls :

User-agent: Googlebot
Disallow: /*.xls$
Combiner plusieurs user-agents dans un même groupe

En regroupant les règles de plusieurs robots d'exploration dans un même groupe, vous pouvez raccourcir le fichier et le gérer plus facilement, car toutes les règles du groupe s'appliquent à chaque user-agent répertorié. Cela revient à lister les user-agents deux fois avec les règles respectives.

User-agent: Googlebot
User-agent: Storebot-Google
Allow: /cats
Disallow: /