Premiers pas
Les fichiers robots.txt résident à la racine des sites. Par exemple, pour le site www.example.com
, le fichier robots.txt se trouve à l'adresse www.example.com/robots.txt
. Il s'agit d'un fichier au format texte brut qui respecte le protocole d'exclusion des robots
et énonce une ou plusieurs règles. Chacune indique si un robot d'exploration donné est autorisé ou non à accéder à un fichier spécifique du site Web, précisé par son chemin d'accès.
Voici un fichier robots.txt simple à deux règles, dont le contenu est expliqué plus bas :
# Group 1 User-agent: Googlebot Disallow: /nogooglebot/ # Group 2 User-agent: * Allow: / Sitemap: http://www.example.com/sitemap.xml
Explication :
-
Le user-agent nommé "Googlebot" n'est pas autorisé à explorer le répertoire
http://example.com/nogooglebot/
ni aucun sous-répertoire. - Tous les autres user-agents sont autorisés à explorer l'ensemble du site. Cette partie peut être omise, car l'accès est supposé complet par principe, et cette précision ne change rien au résultat.
-
Le fichier sitemap du site se trouve à l'adresse
http://www.example.com/sitemap.xml
.
Consultez la section Syntaxe pour obtenir d'autres exemples.
Consignes de base relatives aux fichiers robots.txt
Voici quelques consignes de base pour les fichiers robots.txt. Nous vous recommandons de lire la syntaxe complète des fichiers robots.txt, car elle comporte des subtilités qu'il est important de comprendre.
Format et emplacement
Vous pouvez utiliser presque tous les éditeurs de texte pour créer un fichier robots.txt. L'éditeur de texte doit pouvoir créer des fichiers texte standards au format UTF-8. N'utilisez pas de logiciels de traitement de texte, car ils enregistrent souvent les fichiers dans un format propriétaire et peuvent ajouter des caractères inattendus (des guillemets courbes, par exemple), ce qui peut perturber les robots d'exploration.
Règles relatives au format et à l'emplacement :
- Le fichier doit être nommé robots.txt.
- Votre site ne peut contenir qu'un seul fichier robots.txt.
-
Le fichier robots.txt doit se trouver à la racine de l'hôte du site Web auquel il s'applique. Par exemple, afin de contrôler l'exploration de toutes les URL sous
http://www.example.com/
, le fichier robots.txt doit se trouver à l'adressehttp://www.example.com/robots.txt
. Il ne peut pas être placé dans un sous-répertoire (par exemple, danshttp://example.com/pages/robots.txt
). Si vous ne savez pas comment accéder à la racine de votre site Web ou si vous avez besoin d'autorisations pour le faire, contactez votre fournisseur de services d'hébergement Web. Si vous ne pouvez pas accéder à la racine de votre site Web, utilisez une autre méthode de blocage, comme les balises Meta. -
Un fichier robots.txt peut s'appliquer aux sous-domaines (par exemple,
http://website.example.com/robots.txt
) ou aux ports non standards (par exemple,http://example.com:8181/robots.txt
). - Les commentaires sont représentés par les lignes commençant par le signe
#
.
Syntaxe
- Le fichier robots.txt doit être un fichier texte encodé au format UTF-8 (qui inclut le code ASCII). L'utilisation d'autres jeux de caractères n'est pas possible.
- Un fichier robots.txt se constitue d'un ou de plusieurs groupes.
- Chaque groupe se compose de diverses règles ou directives (instructions), avec une seule directive par ligne.
- Un groupe fournit les informations suivantes :
- Le robot (user-agent) auquel le groupe s'applique
- Les répertoires ou fichiers auxquels cet agent peut accéder, le cas échéant
- Les répertoires ou fichiers auxquels cet agent ne peut pas accéder, le cas échéant
- Les groupes sont traités de haut en bas, et un même user-agent ne peut relever que d'une seule règle, définie comme la première règle la plus spécifique régissant son comportement.
-
Le principe de départ veut qu'à partir du moment où une page ou un répertoire ne sont pas bloqués par une règle
Disallow:
, le user-agent peut les explorer. -
Les règles sont sensibles à la casse. Par exemple,
Disallow: /file.asp
s'applique àhttp://www.example.com/file.asp
, mais pas àhttp://www.example.com/FILE.asp
.
Les directives suivantes sont utilisées dans les fichiers robots.txt :
-
User-agent:
[obligatoire, un ou plusieurs par groupe] : cette instruction spécifie le nom d'un moteur de recherche (logiciel de robot d'exploration) auquel la règle s'applique. Il s'agit de la première ligne de toute règle. Le nom des user-agents Google est répertorié dans la liste Google des user-agents. L'utilisation d'un astérisque (*
), comme dans l'exemple ci-dessous, permet d'englober tous les robots d'exploration, à l'exception des différents robots d'exploration AdsBot, qui doivent être nommés explicitement. Exemples :# Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all but AdsBot crawlers User-agent: * Disallow: /
-
Disallow:
[au moins une ou plusieurs entréesDisallow
ouAllow
par règle] : répertoire ou page d'un domaine racine que vous ne souhaitez pas autoriser le user-agent à explorer. Si la règle fait référence à une page, il doit s'agir du nom complet de la page, tel qu'il apparaît dans le navigateur. Si elle renvoie à un répertoire, elle doit se terminer par le signe/
. -
Allow:
[au moins une ou plusieurs entréesDisallow
ouAllow
par règle] : répertoire ou page du domaine racine, qui doivent être explorés par le user-agent mentionné précédemment. Cette instruction est utilisée pour remplacerDisallow
et autoriser l'exploration d'un sous-répertoire ou d'une page dans un répertoire non autorisé. Pour une seule page, il doit s'agir du nom complet de la page, tel qu'il apparaît dans le navigateur. Dans le cas d'un répertoire, la règle doit se terminer par un signe/
. -
Sitemap:
[Facultatif, zéro ou plus par fichier] : emplacement d'un sitemap pour ce site Web. L'URL du sitemap doit être une URL complète. Google ne déduit pas les variantes (http, https, www, non www, etc.) ni ne les vérifie. Les sitemaps sont un bon moyen d'indiquer quel contenu Google doit explorer, par opposition au contenu qu'il peut ou ne peut pas explorer. Découvrez-en davantage sur les sitemaps. ExempleSitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml
Toutes les instructions, à l'exception de sitemap
, sont compatibles avec le caractère générique *
pour un préfixe, un suffixe ou une chaîne complète de chemin.
Les lignes qui ne correspondent à aucune de ces instructions sont ignorées.
Autre fichier d'exemple
Un fichier robots.txt se compose d'un ou de plusieurs groupes, chacun commençant par une ligne User-agent
qui indique la cible des règles. Voici un fichier comprenant deux groupes. Les commentaires intégrés expliquent chacun d'eux :
# Block googlebot from example.com/directory1/... and example.com/directory2/... # but allow access to directory2/subdirectory1/... # All other directories on the site are allowed by default. User-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Block the entire site from anothercrawler. User-agent: anothercrawler Disallow: /
Syntaxe complète d'un fichier robots.txt
Vous pouvez trouver la syntaxe complète d'un fichier robots.txt ici. Veuillez lire la documentation complète, car la syntaxe d'un fichier robots.txt comporte quelques aspects complexes qu'il est important de connaître.
Règles utiles relatives aux fichiers robots.txt
Voici quelques règles courantes utiles concernant les fichiers robots.txt :
Règle | Exemple |
---|---|
Interdire l'exploration de tout le site Web. Notez que dans certains cas, les URL d'un site Web peuvent être indexées, même sans avoir été explorées. |
User-agent: * Disallow: / |
Interdire l'exploration d'un répertoire et de son contenu en terminant le nom du répertoire par une barre oblique. N'oubliez pas que vous ne devez pas utiliser de fichier robots.txt pour bloquer l'accès à un contenu privé : utilisez plutôt une authentification appropriée. Nous pouvons indexer les URL bloquées par le fichier robot.txt sans les explorer, et n'importe qui peut voir le fichier robots.txt. Ce dernier risque donc de révéler l'emplacement de votre contenu privé. |
User-agent: * Disallow: /calendar/ Disallow: /junk/ |
Autoriser l'accès pour un seul robot d'exploration |
User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
Autoriser l'accès pour tous les robots d'exploration sauf un |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
Interdire l'exploration d'une seule page Web en indiquant la page après la barre oblique : |
User-agent: * Disallow: /private_file.html |
Bloquer une image spécifique dans Google Images : |
User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
Bloquer toutes les images de votre site dans Google Images : |
User-agent: Googlebot-Image Disallow: / |
Interdire l'exploration des fichiers d'un certain type (par exemple, |
User-agent: Googlebot Disallow: /*.gif$ |
Interdire l'exploration de l'ensemble du site, mais afficher des annonces AdSense sur ces pages, bloquer tous les robots d'exploration Web autres que |
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Faire correspondre les URL qui se terminent par une chaîne spécifique, avec $ . Par exemple, le code suivant bloque toutes les URL qui se terminent par .xls :
|
User-agent: Googlebot Disallow: /*.xls$ |