Regole utili per i file robots.txt
Di seguito alcune regole utili per i file robots.txt:
| Regole utili | |
|---|---|
| Non consentire la scansione dell'intero sito |
Ricorda che, in alcune situazioni, gli URL del sito potrebbero essere comunque indicizzati, anche se non sono stati sottoposti a scansione. User-agent: * Disallow: / |
Consentire la scansione di un intero sito (con una regola Disallow vuota)
|
In questo modo, tutti i crawler possono accedere esplicitamente all'intero sito. È funzionalmente equivalente a non avere alcun file robots.txt o a utilizzare una regola User-agent: * Disallow: |
| Non consentire la scansione di una directory e dei relativi contenuti |
Aggiungi una barra al nome della directory per impedire la scansione di un'intera directory. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
|
Non consentire la scansione di una singola pagina web |
Ad esempio, non consentire la pagina User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Non consentire la scansione dell'intero sito, tranne di una sottodirectory |
I crawler possono accedere solo alla sottodirectory User-agent: * Disallow: / Allow: /public/ |
| Consentire l'accesso a un singolo crawler |
Solo User-agent: Googlebot-News Allow: / User-agent: * Disallow: / |
| Consentire l'accesso a tutti i crawler tranne uno |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Non consentire la scansione di un intero sito, ma consentire |
Questa implementazione consente di non visualizzare le tue pagine nei risultati della Ricerca Google, ma il
web crawler User-agent: * Disallow: / User-agent: Storebot-Google Allow: / |
|
Bloccare tutte le immagini del tuo sito su Google (inclusi tutte le posizioni in cui vengono visualizzate le immagini su Google, tra cui Google Immagini e Feed personalizzato) |
Google non è in grado di indicizzare immagini e video senza eseguirne la scansione. User-agent: Googlebot-Image Disallow: / |
|
Bloccare un'immagine specifica su Google Immagini |
Ad esempio, non consentire l'immagine User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Non consentire la scansione di un tipo di file specifico |
Ad esempio, non consentire la scansione di tutti i file User-agent: Googlebot Disallow: /*.gif$ |
Utilizzare i caratteri jolly * e $ per trovare una corrispondenza con gli URL che terminano con una
stringa specifica
|
Ad esempio, non consentire tutti i file User-agent: Googlebot Disallow: /*.xls$ |
| Combinare più user agent in un unico gruppo |
Il raggruppamento delle regole per più crawler in un unico gruppo rende il file più breve e più facile da gestire, in quanto tutte le regole del gruppo si applicano a ogni user agent elencato. È come elencare due volte gli user agent con le rispettive regole. User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: / |