Regole utili per i file robots.txt

Di seguito alcune regole utili per i file robots.txt:

Regole utili
Non consentire la scansione dell'intero sito	Ricorda che, in alcune situazioni, gli URL del sito potrebbero essere comunque indicizzati, anche se non sono stati sottoposti a scansione. Nota: questa regola non si applica ai vari crawler AdsBot, i cui nomi devono essere indicati espressamente. User-agent: * Disallow: /
Consentire la scansione di un intero sito (con una regola `Disallow` vuota)	In questo modo, tutti i crawler possono accedere esplicitamente all'intero sito. È funzionalmente equivalente a non avere alcun file robots.txt o a utilizzare una regola `Allow: /`. User-agent: * Disallow:
Non consentire la scansione di una directory e dei relativi contenuti	Aggiungi una barra al nome della directory per impedire la scansione di un'intera directory. Attenzione: ricorda di non utilizzare il file robots.txt per bloccare l'accesso ai contenuti privati; utilizza invece un'autenticazione corretta. Gli URL non consentiti dal file robots.txt possono essere comunque indicizzati senza essere sottoposti a scansione e il file robots.txt può essere visualizzato da chiunque, comunicando potenzialmente la posizione di contenuti privati. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
Non consentire la scansione di una singola pagina web	Ad esempio, non consentire la pagina `useless_file.html` in `https://example.com/useless_file.html` e `other_useless_file.html` nella directory `junk`. User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
Non consentire la scansione dell'intero sito, tranne di una sottodirectory	I crawler possono accedere solo alla sottodirectory `public`. User-agent: * Disallow: / Allow: /public/
Consentire l'accesso a un singolo crawler	Solo `Googlebot-News` può eseguire la scansione dell'intero sito. User-agent: Googlebot-News Allow: / User-agent: * Disallow: /
Consentire l'accesso a tutti i crawler tranne uno	`Unnecessarybot` non può eseguire la scansione del sito, tutti gli altri bot possono farlo. User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
Non consentire la scansione di un intero sito, ma consentire `Storebot-Google`	Questa implementazione consente di non visualizzare le tue pagine nei risultati della Ricerca Google, ma il web crawler `Storebot-Google` potrà comunque analizzarle per mostrare i tuoi prodotti su Google Shopping. User-agent: * Disallow: / User-agent: Storebot-Google Allow: /
Bloccare tutte le immagini del tuo sito su Google (inclusi tutte le posizioni in cui vengono visualizzate le immagini su Google, tra cui Google Immagini e Feed personalizzato)	Google non è in grado di indicizzare immagini e video senza eseguirne la scansione. User-agent: Googlebot-Image Disallow: /
Bloccare un'immagine specifica su Google Immagini	Ad esempio, non consentire l'immagine `dogs.jpg`. User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Non consentire la scansione di un tipo di file specifico	Ad esempio, non consentire la scansione di tutti i file `.gif`. User-agent: Googlebot Disallow: /*.gif$
Utilizzare i caratteri jolly `*` e `$` per trovare una corrispondenza con gli URL che terminano con una stringa specifica	Ad esempio, non consentire tutti i file `.xls`. User-agent: Googlebot Disallow: /.xls$ Il carattere jolly `$` indica la fine dell'URL. Ciò significa che qualsiasi URL che contiene caratteri aggiuntivi dopo il pattern (ad esempio parametri URL) non avrà una corrispondenza. Ad esempio, `https://example.com/cats.xls?personality=loki` non* verrà bloccato dalla regola `/*.xls$`.
Combinare più user agent in un unico gruppo	Il raggruppamento delle regole per più crawler in un unico gruppo rende il file più breve e più facile da gestire, in quanto tutte le regole del gruppo si applicano a ogni user agent elencato. È come elencare due volte gli user agent con le rispettive regole. User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: /