Introduzione ai file robots.txt

Cos'è un file robots.txt?

Un file robots.txt fa capire ai crawler dei motori di ricerca quali pagine o file possono o non possono richiedere dal tuo sito. Viene usato principalmente per evitare di sovraccaricare di richieste il sito; non è un meccanismo che permette di escludere una pagina web da Google. Per escludere una pagina web da Google, devi usare istruzioni noindex oppure proteggere tramite password la pagina.

Per cosa viene utilizzato un file robots.txt?

Un file robots.txt viene usato principalmente per gestire il traffico dei crawler verso il tuo sito e solitamente per escludere un file da Google, a seconda del tipo di file:

Tipo di file Gestione del traffico Nascondere da Google Descrizione
Pagina web

Per le pagine web (HTML, PDF o altri formati non multimediali che Google può leggere), un file robots.txt ti consente di gestire il traffico di scansione se ritieni che il server possa essere sovraccaricato di richieste dal crawler di Google oppure di evitare che venga eseguita la scansione di pagine simili o non importanti del tuo sito.

Non devi utilizzare un file robots.txt come mezzo per nascondere le pagine web dai risultati di ricerca di Google. Questo perché, se altre pagine rimandano a una pagina del tuo sito con testo descrittivo, la pagina del tuo sito potrebbe essere comunque indicizzata anche se non è stata visitata. Se vuoi impedire la visualizzazione della tua pagina nei risultati di ricerca, utilizza un altro metodo, ad esempio la protezione tramite password oppure un'istruzione noindex.

Se la pagina web è bloccata da un file robots.txt, potrebbe comunque essere mostrata nei risultati di ricerca, ma il risultato di ricerca non avrà una descrizione e sarà simile a quello mostrato in questa pagina. I file immagine, i file video, i PDF e altri file non HTML verranno esclusi. Se vedi questo risultato di ricerca per la tua pagina e vuoi sistemarlo, rimuovi la voce del file robots.txt che blocca la pagina. Se vuoi escludere completamente la pagina dai risultati di ricerca, usa un altro metodo.

File multimediale

Utilizza un file robots.txt per gestire il traffico di scansione e anche per impedire la visualizzazione di file immagine, video e audio nei risultati di ricerca di Google. Tieni presente che non verrà impedito ad altri utenti o pagine di rimandare al tuo file immagine/video/audio.

File di risorse Puoi utilizzare un file robots.txt per bloccare i file di risorse, come file immagine, script o stile non importanti, se ritieni che le pagine caricate senza tali risorse non subiranno conseguenze significative in seguito alla perdita. Tuttavia, se l'assenza di queste risorse complica la comprensione della pagina per il crawler di Google, non devi bloccarle, altrimenti Google non potrà garantire buoni risultati nell'analisi delle tue pagine che dipendono da tali risorse.

Uso un servizio di hosting di siti

Se usi un servizio di hosting di siti, come Wix, Drupal o Blogger, potrebbe non essere necessario (o essere possibile) modificare direttamente il file robots.txt. Al contrario, il tuo provider potrebbe presentare una pagina di impostazioni per la ricerca o qualche altro modo per indicare ai motori di ricerca se eseguire o meno la scansione della tua pagina.

Per sapere se una pagina è stata sottoposta a scansione da Google, cerca il relativo URL su Google.

Se vuoi nascondere (o mostrare) la tua pagina ai motori di ricerca, aggiungi (o rimuovi) gli eventuali requisiti di accesso alla pagina e cerca istruzioni sulla modifica della visibilità della pagina nei motori di ricerca sul tuo servizio di hosting, ad esempio: wix nascondere pagina dai motori di ricerca

Comprendere i limiti di un file robots.txt

Prima di creare o modificare un file robots.txt, dovresti conoscere i limiti di questo metodo di blocco degli URL. Può essere opportuno prendere in considerazione altri metodi per assicurarti che i tuoi URL non siano rintracciabili sul Web.

  • Le istruzioni del file robots.txt potrebbero non essere supportate da tutti i motori di ricerca
    Quelle nei file robots.txt non possono imporre il comportamento del crawler per il tuo sito, ma spetta al crawler rispettarle. Googlebot e altri web crawler affidabili seguono le istruzioni contenute in un file robots.txt, ma non è detto che altri crawler facciano altrettanto. Pertanto, per proteggere le informazioni dai web crawler, ti consigliamo di utilizzare altri metodi di blocco, ad esempio la protezione tramite password dei file privati presenti sul tuo server.
  • Crawler diversi interpretano la sintassi in modo diverso
    Anche se i web crawler affidabili si attengono alle istruzioni di un file robots.txt, alcuni potrebbero interpretarle in modo diverso. È necessario conoscere la sintassi più appropriata da applicare ai diversi web crawler, poiché alcuni potrebbero non comprendere determinate istruzioni.
  • Una pagina bloccata dal file robots.txt può comunque essere indicizzata se altri siti hanno link che rimandano alla pagina
    Sebbene Google non esegua la scansione o l'indicizzazione dei contenuti bloccati da un file robots.txt, potrebbe comunque trovare e indicizzare un URL non consentito se altre posizioni del Web hanno link che rimandano a tale URL. Di conseguenza, l'indirizzo URL e, potenzialmente, anche altre informazioni disponibili pubblicamente, quali l'anchor text nei link che rimandano alla pagina, potrebbero continuare a essere visualizzati nei risultati di ricerca di Google. Per evitare che l'URL venga visualizzato nei risultati di ricerca di Google, dovresti proteggere tramite password i file sul server oppure usare l'intestazione della risposta o il meta tag noindex (o ancora rimuovere completamente la pagina).

Testare il blocco di una pagina da parte del file robots.txt

Puoi verificare se una pagina o una risorsa è bloccata da una regola del file robots.txt.

Per testare le istruzioni noindex, usa lo strumento Controllo URL.