Domande frequenti (FAQ) relative agli elementi robots

Domande generali sui file robots

Il mio sito web ha bisogno di un file robots.txt?

No. Quando Googlebot visita un sito web, come prima cosa Google chiede l'autorizzazione a eseguire la scansione cercando di recuperare il file robots.txt. In genere, un sito web senza file robots.txt, meta tag robots o intestazioni HTTP X-Robots-Tag viene sottoposto a scansione e indicizzato normalmente.

Quale metodo devo utilizzare per bloccare i crawler?

Dipende. In breve, ci sono motivi validi per utilizzare ognuno di questi metodi:

  • File robots.txt: utilizza questo metodo se la scansione dei tuoi contenuti causa problemi sul server. Ad esempio, potrebbe essere utile non consentire la scansione di script di calendario illimitati. Non devi utilizzare il file robots.txt per bloccare contenuti privati (per farlo, utilizza l'autenticazione lato server) o per gestire la canonicalizzazione. Per assicurarti che un URL non venga indicizzato, utilizza invece il meta tag robots o l'intestazione HTTP X-Robots-Tag.
  • Meta tag robots: utilizza questo metodo se devi controllare in che modo una singola pagina HTML viene visualizzata nei risultati di ricerca (o per assicurarti che non venga mostrata).
  • Intestazione HTTP X-Robots-Tag: utilizza questo metodo se devi controllare in che modo i contenuti non HTML vengono visualizzati nei risultati di ricerca (o per assicurarti che non vengano mostrati).

Posso utilizzare questi metodi per rimuovere il sito di un'altra persona dai risultati di ricerca?

No. Questi metodi sono applicabili solo per i siti in cui puoi modificare il codice o aggiungere file. Scopri di più sulla rimozione di informazioni da Google.

Come faccio a rallentare la scansione del mio sito web da parte di Google?

In genere, puoi regolare l'impostazione relativa alla frequenza di scansione nel tuo account Google Search Console.

Domande sul file robots.txt

Utilizzo lo stesso file robots.txt per più siti web. Posso utilizzare un URL completo anziché un percorso relativo?

No. Le istruzioni contenute nel file robots.txt (ad eccezione di Sitemap:) sono valide solo per i percorsi relativi.

Posso inserire il file robots.txt in una sottodirectory?

No. Il file deve trovarsi nella directory principale del sito web.

Voglio bloccare una cartella privata. Posso impedire ad altre persone di leggere il mio file robots.txt?

No. Il file robots.txt può essere letto da vari utenti. Se vuoi mantenere privati elementi come cartelle o nomi file dei contenuti, non elencarli nel file robots.txt. È sconsigliato pubblicare file robots.txt differenti in base allo user agent o ad altri attributi.

Devo includere un'istruzione allow per consentire la scansione?

No, non devi includere un'istruzione allow. L'istruzione allow viene utilizzata per eseguire l'override delle istruzioni disallow nello stesso file robots.txt.

Cosa succede se il mio file robots.txt contiene un errore o utilizza un'istruzione non supportata?

Di solito i web crawler sono molto flessibili e non vengono influenzati da piccoli errori nel file robots.txt. In generale, il peggio che può capitare è che istruzioni errate/non supportate vengano ignorate. Ricorda, però, che Google non può fare deduzioni in relazione al file robots.txt, ma si limita a interpretare il file recuperato. Detto questo, gli eventuali problemi nel tuo file robots.txt sono di solito facili da risolvere.

Quale programma devo utilizzare per creare un file robots.txt?

Puoi utilizzare qualsiasi programma in grado di creare un file di testo valido. I programmi comunemente utilizzati per creare file robots.txt sono Blocco note, TextEdit, vi o Emacs. Scopri di più sulla creazione di file robots.txt. Dopo aver creato il file, convalidalo usando lo strumento Tester dei file robots.txt.

Se impedisco a Google di eseguire la scansione di una pagina utilizzando un'istruzione disallow nel file robots.txt, la pagina scompare dai risultati di ricerca?

Se impedisci a Google di eseguire la scansione di una pagina, è probabile che questa venga rimossa dall'indice di Google.

Tuttavia, l'istruzione Disallow non garantisce che una pagina non venga visualizzata nei risultati: Google potrebbe comunque decidere, in base a informazioni esterne come i link in entrata, che tale pagina sia pertinente. Se vuoi bloccare esplicitamente l'indicizzazione di una pagina, utilizza il meta tag robots noindex o l'intestazione HTTP X-Robots-Tag. In questo caso, devi comunque consentire la pagina nel file robots.txt: per far sì che il tag venga riconosciuto e applicato, la pagina deve poter essere sottoposta a scansione.

Dopo quanto tempo le modifiche apportate al file robots.txt vengono applicate ai risultati di ricerca?

Innanzitutto, la cache del file robots.txt deve essere aggiornata (in genere, i contenuti vengono memorizzati nella cache per massimo un giorno). Anche dopo l'individuazione della modifica, è impossibile fornire un'indicazione temporale esatta: la scansione e l'indicizzazione dei singoli URL sono processi complicati che potrebbero richiedere molto tempo. Ricorda, inoltre, che anche se il file robots.txt non consente di accedere a un URL, tale URL può rimanere visibile nei risultati di ricerca, nonostante non venga sottoposto a scansione. Se vuoi velocizzare la rimozione delle pagine bloccate su Google, invia una richiesta di rimozione tramite Google Search Console.

Come faccio a sospendere temporaneamente ogni operazione di scansione del mio sito web?

Puoi sospendere temporaneamente ogni operazione di scansione restituendo un codice risultato HTTP 503 per tutti gli URL, incluso il file robots.txt. Verranno eseguiti tentativi periodici di accesso al file robots.txt, fino a quando l'accesso non sarà nuovamente possibile. Sconsigliamo di modificare il file robots.txt in modo da non consentire la scansione.

Il mio server non è sensibile alle maiuscole. Come faccio a non consentire del tutto la scansione di alcune cartelle?

Le istruzioni del file robots.txt sono sensibili alle maiuscole. In questo caso, ti consigliamo di verificare che solo una versione dell'URL sia indicizzata utilizzando i metodi di canonicalizzazione. Così facendo, puoi avere meno righe nel file robots.txt e sarà più facile gestirlo. Se non fosse possibile, ti consigliamo di elencare le combinazioni comuni del nome della cartella o di accorciarlo il più possibile, utilizzando solo i primi caratteri anziché il nome completo. Ad esempio, anziché elencare tutte le permutazioni di lettere maiuscole e minuscole di /MyPrivateFolder, puoi elencare le permutazioni di "/MyP" (se hai la certezza che non esiste nessun altro URL sottoponibile a scansione che inizi con questi caratteri). In alternativa, se la scansione non è un problema, potresti utilizzare un meta tag robots o un'intestazione HTTP X-Robots-Tag.

Ho previsto la restituzione di un codice 403 Forbidden per tutti gli URL, incluso il file robots.txt. Per quale motivo il sito viene comunque sottoposto a scansione?

Il codice di stato HTTP 403 Forbidden (e tutti gli altri codici di stato HTTP 4xx) vengono interpretati come indicatore del fatto che il file robots.txt non esiste. Per questo motivo, di solito i crawler danno per scontato che sia possibile sottoporre a scansione tutti gli URL del sito web. Per bloccare la scansione del sito web, il file robots.txt deve restituire un codice di stato HTTP 200 OK e contenere una regola disallow adeguata.

Domande sul meta tag robots

Il meta tag robots sostituisce il file robots.txt?

No. Il file robots.txt controlla quali pagine vengono sottoposte a scansione. Il meta tag robots controlla se una pagina viene indicizzata ma, per individuare questo tag, la pagina deve poter essere sottoposta a scansione. Se la scansione di una pagina è problematica (ad esempio, se la pagina causa un sovraccarico del server), devi utilizzare il file robots.txt. Se si tratta soltanto di visualizzare o meno una pagina nei risultati di ricerca, puoi utilizzare il meta tag robots.

Il meta tag robots può essere utilizzato per bloccare parzialmente l'indicizzazione di una pagina?

No, il meta tag robots è un'impostazione a livello di pagina.

Posso utilizzare il meta tag robots al di fuori di una sezione <head>?

No, il meta tag robots deve essere inserito nella sezione <head> di una pagina.

Il meta tag robots disabilita la scansione?

No. Anche se il meta tag robots riporta l'istruzione noindex, di tanto in tanto l'URL deve essere risottoposto a scansione per verificare se il meta tag è stato modificato.

Qual è la differenza tra il meta tag robots nofollow e l'attributo del link rel="nofollow"?

Il meta tag robots nofollow si applica a tutti i link presenti su una pagina. L'attributo del link rel="nofollow" si applica solo a link specifici su una pagina. Per scoprire di più sull'attributo per i link rel="nofollow", consulta la nostra documentazione sullo spam generato dagli utenti e sull'attributo rel="nofollow".

Domande sull'intestazione HTTP X-Robots-Tag

Come posso verificare l'intestazione X-Robots-Tag per un URL?

Un modo semplice per visualizzare le intestazioni server consiste nell'utilizzare uno strumento di verifica delle intestazioni server basato sul Web oppure la funzionalità strumento Controllo URL di Google Search Console.

Non trovi la risposta?

Se non riesci a trovare la risposta alla tua domanda in questa pagina, consulta le risorse di assistenza di Google per i proprietari di siti.

Offriamo inoltre community di assistenza ufficiali Google Search Central nelle seguenti lingue: EnglishDeutschEspañolFrançaisItalianoNederlandsPolskiPortuguêsTürkçeРусскийالعربية中文(简体)日本語한국어