Il file robots.txt
indica ai motori di ricerca quali pagine del tuo sito possono sottoporre a scansione. Una configurazione di robots.txt
non valida può causare due tipi di problemi:
- Può impedire ai motori di ricerca di eseguire la scansione delle pagine pubbliche, causando la visualizzazione meno frequente dei tuoi contenuti nei risultati di ricerca.
- Può causare la scansione da parte dei motori di ricerca di pagine che non vuoi che vengano mostrate nei risultati di ricerca.
Come il controllo di Lighthouse robots.txt
non va a buon fine
Lighthouse segnala i file
robots.txt
non validi:
Espandi il controllo robots.txt
non è valido nel report per scoprire cosa c'è che non va con robots.txt
.
Gli errori più comuni sono:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse non controlla che il file robots.txt
si trovi nella posizione corretta. Per funzionare correttamente, il file deve essere nella directory principale
del dominio o del sottodominio.
Come risolvere i problemi relativi a robots.txt
Assicurati che robots.txt
non restituisca un codice di stato HTTP 5XX
Se il server restituisce un errore del server (un codice di stato HTTP
in 500s) per robots.txt
, i motori di ricerca non riconosceranno le pagine da sottoporre a scansione. Potrebbero interrompere la scansione dell'intero sito, impedendo così l'indicizzazione di nuovi contenuti.
Per controllare il codice di stato HTTP, apri robots.txt
in Chrome e
controlla la richiesta in Chrome DevTools.
Mantieni robots.txt
inferiore a 500 KiB
I motori di ricerca potrebbero interrompere l'elaborazione di robots.txt
a metà se il file supera i 500 KiB. Ciò può confondere il motore di ricerca, portando a una scansione errata del tuo sito.
Per ridurre il numero di robots.txt
, concentrati meno sulle pagine escluse singolarmente e più su pattern più ampi. Ad esempio, se devi impedire la scansione dei file PDF, non impedire l'accesso a ogni singolo file. Impedisci invece tutti gli URL contenenti .pdf
utilizzando disallow: /*.pdf
.
Correggi eventuali errori di formato
- In
robots.txt
sono consentiti solo le righe vuote, i commenti e le istruzioni corrispondenti al formato "name: value". - Assicurati che i valori
allow
edisallow
siano vuoti o inizino con/
o*
. - Non usare
$
in mezzo a un valore (ad esempio,allow: /file$html
).
Assicurati che sia presente un valore per user-agent
Nomi degli user agent per indicare ai crawler dei motori di ricerca le istruzioni da seguire. Devi
fornire un valore per ogni istanza di user-agent
in modo che i motori di ricerca sappiano
se seguire l'insieme di istruzioni associato.
Per specificare il crawler di un determinato motore di ricerca, utilizza il nome di uno user agent presente nel relativo elenco pubblicato. Ad esempio, ecco l'elenco di user agent di Google utilizzati per la scansione.
Utilizza *
per trovare la corrispondenza con tutti i crawler altrimenti senza corrispondenza.
user-agent: disallow: /downloads/
Nessuno user agent definito.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Sono stati definiti uno user agent generale e uno user agent magicsearchbot
.
Assicurati che non esistano istruzioni allow
o disallow
prima di user-agent
I nomi degli user agent definiscono le sezioni del file robots.txt
. I crawler dei motori di ricerca utilizzano queste sezioni per stabilire quali istruzioni seguire. Se inserisci un'istruzione prima del nome del primo user agent, nessun crawler la seguirà.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Nessun crawler dei motori di ricerca leggerà l'istruzione disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
A tutti i motori di ricerca non è consentito eseguire la scansione della cartella /downloads
.
I crawler dei motori di ricerca seguono soltanto le istruzioni nella sezione con il nome dello user agent più specifico. Ad esempio, se hai istruzioni per user-agent: *
e user-agent: Googlebot-Image
, Googlebot Immagini seguirà solo le istruzioni nella sezione user-agent: Googlebot-Image
.
Fornisci un URL assoluto per sitemap
I file Sitemap sono un ottimo modo per comunicare ai motori di ricerca le pagine del tuo sito web. Un file Sitemap in genere include un elenco degli URL del tuo sito web, insieme a informazioni su quando sono stati modificati l'ultima volta.
Se scegli di inviare un file Sitemap in robots.txt
, assicurati di
utilizzare un URL assoluto.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml