File robots.txt non valido

Il file robots.txt indica ai motori di ricerca quali pagine del tuo sito possono sottoporre a scansione. Una configurazione di robots.txt non valida può causare due tipi di problemi:

  • Può impedire ai motori di ricerca di eseguire la scansione delle pagine pubbliche, causando la visualizzazione meno frequente dei tuoi contenuti nei risultati di ricerca.
  • Può causare la scansione da parte dei motori di ricerca di pagine che non vuoi che vengano mostrate nei risultati di ricerca.

Come il controllo di Lighthouse robots.txt non va a buon fine

Lighthouse segnala i file robots.txt non validi:

Controllo Lighthouse che mostra un file robots.txt non valido

Espandi il controllo robots.txt non è valido nel report per scoprire cosa c'è che non va con robots.txt.

Gli errori più comuni sono:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse non controlla che il file robots.txt si trovi nella posizione corretta. Per funzionare correttamente, il file deve essere nella directory principale del dominio o del sottodominio.

Come risolvere i problemi relativi a robots.txt

Assicurati che robots.txt non restituisca un codice di stato HTTP 5XX

Se il server restituisce un errore del server (un codice di stato HTTP in 500s) per robots.txt, i motori di ricerca non riconosceranno le pagine da sottoporre a scansione. Potrebbero interrompere la scansione dell'intero sito, impedendo così l'indicizzazione di nuovi contenuti.

Per controllare il codice di stato HTTP, apri robots.txt in Chrome e controlla la richiesta in Chrome DevTools.

Mantieni robots.txt inferiore a 500 KiB

I motori di ricerca potrebbero interrompere l'elaborazione di robots.txt a metà se il file supera i 500 KiB. Ciò può confondere il motore di ricerca, portando a una scansione errata del tuo sito.

Per ridurre il numero di robots.txt, concentrati meno sulle pagine escluse singolarmente e più su pattern più ampi. Ad esempio, se devi impedire la scansione dei file PDF, non impedire l'accesso a ogni singolo file. Impedisci invece tutti gli URL contenenti .pdf utilizzando disallow: /*.pdf.

Correggi eventuali errori di formato

  • In robots.txt sono consentiti solo le righe vuote, i commenti e le istruzioni corrispondenti al formato "name: value".
  • Assicurati che i valori allow e disallow siano vuoti o inizino con / o *.
  • Non usare $ in mezzo a un valore (ad esempio, allow: /file$html).

Assicurati che sia presente un valore per user-agent

Nomi degli user agent per indicare ai crawler dei motori di ricerca le istruzioni da seguire. Devi fornire un valore per ogni istanza di user-agent in modo che i motori di ricerca sappiano se seguire l'insieme di istruzioni associato.

Per specificare il crawler di un determinato motore di ricerca, utilizza il nome di uno user agent presente nel relativo elenco pubblicato. Ad esempio, ecco l'elenco di user agent di Google utilizzati per la scansione.

Utilizza * per trovare la corrispondenza con tutti i crawler altrimenti senza corrispondenza.

Cosa non fare
user-agent:
disallow: /downloads/

Nessuno user agent definito.

Cosa fare
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Sono stati definiti uno user agent generale e uno user agent magicsearchbot.

Assicurati che non esistano istruzioni allow o disallow prima di user-agent

I nomi degli user agent definiscono le sezioni del file robots.txt. I crawler dei motori di ricerca utilizzano queste sezioni per stabilire quali istruzioni seguire. Se inserisci un'istruzione prima del nome del primo user agent, nessun crawler la seguirà.

Cosa non fare
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Nessun crawler dei motori di ricerca leggerà l'istruzione disallow: /downloads.

Cosa fare
# start of file
user-agent: *
disallow: /downloads/

A tutti i motori di ricerca non è consentito eseguire la scansione della cartella /downloads.

I crawler dei motori di ricerca seguono soltanto le istruzioni nella sezione con il nome dello user agent più specifico. Ad esempio, se hai istruzioni per user-agent: * e user-agent: Googlebot-Image, Googlebot Immagini seguirà solo le istruzioni nella sezione user-agent: Googlebot-Image.

Fornisci un URL assoluto per sitemap

I file Sitemap sono un ottimo modo per comunicare ai motori di ricerca le pagine del tuo sito web. Un file Sitemap in genere include un elenco degli URL del tuo sito web, insieme a informazioni su quando sono stati modificati l'ultima volta.

Se scegli di inviare un file Sitemap in robots.txt, assicurati di utilizzare un URL assoluto.

Cosa non fare
sitemap: /sitemap-file.xml
Cosa fare
sitemap: https://example.com/sitemap-file.xml

Risorse