In che modo i codici di stato HTTP influenzano i crawler di Google

Questa pagina descrive in che modo i diversi codici di stato HTTP influiscono sulla capacità di Google di eseguire la scansione dei tuoi contenuti web. Esamineremo i 20 principali codici di stato individuati da Google sul web. I codici di stato più insoliti, come 418 (I'm a teapot), non verranno presi in esame.

Codici di stato HTTP

I codici di stato HTTP vengono generati dal server che ospita il sito quando risponde a una richiesta effettuata da un client, ad esempio un browser o un crawler. Ogni codice di stato HTTP ha un significato diverso, ma spesso il risultato della richiesta è lo stesso. Ad esempio, esistono più codici di stato che segnalano il reindirizzamento, ma il loro risultato è identico.

Search Console genera messaggi di errore per i codici di stato nell'intervallo 4xx—5xx e per i reindirizzamenti non riusciti (3xx). Se il server risponde con un codice di stato 2xx, i contenuti ricevuti nella risposta possono essere presi in considerazione per l'indicizzazione.

Per la Ricerca Google, un codice di stato HTTP 2xx (success) non garantisce l'indicizzazione.

La tabella seguente elenca i codici di stato HTTP più comuni rilevati da Google, con una spiegazione di come Google gestisce ogni codice.

Codici di stato HTTP

`2xx (success)`

Google valuta i contenuti per l'elaborazione (ad esempio, nel caso della Ricerca Google, per l'indicizzazione). Se i contenuti suggeriscono un errore per la Ricerca Google, ad esempio una pagina vuota o un messaggio di errore, Search Console mostra un errore soft 404.

`200 (success)`	Google trasmette ciò che ha ricevuto al passaggio di elaborazione successivo (specifico per il prodotto). Per la Ricerca Google, il sistema successivo è la pipeline di indicizzazione. I sistemi di indicizzazione potrebbero indicizzare i contenuti, ma ciò non è assicurato.
`201 (created)`
`202 (accepted)`	Google attende i contenuti per un periodo di tempo limitato, poi trasmette ciò che ha ricevuto al passaggio di elaborazione successivo (specifico per il prodotto). Il timeout dipende dallo user agent, ad esempio Googlebot Smartphone potrebbe avere un timeout diverso rispetto a Googlebot Image.
`204 (no content)`	Google non è riuscito a ricevere alcun contenuto e pertanto non può elaborarlo.

`3xx (redirection)`

Per impostazione predefinita, i crawler di Google seguono fino a 10 hop di reindirizzamento. Tuttavia, i crawler di prodotti specifici potrebbero avere limiti diversi. Ad esempio, Googlebot in genere segue 10 hop di reindirizzamento durante la scansione dei contenuti web generali, mentre Google-InspectionTool non segue i reindirizzamenti.

Eventuali contenuti ricevuti da Google dall'URL di reindirizzamento vengono ignorati e, al loro posto, vengono elaborati i contenuti dell'URL di destinazione finale. Per i file robots.txt, scopri come Google gestisce un file robots.txt che restituisce un codice di stato 3xx.

`301 (moved permanently)`	Google segue il reindirizzamento e i sistemi di Google lo utilizzano come un indicatore forte del fatto che la destinazione di reindirizzamento deve essere elaborata.
`302 (found)`	Per impostazione predefinita, i crawler di Google seguono il reindirizzamento e i sistemi di Google lo utilizzano come un indicatore debole del fatto che la destinazione di reindirizzamento deve essere elaborata. Altri prodotti potrebbero gestire il reindirizzamento in modo diverso.
`303 (see other)`
`304 (not modified)`	I crawler di Google segnalano al sistema di elaborazione successivo che i contenuti sono uguali a quelli dell'ultima scansione. Nel caso della Ricerca Google, la pipeline di indicizzazione potrebbe ricalcolare gli indicatori per l'URL, ma in caso contrario il codice di stato non ha effetto sull'indicizzazione.
`307 (temporary redirect)`	Equivalente a `302`.
`308 (moved permanently)`	Equivalente a `301`.

`4xx (client errors)`

Google non utilizza i contenuti degli URL che restituiscono codici di stato 4xx. Se un URL è stato utilizzato in precedenza, ma ora restituisce il codice di stato 4xx, i sistemi di Google smetteranno di utilizzare l'URL nel tempo. Nel caso della Ricerca Google, Google non indicizza gli URL che restituiscono un codice di stato 4xx e gli URL già indicizzati che restituiscono un codice di stato 4xx vengono rimossi dall'indice.

Eventuali contenuti ricevuti da Google dagli URL che restituiscono un codice di stato 4xx vengono ignorati.

`400 (bad request)`	Tutti gli errori `4xx`, ad eccezione del `429`, vengono trattati allo stesso modo: i crawler di Google comunicano al sistema di elaborazione successivo che i contenuti non esistono. Nel caso della Ricerca Google, la pipeline di indicizzazione rimuove l'URL dall'indice se era stato indicizzato precedentemente. Le nuove pagine `404` trovate non vengono elaborate e la frequenza di scansione diminuisce gradualmente. Non utilizzare i codici di stato `401` e `403` per limitare la frequenza di scansione. I codici di stato `4xx`, ad eccezione del `429`, non hanno effetto sulla frequenza di scansione. Scopri come limitare la frequenza di scansione.
`401 (unauthorized)`
`403 (forbidden)`
`404 (not found)`
`410 (gone)`
`411 (length required)`
`429 (too many requests)`	I crawler di Google considerano il codice di stato `429` come un indicatore che il server è sovraccarico e ciò è considerato un errore del server.

`5xx (server errors)`

Gli errori del server 5xx e 429 richiedono ai crawler di Google di rallentare temporaneamente la scansione. Per la Ricerca Google, gli URL già indicizzati vengono conservati nell'indice, ma alla fine vengono eliminati.

Eventuali contenuti ricevuti da Google dagli URL che restituiscono un codice di stato 5xx vengono ignorati. Per i file robots.txt, scopri come Google gestisce un file robots.txt che restituisce un codice di stato 5xx.

Una volta che il server inizia a rispondere con un codice di stato 2xx, Google aumenta gradualmente la frequenza di scansione del sito.

`500 (internal server error)`	Google riduce la frequenza di scansione per il sito. La diminuzione nella frequenza di scansione è proporzionale al numero di singoli URL che restituiscono un errore del server. Per la Ricerca Google, la pipeline di indicizzazione di Google rimuove dall'indice gli URL che continuano a restituire un errore del server.
`502 (bad gateway)`
`503 (service unavailable)`