Evitare l'utilizzo di errori 403 o 404 per la limitazione di frequenza

Venerdì 17 febbraio 2023

Negli ultimi mesi abbiamo notato un aumento dei tentativi da parte di proprietari di siti web e di alcune reti CDN (Content Delivery Network) di utilizzare 404 e altri errori del client 4xx (ma non il 429) per ridurre la frequenza di scansione di Googlebot.

La versione breve di questo post del blog è: per favore, non fatelo; consultate la documentazione su come ridurre la frequenza di scansione di Googlebot. Leggete questo articolo per scoprire come gestire in modo efficace la frequenza di scansione di Googlebot.

Torniamo alle basi: gli errori 4xx riguardano gli errori del client

Gli errori 4xx che i server restituiscono ai client sono un segnale dal server che indica che la richiesta del client era in qualche modo errata. La maggior parte degli errori in questa categoria è abbastanza innocua: "Not Found", "Forbidden", "I'm a teapot" (sì, quest'ultimo esiste davvero). Non suggeriscono alcun problema relativo al server stesso.

L'unica eccezione è 429, "Too many requests", ovvero "troppe richieste"; questo errore è un chiaro indicatore per qualsiasi robot ben educato, incluso il nostro amato Googlebot, che deve rallentare perché sta sovraccaricando il server.

Perché gli errori 4xx non vanno bene per limitare la frequenza di Googlebot (tranne il 429)

Gli errori del client sono, per l'appunto, errori del client. Di solito non indicano un errore del server: non suggeriscono che è sovraccarico, che si è verificato un errore critico e che non è in grado di rispondere alla richiesta. Indicano semplicemente che la richiesta del cliente era sbagliata in qualche modo. Non esiste un modo sensato per associare, ad esempio, un errore 404 al server in sovraccarico. Immagina se fosse così: ricevete un afflusso di errori 404 dal vostro amico che rimanda accidentalmente alle pagine sbagliate del vostro sito e, a sua volta, Googlebot rallenta la scansione. Non va bene, e lo stesso vale per 403, 410 e 418.

E ancora, l'unica vera eccezione è il codice di stato 429, che indica un numero eccessivo di richieste.

In che modo la limitazione di frequenza con 4xx influisce su Googlebot

Tutti i codici di stato HTTP 4xx (di nuovo, ad eccezione del 429) faranno sì che i vostri contenuti vengano rimossi dalla Ricerca Google. Come se non bastasse, se pubblicate anche il vostro file robots.txt con un codice di stato HTTP 4xx, verrà trattato come se non esistesse. Se utilizzaste una regola che non consente la scansione della vostra biancheria sporca, ora Googlebot ne sarebbe a conoscenza; non è il massimo per entrambe le parti.

Come ridurre la frequenza di scansione di Googlebot, nel modo giusto

Disponiamo di una documentazione approfondita su come ridurre la frequenza di scansione di Googlebot e anche su come Googlebot (e l'indicizzazione della Ricerca) gestisce i diversi codici di stato HTTP, quindi assicuratevi di dare un'occhiata. In breve, vi consigliamo di effettuare le seguenti operazioni:

Per ulteriori suggerimenti o chiarimenti, non esitate a contattarci su Twitter o a pubblicare post nei nostri forum di assistenza.