Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Googlebot

Googlebot è il nome generico del web crawler di Google. Googlebot è il nome generico di due diversi tipi di crawler: un crawler desktop che simula un utente che usa un dispositivo desktop e un crawler mobile che simula un utente che usa un dispositivo mobile.

Probabilmente il tuo sito web verrà sottoposto a scansione da entrambi i crawler Googlebot per desktop e Googlebot per smartphone. Puoi identificare il sottotipo di Googlebot esaminando la stringa dello user agent nella richiesta. Entrambi i tipi di crawler rispettano però lo stesso token di prodotto (token dello user agent) nel file robots.txt, quindi non puoi scegliere selettivamente come target Googlebot per smartphone o Googlebot per desktop usando il file robots.txt.

Modalità di accesso di Googlebot al tuo sito

Googlebot non dovrebbe accedere a gran parte dei siti in media più di una volta ogni pochi secondi. Tuttavia, per possibili ritardi, tale frequenza potrebbe risultare leggermente superiore in brevi periodi.

Googlebot è stato progettato per essere eseguito contemporaneamente da migliaia di macchine per migliorare le prestazioni e seguire il ritmo di crescita del Web. Inoltre, per ridurre l'utilizzo di larghezza di banda eseguiamo molti crawler su computer vicini ai siti che potrebbero sottoporre a scansione. Pertanto, i tuoi log potrebbero indicare visite di google.com da diversi computer, tutte con lo user agent Googlebot. Il nostro obiettivo è eseguire a ogni visita la scansione del maggior numero possibile di pagine del tuo sito senza sovraccaricare la larghezza di banda del server. Se il tuo sito non riesce a stare al passo con le richieste di scansione di Google, puoi richiedere di cambiare la frequenza di scansione.

In genere Googlebot esegue la scansione su HTTP/1.1. Tuttavia, da novembre 2020, Googlebot potrebbe sottoporre a scansione i siti che potrebbero trarne vantaggio su HTTP/2, se supportato. In questo modo è possibile risparmiare risorse di calcolo (ad esempio CPU, RAM) per il sito e Googlebot, ma non ci sono ripercussioni sull'indicizzazione o il ranking del tuo sito.

Per disattivare la scansione su HTTP/2, indica al server che ospita il tuo sito di rispondere con un codice di stato HTTP 421 quando Googlebot tenta di eseguire la scansione del sito su HTTP/2. Se ciò non è fattibile, puoi inviare un messaggio al team di Googlebot (soluzione temporanea).

Googlebot può eseguire la scansione dei primi 15 MB di un file HTML o di un file basato su testo supportato. Le risorse a cui viene fatto riferimento nel codice HTML, come immagini, video, CSS e JavaScript vengono recuperate separatamente. Dopo i primi 15 MB del file, Googlebot interrompe la scansione e considera solo i primi 15 MB del file per l'indicizzazione. Il limite per le dimensioni del file viene applicato ai dati non compressi; altri crawler potrebbero avere limiti diversi.

Impedire a Googlebot di visitare il tuo sito

È quasi impossibile tenere segreto un server web evitando di pubblicare link che vi rimandino. Ad esempio, non appena un utente segue un link che dal tuo server "segreto" rimanda a un altro server web, il tuo URL "segreto" potrebbe essere visualizzato nel tag referrer ed essere memorizzato e pubblicato dall'altro server web nel suo log referrer. In modo simile, sul Web esistono molti link obsoleti e inaccessibili. Quando qualcuno pubblica un link sbagliato che rimanda al tuo sito o non aggiorna i link per riflettere i cambiamenti avvenuti nel tuo server, Googlebot prova a eseguire la scansione di un link sbagliato del tuo sito.

Se vuoi impedire a Googlebot di eseguire la scansione dei contenuti del tuo sito, hai a disposizione una serie di opzioni. Tieni presente la differenza tra impedire a Googlebot di eseguire la scansione di una pagina, impedire a Googlebot di indicizzare una pagina e impedirne del tutto l'accesso sia ai crawler sia agli utenti.

Verifica di Googlebot

Prima di decidere di bloccare Googlebot, tieni presente che la stringa user agent utilizzata da Googlebot è spesso oggetto di spoofing da parte di altri crawler. È importante verificare che una richiesta problematica provenga effettivamente da Google. Il miglior modo per verificare che una richiesta provenga effettivamente da Googlebot è utilizzare una ricerca DNS inversa nell'IP di origine della richiesta oppure far corrispondere l'IP di origine con gli intervalli di indirizzi IP di Googlebot.