Dietro le quinte di Googlebot: facciamo chiarezza su scansione, recupero e sui byte che elaboriamo

Martedì 31 marzo 2026

Se avete ascoltato l'episodio 105 del podcast Search Off the Record, potreste averci sentito approfondire un argomento che a noi (e ai nostri server) sta molto a cuore: il funzionamento interno di Googlebot.

Per molto tempo, il nome "Googlebot" ha evocato l'immagine di un singolo robot instancabile che scandaglia sistematicamente internet. Ma la realtà è un po' più complessa e molto più interessante; oggi vogliamo svelare i retroscena della nostra infrastruttura di scansione, con un'attenzione particolare a quell'aspetto che ci fa davvero girare la testa: i limiti di dimensione in byte.

Innanzitutto, Googlebot non è un singolo programma

Per prima cosa, chiariamo un errore storico. All'inizio degli anni 2000, Google aveva un solo prodotto, quindi avevamo un solo crawler. Il nome "Googlebot" è rimasto; tuttavia, oggi Googlebot è solo un utente di qualcosa che assomiglia a una piattaforma di scansione centralizzata.

Quando vedete Googlebot nei log del server, state semplicemente guardando la Ricerca Google. Decine di altri client, tra cui Google Shopping, AdSense e altri, indirizzano le richieste di scansione tramite questa stessa infrastruttura sottostante con nomi di crawler diversi. I più grandi sono documentati sul sito dell'infrastruttura dei crawler di Google.

Il limite di 2 MB: che cosa succede ai tuoi byte?

È qui che le cose si fanno un po' confuse. Ogni client dell'infrastruttura del crawler deve impostare alcune impostazioni per i recuperi. Queste impostazioni includono la stringa dello user agent, i token dello user agent che verranno cercati nel file robots.txt e il numero di byte che verranno recuperati da un singolo URL.

Al momento Googlebot recupera fino a 2 MB per ogni singolo URL (esclusi i PDF). Ciò significa che esegue la scansione solo dei primi 2 MB di una risorsa, inclusa l'intestazione HTTP; per i file PDF, il limite è 64 MB.

I crawler di immagini e video in genere hanno un'ampia gamma di valori di soglia e dipende in gran parte dal prodotto per cui vengono recuperati. Ad esempio, il recupero di una favicon potrebbe avere un limite molto basso, a differenza della Ricerca immagini.

Per qualsiasi altro crawler che non specifica un limite, il valore predefinito è 15 MB indipendentemente dal tipo di contenuti.

Cosa comporta questo per i byte che il vostro server invia tramite cavo?

  1. Recupero parziale: se il file HTML è più grande di 2 MB, Googlebot non rifiuta la pagina. Al contrario, l'estrazione si interrompe esattamente alla soglia di 2 MB. Tieni presente che il limite include le intestazioni delle richieste HTTP.
  2. Elaborazione della soglia: la parte scaricata (i primi 2 MB dei byte) viene trasmessa ai nostri sistemi di indicizzazione e al servizio di rendering web (WRS) come se fosse il file completo.
  3. I byte invisibili: tutti i byte che si trovano dopo la soglia di 2 MB vengono ignorati completamente. Non vengono recuperati, non vengono visualizzati e non sono indicizzati.
  4. Importazione di risorse: ogni risorsa a cui viene fatto riferimento nell'HTML (esclusi contenuti multimediali, caratteri e alcuni file esotici) verrà recuperata da WRS con Googlebot come l'HTML principale. Hanno un proprio contatore di byte per URL separato e non vengono conteggiati ai fini delle dimensioni della pagina principale.

Per la stragrande maggioranza del web, un payload HTML di 2 MB è enorme e non raggiungerete mai questo limite. Tuttavia, se la vostra pagina include immagini base64 in linea di grandi dimensioni, blocchi enormi di CSS/JavaScript in linea o inizia con megabyte di menu, potreste superare accidentalmente il limite di 2 MB per i contenuti testuali effettivi o i dati strutturati fondamentali. Se questi byte cruciali non vengono recuperati, per Googlebot semplicemente non esistono.

Rendering dei byte

Una volta recuperati correttamente i byte (fino al limite), il crawler passa il testimone al WRS. Il WRS elabora JavaScript ed esegue codice lato client in modo simile a un browser moderno per comprendere lo stato visivo e testuale finale della pagina. Il rendering recupera ed esegue i file JavaScript e CSS ed elabora le richieste XHR per comprendere meglio i contenuti e la struttura testuali della pagina (non richiede immagini o video). Per ogni risorsa richiesta, si applica anche il limite di 2 MB.

Tuttavia, ricorda che il WRS può eseguire solo il codice effettivamente recuperato dal crawler; inoltre, il WRS funziona in modalità stateless ovvero cancella l'archiviazione locale e i dati della sessione tra le richieste. Ciò potrebbe avere implicazioni particolari sul modo in cui gli elementi dinamici dipendenti da JavaScript vengono interpretati dai nostri sistemi.

Best practice per i byte

Per assicurarti che Googlebot possa recuperare e comprendere in modo efficiente i vostri contenuti, tieni presenti queste best practice a livello di byte:

  • Mantenete il codice HTML snello: spostate i file CSS e JavaScript pesanti in file esterni. Sebbene il documento HTML iniziale sia limitato a 2 MB, gli script e i fogli di stile esterni vengono recuperati separatamente (soggetti a limiti propri).
  • L'ordine è importante: posizionate gli elementi più importanti, come i meta tag, gli elementi <title>, gli elementi <link>, gli URL canonici e i dati strutturati essenziali più in alto nel documento HTML. In questo modo, è improbabile che si trovino al di sotto della soglia.
  • Monitorate i log del server: tenete d'occhio i tempi di risposta del server. Se il vostro server ha difficoltà a gestire i byte, i nostri crawler si ritireranno automaticamente per evitare di sovraccaricare la vostra infrastruttura, il che ridurrà la frequenza di scansione.

Tenete presente che questo limite non è definitivo e potrebbe cambiare nel tempo man mano che il web si evolve e le pagine HTML aumentano di dimensioni (o si riducono, si spera).

La scansione non è magia, ma uno scambio di byte orchestrato e scalabile. Se comprendete come la nostra infrastruttura di recupero centrale recupera e limita questi byte, potete assicurarvi che i contenuti più importanti del vostro sito vengano inclusi sempre.

Buona ottimizzazione!

Volete scoprire altri dettagli sul dietro le quinte? Ascoltate la puntata 105 del podcast Search Off the Record su YouTube o ovunque ascoltiate i podcast.