Informazioni sulla scansione del web di Google

Google esegue la scansione del web aperto da oltre 30 anni e regolarmente ci vengono poste domande sul funzionamento dei nostri web crawler. Per rispondere ad alcune di queste domande, ecco alcuni fatti sui crawler di Google e su come ci aiutano a organizzare le informazioni del mondo, mettendo in contatto le persone con i contenuti di tutto il web.

Che cos'è la scansione? In breve, la scansione è il modo in cui Google "vede" il web

La scansione è il processo di utilizzo di software automatizzati per scoprire nuove pagine web e comprenderle. In questo modo, quando cerchi una pagina web su Google, sappiamo che esiste e possiamo includerla nei risultati di ricerca. Tutti i motori di ricerca si basano sulla scansione per sapere quali pagine e informazioni potrebbero essere disponibili. Per saperne di più, puoi guardare il nostro video su come la Ricerca Google esegue la scansione delle pagine.

Abbiamo molti crawler, ognuno con compiti importanti

Googlebot è il nostro crawler più noto e viene utilizzato per mantenere aggiornati i risultati della Ricerca Google. Abbiamo anche crawler specifici per le altre nostre piattaforme, come Google Immagini e Google Shopping. Forniamo la documentazione completa dei nostri crawler più utilizzati e del loro scopo; inoltre, utilizzano nomi di user agent facilmente identificabili e indirizzi internet noti. In questo modo, i proprietari dei siti possono essere certi che i crawler Google che vedono sono legittimi.

Eseguiamo scansioni ripetute per trovare gli ultimi aggiornamenti e fornire i risultati di ricerca più recenti

Per individuare gli articoli di notizie dell'ultima ora, potremmo eseguire nuovamente la scansione delle home page dei siti di notizie ogni pochi minuti. In altri casi potremmo non aver riscontrato alcun cambiamento per anni, quindi potremmo attendere un mese prima di eseguire una nuova scansione. I proprietari dei siti possono influire sulla frequenza di nuova scansione utilizzando i file Sitemap, che ci informano delle pagine nuove e aggiornate.

La scansione frequente è un buon segno.

Se eseguiamo la scansione del tuo sito di frequente, significa che le tue pagine contengono contenuti aggiornati o molto pertinenti che gli utenti vogliono trovare e che i nostri sistemi rispondono a questa richiesta. Lo shopping online è un ottimo esempio: eseguiamo spesso la scansione dei siti di e-commerce in modo che i nostri risultati mostrino i prezzi, le promozioni e lo stato dell'inventario più aggiornati dei rivenditori.

La scansione di Google è cresciuta nel tempo man mano che le pagine sono diventate più complesse

Un altro motivo per cui eseguiamo spesso la scansione è comprendere appieno la ricchezza di una pagina web e ciò che offre. I nostri crawler utilizzano una tecnica chiamata rendering, ovvero carica completamente un sito per "vedere" una pagina proprio come la vedrebbe una persona reale. Nel corso degli anni, le pagine web sono diventate più sofisticate; la pagina mobile mediana è aumentata di dimensioni, passando da 816 kilobyte a 2,3 megabyte e ora deve caricare più di 60 file diversi, da immagini a componenti interattivi. Per ottenere un'istantanea rappresentativa di una pagina web in tutto il suo splendore, potremmo dover eseguire la scansione della stessa pagina più e più volte, man mano che vengono aggiunti nuovi elementi.

Ottimizziamo automaticamente la scansione

I nostri crawler sono progettati per l'efficienza e si adattano per ridurre al minimo l'impatto sui proprietari dei siti. Ad esempio, quando un sito rallenta o restituisce errori, la nostra frequenza di scansione cambia automaticamente per evitare di sovraccaricare i server del sito. Cerchiamo di limitare le scansioni non necessarie memorizzando nella cache i contenuti scansionati. Man mano che i nostri crawler scoprono più parti di un sito web, sono anche in grado di riconoscere le sezioni che possono essere coperte con meno scansioni. Ad esempio, i calendari che arrivano fino all'anno 9999 probabilmente non devono essere sottoposti a scansione nella loro interezza. I proprietari dei siti possono aiutare identificando i contenuti che non devono essere sottoposti a scansione, il che consente ai siti web di risparmiare denaro riducendo i costi dell'infrastruttura e rende internet più efficiente nel suo complesso.

I crawler di Google non accedono mai a contenuti con paywall o abbonamento senza autorizzazione

Per impostazione predefinita, se una pagina non è accessibile sul web aperto, ad esempio se i contenuti sono protetti da una pagina di accesso, i nostri crawler non possono accedervi. Disponiamo di indicazioni specifiche per i proprietari di siti se vogliono concedere a Google l'autorizzazione esplicita ad accedere alle pagine con abbonamento (ad esempio, in modo che Google possa indirizzare gli utenti a questi contenuti). Se scegli di fornire l'accesso con abbonamento ai nostri crawler, puoi utilizzare i dati strutturati per continuare a mostrare ai visitatori umani una schermata di accesso senza attivare le nostre norme relative allo spam. Inoltre, puoi impedire la visualizzazione dei contenuti in abbonamento nelle anteprime delle pagine sfruttando i controlli di anteprima.

I proprietari dei siti hanno il controllo su cosa viene sottoposto a scansione e come

Rispettiamo gli standard web aperti, come robots.txt, che è un semplice file di testo che consente ai proprietari di siti di dichiarare in che modo i crawler come il nostro devono interagire con le loro pagine. Il file robots.txt, insieme ai meta tag robots, consente ai siti web di comunicare facilmente a Google e ad altri servizi come accedere ai loro contenuti. Possono bloccare la visualizzazione delle pagine nella Ricerca; possono comunicarci i nuovi contenuti che vogliono che vengano sottoposti a scansione utilizzando le Sitemap. Inoltre, possono gestire la frequenza di scansione dei loro siti tramite il budget di scansione.

I nostri crawler standard rispettano sempre le scelte dei siti web in merito a come vengono utilizzati i loro contenuti

Dopo una scansione, potremmo utilizzare i dati sottoposti a scansione più volte per ridurre la necessità di richieste ripetute inutili sui siti. Anche quando riutilizziamo questi dati, continuiamo a rispettare le scelte dei siti tramite robots.txt e i controlli che offriamo tramite questo protocollo web aperto. Ad esempio, i siti possono utilizzare Google-Extended in robots.txt per controllare, tra le altre cose, se i loro contenuti contribuiscono ad addestrare le versioni future dei modelli Gemini. L'utilizzo di Google-Extended non influisce sull'inclusione di un sito nella Ricerca né viene utilizzato come indicatore di ranking nella Ricerca.

Forniamo molti strumenti per consentire ai proprietari dei siti di gestire la propria esperienza di scansione di Google, tra cui Google Search Console, disponibile senza costi per i proprietari dei siti. Fornisce informazioni sul volume delle nostre scansioni e sul perché. Inoltre, aiuta i proprietari dei siti a diagnosticare problemi come il tempo di inattività del server o problemi di velocità. Inoltre, Search Console fornisce informazioni complete su come le pagine di un sito sono visibili nella Ricerca e su come gli utenti interagiscono con esse.

I nostri crawler aiutano le persone a trovare il meglio del web e siamo sempre alla ricerca di modi per renderli più efficienti e capaci.