How Google Search Works

Come funziona Google? Ecco una spiegazione breve e una dettagliata.

Google riceve informazioni da molte fonti diverse, tra cui:

  • Pagine web
  • Contenuti inviati dagli utenti, come quelli di Google My Business e Maps
  • Scansioni di libri
  • Database pubblici su Internet
  • E molte altre fonti

Tuttavia, questa pagina si concentra sulle pagine web.

Spiegazione breve

Google esegue tre passaggi di base per generare risultati dalle pagine web:

Scansione

Il primo passaggio consiste nel capire quali pagine esistono sul Web. Non esiste un registro centrale di tutte le pagine web, pertanto Google deve costantemente cercare le nuove pagine e aggiungerle al proprio elenco di pagine note. Alcune pagine sono note perché Google le ha già visitate. Altre pagine vengono scoperte quando Google segue un link che rimanda da una pagina nota a una nuova; altre ancora vengono scoperte quando il proprietario di un sito web invia un elenco di pagine (una Sitemap) in modo che Google ne esegua la scansione. Se utilizzi un host web gestito, ad esempio Wix o Blogger, il tuo fornitore potrebbe chiedere a Google di eseguire la scansione delle tue pagine nuove o aggiornate.

Una volta che Google scopre l'URL di una pagina, la visita o ne esegue la scansione per scoprirne i contenuti. Google visualizza la pagina e analizza sia il testo sia i contenuti non testuali e il layout visivo generale per decidere dove pubblicarli nei risultati di ricerca. Migliore è la comprensione del tuo sito da parte di Google, migliore sarà la corrispondenza fornita a chi cerca i tuoi contenuti.

Per migliorare la scansione del sito:

  • Verifica che Google possa raggiungere le pagine sul tuo sito e che vengano visualizzate correttamente. Google accede al Web come utente anonimo (utente senza password né informazioni). Google dovrebbe anche essere in grado di visualizzare tutte le immagini e gli altri elementi della pagina per poterla comprendere correttamente. Puoi eseguire una rapida verifica digitando l'URL della tua pagina nello strumento Test di ottimizzazione mobile.
  • Se hai creato o aggiornato una singola pagina, puoi inviare un singolo URL a Google. Per segnalare a Google più pagine nuove o aggiornate contemporaneamente, utilizza una Sitemap.
  • Se chiedi a Google di eseguire la scansione di una sola pagina, scegli l'home page. La home page è la pagina più importante del sito per Google. Per agevolare una scansione completa del sito, assicurati che la home page (e tutte le pagine) contengano un sistema di navigazione del sito ben organizzati, che rimandi a tutte le sezioni e pagine importanti del sito. In questo modo gli utenti (e Google) possono trovare facilmente le informazioni desiderate sul sito. Per i siti più piccoli (meno di 1000 pagine), è sufficiente informare Google dell'esistenza della tua home page, a condizione che Google possa raggiungere tutte le altre pagine seguendo un percorso di link che iniziano dalla home page.
  • Fai in modo che la tua pagina sia collegata a un'altra che Google conosce già. Tuttavia, ricorda che i link all'interno delle pubblicità, i link per i quali hai pagato su altri siti, i link nei commenti e altri link che non rispettano le Istruzioni per i webmaster di Google non verranno seguiti da Google.
Google non accetta pagamenti per eseguire con maggiore frequenza la scansione di un particolare sito o per migliorarne il ranking. Se qualcuno sostiene il contrario, sta sbagliando.

Indicizzazione

Dopo aver scoperto una pagina, Google prova a capire di che cosa tratta. Questa procedura è chiamata indicizzazione. Google analizza i contenuti e cataloga le immagini e i file video incorporati, cercando in generale di capire di che pagina si tratta. Queste informazioni vengono memorizzate nell'Indice Google, un enorme database archiviato in tanti (tantissimi) computer.

Per migliorare l'indicizzazione delle pagine:

  • Crea titoli brevi e significativi.
  • Utilizza intestazioni di pagina che trasmettano l'argomento trattato.
  • Utilizza preferibilmente il testo piuttosto che le immagini per trasmettere i contenuti. Pur essendo in grado di comprendere il contenuto di alcune immagini e video, Google capisce meglio i contenuti testuali. Come minimo, aggiunti testo alternativo e altri attributi appropriati ai tuoi video e alle tue immagini.

Risultati mostrati (e ranking)

Quando un utente digita una query, Google cerca di trovare la risposta più pertinente nel suo indice in base a numerosi fattori. Google cerca di determinare le risposte migliori e di tenere in considerazione altri fattori che forniranno la migliore esperienza utente e la risposta più appropriata utilizzando dati come l'area geografica, la lingua e il dispositivo dell'utente (desktop o telefono). Ad esempio, la ricerca di "officine per la riparazione di biciclette" mostra risultati diversi a un utente di Parigi rispetto a un utente di Hong Kong. Google non accetta pagamenti per migliorare il ranking di una pagina e il ranking viene eseguito in modo programmatico.

Per migliorare i risultati e il ranking:

Descrizione dettagliata

Vuoi ulteriori informazioni? Ecco qui:

Descrizione dettagliata

Scansione

La scansione è l'operazione con cui Googlebot visita pagine nuove e aggiornate da aggiungere all'Indice Google.

Utilizziamo una quantità enorme di computer per individuare miliardi di pagine sul Web, o "eseguirne la scansione". Il programma che effettua questa operazione è denominato Googlebot (noto anche come robot, bot o spider). Googlebot utilizza un processo algoritmico per determinare i siti di cui eseguire la scansione, con quale frequenza farlo e quante pagine recuperare di ogni sito.

Il processo di scansione di Google inizia con un elenco di URL di pagine web, generato da processi di scansione precedenti, che comprende anche i dati delle Sitemap forniti dai webmaster. Quando Googlebot visita una pagina, trova i link al suo interno e li aggiunge al suo elenco di pagine di cui eseguire la scansione. I siti nuovi, le modifiche di siti esistenti e i link non più validi vengono registrati e utilizzati per aggiornare l'Indice Google.

Durante la scansione, Google visualizza la pagina utilizzando una versione recente di Chrome. Come parte del processo di visualizzazione, esegue tutti gli script di pagina che trova. Se il tuo sito utilizza contenuti generati dinamicamente, assicurati di seguire i concetti di base della SEO per JavaScript.

Scansione principale/ scansione secondaria

Google utilizza due diversi crawler per la scansione dei siti web: un crawler mobile e un crawler desktop. Ciascun tipo di crawler simula un utente che visita la tua pagina con un dispositivo di quel genere.

Google utilizza un tipo di crawler (mobile o desktop) come crawler principale per il tuo sito. Google esegue la scansione di tutte le pagine del tuo sito utilizzando il crawler principale. Il crawler principale di tutti i nuovi siti web è il crawler mobile.

Inoltre, Google esegue nuovamente la scansione di alcune pagine del tuo sito con l'altro tipo di crawler (mobile o desktop). Questa procedura è chiamata scansione secondaria e viene eseguita per verificare se il tuo sito funziona con l'altro tipo di dispositivo.

Come fa Google a sapere di quali pagine non deve eseguire la scansione?

  • Le pagine bloccate nel file robots.txt non vengono sottoposte a scansione, ma potrebbero essere indicizzate se sono collegate ad altre pagine. Google può dedurre il contenuto di una pagina dal link che rimanda alla pagina stessa e indicizzarla senza analizzarne il contenuto.
  • Google non può eseguire la scansione di pagine non accessibili a un utente anonimo. Pertanto, qualsiasi protezione della pagina mediante accesso o autorizzazione ne impedirà la scansione.
  • Le pagine la cui scansione è già stata eseguita sono considerate duplicati di un'altra pagina e vengono sottoposte a scansione meno frequentemente.

Migliorare la scansione

Utilizza queste tecniche per aiutare Google a scoprire le pagine giuste sul tuo sito:

Indicizzazione

Googlebot elabora ogni pagina di cui esegue la scansione per comprenderne i contenuti. Ciò include l'elaborazione di contenuti testuali, tag di contenuti chiave e attributi, come tag <title> e attributi ALT, immagini, video e altro ancora. Googlebot è in grado di elaborare numerosi tipi di contenuti, ma non tutti: ad esempio, non può elaborare i contenuti di alcuni file rich media.

Tra la fase della scansione e la fase dell'indicizzazione, Google stabilisce se una pagina è un duplicato o la versione canonica di un'altra pagina. Se la pagina viene considerata un duplicato, viene sottoposta a scansione con frequenza notevolmente minore. Le pagine simili sono raggruppate in un documento, che è un gruppo di una o più pagine che include la pagina canonica (la più rappresentativa del gruppo) ed eventuali duplicati trovati (che potrebbero essere semplicemente URL alternativi che rimandano alla stessa pagina o versioni alternative, per dispositivi mobili o desktop, della stessa pagina).

Tieni presente che Google non indicizza le pagine per cui esiste un'istruzione noindex (intestazione o tag). Tuttavia, deve essere in grado di vedere l'istruzione; se la pagina è bloccata da un file robots.txt, da una pagina di accesso o da un altro dispositivo, è possibile che venga indicizzata anche se Google non l'ha visitata.

Migliorare l'indicizzazione

Esistono molte tecniche per migliorare la capacità di Google di comprendere i contenuti della tua pagina:

Che cos'è un "documento"?

Internamente, Google rappresenta il Web come un insieme (enorme) di documenti. Ciascun documento rappresenta una o più pagine web. Queste pagine sono identiche o molto simili, ma rappresentano essenzialmente gli stessi contenuti, raggiungibili da URL diversi. I diversi URL in un documento possono rimandare esattamente alla stessa pagina (ad esempio, example.com/dresses/summer/1234 e example.com?product=1234 potrebbero mostrare la stessa pagina) o alla stessa pagina con piccole varianti destinate a utenti su dispositivi diversi (ad esempio, example.com/mypage per gli utenti di desktop e m.example.com/mypage per gli utenti di dispositivi mobili).

Google sceglie uno degli URL in un documento e lo definisce come URL canonico del documento. L'URL canonico del documento è quello di cui Google esegue più spesso la scansione e l'indicizzazione; gli altri URL sono considerati duplicati o alternativi e possono essere occasionalmente sottoposti a scansione o pubblicati in base alla richiesta dell'utente; ad esempio, se l'URL canonico è l'URL per i dispositivi mobili, Google probabilmente pubblicherà comunque l'URL desktop (alternativo) per gli utenti che eseguono ricerche su desktop.

La maggior parte dei rapporti in Search Console attribuisce i dati all'URL canonico del documento. Alcuni strumenti (come lo strumento Controllo URL) supportano il test di URL alternativi, ma il controllo dell'URL canonico dovrebbe fornire informazioni anche sugli URL alternativi.

Puoi comunicare a Google quale URL ritieni sia canonico, ma Google potrebbe comunque sceglierne uno diverso per vari motivi.

Ecco un riepilogo dei termini e di come vengono utilizzati in Search Console:

  • Documento: una raccolta di pagine simili. Include un URL canonico ed eventualmente URL alternativi, se il tuo sito ha pagine duplicate. Gli URL nel documento possono provenire dalla stessa organizzazione o da una diversa (il dominio principale, ad esempio "google" in www.google.com). Google sceglie l'URL migliore da mostrare nei risultati di ricerca in base alla piattaforma (dispositivo mobile/desktop), alla lingua dell'utente , alla località e a molte altre variabili. Google rileva le pagine correlate sul tuo sito tramite la scansione organica o tramite funzionalità implementate sul sito, come i reindirizzamenti o i tag <link rel=alternate/canonical>. Le pagine correlate di altre organizzazioni possono essere contrassegnate come alternative solo se codificate in modo esplicito dal tuo sito (tramite reindirizzamenti o tag link).
  • URL: l'URL utilizzato per raggiungere un determinato contenuto su un sito. Il sito potrebbe risolvere URL diversi nella stessa pagina.
  • Pagina: una determinata pagina web, raggiunta mediante uno o più URL. Possono esistere diverse versioni di una pagina, a seconda della piattaforma dell'utente (dispositivo mobile, desktop, tablet e così via).
  • Versione: una variante della pagina, generalmente classificata come "mobile", "desktop" e "AMP" (anche se AMP può avere a sua volta versioni per dispositivi mobili e desktop). Ogni versione può avere un URL diverso (example.com o m.example.com) o lo stesso URL (se il tuo sito utilizza la pubblicazione dinamica o il responsive web design, lo stesso URL può mostrare versioni diverse della stessa pagina) a seconda della configurazione del sito. Le varianti linguistiche non sono considerate versioni diverse, bensì documenti diversi.
  • Pagina o URL canonico: l'URL che Google considera più rappresentativo del documento. Google esegue sempre la scansione di questo URL; la scansione degli URL duplicati nel documento viene eseguita occasionalmente.
  • Pagina o URL alternativo/duplicato: l'URL del documento di cui Google potrebbe occasionalmente eseguire la scansione. Google pubblica anche questi URL se sono adatti all'utente e alla richiesta (ad esempio, per le richieste desktop verrà pubblicato un URL alternativo per gli utenti desktop, anziché un URL canonico per dispositivi mobili).
  • Sito: in genere utilizzato come sinonimo di sito web (un insieme di pagine web concettualmente correlato), ma talvolta utilizzato come sinonimo di una proprietà Search Console, sebbene una proprietà possa essere definita in effetti solo come parte di un sito. Un sito può includere sottodomini (e persino organizzazioni, per pagine AMP collegate correttamente).

Le pagine con gli stessi contenuti in lingue diverse vengono memorizzate in documenti diversi che contengono riferimenti l'una all'altra utilizzando i tag hreflang; ecco perché è importante utilizzare i tag hreflang per i contenuti tradotti.

Pubblicazione dei risultati

Quando un utente inserisce una query, i nostri computer cercano le pagine corrispondenti nell'indice, quindi restituiscono i risultati ritenuti più pertinenti. La pertinenza viene stabilita tenendo in considerazione centinaia di fattori. Lavoriamo costantemente per migliorare il nostro algoritmo. Google considera l'esperienza utente nella scelta e nel ranking dei risultati, quindi assicurati che la tua pagina si carichi velocemente e che sia ottimizzata per i dispositivi mobili.

Miglioramento dei risultati

Descrizione ancora più dettagliata

Puoi trovare una descrizione ancora più dettagliata su come funziona la Ricerca Google qui (completa di foto e video!).