Guida approfondita sul funzionamento della Ricerca Google

La Rircerca Google è un motore di ricerca completamente automatizzato che utilizza software chiamati web crawler per esplorare regolarmente il Web e trovare pagine da aggiungere al suo indice. In effetti, la maggior parte delle pagine riportate nei nostri risultati non viene inviata manualmente per l'inclusione, ma viene trovata e aggiunta automaticamente quando i nostri web crawler esplorano il Web. Questo documento spiega le fasi del funzionamento della Ricerca nel contesto del tuo sito web. Avere conoscenze di base può aiutarti a risolvere i problemi di scansione, fare indicizzare le pagine e scoprire come ottimizzare l'aspetto del tuo sito nella Ricerca Google.

Alcune note prima di iniziare

Prima di entrare nel dettaglio di come funziona la Ricerca, è importante tenere presente che Google non accetta pagamenti per eseguire con maggiore frequenza la scansione di un determinato sito o per migliorarne il ranking. Se qualcuno sostiene il contrario, sbaglia.

Google non garantisce che eseguirà la scansione, indicizzerà o pubblicherà la tua pagina anche se rispetta le linee guida e le norme di Google per i proprietari di siti.

La Ricerca Google opera secondo tre fasi e non tutte le pagine superano ognuno dei passaggi:

  1. Scansione: Google scarica testi, immagini e video dalle pagine trovate su Internet tramite programmi automatizzati chiamati crawler.
  2. Indicizzazione: Google analizza il testo, le immagini e i file video sulla pagina e memorizza le informazioni nell'Indice Google, che è un grande database.
  3. Pubblicazione dei risultati di ricerca: quando un utente effettua ricerche su Google, Google restituisce informazioni pertinenti alla sua query.

Scansione

La prima fase consiste nel capire quali pagine esistono sul Web. Non esiste un registro centrale di tutte le pagine web, pertanto Google deve costantemente cercare pagine nuove e aggiornate e aggiungerle al proprio elenco di pagine note. Questo processo è chiamato "Individuazione degli URL". Alcune pagine sono note perché Google le ha già visitate. Altre pagine vengono scoperte quando Google segue un link che rimanda da una pagina nota a una nuova; ad esempio, una pagina hub, come una pagina di categoria, rimanda a un nuovo post del blog; altre ancora vengono scoperte quando invii a Google un elenco di pagine (una Sitemap) per la scansione.

Una volta che Google scopre l'URL di una pagina, potrebbe visitarla (o "eseguirne la scansione") per scoprirne i contenuti. Utilizziamo una quantità enorme di computer per eseguire la scansione di miliardi di pagine sul Web. Il programma che effettua questa operazione è denominato Googlebot (noto anche come robot, bot o spider). Googlebot utilizza un processo algoritmico per determinare i siti di cui eseguire la scansione, con quale frequenza farlo e quante pagine recuperare da ogni sito. I crawler di Google sono inoltre programmati in modo che non tentino di eseguire la scansione del sito troppo velocemente, per evitare di sovraccaricarlo. Questo meccanismo si basa sulle risposte del sito (ad esempio, gli errori HTTP 500 indicano rallentamenti) e sulle impostazioni in Search Console.

Tuttavia, Googlebot non esegue la scansione di tutte le pagine che ha individuato. Per alcune pagine il proprietario potrebbe aver impedito la scansione, altre pagine potrebbero non essere accessibili senza aver effettuato l'accesso al sito e altre ancora potrebbero essere duplicati di pagine sottoposte a scansione in precedenza. Ad esempio, molti siti sono accessibili tramite la versione www (www.example.com) e non www (example.com) del nome di dominio, anche se i contenuti sono identici in entrambe le versioni.

Durante la scansione, Google visualizza la pagina ed esegue eventuale codice JavaScript rilevato utilizzando una versione recente di Chrome, in modo simile a come il tuo browser visualizza la pagina che visiti. Il rendering è importante perché i siti web spesso si affidano a JavaScript per mostrare i contenuti sulla pagina e, senza il rendering, Google potrebbe non vedere questi contenuti.

La scansione dipende dal fatto che i crawler di Google possano accedere al sito; di seguito sono riportati alcuni problemi comuni di accesso ai siti da parte di Googlebot:

Indicizzazione

Dopo aver eseguito la scansione di una pagina, Google prova a capire di che cosa tratta. Questa fase è chiamata indicizzazione e include l'elaborazione e l'analisi dei contenuti testuali e di tag di contenuti chiave e attributi, come gli elementi <title> e gli attributi ALT, immagini, video e altro ancora.

Durante la procedura di indicizzazione, Google determina se una pagina è un duplicato di un'altra pagina su Internet o se è canonica. La pagina canonica è quella che può essere mostrata nei risultati di ricerca. Per selezionare la versione canonica, per prima cosa raggruppiamo le pagine con contenuti simili che abbiamo trovato su Internet e poi selezioniamo quella più rappresentativa del gruppo. Le altre pagine nel gruppo sono versioni alternative che potrebbero essere pubblicate in contesti diversi, ad esempio se l'utente sta effettuando ricerche da un dispositivo mobile o sta cercando una pagina molto specifica di quel cluster.

Google raccoglie inoltre indicatori relativi alla pagina canonica e ai suoi contenuti, che potrebbero essere utilizzati nella fase successiva, in cui pubblichiamo la pagina nei risultati di ricerca; alcuni indicatori includono la lingua della pagina, il paese a cui sono relativi i contenuti, l'usabilità della pagina e così via.

Le informazioni raccolte sulla pagina canonica e sul relativo cluster potrebbero essere archiviate nell'Indice Google, un grande database ospitato su migliaia di computer. L'indicizzazione non è garantita; non tutte le pagine elaborate da Google verranno indicizzate.

L'indicizzazione dipende anche dai contenuti della pagina e dai relativi metadati; alcuni problemi comuni di indicizzazione possono includere:

Pubblicare i risultati di ricerca

Quando un utente inserisce una query, i nostri computer cercano le pagine corrispondenti nell'indice, quindi restituiscono i risultati ritenuti della migliore qualità e più pertinenti. La pertinenza viene stabilita tenendo in considerazione centinaia di fattori, tra cui informazioni quali la posizione, la lingua e il dispositivo dell'utente (desktop o telefono). Ad esempio, la ricerca di "officine per la riparazione di biciclette" mostra risultati diversi a un utente di Parigi rispetto a un utente di Hong Kong.

Search Console potrebbe indicare che una pagina è indicizzata, tuttavia non la vedi nei risultati di ricerca. Le cause potrebbero essere le seguenti:

Questa guida spiega come funziona la Ricerca, ma cerchiamo sempre di migliorare i nostri algoritmi. Per tenere traccia di queste modifiche, segui il blog di Google Search Central.