Guida approfondita sul funzionamento della Ricerca Google
La Ricerca Google è un motore di ricerca completamente automatizzato che utilizza software chiamati web crawler per esplorare regolarmente il web e trovare pagine da aggiungere al suo indice. In effetti, la maggior parte delle pagine riportate nei nostri risultati non viene inviata manualmente per l'inclusione, ma viene trovata e aggiunta automaticamente quando i nostri web crawler esplorano il web. Questo documento spiega le fasi del funzionamento della Ricerca nel contesto del tuo sito web. Avere conoscenze di base può aiutarti a risolvere i problemi di scansione, fare indicizzare le pagine e scoprire come ottimizzare l'aspetto del tuo sito nella Ricerca Google.
Alcune note prima di iniziare
Prima di entrare nel dettaglio di come funziona la Ricerca, è importante tenere presente che Google non accetta pagamenti per eseguire con maggiore frequenza la scansione di un determinato sito o per migliorarne il ranking. Se qualcuno sostiene il contrario, sbaglia.
Google non garantisce che eseguirà la scansione della tua pagina, che la indicizzerà o la pubblicherà, anche se segue le Nozioni di base sulla Ricerca Google.
Le tre fasi della Ricerca Google
La Ricerca Google opera secondo tre fasi, e non tutte le pagine riescono a superarle:
- Scansione: Google scarica testi, immagini e video dalle pagine trovate su internet tramite programmi automatizzati chiamati crawler.
- Indicizzazione: Google analizza il testo, le immagini e i file video sulla pagina e memorizza le informazioni nell'Indice Google, che è un grande database.
- Pubblicazione dei risultati di ricerca: quando un utente effettua ricerche su Google, Google restituisce informazioni pertinenti alla sua query.
Scansione
La prima fase consiste nel capire quali pagine esistono sul web. Non esiste un registro centrale di tutte le pagine web, pertanto Google deve costantemente cercare pagine nuove e aggiornate e aggiungerle al proprio elenco di pagine note. Questo processo è chiamato "Individuazione degli URL". Alcune pagine sono note perché Google le ha già visitate. Altre pagine vengono scoperte quando Google segue un link che rimanda da una pagina nota a una nuova; ad esempio, una pagina hub, come una pagina di categoria, rimanda a un nuovo post del blog; altre ancora vengono scoperte quando invii a Google un elenco di pagine (una Sitemap) per la scansione.
Una volta che Google trova l'URL di una pagina, potrebbe visitare (o "sottoporre a scansione") la pagina per scoprirne i contenuti. Utilizziamo una quantità enorme di computer per eseguire la scansione di miliardi di pagine sul web. Il programma che effettua l'operazione di recupero si chiama Googlebot (noto anche come robot, bot o spider); Googlebot utilizza un processo algoritmico per determinare i siti di cui eseguire la scansione, con quale frequenza farlo e quante pagine recuperare da ogni sito. Anche i crawler di Google sono programmati in modo da tentare di non eseguire la scansione del sito troppo velocemente per evitare di sovraccaricarlo. Questo meccanismo si basa sulle risposte del sito (ad esempio, gli errori HTTP 500 significano "rallentamento").
Tuttavia, Googlebot non esegue la scansione di tutte le pagine che ha rilevato. Alcune pagine potrebbero essere non autorizzate per la scansione dal proprietario del sito, altre potrebbero non essere accessibili senza che venga effettuato l'accesso al sito.
Durante la scansione, Google visualizza la pagina ed esegue eventuale codice JavaScript rilevato utilizzando una versione recente di Chrome, in modo simile a come il tuo browser visualizza la pagina che visiti. Il rendering è importante perché i siti web spesso si affidano a JavaScript per mostrare i contenuti sulla pagina e, senza il rendering, Google potrebbe non vedere questi contenuti.
La scansione dipende dal fatto che i crawler di Google possano accedere al sito; di seguito sono riportati alcuni problemi comuni di accesso ai siti da parte di Googlebot:
- Problemi con il server che gestisce il sito
- Problemi di rete
- Regole del file robots.txt che impediscono l'accesso alla pagina da parte di Googlebot
Indicizzazione
Dopo aver eseguito la scansione di una pagina, Google prova a capire di che cosa tratta. Questa fase è chiamata indicizzazione e include l'elaborazione e l'analisi dei contenuti testuali e di tag di contenuti chiave e attributi, come gli elementi <title>
e gli attributi ALT,
immagini,
video e
altro ancora.
Durante la procedura di indicizzazione, Google determina se una pagina è un duplicato di un'altra pagina su internet o se è canonica. La pagina canonica è quella che può essere mostrata nei risultati di ricerca. Per selezionare la versione canonica, per prima cosa effettuiamo un raggruppamento (noto anche come clustering) delle pagine con contenuti simili che abbiamo trovato su internet, e poi selezioniamo quella più rappresentativa del gruppo. Le altre pagine nel gruppo sono versioni alternative che potrebbero essere pubblicate in contesti diversi, ad esempio se l'utente sta effettuando ricerche da un dispositivo mobile o sta cercando una pagina molto specifica di quel cluster.
Google raccoglie inoltre indicatori relativi alla pagina canonica e ai suoi contenuti, che potrebbero essere utilizzati nella fase successiva, in cui pubblichiamo la pagina nei risultati di ricerca; alcuni indicatori includono la lingua della pagina, il paese a cui sono relativi i contenuti e l'usabilità della pagina.
Le informazioni raccolte sulla pagina canonica e sul relativo cluster potrebbero essere archiviate nell'Indice Google, un grande database ospitato su migliaia di computer. L'indicizzazione non è garantita; non tutte le pagine elaborate da Google verranno indicizzate.
L'indicizzazione dipende anche dai contenuti della pagina e dai relativi metadati; alcuni problemi comuni di indicizzazione possono includere:
- La qualità dei contenuti sulla pagina è bassa
-
Le regole del
meta
tag Robots non consentono l'indicizzazione - Il design del sito web potrebbe rendere difficile l'indicizzazione
Pubblicare i risultati di ricerca
Quando un utente inserisce una query, i nostri computer cercano le pagine corrispondenti nell'indice, poi restituiscono i risultati ritenuti della migliore qualità e più pertinenti per quella query. La pertinenza viene stabilita tenendo in considerazione centinaia di fattori, ad esempio la posizione, la lingua e il dispositivo dell'utente (computer o smartphone). Ad esempio, la ricerca di "officine per la riparazione di biciclette" mostra risultati diversi a un utente di Parigi rispetto a un utente di Hong Kong.
Le funzionalità di ricerca visualizzate nella pagina dei risultati di ricerca cambiano anche in base alla query dell'utente. Ad esempio, la ricerca di "officine per la riparazione di biciclette" mostrerà probabilmente risultati locali e nessun risultato di immagini; tuttavia, la ricerca di "bicicletta moderna" è probabile che mostrerà risultati relativi a immagini, non a risultati di ricerca locale. Puoi esplorare gli elementi UI più comuni della Ricerca Google nella nostra Galleria degli elementi visivi.
Search Console potrebbe indicare che una pagina è indicizzata, tuttavia non la vedi nei risultati di ricerca. Le cause potrebbero essere le seguenti:
- I contenuti della pagina non sono pertinenti alle query degli utenti
- La qualità dei contenuti è bassa
-
Le regole del
meta
tag Robots impediscono la pubblicazione
Questa guida spiega come funziona la Ricerca, ma ci impegniamo costantemente a migliorare i nostri algoritmi. Per tenere traccia di queste modifiche, segui il blog di Google Search Central.