Guida avanzata: come funziona la Ricerca

Comprendere il modo in cui la Ricerca Google esegue la scansione dei contenuti, li indicizza e li pubblica è importante quando devi eseguire il debug dei problemi e prevedere il comportamento della Ricerca sul tuo sito.

Scansione

La scansione è l'operazione con cui Googlebot visita pagine nuove e aggiornate da aggiungere all'Indice Google.

Utilizziamo una quantità enorme di computer per recuperare ("eseguire la scansione") di miliardi di pagine sul Web. Il programma che effettua questa operazione è denominato Googlebot (noto anche come robot, bot o spider). Googlebot utilizza un processo algoritmico per determinare i siti di cui eseguire la scansione, con quale frequenza farlo e quante pagine recuperare da ogni sito.

Il processo di scansione di Google inizia con un elenco di URL di pagine web, generato da processi di scansione precedenti, che comprende anche i dati delle Sitemap forniti dai proprietari dei siti web. Quando Googlebot visita una pagina, trova i link al suo interno e li aggiunge al suo elenco di pagine di cui eseguire la scansione. I siti nuovi, le modifiche di siti esistenti e i link non più validi vengono registrati e utilizzati per aggiornare l'Indice Google.

Durante la scansione, Google visualizza la pagina utilizzando una versione recente di Chrome. Come parte del processo di rendering, esegue tutti gli script di pagina che trova. Se il tuo sito utilizza contenuti generati dinamicamente, assicurati di seguire i concetti di base della SEO per JavaScript.

Come fa Google a sapere di quali pagine non deve eseguire la scansione?

  • Le pagine bloccate nel file robots.txt non vengono sottoposte a scansione, ma potrebbero essere indicizzate se altre pagine includono rimandi a queste pagine bloccate. Google può dedurre il contenuto di una pagina dal link che rimanda alla pagina stessa e indicizzarla senza analizzarne il contenuto.
  • Google non può eseguire la scansione di pagine non accessibili a un utente anonimo. Pertanto, qualsiasi richiesta di accesso o altro requisito di autorizzazione della pagina ne impedirà la scansione.
  • Le pagine la cui scansione è già stata eseguita e sono considerate duplicati di un'altra pagina vengono sottoposte a scansione meno frequentemente.

Migliorare la scansione

Utilizza queste tecniche per aiutare Google a scoprire le pagine giuste sul tuo sito:

Indicizzazione

Googlebot elabora ogni pagina di cui esegue la scansione per comprenderne i contenuti. Ciò include l'elaborazione di contenuti testuali, tag di contenuti chiave e attributi, come tag <title> e attributi ALT, immagini, video e altro ancora. Googlebot è in grado di elaborare numerosi tipi di contenuti, ma non tutti: ad esempio, non può elaborare i contenuti di alcuni file rich media.

Tra la fase della scansione e la fase dell'indicizzazione Google stabilisce se una pagina è un duplicato o la versione canonica di un'altra pagina. Se la pagina viene considerata un duplicato, viene sottoposta a scansione con frequenza notevolmente minore. Le pagine simili sono raggruppate in un documento, che è un gruppo di una o più pagine che include la pagina canonica (la più rappresentativa del gruppo) ed eventuali duplicati trovati (che potrebbero essere semplicemente URL alternativi che rimandano alla stessa pagina o versioni alternative, per dispositivi mobili o desktop, della stessa pagina).

Tieni presente che Google non indicizza le pagine per cui esiste un'istruzione noindex (intestazione o tag). Tuttavia, deve essere in grado di vedere l'istruzione; se la pagina è bloccata da un file robots.txt, da una pagina di accesso o da un altro dispositivo, è possibile che venga indicizzata anche se Google non l'ha visitata.

Migliorare l'indicizzazione

Esistono molte tecniche per migliorare la capacità di Google di comprendere i contenuti della tua pagina:

Che cos'è un "documento"?

Internamente, Google rappresenta il Web come un insieme enorme di documenti. Ciascun documento rappresenta una o più pagine web. Queste pagine sono identiche o molto simili, ma rappresentano essenzialmente gli stessi contenuti, raggiungibili da URL diversi. I diversi URL in un documento possono rimandare esattamente alla stessa pagina (ad esempio, example.com/dresses/summer/1234 e example.com?product=1234 potrebbero mostrare la stessa pagina) o alla stessa pagina con piccole varianti destinate a utenti su dispositivi diversi (ad esempio, example.com/mypage per gli utenti di desktop e m.example.com/mypage per gli utenti di dispositivi mobili).

Google sceglie uno degli URL in un documento e lo definisce come URL canonico del documento. L'URL canonico del documento è quello di cui Google esegue più spesso la scansione e l'indicizzazione; gli altri URL sono considerati duplicati o alternativi e possono essere occasionalmente sottoposti a scansione o pubblicati in base alla richiesta dell'utente. Ad esempio, se l'URL canonico è l'URL per i dispositivi mobili, Google probabilmente pubblicherà comunque l'URL desktop (alternativo) per gli utenti che eseguono ricerche su desktop.

La maggior parte dei report in Search Console attribuisce i dati all'URL canonico del documento. Alcuni strumenti (come lo strumento Controllo URL) supportano il test di URL alternativi, ma il controllo dell'URL canonico fornisce informazioni anche sugli URL alternativi.

Puoi comunicare a Google quale URL preferisci sia canonico, ma Google potrebbe scegliere un URL canonico diverso per vari motivi.

Ecco un riepilogo dei termini e di come vengono utilizzati in Search Console:

  • Documento: una raccolta di pagine simili. Include un URL canonico ed eventualmente URL alternativi, se il tuo sito ha pagine duplicate. Gli URL nel documento possono provenire dalla stessa organizzazione o da una diversa (il dominio principale, ad esempio "google" in www.google.com). Google sceglie l'URL migliore da mostrare nei risultati della Ricerca in base alla piattaforma (dispositivo mobile/desktop), alla lingua dell'utente, alla località e a molte altre variabili. Google rileva le pagine correlate sul tuo sito tramite la scansione organica o tramite funzionalità implementate sul sito, come i reindirizzamenti o i tag <link rel=alternate/canonical>. Le pagine correlate di altre organizzazioni possono essere contrassegnate come alternative solo se codificate in modo esplicito dal tuo sito (tramite reindirizzamenti o tag link).
  • URL: l'URL utilizzato per raggiungere un determinato contenuto su un sito.
  • Pagina: una determinata pagina web, raggiunta mediante uno o più URL. Possono esistere diverse versioni di una pagina, a seconda della piattaforma dell'utente (dispositivo mobile, desktop, tablet e così via).
  • Versione: una variante della pagina, generalmente classificata come "mobile", "desktop" e "AMP" (anche se AMP può avere a sua volta versioni per dispositivi mobili e desktop). Ogni versione può avere un URL diverso (example.com o m.example.com) o lo stesso URL (se il tuo sito utilizza la pubblicazione dinamica o il responsive web design, lo stesso URL può mostrare versioni diverse della stessa pagina) a seconda della configurazione del sito. Le varianti linguistiche non sono considerate versioni diverse, bensì documenti diversi.
  • Pagina o URL canonico: l'URL che Google considera più rappresentativo del documento. Google esegue sempre la scansione di questo URL; la scansione degli URL duplicati nel documento viene eseguita occasionalmente.
  • Pagina o URL alternativo/duplicato: l'URL del documento di cui Google potrebbe occasionalmente eseguire la scansione. Google pubblica anche questi URL se sono adatti all'utente e alla richiesta (ad esempio, per le richieste desktop verrà pubblicato un URL alternativo per gli utenti desktop, anziché un URL canonico per dispositivi mobili).
  • Sito: in genere utilizzato come sinonimo di sito web (un insieme di pagine web concettualmente correlate), ma talvolta utilizzato come sinonimo di una proprietà Search Console, sebbene una proprietà possa essere definita in effetti solo come parte di un sito. Un sito può includere sottodomini (e persino domini, per le pagine AMP collegate correttamente).

Pubblicazione dei risultati

Quando un utente inserisce una query, i nostri computer cercano le pagine corrispondenti nell'indice, quindi restituiscono i risultati ritenuti più pertinenti. La pertinenza viene stabilita tenendo in considerazione centinaia di fattori. Lavoriamo costantemente per migliorare il nostro algoritmo. Google considera l'esperienza utente nella scelta e nel ranking dei risultati, quindi assicurati che la tua pagina si carichi velocemente e che sia ottimizzata per i dispositivi mobili.

Migliorare la pubblicazione

Esistono molti metodi per migliorare il modo in cui Google pubblica i contenuti della tua pagina: