Raggruppare URL duplicati

Se sul tuo sito è presente una singola pagina accessibile da più URL o sono presenti diverse pagine con contenuti simili (ad esempio, una pagina con una versione per dispositivi mobili e una versione desktop), per Google è come se fossero presenti versioni duplicate della stessa pagina. Google sceglie un unico URL come versione canonica e ne esegue la scansione, mentre tutti gli altri URL vengono considerati duplicati e vengono sottoposti a scansione con minore frequenza.

Se non indichi espressamente l'URL canonico, Google ne sceglierà uno al posto tuo o li considererà entrambi dello stesso peso, con possibili comportamenti indesiderati, come spiegato nella sezione Motivi per scegliere un URL canonico.

In che modo Googlebot indicizza e sceglie l'URL canonico

Quando indicizza un sito, Googlebot prova a determinare i contenuti principali di ciascuna pagina. Se su uno stesso sito trova più pagine che sembrano uguali, Googlebot sceglie la pagina che considera più completa e utile e la contrassegna come canonica. La pagina canonica viene sottoposta a scansione con maggiore regolarità rispetto alle pagine duplicate, che vengono sottoposte a scansione meno frequentemente al fine di ridurre il carico di scansione di Google sul tuo sito.

Google sceglie la pagina canonica in base a vari fattori (o indicatori), ad esempio se la pagina viene pubblicata tramite HTTP o HTTPS, la qualità della pagina, la presenza dell'URL in una Sitemap e qualsiasi etichettatura di tipo rel=canonical. Puoi indicare la tua preferenza a Google tramite queste tecniche, ma Google, per vari motivi, potrebbe comunque scegliere come canonica una pagina diversa da quella che preferiresti tu.

Le versioni in diverse lingue di una stessa pagina vengono considerate pagine duplicate solo se i contenuti principali sono nella stessa lingua (ossia, se solo l'intestazione, il piè di pagina e altre parti testuali di secondaria importanza sono tradotte, mentre il testo principale resta lo stesso, allora le pagine vengono considerate duplicate).

Google utilizza le pagine canoniche come fonti principali per valutare contenuti e qualità. In genere, un risultato della Ricerca Google rimanda alla pagina canonica, a meno che una delle pagine duplicate sia espressamente più adatta a un utente. Ad esempio, il risultato di ricerca potrebbe reindirizzare a una pagina per dispositivi mobili se l'utente utilizza un dispositivo di questo tipo, anche se la pagina canonica designata è quella per computer desktop.

Motivi validi per avere pagine simili o duplicate

Esistono motivi validi per cui un sito può avere URL diversi che indirizzano a una stessa pagina oppure pagine duplicate o molto simili che indirizzano a URL diversi. Ecco i più comuni:

  • Per supportare più tipi di dispositivi:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Per attivare gli URL dinamici per elementi come parametri di ricerca o ID di sessione:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Se il sistema del blog salva automaticamente più URL quando viene inserito uno stesso post in più sezioni:
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Se il server è configurato per pubblicare gli stessi contenuti per le varianti www/non www e/o http/https:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Se i contenuti proposti in un blog da distribuire in syndication su altri siti vengono copiati in parte o per intero su questi domini:
    https://news.example.com/green-dresses-for-every-day-155672.html (post distribuito in syndication) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (post originale)

Motivi per scegliere un URL canonico

Esistono diversi motivi per cui conviene scegliere espressamente una pagina canonica in un insieme di pagine duplicate o simili:

  • Per specificare l'URL da mostrare nei risultati di ricerca. Potresti preferire che gli utenti raggiungano la tua pagina relativa agli abiti verdi tramite https://www.example.com/dresses/green/greendress.html anziché https://example.com/dresses/cocktail?gclid=ABCD.
  • Per raggruppare i segnali associati ai link per pagine simili o duplicate. Consente ai motori di ricerca di raggruppare le informazioni in loro possesso relative ai singoli URL (ad esempio link che rimandano agli URL) in un unico URL preferito. Ciò significa che i link presenti in altri siti che rimandano a http://example.com/dresses/cocktail?gclid=ABCD vengono raggruppati con i link che rimandano a https://www.example.com/dresses/green/greendress.html.
  • Per semplificare il monitoraggio delle metriche relative a un singolo prodotto o argomento. La presenza di URL diversi rende più complicato ricevere metriche raggruppate per un contenuto specifico.
  • Per gestire i contenuti distribuiti in syndication. Se distribuisci in syndication i contenuti per pubblicarli su altri domini, ti conviene assicurarti che nei risultati di ricerca compaia l'URL che preferisci.
  • Per evitare di impiegare tempo a eseguire la scansione di pagine duplicate. Per ottimizzare la scansione del sito, è preferibile che Googlebot sottoponga a scansione pagine nuove (o aggiornate), anziché le versioni desktop e per dispositivi mobili delle stesse pagine.

Scoprire quale pagina è considerata canonica da Google

Utilizza lo strumento Controllo URL per sapere quale pagina è considerata canonica da Google.

Specificare una pagina canonica

Per specificare un URL canonico per gli URL duplicati o le pagine simili, scegli uno dei seguenti metodi. Assicurati di seguire le linee guida generali.

Metodo e descrizione
Tag rel=canonical <link>

Aggiungi nel codice di tutte le pagine duplicate un tag <link> che indirizza alla pagina canonica.

Pro:
  • Può mappare un numero infinito di pagine duplicate.

Contro:

  • Può aumentare la dimensione della pagina.
  • Può complicare la gestione della mappatura su siti di grandi dimensioni o siti in cui gli URL subiscono frequenti modifiche.
  • Funziona solo per le pagine HTML, non per i file (ad esempio i PDF). In questi casi, puoi utilizzare l'intestazione HTTP rel=canonical.
Intestazione HTTP rel=canonical

Invia un'intestazione rel=canonical nella risposta di una pagina.

Pro:

  • Non aumenta la dimensione della pagina.
  • Può mappare un numero infinito di pagine duplicate.

Contro:

  • Può complicare la gestione della mappatura su siti di grandi dimensioni o siti in cui gli URL subiscono frequenti modifiche.
Sitemap

Designa le pagine canoniche in una Sitemap.

Pro:

  • Facile da implementare e gestire, soprattutto su siti di grandi dimensioni.

Contro:

  • Googlebot deve comunque identificare le pagine duplicate per tutte le pagine canoniche dichiarate nella Sitemap.
  • Indicatore meno efficace per Googlebot rispetto alla tecnica di mappatura con rel=canonical.
Reindirizzamento 301 Utilizza i reindirizzamenti 301 per indicare a Googlebot che un URL reindirizzato è una versione migliore dell'URL prestabilito. Adotta questo metodo solo quando rendi obsoleta una pagina duplicata.
Variante AMP Se una delle varianti è una pagina AMP, segui le linee guida delle pagine AMP per designare la pagina canonica e la variante AMP.

Linee guida generali

Per tutti i metodi di canonicalizzazione, attieniti alle seguenti linee guida generali:

  • Non utilizzare il file robots.txt per la canonicalizzazione.
  • Non utilizzare lo strumento per le rimozioni di URL per la canonicalizzazione perché rimuove tutte le versioni di un URL dalla Ricerca.
  • Non specificare URL diversi come canonici per una stessa pagina utilizzando le stesse o diverse tecniche di canonicalizzazione (ad esempio, non specificare un URL in una Sitemap e un altro URL per la stessa pagina utilizzando rel="canonical").
  • Non utilizzare noindex per impedire la selezione di una pagina canonica. Questa istruzione ha lo scopo di escludere la pagina dall'indice, non di gestire la scelta di una pagina canonica.
  • Specifica una pagina canonica quando utilizzi i tag hreflang. Designa una pagina canonica in una stessa lingua o nella migliore lingua sostitutiva, qualora non esista una pagina canonica per la stessa lingua.

  • Utilizza per il link l'URL canonico, anziché un URL duplicato, quando stabilisci i collegamenti all'interno del tuo sito. Utilizzare sempre lo stesso URL per i link aiuta Google a comprendere quale sia la tua preferenza per l'URL canonico.

Preferire HTTPS a HTTP per gli URL canonici

Per le pagine canoniche, Google preferisce le pagine HTTPS alle pagine HTTP equivalenti, ad eccezione dei casi in cui esistano problemi o segnali contrastanti come i seguenti:

  • Il certificato SSL della pagina HTTPS non è valido.
  • La pagina HTTPS contiene dipendenze non protette (diverse dalle immagini).
  • La pagina HTTPS reindirizza gli utenti a o tramite una pagina HTTP.
  • La pagina HTTPS ha un link rel="canonical" alla pagina HTTP.

Anche se i nostri sistemi preferiscono, per impostazione predefinita, le pagine HTTPS alle pagine HTTP, puoi assicurarti che venga applicata questa preferenza svolgendo una delle seguenti azioni:

  • Aggiungi reindirizzamenti dalla pagina HTTP alla pagina HTTPS.
  • Aggiungi un link rel="canonical" che rimanda dalla pagina HTTP alla pagina HTTPS.
  • Implementa HSTS.

Per evitare che Google imposti erroneamente come canonica la pagina HTTP, evita le seguenti prassi:

  • Evita i certificati TLS/SSL non validi e i reindirizzamenti da HTTPS a HTTP perché portano Google a preferire HTTP in modo netto. L'implementazione di HSTS non può sostituire questa netta preferenza.
  • Evita l'inserimento nella Sitemap o in voci hreflang della pagina HTTP anziché della versione HTTPS.
  • Evita l'implementazione del certificato SSL/TLS per la variante host sbagliata (ad esempio, example.com che fornisce il certificato per www.example.com). Il certificato deve corrispondere all'URL del sito completo oppure essere un certificato con caratteri jolly che sia possibile utilizzare per diversi sottodomini di un dominio.

Solo per utenti esperti: chiedere a Google di ignorare i parametri dinamici

Utilizza Gestione parametri per segnalare a Googlebot eventuali parametri da ignorare durante la scansione. Se ignori alcuni parametri, puoi ridurre i contenuti duplicati nell'indice di Google e semplificare la scansione del sito. Ad esempio, se indichi di ignorare il parametro sessionid, Googlebot considererà i seguenti due URL duplicati:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Per indicare quando una pagina è un duplicato di un'altra, puoi utilizzare un tag <link> nella sezione head del codice HTML.

Ipotizza di voler designare https://example.com/dresses/green-dresses come URL canonico, anche se il suo contenuto è accessibile da diversi URL. Designa questo URL come canonico con i seguenti passaggi:

  1. Contrassegna tutte le pagine duplicate con un tag link rel="canonical".

    Aggiungi un elemento <link> con l'attributo rel="canonical" alla sezione <head> delle pagine duplicate che indirizzi a una pagina canonica. Ad esempio:

    <link rel="canonical" href="https://example.com/dresses/green-dresses" />
  2. Se la pagina canonica è associata a una variante per dispositivi mobili, aggiungi un link rel="alternate", indirizzando alla versione per dispositivi mobili della pagina:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">
  3. Aggiungi eventuali tag hreflang o altri reindirizzamenti appropriati per la pagina.

Utilizza percorsi assoluti anziché percorsi relativi con il tag link rel="canonical".

Consigliato: https://www.example.com/dresses/green/greendresss.html

Sconsigliato: /dresses/green/greendress.html

Utilizzare un'intestazione HTTP rel="canonical"

Se puoi configurare il tuo server, puoi utilizzare un'intestazione HTTP rel="canonical" (al posto di un tag HTML) per designare l'URL canonico per i documenti supportati dalla Ricerca, tra cui documenti non HTML come file PDF.

Al momento, Google supporta questo metodo solo per i risultati di ricerca web.

Se mostri un file PDF attraverso più URL, puoi restituire un'intestazione HTTP rel="canonical" per indicare a Googlebot quale sia l'URL canonico per il file PDF:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

I consigli per l'intestazione HTTP rel="canonical" sono gli stessi del tag link rel="canonical". Come da protocollo RFC2616, utilizza solo virgolette doppie nell'intestazione HTTP rel="canonical".

Utilizzare una Sitemap

Scegli un URL canonico per ognuna delle tue pagine e inviali in una Sitemap. Tutte le pagine elencate in una Sitemap vengono suggerite come canoniche, ma sarà Googlebot a decidere quali, se presenti, siano duplicate, in base alla somiglianza dei contenuti.

Google non garantisce che considererà gli URL della Sitemap come canonici, ma è comunque un metodo semplice per definire URL canonici per siti di grandi dimensioni. Inoltre, le Sitemap sono utili per segnalare a Google quali pagine reputi più importanti sul tuo sito.

Non includere pagine non canoniche in una Sitemap. Se utilizzi una Sitemap, specifica al suo interno solo gli URL canonici.

Utilizzare i reindirizzamenti 301 per URL ritirati

Utilizza questo metodo se vuoi eliminare pagine duplicate esistenti, ma devi garantire una transizione graduale prima dell'effettivo ritiro di URL obsoleti.

Supponiamo che sia possibile accedere alla tua pagina in diversi modi:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Scegli uno di questi URL come URL canonico e utilizza i reindirizzamenti 301 per inviare il traffico dagli altri URL all'URL preferito. Un reindirizzamento 301 lato server è il modo migliore per assicurarsi che utenti e motori di ricerca siano indirizzati alla pagina corretta. Il codice di stato 301 indica che una pagina è stata spostata definitivamente in una nuova posizione.

Se utilizzi un servizio di hosting di siti web, cerca la relativa documentazione sulla configurazione dei reindirizzamenti 301.

Risolvere i problemi

Se l'URL canonico si trova in una proprietà che non è tua, non potrai vedere il traffico della tua pagina duplicata. Di seguito vengono spiegati alcuni motivi comuni per cui una pagina canonica possa essere presente in una proprietà separata.

  • Varianti linguistiche contrassegnate in modo errato. Se hai più siti web che pubblicano sostanzialmente gli stessi contenuti localizzati per utenti diversi di tutto il mondo, assicurati di seguire le nostre linee guida per i siti localizzati.
  • Tag canonici errati. Alcuni sistemi di gestione dei contenuti (CMS) o plug-in CMS possono fare un uso non corretto delle tecniche di canonicalizzazione per indirizzare a URL su siti web esterni. Controlla i tuoi contenuti per verificare se si tratta di questo problema. Se il tuo sito indica una preferenza di URL canonico imprevista, magari a causa dell'uso non corretto dell'elemento rel="canonical" o di un reindirizzamento 301, correggi direttamente il problema.
  • Server configurati in modo errato. Alcuni errori di configurazione dell'host potrebbero causare una selezione imprevista di URL tra domini. Ad esempio:
    • Un server potrebbe essere erroneamente configurato per restituire contenuti da a.com per una richiesta di un URL di b.com.
    • Due server web non correlati potrebbero restituire pagine di errore soft 404 identiche che Google non identifica come pagine di errore.
  • Compromissione dannosa. In alcuni casi, gli attacchi ai siti web introducono un codice che restituisce un reindirizzamento 301 HTTP o inserisce un tag link rel="canonical" tra domini nell'elemento HTML <head> o nell'intestazione HTTP, che rimanda in genere a un URL dove sono ospitati contenuti di spam o dannosi. In questi casi, i nostri algoritmi potrebbero selezionare l'URL dannoso o contenente spam al posto dell'URL sul sito web compromesso.
  • Un sito web emulatore. In rari casi, il nostro algoritmo potrebbe selezionare un URL da un sito esterno che ospita i tuoi contenuti senza la tua autorizzazione. Se ritieni che un altro sito abbia duplicato i tuoi contenuti violando la legge sul copyright, puoi contattare l'host del sito per richiedere la rimozione. Puoi anche chiedere a Google di rimuovere la pagina in violazione dai risultati di ricerca presentando una richiesta debitamente compilata ai sensi del Digital Millennium Copyright Act (Legge statunitense sul copyright).