Specifiche relative al meta tag robots e X-Robots-Tag

Abstract

Questo documento descrive in che modo le impostazioni a livello di pagina e di testo ti consentono di regolare come Google presenta i tuoi contenuti nei risultati di ricerca. Puoi specificare le impostazioni a livello di pagina includendo un meta tag sulle pagine HTML o in un'intestazione HTTP. Puoi specificare le impostazioni a livello di testo con l'attributo data- nosnippet o con un elemento HTML all'interno di una pagina.

Utilizzo del meta tag robots

Il meta tag robots ti consente di utilizzare un approccio granulare e specifico di pagina per controllare in che modo una pagina singola dovrebbe essere indicizzata e fornita agli utenti nei risultati di ricerca Google. Inserisci il meta tag robots nella sezione <head> di una determinata pagina, in questo modo:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

Il meta tag robots nell'esempio riportato sopra comunica ai motori di ricerca di non mostrare la pagina nei risultati. Il valore dell'attributo name (robots) specifica che l'istruzione si applica a tutti i crawler. Per indicare un crawler specifico, sostituisci il valore robots dell'istruzione name con lo stesso nome del crawler a cui vuoi fare riferimento. I crawler specifici sono noti anche come user-agent (un crawler utilizza il proprio user-agent per richiedere una pagina). Il nome user-agent del web crawler standard di Google è Googlebot. Per impedire solo a Googlebot di sottoporre la pagina a scansione, aggiorna il tag come indicato di seguito:

<meta name="googlebot" content="noindex" />

Il tag ora darà istruzioni specifiche a Google di non mostrare la pagina nei risultati di ricerca. Entrambi gli attributi name e content non fanno distinzione tra maiuscole e minuscole.

I motori di ricerca possono avere crawler differenti per proprietà o scopi differenti. Consulta l'elenco completo dei crawler di Google. Ad esempio, per mostrare una pagina nei risultati di ricerca web di Google ma non in Google News, utilizza il meta tag riportato di seguito:

<meta name="googlebot-news" content="noindex" />

Per specificare più crawler singolarmente, utilizza più meta tag robots:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

Usare l'intestazione HTTP X-Robots-Tag

X-Robots-Tagpuò essere utilizzato come elemento della risposta dell'intestazione HTTP di un URL specifico. Qualsiasi istruzione utilizzabile in un meta tag robots può anche essere specificata come un X-Robots-Tag. Di seguito è riportato un esempio di risposta HTTP con un X-Robots-Tag che dà istruzione ai crawler di non indicizzare una pagina:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

È possibile combinare più intestazioni X-Robots-Tag all'interno della risposta HTTP. In alternativa puoi specificare un elenco di istruzioni separate da virgole. Di seguito è riportato un esempio di risposta dell'intestazione HTTP che contiene un X-Robots-Tag noarchivecombinato con un X-Robots-Tag unavailable_after.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

Il X-Robots-Tag può, eventualmente, specificare uno user agent prima delle direttive. Ad esempio, il seguente set di intestazioni HTTP X-Robots-Tag può essere usato per permettere di mostrare con condizioni una pagina nei risultati di ricerca su motori di ricerca diversi.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Le istruzioni specificate senza uno user-agent sono valide per tutti i crawler. L'intestazione HTTP, il nome dello user-agent e i valori specificati non fanno distinzione tra maiuscole e minuscole.

Istruzioni di indicizzazione e pubblicazione valide

Le istruzioni seguenti possono essere usate per controllare l'indicizzazione e la pubblicazione con i meta tag robots e X-Robots-Tag. Ogni valore rappresenta un'istruzione specifica. La seguente tabella mostra tutte le istruzioni seguite da Google e il rispettivo significato. È possibile combinare più direttive in un elenco separato da virgole. Le istruzioni non fanno distinzione tra maiuscole e minuscole. All'interno dei risultati di ricerca, uno snippet è un breve estratto di testo usato per dimostrare la pertinenza di un documento rispetto alla query di un utente.

Istruzioni

all
Non sono presenti limitazioni per l'indicizzazione e la pubblicazione. Questa istruzione è il valore predefinito e non ha alcun effetto se viene elencata in modo esplicito.
noindex
Non mostrare questa pagina nei risultati di ricerca.
nofollow
Non seguire i link su questa pagina.
none
Equivalente a noindex, nofollow.
noarchive
Non mostrare un link Copia cache nei risultati di ricerca.
nosnippet
Impedisce la visualizzazione di uno snippet di testo nei risultati di ricerca di questa pagina. La miniatura statica di un'immagine (se disponibile) potrebbe ancora essere visibile se l'esperienza utente risulta migliore. Questo si applica a qualsiasi forma di risultato di ricerca (su Ricerca Google, Google Immagini e Discover)
max-snippet:[number]

Usa un massimo di [number] caratteri come snippet testuale per questo risultato di ricerca. (Tieni presente che all'interno dei risultati di ricerca un URL potrebbe comparire come più risultati di ricerca.) Ciò non influirà le anteprime di immagini o video. Questo si applica a tutte le forme di risultato di ricerca (ad esempio, Ricerca Google, Google Immagini, Discover e Assistente). Tuttavia, questo limite non si applica nei casi in cui un publisher ha garantito separatamente il permesso all'uso dei contenuti. Ad esempio, se il publisher fornisce contenuti in forma di dati strutturati in-page o se ha un accordo di licenza con Google, tale impostazione non interromperà gli usi consentiti più specifici. Questa istruzione viene ignorata se non viene specificato alcun [number] analizzabile.

Valori speciali:

  • 0: non deve essere mostrato alcuno snippet. Equivalente a nosnippet.
  • -1: non ci sono limiti di lunghezza per gli snippet.+
  • Esempio:

    <meta name="robots" content="max-snippet:20">
    max-image-preview:[setting]

    Imposta la dimensione massima dell'anteprima dell'immagine per questa pagina nei risultati di ricerca.

    Valori accettati per setting:

  • none: non deve essere mostrata alcun anteprima dell'immagine.
  • standard: è possibile mostrare un'anteprima predefinita dell'immagine.
  • large: è possibile mostrare un'anteprima dell'immagine che sia larga al massimo quanto l'area visibile.
  • Questo si applica a tutte le forme di risultato di ricerca (ad esempio, Ricerca Google, Google Immagini, Discover e Assistente). Tuttavia, questo limite non si applica nei casi in cui un publisher ha garantito separatamente il permesso all'uso dei contenuti. Ad esempio, se il publisher fornisce contenuti in forma di dati strutturati in-page o se ha un accordo di licenza con Google, tale impostazione non interrompe gli usi consentiti più specifici.

    Esempio:

    <meta name="robots" content="max-image-preview:standard">
    max-video-preview:[number]

    Usa un massimo di [number] come snippet video per i video di questa pagina nei risultati di ricerca.

    Altri valori supportati:

  • 0: al massimo, un'immagine statica può essere usata nel rispetto dell'impostazione dell'anteprima immagine massima.
  • -1: nessun limite.
  • Questo si applica a tutte le forme di risultato di ricerca (a Ricerca Google, Google Immagini, Google Video, Discover e Assistente). Questa istruzione viene ignorata se non viene specificato alcun [number] analizzabile.

    Esempio:

    <meta name="robots" content="max-video-preview:-1">
    notranslate
    Non proporre la traduzione della pagina nei risultati di ricerca.
    noimageindex
    Non indicizzare le immagini in questa pagina.
    unavailable_after: [RFC-850 date/time]

    Non mostrare questa pagina nei risultati di ricerca dopo la data/l'ora specificata. La data/l'ora deve essere specificata nel formato RFC 850. Questa istruzione viene ignorata se non viene specificato alcun [date/time] valido. Per impostazione predefinita, il contenuto non ha data di scadenza.

    Esempio:

    <meta name="robots" content="unavailable_after: Sunday, 01-Sep-24 01:00:00 PDT">

    Gestione di istruzioni di indicizzazione e pubblicazione combinate

    Puoi creare un'istruzione con più indicazioni combinando le istruzioni dei meta tag robots con le virgole. Di seguito è riportato un esempio di meta tag robots che indica ai web crawler di non indicizzare la pagina e di non sottoporre a scansione nessun link sulla pagina:

    <meta name="robots" content="noindex, nofollow">
    

    Di seguito è riportato un esempio che limita lo snippet di testo a 20 caratteri e consente un'anteprima delle immagini di grandi dimensioni:

    <meta name="robots" content="max-snippet:20, max-image-preview:large">
    

    Per le situazioni in cui vengono specificati più crawler con diverse istruzioni, il motore di ricerca utilizza la somma delle istruzioni negative. Ad esempio:

    <meta name="robots" content="nofollow">
    <meta name="googlebot" content="noindex">
    

    Googlebot identificherà la pagina contenente questi meta tag come una pagina con istruzione noindex, nofollow.

    Usare l'attributo HTML data-nosnippet

    L'attributo data-nosnippet ha valore a partire da fine 2019.

    Puoi contrassegnare le parti testuali di una pagina HTML da non utilizzare come snippet. Questa operazione può essere eseguita a un livello di elemento HTML con l'attributo HTML data-nosnippet sugli elementi span, div e section. data-nosnippet è considerato come attributo booleano ed è valido con o senza un valore. Per garantire la leggibilità automatica, la sezione HTML deve contenere un codice HTML valido e tutti i relativi tag devono essere chiusi.

    Esempi:

    <p>This text can be shown in a snippet
     <span data-nosnippet>and this part would not be shown</span>.</p>
    
    <div data-nosnippet>not in snippet</div>
    <div data-nosnippet="true">also not in snippet</div>
    
    <div data-nosnippet>some text</html>
    <!-- unclosed "div" will include all content afterwards -->
    
    <mytag data-nosnippet>some text</mytag>
    <!-- NOT VALID: not a span, div, or section -->
    

    Normalmente, Google visualizza le pagine per poterle indicizzare, ma la visualizzazione non è garantita. Per questo motivo, l'estrazione di data-nosnippet può avvenire prima e dopo il rendering. Per non incorrere in incertezze nel rendering, non aggiungere o rimuovere l'attributo data-nosnippet dei nodi esistenti tramite JavaScript. Se aggiungi un elemento DOM tramite JavaScript, includi l'attributo data-nosnippet necessario per l'aggiunta iniziale dell'elemento al DOM della pagina. Se vengono usati elementi personalizzati, aggregali o esegui il rendering con gli elementi div, span, o section se devi usare data- nosnippet.

    Utilizzo di dati strutturati

    I meta tag robots regolano la quantità di contenuti che Google estrae automaticamente per la visualizzazione delle pagine web come risultati di ricerca. Molti publisher, però, usano anche i dati strutturati di schema.org per rendere disponibili determinate informazioni per la presentazione della ricerca. Le limitazioni dei meta tag robots non influenzano l'uso dei dati strutturati. Per gestire l'uso dei dati strutturati delle tue pagine web, puoi modificare i tipi e i valori dei dati strutturati aggiungendo o rimuovendo le informazioni per fornire solo i dati che vuoi rendere disponibili. Tieni presente inoltre che i dati strutturati restano utilizzabili per i risultati di ricerca quando dichiarato all'interno di un elemento data-nosnippet.

    Implementazione pratica di X-Robots-Tag

    Puoi aggiungere X-Robots-Tag alle risposte HTTP di un sito tramite i file di configurazione del software server web del tuo sito. Ad esempio, sui web server basati su Apache puoi usare i file .htaccess e httpd.conf. Il beneficio nell'uso di X-Robots-Tag con le risposte HTTP è di poter specificare le istruzioni di scansione da applicare globalmente su un sito. Il supporto delle espressioni regolari consente un elevato livello di flessibilità.

    Ad esempio, aggiungere un X-Robots-Tag noindex, nofollow alla risposta HTTP di tutti i file PDF di un sito intero aggiunge lo snippet seguente ai file .htaccess o .httpd.conf del root di un sito su Apache o il file .conf del sito su NGINX

    Apache:

    <Files ~ "\.pdf$">
      Header set X-Robots-Tag "noindex, nofollow"
    </Files>
    

    NGINX:

    location ~* \.pdf$ {
      add_header X-Robots-Tag "noindex, nofollow";
    }
    

    Puoi utilizzare l'intestazione X-Robots-Tag per i file non HTML come i file immagine in cui non è possibile utilizzare i meta tag robot nell'HTML. Di seguito è riportato un esempio di come aggiungere un'istruzione X-Robots-Tag noindex per i file immagine (.png, .jpeg, .jpg, .gif) su un intero sito.

    Apache:

    <Files ~ "\.(png|jpe?g|gif)$">
      Header set X-Robots-Tag "noindex"
    </Files>
    

    NGINX:

    location ~* \.(png|jpe?g|gif)$ {
      add_header X-Robots-Tag "noindex";
    }
    

    Combinazione di istruzioni di scansione con istruzioni di indicizzazione/pubblicazione

    I meta tag robots e le intestazioni HTTP X-Robots-Tag vengono rilevati quando un URL viene sottoposto a scansione. Se a una pagina non viene concesso di eseguire la scansione tramite il file robots.txt, ogni informazione relativa alle istruzioni di indicizzazione e pubblicazione non viene rilevata e, pertanto, viene ignorata. Se occorre seguire le istruzioni di indicizzazione o pubblicazione, gli URL contenenti tali istruzioni non possono essere esclusi dalla scansione.