Ripasso su robots: file robots.txt — un modo flessibile per controllare il modo in cui i computer esplorano il vostro sito web

Venerdì 7 marzo 2025

Uno strumento di lunga data per i proprietari di siti web, il file robots.txt è attivamente usato da oltre 30 anni e viene supportato ampiamente dagli operatori di crawler (ad esempio strumenti per proprietari di siti, servizi e motori di ricerca). In questa edizione della serie Ripasso su robots, approfondiremo il file robots.txt come un modo flessibile per dire ai robot cosa fare (o non fare) sul vostro sito web.

Inizia a utilizzare il file robots.txt

Il funzionamento di questi file è semplice: create un file di testo denominato "robots.txt" e lo caricate sul vostro sito web. Se utilizzate un sistema di gestione dei contenuti (CMS), è probabile che sia ancora più facile. Potete lasciare vuoto il file robots.txt (o non averlo affatto) se l'intero sito può essere sottoposto a scansione oppure potete aggiungere regole per gestire la scansione. Ad esempio, per indicare a tutti i bot (noti anche come crawler, robot, spider) di non accedere alla pagina "Aggiungi al carrello", potete scrivere quanto segue nel file robots.txt:

user-agent: *
disallow: /cart

Azioni più specifiche che potete eseguire con robots.txt

Il file robots.txt è uno strumento multiuso per esprimere cosa volete che i diversi robot facciano o meno sul vostro sito web: può essere composto da poche righe o essere complesso con regole più elaborate che hanno come target pattern URL molto specifici. Potete utilizzare un file robots.txt per risolvere problemi tecnici (ad esempio pagine con paginazione non necessaria) o per motivi redazionali o personali (ad esempio se non volete che vengano sottoposte a scansione determinate risorse). Ad esempio, potreste:

Informare più bot (ma non tutti) della stessa regola Questo gruppo indica sia a `examplebot` che a `otherbot` di non accedere al percorso `/search`.	user-agent: examplebot user-agent: otherbot disallow: /search
Chiedere a un bot di evitare percorsi che contengono una determinata porzione di testo Ad esempio, potete chiedere a `documentsbot` di non eseguire la scansione di alcun file contenente ".pdf" nel nome.	user-agent: documentsbot disallow: *.pdf
Consentire a un bot di eseguire la scansione del blog, ma non delle bozze	user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/
Bloccare un crawler in una parte del vostro sito web, consentendo al contempo ad altri crawler di accedere al vostro sito Questo file robots.txt impedisce a `aicorp-trainer-bot` di accedere a qualsiasi pagina diversa dalla home page, consentendo al contempo ad altri crawler (come i motori di ricerca) di accedere al sito.	user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$
Lasciare un commento per voi stessi da usare in futuro Potete iniziare una riga con `#` per ricordarvi il motivo per cui avete inserito una determinata regola.	# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/

Per saperne di più, consultate il nostro elenco di regole del file robots.txt utili.

Modificare il file robots.txt (nella pratica)

Il protocollo di esclusione robot (REP) funziona combinando regole ("allow" o "disallow") e specificando a quali robot si applicano queste regole. Non è necessario imparare a programmare o smanettare con strumenti vari; potete semplicemente inserire queste regole in un file di testo e caricarlo sul vostro sito web.

Per la maggior parte dei siti web, è ancora più semplice di così. Se utilizzate un CMS, di solito è già integrato un sistema per aiutarvi a modificare il file robots.txt. Ad esempio, alcuni CMS vi consentono di personalizzare il file robots.txt utilizzando caselle di controllo o un semplice modulo e molti dispongono di plug-in che vi aiutano a configurare e scrivere regole per il file robots.txt. Per verificare cosa potete fare nel vostro CMS, potete cercare il nome del vostro CMS + "modificare il file robots.txt".

Una volta completata la configurazione, potete anche verificare che il file sia configurato come previsto. Esistono molti strumenti di test creati dalla community web per aiutarvi, come lo strumento di test dei file robots.txt TametheBots e questo parser dei file robots.txt che utilizzano la libreria di parser open source dei file robots.txt.

Per qualsiasi domanda sul file robots.txt, potete trovarci su LinkedIn o chattare con altri esperti nei nostri forum della community.

Scritto da Martin Splitt e John Mueller, team per le relazioni della Ricerca

Ripasso su robots: file robots.txt — un modo flessibile per controllare il modo in cui i computer esplorano il vostro sito web Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Inizia a utilizzare il file robots.txt

Azioni più specifiche che potete eseguire con robots.txt

Modificare il file robots.txt (nella pratica)

Dai un'occhiata al resto della serie Ripasso su robots:

Ripasso su robots: file robots.txt — un modo flessibile per controllare il modo in cui i computer esplorano il vostro sito web