Ripasso su robots: file robots.txt — un modo flessibile per controllare il modo in cui i computer esplorano il vostro sito web

Venerdì 7 marzo 2025

Uno strumento di lunga data per i proprietari di siti web, il file robots.txt è attivamente usato da oltre 30 anni e viene supportato ampiamente dagli operatori di crawler (ad esempio strumenti per proprietari di siti, servizi e motori di ricerca). In questa edizione della serie Ripasso su robots, approfondiremo il file robots.txt come un modo flessibile per dire ai robot cosa fare (o non fare) sul vostro sito web.

Inizia a utilizzare il file robots.txt

Il funzionamento di questi file è semplice: create un file di testo denominato "robots.txt" e lo caricate sul vostro sito web. Se utilizzate un sistema di gestione dei contenuti (CMS), è probabile che sia ancora più facile. Potete lasciare vuoto il file robots.txt (o non averlo affatto) se l'intero sito può essere sottoposto a scansione oppure potete aggiungere regole per gestire la scansione. Ad esempio, per indicare a tutti i bot (noti anche come crawler, robot, spider) di non accedere alla pagina "Aggiungi al carrello", potete scrivere quanto segue nel file robots.txt:

user-agent: *
disallow: /cart

Azioni più specifiche che potete eseguire con robots.txt

Il file robots.txt è uno strumento multiuso per esprimere cosa volete che i diversi robot facciano o meno sul vostro sito web: può essere composto da poche righe o essere complesso con regole più elaborate che hanno come target pattern URL molto specifici. Potete utilizzare un file robots.txt per risolvere problemi tecnici (ad esempio pagine con paginazione non necessaria) o per motivi redazionali o personali (ad esempio se non volete che vengano sottoposte a scansione determinate risorse). Ad esempio, potreste:

Informare più bot (ma non tutti) della stessa regola

Questo gruppo indica sia a examplebot che a otherbot di non accedere al percorso /search.

user-agent: examplebot
user-agent: otherbot
disallow: /search

Chiedere a un bot di evitare percorsi che contengono una determinata porzione di testo

Ad esempio, potete chiedere a documentsbot di non eseguire la scansione di alcun file contenente ".pdf" nel nome.

user-agent: documentsbot
disallow: *.pdf

Consentire a un bot di eseguire la scansione del blog, ma non delle bozze

user-agent: documentsbot
allow: /blog/
disallow: /blog/drafts/

Bloccare un crawler in una parte del vostro sito web, consentendo al contempo ad altri crawler di accedere al vostro sito

Questo file robots.txt impedisce a aicorp-trainer-bot di accedere a qualsiasi pagina diversa dalla home page, consentendo al contempo ad altri crawler (come i motori di ricerca) di accedere al sito.

user-agent: *
allow: /

user-agent: aicorp-trainer-bot
disallow: /
allow: /$

Lasciare un commento per voi stessi da usare in futuro

Potete iniziare una riga con # per ricordarvi il motivo per cui avete inserito una determinata regola.

# I don't want bots in my highschool photos
user-agent: *
disallow: /photos/highschool/

Per saperne di più, consultate il nostro elenco di regole del file robots.txt utili.

Modificare il file robots.txt (nella pratica)

Il protocollo di esclusione robot (REP) funziona combinando regole ("allow" o "disallow") e specificando a quali robot si applicano queste regole. Non è necessario imparare a programmare o smanettare con strumenti vari; potete semplicemente inserire queste regole in un file di testo e caricarlo sul vostro sito web.

Per la maggior parte dei siti web, è ancora più semplice di così. Se utilizzate un CMS, di solito è già integrato un sistema per aiutarvi a modificare il file robots.txt. Ad esempio, alcuni CMS vi consentono di personalizzare il file robots.txt utilizzando caselle di controllo o un semplice modulo e molti dispongono di plug-in che vi aiutano a configurare e scrivere regole per il file robots.txt. Per verificare cosa potete fare nel vostro CMS, potete cercare il nome del vostro CMS + "modificare il file robots.txt".

Una volta completata la configurazione, potete anche verificare che il file sia configurato come previsto. Esistono molti strumenti di test creati dalla community web per aiutarvi, come lo strumento di test dei file robots.txt TametheBots e questo parser dei file robots.txt che utilizzano la libreria di parser open source dei file robots.txt.

Per qualsiasi domanda sul file robots.txt, potete trovarci su LinkedIn o chattare con altri esperti nei nostri forum della community.


Dai un'occhiata al resto della serie Ripasso su robots: