Venerdì 7 marzo 2025
Uno strumento di lunga data per i proprietari di siti web, il file robots.txt è attivamente usato da oltre 30 anni e viene supportato ampiamente dagli operatori di crawler (ad esempio strumenti per proprietari di siti, servizi e motori di ricerca). In questa edizione della serie Ripasso su robots, approfondiremo il file robots.txt come un modo flessibile per dire ai robot cosa fare (o non fare) sul vostro sito web.
Inizia a utilizzare il file robots.txt
Il funzionamento di questi file è semplice: create un file di testo denominato "robots.txt" e lo caricate sul vostro sito web. Se utilizzate un sistema di gestione dei contenuti (CMS), è probabile che sia ancora più facile. Potete lasciare vuoto il file robots.txt (o non averlo affatto) se l'intero sito può essere sottoposto a scansione oppure potete aggiungere regole per gestire la scansione. Ad esempio, per indicare a tutti i bot (noti anche come crawler, robot, spider) di non accedere alla pagina "Aggiungi al carrello", potete scrivere quanto segue nel file robots.txt:
user-agent: * disallow: /cart
Azioni più specifiche che potete eseguire con robots.txt
Il file robots.txt è uno strumento multiuso per esprimere cosa volete che i diversi robot facciano o meno sul vostro sito web: può essere composto da poche righe o essere complesso con regole più elaborate che hanno come target pattern URL molto specifici. Potete utilizzare un file robots.txt per risolvere problemi tecnici (ad esempio pagine con paginazione non necessaria) o per motivi redazionali o personali (ad esempio se non volete che vengano sottoposte a scansione determinate risorse). Ad esempio, potreste:
Informare più bot (ma non tutti) della stessa regola
Questo gruppo indica sia a |
user-agent: examplebot user-agent: otherbot disallow: /search |
Chiedere a un bot di evitare percorsi che contengono una determinata porzione di testo
Ad esempio, potete chiedere a |
user-agent: documentsbot disallow: *.pdf |
Consentire a un bot di eseguire la scansione del blog, ma non delle bozze |
user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/ |
Bloccare un crawler in una parte del vostro sito web, consentendo al contempo ad altri crawler di accedere al vostro sito
Questo file robots.txt impedisce a |
user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$ |
Lasciare un commento per voi stessi da usare in futuro
Potete iniziare una riga con |
# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/ |
Per saperne di più, consultate il nostro elenco di regole del file robots.txt utili.
Modificare il file robots.txt (nella pratica)
Il protocollo di esclusione robot (REP) funziona combinando regole ("allow" o "disallow") e specificando a quali robot si applicano queste regole. Non è necessario imparare a programmare o smanettare con strumenti vari; potete semplicemente inserire queste regole in un file di testo e caricarlo sul vostro sito web.
Per la maggior parte dei siti web, è ancora più semplice di così. Se utilizzate un CMS, di solito è già integrato un sistema per aiutarvi a modificare il file robots.txt. Ad esempio, alcuni CMS vi consentono di personalizzare il file robots.txt utilizzando caselle di controllo o un semplice modulo e molti dispongono di plug-in che vi aiutano a configurare e scrivere regole per il file robots.txt. Per verificare cosa potete fare nel vostro CMS, potete cercare il nome del vostro CMS + "modificare il file robots.txt".
Una volta completata la configurazione, potete anche verificare che il file sia configurato come previsto. Esistono molti strumenti di test creati dalla community web per aiutarvi, come lo strumento di test dei file robots.txt TametheBots e questo parser dei file robots.txt che utilizzano la libreria di parser open source dei file robots.txt.
Per qualsiasi domanda sul file robots.txt, potete trovarci su LinkedIn o chattare con altri esperti nei nostri forum della community.