Nuovi progetti robots.txt open source

Lunedì 21 settembre 2020

L'anno scorso abbiamo reso disponibili per il mondo open source l'analizzatore sintattico e lo strumento di abbinamento robots.txt che utilizziamo nei nostri sistemi di produzione. Da allora, abbiamo notato che le persone li utilizzano per creare nuovi strumenti, contribuiscono alla libreria open source (migliorando efficacemente i nostri sistemi di produzione) e rilasciano nuove versioni di linguaggio come golang e rust, che consentono agli sviluppatori di creare più facilmente nuovi strumenti.

Dato che il periodo di stage sta terminando qui in Google, volevamo mettere in evidenza due nuove uscite correlate al file robots.txt rese possibili dal lavoro di due stagisti nel team di Open Sourcing della Ricerca, Andreea Dutulescu e Ian Dolzhanskii.

Test della specifica del file robots.txt

Per prima cosa, pubblicheremo un framework di test per sviluppatori dell'analizzatore sintattico robots.txt, creato da Andreea. Il progetto fornisce uno strumento di test in grado di verificare se un analizzatore sintattico robots.txt segue il protocollo di esclusione robot o in quale misura. Al momento non esiste un metodo ufficiale e accurato per valutare la correttezza di un analizzatore sintattico, quindi Andreea ha creato uno strumento che può essere utilizzato per creare analizzatori sintattici robots.txt che seguono il protocollo.

Analizzatore sintattico e strumento di abbinamento robots.txt in Java

In secondo luogo, stiamo pubblicando un porting ufficiale in Java dell'analizzatore sintattico robots.txt in C++, creato da Ian. Java è il terzo linguaggio di programmazione più popolare su GitHub ed è ampiamente utilizzato anche da Google, quindi non c'è da stupirsi che sia stato il porting del linguaggio più richiesto. L'analizzatore sintattico è una traduzione diretta dell'analizzatore sintattico in C++ in termini di funzionalità e comportamento ed è stato testato accuratamente per garantire la conformità con ampi corpora di regole robots.txt. I team stanno già pianificando l'utilizzo dell'analizzatore sintattico robots.txt in Java nei sistemi di produzione di Google e ci auguriamo che lo troverete utile.

Come di consueto, accogliamo con favore i vostri contributi a questi progetti. Se avete realizzato qualcosa con l'analizzatore sintattico robots.txt in C++ o con queste nuove uscite, fatecelo sapere in modo da potervi aiutare a spargere la voce. Se avete individuato un bug, aiutateci a risolverlo segnalandolo su GitHub o contribuendo direttamente con una richiesta di pull. Se avete domande o commenti su questi progetti, non esitate a contattarci su Twitter.

È stato un vero piacere ospitare Andreea e Ian e ci dispiace che il loro stage stia per finire. Il loro contributo aiuta a rendere internet un luogo migliore e ci auguriamo di averli di nuovo con noi in futuro.