新しいオープンソースの robots.txt プロジェクト

2020 年 9 月 21 日(月曜日)

Google は昨年、Google の本番システムで使用している robots.txt のパーサーとマッチャーをオープンソースとしてリリースしました。それ以来、このツールは皆様に利用され、新しいツールの開発、オープンソース ライブラリの改善協力(Google の本番システムの改善にも役立っています。ありがとうございます)、GoRust といった新しい言語版のリリース(これにより、デベロッパーはより簡単に新しいツールを開発できるようになりました)が行われています。

今回は、検索オープンソース化チームのメンバーである Andreea DutulescuIan Dolzhanskii の Google でのインターン期間終了にあたり、この 2 人によって実現された robots.txt 関連の 2 件の新しいリリースを紹介したいと思います。

robots.txt 仕様テスト

1 件目として、Andreea が作成した robots.txt パーサー デベロッパー用のテスト フレームワークをリリースします。このプロジェクトにより、robots.txt パーサーが Robots Exclusion Protocol に沿っているか、またはどの程度沿っているかを検証できるテストツールが提供されます。現時点ではパーサーの正確性を評価できる公式かつ完全な方法がないため、Andreea は Robots Exclusion Protocol に沿った robots.txt パーサーの作成に役立つツールを作成しました。

robots.txt のパーサーとマッチャーの Java 版

2 件目として、Ian が作成した公式の Java 版 robots.txt パーサー(C++ から移植)をリリースします。Java は GitHub で使用率第 3 位のプログラミング言語であり、Google でも広く使用されているため、最も望まれていた言語移植であることに間違いありません。このパーサーは、関数と動作の点で C ++ 版パーサーを 1 対 1 変換したものであり、robots.txt ルールの大規模なコーパスに対するパリティのテストも徹底的に行われています。チームはすでに Google の本番システムで Java 版 robots.txt パーサーを使用することを計画しています。皆様にもご活用いただければ幸いです。

いつものことですが、皆様からの上記プロジェクトへの改善協力をお待ちしております。C ++ 版 robots.txt パーサーや上記の新しいリリースを使用してアプリを開発したら、ぜひご一報ください。アプリの情報を広めるお手伝いができるかもしれません。バグを見つけた場合は、GitHub で問題を報告したり、直接 pull リクエストを投稿したりするなどして、修正にご協力ください。また、上記のプロジェクトについてご質問やコメントがございましたら、Twitter でお知らせください。

Andreea と Ian を迎えられたことは本当に幸運でした。インターンシップの終了が残念でなりません。2 人の貢献は、インターネットをよりよい場所にするために役立つでしょう。将来 2 人が Google に戻って来ることを期待しています。