Google の robots.txt パーサーがオープンソースに

2019 年 7 月 1 日(月曜日)

Robots Exclusion Protocol(REP)は 25 年にわたり、事実上の標準にすぎなかったため、時には不便を感じることがありました。ウェブマスターにとっては、テキスト エディタで robots.txt ファイルに BOM 文字が含まれていた場合などの特殊なケースにおいて不確実な状況が発生していました。一方、クローラとツールの開発者にとっても、robots.txt ファイルが数百メガバイトもある場合、どのように対処すべきなのか、といった不確実性をもたらしていました。

ウェブサイトを開封する Googlebot

本日、Google は REP をインターネット標準にするための取り組みを率先して行っていることを発表しました。これは重要なステップですが、robots.txt ファイルを解析するデベロッパーにとっては追加の作業が必要になることが予想されます。

これについて、サポートのご案内をいたします。Google は、本番環境システムが robots.txt ファイルのルールの解析と照合に使用する C++ ライブラリをオープンソース化しました。このライブラリはリリースされてから 20 年余りが経過しており、90 年代に書かれたコードが含まれています。それ以降、このライブラリは発展してきました。Google は、カバーする必要があるウェブマスターが robots.txt ファイルを作成する方法と、特殊なケースについて多くのことを学びました。そして、何年にもわたって学んだことを、理にかなったインターネット ドラフトにも追加してきました。

また、オープンソース パッケージには、いくつかのルールをテストするためのテストツールも用意されています。一度構築すれば、使い方は非常に簡単です。

robots_main <robots.txt content> <user_agent> <url>

ライブラリを確認する場合は、robots.txt パーサーに関する GitHub リポジトリをご覧ください。このライブラリをぜひご活用ください。ライブラリを使用して作成したものがあれば、Twitter でコメントをお寄せください。また、ライブラリに関するご意見やご質問がございましたら、GitHub をご利用ください。