Google의 robots.txt 파서가 이제 오픈 소스로 제공됩니다

2019년 7월 1일 월요일

로봇 제외 프로토콜(REP)은 25년간 사실상의 표준에 불과했으며 이로 인해 불편한 상황이 발생하기도 했습니다. 웹마스터의 경우, 텍스트 편집기의 robots.txt 파일에 BOM 문자가 포함될 때와 같이 특수한 사례에서 REP는 불확실성으로 작용합니다. 크롤러 및 도구 개발자의 경우에도 REP로 인해 불확실성이 발생했습니다. 예를 들어, 크기가 수백 메가바이트에 달하는 robots.txt 파일을 어떻게 다뤄야 할까요?

웹사이트를 열어보는 Googlebot

오늘 Google에서는 REP를 인터넷 표준으로 만들기 위한 노력을 촉구한다는 성명을 발표했습니다. 이는 중요한 단계이지만, 동시에 robots.txt 파일을 파싱하는 개발자는 추가적인 노력을 들여야 하게 됩니다.

Google은 이러한 개발자를 돕기 위해 프로덕션 시스템에서 robots.txt 파일의 규칙을 파싱하고 일치시키는 데 사용하는 C++ 라이브러리를 오픈소스로 제공했습니다. 20년 정도 사용되어 오고 있는 이 라이브러리에는 90년대에 작성된 코드 조각들도 포함되어 있습니다. 이후 라이브러리는 진화했습니다. Google에서는 웹마스터가 robots.txt 파일을 작성하는 방식과 Google에서 다뤄야 하는 특수한 사례에 관해 많은 것을 배웠고, 수년에 걸쳐 습득한 내용을 인터넷 초안에도 추가했습니다.

개발자 여러분이 몇 가지 규칙을 테스트할 수 있도록 오픈소스 패키지에 테스트 도구도 포함했습니다. 일단 빌드한 후에는 매우 간단하게 사용할 수 있습니다.

robots_main <robots.txt content> <user_agent> <url>

라이브러리를 확인하려면 GitHub 저장소에서 robots.txt 파서로 이동하세요. 이 도구를 사용해 무엇을 빌드할 수 있는지 보여주시기 바랍니다. 라이브러리를 사용하여 만든 항목이 있다면 Twitter에 의견을 남겨주세요. 라이브러리에 대한 의견이나 질문이 있으면 GitHub을 방문해주시기 바랍니다.