로봇 제외 프로토콜(REP)은 25년간 사실상의 표준에 불과했으며 이로 인해 불편한 상황이 발생하기도 했습니다. 웹마스터의 경우, 텍스트 편집기의 robots.txt 파일에 BOM 문자가 포함될 때와 같이 특수한 사례에서 REP는 불확실성으로 작용합니다. 크롤러 및 도구 개발자의 경우에도 REP로 인해 불확실성이 발생했습니다. 예를 들어, 크기가 수백 메가바이트에 달하는 robots.txt 파일을 어떻게 다뤄야 할까요?
오늘 Google에서는 REP를 인터넷 표준으로 만들기 위한 노력을 촉구한다는 성명을 발표했습니다. 이는 중요한 단계이지만, 동시에 robots.txt 파일을 파싱하는 개발자는 추가적인 노력을 들여야 하게 됩니다.
Google은 이러한 개발자를 돕기 위해 프로덕션 시스템에서 robots.txt 파일의 규칙을 파싱하고 일치시키는 데 사용하는 C++ 라이브러리를 오픈소스로 제공했습니다. 20년 정도 사용되어 오고 있는 이 라이브러리에는 90년대에 작성된 코드 조각들도 포함되어 있습니다. 이후 라이브러리는 진화했습니다. Google에서는 웹마스터가 robots.txt 파일을 작성하는 방식과 Google에서 다뤄야 하는 특수한 사례에 관해 많은 것을 배웠고, 수년에 걸쳐 습득한 내용을 인터넷 초안에도 추가했습니다.
개발자 여러분이 몇 가지 규칙을 테스트할 수 있도록 오픈소스 패키지에 테스트 도구도 포함했습니다. 일단 빌드한 후에는 매우 간단하게 사용할 수 있습니다.
라이브러리를 확인하려면 GitHub 저장소에서 robots.txt 파서로 이동하세요. 이 도구를 사용해 무엇을 빌드할 수 있는지 보여주시기 바랍니다. 라이브러리를 사용하여 만든 항목이 있다면 Twitter에 의견을 남겨주세요. 라이브러리에 대한 의견이나 질문이 있으면 GitHub을 방문해주시기 바랍니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],[],[[["The Robots Exclusion Protocol (REP), used for controlling web crawler access, is becoming an internet standard after 25 years as a de-facto standard."],["Google open-sourced their C++ robots.txt parsing library to aid developers in implementing the standardized REP."],["The open-sourced library incorporates 20 years of Google's experience and knowledge in handling robots.txt files and edge cases."],["A testing tool is included within the open-source package to facilitate easy verification of robots.txt rules."],["Developers are encouraged to utilize the library and share their creations or feedback with Google."]]],["Google is leading efforts to formalize the Robots Exclusion Protocol (REP) as an internet standard, previously only a de-facto standard. They have open-sourced their C++ library, used for 20 years to parse and match rules in robots.txt files, to assist developers. This library now includes a testing tool, `robots_main`, for checking rules. Developers can engage with Google via GitHub and Twitter. The aim is to address past uncertainties.\n"]]