Robots Refresher: 새로운 시리즈 소개

2025년 2월 24일 월요일

robots.txt, robots 메타 태그 및 이러한 태그가 제공하는 제어 기능에 관한 질문을 종종 받습니다. 이번이 크롤링에 관한 12월 시리즈에 이어 가볍게 복습할 수 있는 좋은 기회인 것 같습니다. 이 제어 기능에 대해 더 알고 싶다면, 이번 새로운 블로그 게시물 시리즈를 확인해 보세요.

가장 먼저, robots.txt부터 시작해 보겠습니다.

robots.txt란 무엇일까요?

"robots.txt"는 모든 웹사이트에서 제공할 수 있는 파일입니다. 기본적으로 robots.txt는 서버에 저장되는 텍스트 파일입니다. 거의 모든 웹사이트에 robots.txt 파일이 있습니다. 이를 확인하려면 도메인 이름 끝에 /robots.txt를 추가한 다음 해당 주소로 이동합니다. 예를 들어 이 웹사이트의 robots.txt 파일은 developers.google.com/robots.txt에 있습니다.

대부분의 웹사이트는 콘텐츠 관리 시스템(CMS)을 사용하여 이러한 파일을 자동으로 생성하지만, 웹사이트를 '직접' 만드는 경우에도 쉽게 생성할 수 있습니다. 앞으로 게시물에서 몇 가지 변형을 살펴보겠습니다.

이 파일은 어떤 용도인가요?

robots.txt 파일은 웹사이트 크롤러에 웹사이트의 어느 부분을 자동으로 액세스(크롤링)할 수 있고 어느 부분을 액세스할 수 없는지 알려 줍니다. 이를 통해 사이트는 전체 사이트, 사이트의 일부분 또는 사이트 내 특정 파일 등 모든 항목을 처리할 수 있습니다. 파일은 머신에서 읽을 수 있을 뿐만 아니라 인간이 읽을 수도 있습니다. 즉, 특정 크롤러가 페이지에 자동으로 접근할 수 있는지 여부를 항상 간단한 '예' 또는 '아니요'로 확인할 수 있습니다.

크롤러를 빌드하는 모든 사용자는 이러한 지시를 따르는 것이 표준 관행이며 개발자가 이를 쉽게 지원할 수 있습니다. 개발자를 위해 1,000개가 넘는 오픈소스 라이브러리가 제공됩니다. 이 파일은 웹사이트를 최적으로 크롤링하는 방법을 크롤러에 제공합니다. 최신 웹사이트는 복잡하고 자동으로 탐색하기 어려울 수 있습니다. robots.txt 규칙은 크롤러가 알맞은 콘텐츠에 집중할 수 있게 합니다. 또한 크롤러가 서버에 부담을 주고, 크롤링을 비효율적으로 만드는 동적 페이지를 피하는 데 도움이 됩니다. robots.txt 파일은 기술적으로 유용하고 웹사이트 소유자와의 관계에도 도움이 되므로 대부분의 상용 크롤러 운영자는 이를 준수합니다.

일반 사용자에 의한 구축 및 확장

robots.txt 파일은 인터넷이 시작된 이래로 거의 항상 존재해왔으며, 인터넷이 제대로 작동하도록 하는 필수 도구 중 하나입니다. 웹페이지의 기초가 되는 HTML은 1991년에 발명되었고, 첫 번째 브라우저는 1992년에, robots.txt는 1994년에 등장했습니다. 즉, 1998년에 설립된 Google보다 먼저 등장한 것입니다. 그 이후로 형식은 거의 변경되지 않았으며 초기 파일은 지금도 유효합니다. 3년간의 전 세계 커뮤니티와의 협력을 통해, 2022년에 IETF 제안 표준으로 지정되었습니다.

웹사이트를 운영 중이라면 robots.txt 파일도 함께 있을 가능성이 높습니다. robots.txt를 중심으로 활발한 커뮤니티가 있으며, 다양한 크기와 형태의 robots.txt 파일을 빌드, 테스트, 관리 또는 이해하는 데 도움이 되는 수천 개의 소프트웨어 도구가 있습니다. 그러나 robots.txt의 장점은 특별한 도구가 필요 없다는 점입니다. 브라우저에서 파일을 읽을 수 있으며, 관리하는 웹사이트에서 간단한 텍스트 편집기로 수정할 수 있습니다.

향후 전망…

robots.txt 형식은 유연합니다. 따라서 발전의 여지가 있으며, 공개 웹 커뮤니티는 이를 확장할 수 있고 크롤러는 기존 사용에 영향을 주지 않으면서 적절한 시점에 확장 기능을 발표할 수 있습니다. 2007년 검색엔진에서 '사이트맵' 지시어를 발표하면서 이러한 변화가 시작되었습니다. 또한 AI 목적으로 사용되는 크롤러 운영자 및 검색엔진에서 새로운 'user-agent'(사용자 에이전트)를 지원함에 따라 정기적으로 발생합니다.

robots.txt는 계속해서 사용될 것입니다. 새로운 파일 형식이 대규모 인터넷 커뮤니티에서 최종적으로 완성되기까지 몇 년이 걸리고, 이를 생태계에 맞게 활용할 수 있는 도구를 만드는 데는 더 오랜 시간이 소요됩니다. robots.txt는 간단하고 세부적이고 표현력이 있으며 잘 이해되고 받아들여지며 수십 년 동안 작동해 왔던 것처럼 작동합니다.

자세한 내용이 궁금하시다면 검색 센터 블로그에서 Robots Refresher 시리즈의 다음 버전을 기대해 주세요.


Robots Refresher 시리즈의 나머지 콘텐츠를 확인해 보세요.