2025년 3월 7일 금요일
웹사이트 소유자를 위한 오랜 도구인 robots.txt는 30년 넘게 활발하게 사용되어 왔으며 크롤러 운영자(예: 사이트 소유자, 서비스, 검색엔진용 도구)의 광범위한 지원을 받고 있습니다. 이번 robots refresher 시리즈에서는 웹사이트에서 로봇이 수행해야 하는 작업 또는 수행하지 않아야 하는 작업을 유연하게 지정할 수 있는 방법인 robots.txt를 자세히 살펴봅니다.
robots.txt 시작하기
이러한 파일의 작동 방식은 간단합니다. 'robots.txt'라는 텍스트 파일을 만든 다음 웹사이트에 업로드하면 됩니다. 콘텐츠 관리 시스템(CMS)을 사용하는 경우 더 간편할 수 있습니다. 전체 사이트가 크롤링될 수 있는 경우 robots.txt 파일을 비워 두거나 아예 없애도 되며, 크롤링을 관리하는 규칙을 추가할 수도 있습니다. 예를 들어 모든 봇(크롤러, 로봇, 스파이더라고도 함)이 '장바구니에 추가' 페이지를 방문하지 못하도록 하려면 robots.txt 파일에 다음을 작성하면 됩니다.
user-agent: * disallow: /cart
robots.txt로 할 수 있는 더 구체적인 작업
robots.txt는 다양한 로봇이 웹사이트에서 수행하거나 수행하지 않아야 하는 작업을 표현하는 만능 도구입니다. robots.txt는 몇 줄로 구성될 수도 있고, 매우 구체적인 URL 패턴을 타겟팅하는 더 정교한 규칙이 포함되도록 복잡하게 구성될 수도 있습니다. robots.txt 파일은 기술적 문제(예: 불필요하게 페이지로 나뉜 페이지)를 해결하거나 편집 또는 개인적인 이유(예: 특정 항목을 크롤링하지 않기 위해)로 사용할 수 있습니다. 예를 들면 다음과 같은 작업을 할 수 있습니다.
(전체가 아닌) 일부 봇에 동일한 규칙을 알림
이 그룹은 |
user-agent: examplebot user-agent: otherbot disallow: /search |
특정 텍스트가 포함된 경로를 피하도록 하나의 봇에 지시
예를 들어 이름에 '.pdf'가 포함된 파일은 크롤링하지 않도록 |
user-agent: documentsbot disallow: *.pdf |
블로그는 크롤링해도 초안은 크롤링하지 않도록 봇에 지시 |
user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/ |
특정 크롤러가 웹사이트의 일부를 크롤링하지 못하도록 차단하면서 다른 크롤러가 사이트에 액세스하도록 허용
이 robots.txt 파일은 앞서 언급한 |
user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$ |
잊지 않도록 코멘트 남기기
|
# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/ |
자세한 내용은 유용한 robots.txt 규칙 목록을 참고하세요.
robots.txt 파일 변경하기(실제)
로봇 제외 프로토콜(REP)은 규칙("allow" 또는 "disallow")을 모으고 이러한 규칙이 적용되는 로봇을 지정하여 작동합니다. 프로그래밍을 배울 필요도 없고 도구를 다룰 필요도 없습니다. 이러한 규칙을 텍스트 파일에 넣고 웹사이트에 업로드하기만 하면 됩니다.
대부분의 웹사이트에서는 그보다 더 간단합니다. CMS를 사용하는 경우 일반적으로 robots.txt 파일을 변경하는 데 도움이 되는 기능이 이미 내장되어 있습니다. 예를 들어 일부 CMS에서는 체크박스나 간단한 양식을 사용하여 robots.txt 파일을 맞춤설정할 수 있으며, 많은 CMS에는 robots.txt 파일의 규칙을 설정하고 작성하는 데 도움이 되는 플러그인이 있습니다. CMS에서 가능한 작업을 확인하려면 CMS 이름 + 'robots.txt 파일 수정'을 검색하면 됩니다.
설정이 완료되면 파일이 원하는 대로 설정되었는지 테스트할 수도 있습니다. 이를 지원하기 위해 웹 커뮤니티에서 만든 여러 테스트 도구가 있습니다. 예를 들면 TametheBot의 robots.txt 테스트 도구, 오픈소스 robots.txt 파서 라이브러리를 사용하는 robots.txt 파서 등이 있습니다.
robots.txt에 관해 궁금한 점이 있으면 LinkedIn에서 문의하거나 커뮤니티 포럼에서 관심사가 비슷한 전문가와 채팅하세요.