Google 크롤러 및 가져오기 도구(사용자 에이전트)에 관한 개요
Google은 크롤러 또는 가져오기 도구를 사용하여 자동 또는 사용자 요청에 의해 트리거되는 방식으로 제품에 대한 작업을 수행합니다.
'크롤러'('로봇' 또는 '스파이더'라고도 함)는 한 웹페이지에서 다른 웹페이지로 연결되는 링크를 따라가며 웹사이트를 자동으로 검색하는 데 사용되는 프로그램을 가리키는 일반적인 용어입니다. Google의 기본 크롤러를 Googlebot이라고 합니다.
브라우저와 마찬가지로 가져오기 도구는 사용자 요청 시 단일 URL을 요청하는 도구입니다.
아래 표에는 다양한 제품 및 서비스에서 사용되는 Google 크롤러와 가져오기 도구와 더불어 리퍼러 로그에 표시되는 방식, robots.txt에서 이를 지정하는 방법이 나와 있습니다.
-
사용자 에이전트 토큰은 사이트의 크롤링 규칙을 작성할 때 크롤러 유형과 일치시키기 위해 robots.txt의
User-agent:
줄에 사용됩니다. 표에서 볼 수 있는 것처럼 일부 크롤러에는 토큰이 두 개 이상 있습니다. 규칙을 적용하려면 크롤러 토큰 하나만 일치시켜야 합니다. 이 목록은 완전하지는 않지만 웹사이트에서 볼 수 있는 대부분의 크롤러를 다룹니다. - 전체 사용자 에이전트 문자열은 크롤러의 전체 설명이며 HTTP 요청과 웹 로그에 표시됩니다.
일반 크롤러
Google의 일반 크롤러는 Google의 검색 색인을 만들고, 다른 제품과 관련된 크롤링을 수행하며, 분석하는 데 사용됩니다. 일반 크롤러는 항상 robots.txt 규칙을 따르며 일반적으로 googlebot.json 객체에 게시된 IP 범위에서 크롤링합니다.
일반 크롤러 | |||||
---|---|---|---|---|---|
Googlebot 스마트폰 |
|
||||
Googlebot 데스크톱 |
|
||||
Googlebot 이미지 |
Google 이미지 및 이미지에 종속된 제품의 이미지 바이트를 크롤링하는 데 사용됩니다.
|
||||
Googlebot 뉴스 |
Googlebot 뉴스는 뉴스 기사를 크롤링할 때 Googlebot을 사용하지만, 이전 사용자 에이전트 토큰인
|
||||
Googlebot 동영상 |
Google 동영상 및 동영상에 종속된 제품의 동영상 바이트를 크롤링하는 데 사용됩니다.
|
||||
Google 파비콘 |
|
||||
Google StoreBot |
Google Storebot은 제품 세부정보 페이지, 장바구니 페이지, 결제 페이지를 포함하되 이에 국한되지 않는 특정 유형의 페이지를 크롤링합니다.
|
||||
|
|
||||
|
사이트에서 사용자가 공개적으로 액세스할 수 있는 콘텐츠를 가져오기 위해 여러 제품팀에서 사용할 수 있는 일반적인 크롤러입니다. 예를 들어 내부 연구 및 개발을 위한 일회성 크롤링에 사용할 수 있습니다.
|
예외 상황 크롤러
예외 상황 크롤러는 크롤링된 사이트와 크롤링 프로세스 관련 제품 간에 합의가 이루어진 특정 제품에서 사용됩니다. 예를 들어 AdsBot
은 광고 게시자의 권한이 있는 전역 robots.txt 사용자 에이전트(*
)를 무시합니다. 예외 상황 크롤러는 robots.txt 규칙을 무시할 수 있으므로 일반 크롤러와 다른 IP 범위에서 작동합니다. IP 범위는 special-crawlers.json 객체에 게시됩니다.
예외 상황 크롤러 | |||||
---|---|---|---|---|---|
APIs-Google |
Google API에서 푸시 알림 메시지를 전송하는 데 사용됩니다. robots.txt의 전역 사용자 에이전트(
|
||||
AdsBot 모바일 웹 Android |
Android 웹페이지 광고 품질을 확인합니다.
robots.txt의 전역 사용자 에이전트(
|
||||
AdsBot 모바일 웹 |
iPhone 웹페이지 광고 품질을 확인합니다.
robots.txt의 전역 사용자 에이전트(
|
||||
AdsBot |
데스크톱 웹페이지 광고 품질을 확인합니다.
robots.txt의 전역 사용자 에이전트(
|
||||
애드센스 |
애드센스 크롤러는 게시자의 사이트와 관련성이 높은 광고를 제공하기 위해 해당 사이트를 방문하여 콘텐츠를 파악합니다. robots.txt의 전역 사용자 에이전트(
|
||||
모바일 애드센스 |
모바일 애드센스 크롤러는 게시자의 사이트와 관련성이 높은 광고를 제공하기 위해 해당 사이트를 방문하여 콘텐츠를 파악합니다. robots.txt의 전역 사용자 에이전트(
|
사용자 트리거 가져오기 도구
사용자 트리거 가져오기 도구는 제품 관련 기능을 수행하기 위해 사용자에 의해 트리거됩니다. 예를 들어 Google 사이트 인증 도구는 사용자의 요청에 따라 작동합니다. 사용자가 가져오기를 요청했기 때문에 이러한 가져오기 도구에서는 보통 robots.txt 규칙을 무시합니다. 사용자가 트리거한 가져오기 도구가 사용하는 IP 범위는 user-triggered-fetchers.json 객체에 게시됩니다.
사용자 트리거 가져오기 도구 | |||||
---|---|---|---|---|---|
Feedfetcher |
Feedfetcher는 Google 팟캐스트, Google 뉴스, PubSubHubbub에 RSS 또는 Atom 피드를 크롤링하는 데 사용됩니다.
|
||||
Google 게시자 센터 |
Google 뉴스 방문 페이지에 사용하기 위해 Google 게시자 센터를 통해 게시자가 명시적으로 제공한 피드를 가져와 처리합니다.
|
||||
Google Read Aloud |
사용자 요청에 따라 Google Read Aloud에서는 텍스트 음성 변환(TTS)을 통해 웹페이지를 가져와 읽습니다.
|
||||
Google 사이트 인증 도구 |
Google 사이트 인증 도구는 사용자 요청에 따라 Search Console 확인 토큰을 가져옵니다.
|
사용자 에이전트의 Chrome/W.X.Y.Z 관련 참고사항
표에 있는 사용자 에이전트 문자열에 Chrome/W.X.Y.Z 문자열이 표시되는 경우 W.X.Y.Z는 사용자 에이전트가 사용하는 Chrome 브라우저의 버전을 나타냅니다(예: 41.0.2272.96
). 이 버전 번호는 Googlebot에 사용되는 최신 Chromium 출시 버전에 맞춰 시간이 지남에 따라 증가합니다.
이 패턴이 있는 사용자 에이전트를 대상으로 로그를 검색하거나 서버를 필터링하는 경우 정확한 버전 번호를 지정하기보다는 버전 번호에 와일드 카드를 사용하세요.
robots.txt의 사용자 에이전트
robots.txt 파일에서 여러 개의 사용자 에이전트가 인식되는 경우 Google에서는 가장 구체적인 사용자 에이전트를 추적합니다. Google 전체에서 내 페이지를 크롤링할 수 있게 하려면 robots.txt 파일을 사용할 필요가 없습니다. 모든 Google 크롤러가 내 콘텐츠 일부에 액세스하는 것을 차단 또는 허용하려면 Googlebot을 사용자 에이전트로 지정하면 됩니다. 예를 들어 내 모든 페이지가 Google 검색에 표시되고 애드센스 광고가 내 페이지에 표시되도록 하려면 robots.txt 파일을 사용할 필요가 없습니다. 마찬가지로 내 페이지 일부가 Google에서 아예 표시되지 않도록 하려는 경우 Googlebot
사용자 에이전트를 차단하면 Google의 다른 사용자 에이전트도 모두 차단됩니다.
그러나 좀 더 구체적으로 지정하면 더욱 세밀하게 제어할 수 있습니다. 예를 들어 모든 페이지가 Google 검색에 표시되기를 원하지만 개인 디렉터리에 있는 이미지는 크롤링되지 않기를 원할 수 있습니다. 이 경우 다음과 같이 robots.txt를 사용해 Googlebot-Image
사용자 에이전트가 개인 디렉터리에 있는 파일을 크롤링하는 것을 차단하면 됩니다(Googlebot은 모든 파일을 크롤링할 수 있음).
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
또는 모든 페이지에 광고가 표시되도록 하고 싶지만 이러한 페이지가 Google 검색에는 나타나지 않도록 하고 싶을 수 있습니다. 이 경우 다음과 같이 Googlebot은 차단하고 Mediapartners-Google
사용자 에이전트는 허용하면 됩니다.
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
크롤링 속도 제어
각 Google 크롤러는 특정 목적에 따라 다양한 속도로 사이트에 액세스합니다. Google에서는 알고리즘을 사용하여 각 사이트에 가장 적합한 크롤링 속도를 결정합니다. Google 크롤러가 사이트를 너무 자주 크롤링한다면 크롤링 속도를 줄일 수 있습니다.
지원 중단된 Google 크롤러
다음 Google 크롤러는 더 이상 사용되지 않으며 여기에 기록 참고용으로만 표시됩니다.
지원 중단된 Google 크롤러 | |||||
---|---|---|---|---|---|
Duplex on the web |
Duplex on the web 서비스를 지원합니다.
|
||||
Web Light |
사용자가 적절한 조건하에 검색에서 페이지를 클릭할 때마다
|
||||
모바일 앱 Android |
Android 앱 페이지 광고 품질을 확인합니다.
|