「クローラ」は、ウェブページ間のリンクをたどることによってウェブサイトを自動的に検出してスキャンするプログラム(ロボットやスパイダーなど)の総称です。Google のメインのクローラは Googlebot と呼ばれます。次の表に、リファラーログに表示される可能性のある一般的な Google のクローラと、robots.txt、robots メタタグ、X-Robots-Tag HTTP ディレクティブでそのクローラをどのように指定するかについて示します。
次の表は、Google のさまざまなサービスで使用されているクローラを示しています。
- ユーザー エージェント トークンは、サイトのクロールルールを作成するにあたってクローラのタイプを指定するために使われます。具体的には robots.txt の
User-agent:
行に記述します。表に示すように、複数のトークンを持つクローラもありますが、適用する各ルールで指定できるクローラ トークンは 1 つのみです。次のリストでは、すべてではありませんが、お客様のウェブサイトを訪れる可能性があるほとんどのクローラについて記載しています。 - 完全なユーザー エージェント文字列は、クローラの詳細な説明であり、リクエストとウェブのログに表示されます。
クローラ | ユーザー エージェント トークン(プロダクト トークン) | 完全なユーザー エージェント文字列 |
---|---|---|
APIs-Google |
|
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html) |
AdSense |
|
Mediapartners-Google |
(Android のウェブページの広告品質をチェックします) |
|
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
(iPhone のウェブページの広告品質をチェックします) |
|
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
(パソコンのウェブページの広告品質をチェックします) |
|
AdsBot-Google (+http://www.google.com/adsbot.html ) |
画像用 Googlebot |
|
Googlebot-Image/1.0 |
ニュース用 Googlebot |
|
Googlebot-News |
動画用 Googlebot |
|
Googlebot-Video/1.0 |
パソコン用 Googlebot |
|
|
スマートフォン用 Googlebot |
|
|
モバイル AdSense |
|
(各種モバイル デバイス) (compatible; Mediapartners-Google/2.1 ; +http://www.google.com/bot.html ) |
(Android のアプリページの広告品質をチェックします。AdsBot-Google ロボットルールに従います) |
|
AdsBot-Google-Mobile-Apps |
|
|
|
|
現在のエージェント:
過去のエージェント(非推奨): |
|
ウェブ上の Duplex |
|
Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36 |
Google Favicon (さまざまなサービスのファビコンを取得します) |
ユーザーが開始したリクエストの場合、robots.txt ルールは無視されます。 |
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon |
Web Light |
|
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19 |
Google StoreBot | Storebot-Google |
デスクトップ エージェント: モバイル エージェント: |
robots.txt 内で指定するユーザー エージェント
robots.txt ファイルの中で、複数のユーザー エージェントが見つかった場合は、最も限定的なものに従って Google のクロールが行われます。サイトのページをすべてクロールさせたい場合は、robots.txt ファイルを作成する必要はありません。一部のコンテンツに対して Google のクローラによるアクセスをブロックまたは許可する場合は、Googlebot をユーザー エージェントとして指定します。たとえば、サイトのどのページも Google 検索に表示されるようにしたい場合や、AdSense 広告をサイトのページ上に表示したい場合は、robots.txt ファイルは必要ありません。また、一部のページに対して Google からのアクセスを一切ブロックしたい場合は、ユーザー エージェント Googlebot
をブロックすると、Google の他のユーザー エージェントもすべてブロックされます。
さらに細かくコントロールしたい場合は、より限定的に指定します。たとえば、サイトのページを Google 検索に表示させても、/personal ディレクトリにある画像はクロールの対象外にしたい場合があります。その場合、robots.txt を使用して、ユーザー エージェント Googlebot-Image
による /personal ディレクトリ内のファイルのクロールを禁止する(一方で、Googlebot にはすべてのファイルのクロールを許可する)ように指定します。次に例を示します。
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal別の例として、サイトのすべてのページに広告を表示させても、ページを Google 検索には表示したくない場合が考えられます。その場合は、次のように、Googlebot をブロックし、ユーザー エージェント
Mediapartners-Google
によるアクセスは許可します。
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
robots メタタグで指定するユーザー エージェント
ページによっては、次のように、複数の robots メタタグを使用してクローラごとにディレクティブを指定することもあります。
<meta name="robots" content="nofollow"> <meta name="googlebot" content="noindex">
このような場合、Google はすべての不許可ディレクティブに従います。つまり、Googlebot は noindex
と nofollow
の両方のディレクティブに従います。Google によるサイトのクロール方法とインデックス登録方法の管理について詳細をご確認ください。