Googlebot と 15 MB に関連する事項

2022 年 6 月 28 日(火)

この数日間、Googlebot に関するドキュメントの最近の更新について、多くのお問い合わせをいただいています。具体的には、Googlebot が特定のファイル形式を取得した際に認識するのは最初の 15 メガバイト(MB)に限定されることをドキュメントに記載しました。このしきい値は新たに設定したものではなく、何年も前から存在しています。今回、この点をドキュメントに追加しました。デバッグの際に一部のユーザーにとって有用であることと、変更されることがごく稀であることがその理由です。

この制限は、Googlebot が最初にリクエストしたバイト(コンテンツ)にのみ適用されます。ページ内の参照リソースには適用されません。たとえば、https://example.com/puppies.html を開くと、ブラウザは最初に HTML ファイルのバイト数をダウンロードし、そのバイト数に基づいて、HTML 形式の URL で参照される外部の JavaScript や画像などに対して詳細なリクエストを行う場合があります。Googlebot でも同じ処理が可能です。

この 15 MB の上限にはどのような影響がありますか?
ほとんどの場合に影響はありません。インターネットでこのサイズを上回るのはごくわずかなページです。HTML ファイルのサイズの中央値は約 500 分の 1 未満に相当する 30 キロバイト(KB)であることから、このページをお読みいただいている方が、サイズが上限値を超えるページの所有者のお一人である可能性は非常に低いと考えられます。ただし、15 MB を超える HTML ページの所有者である場合は、少なくともインライン スクリプトと CSS ダストを外部ファイルに移動することは可能であると考えられます。

15 MB を超過するとコンテンツはどうなりますか?
最初の 15 MB 以降のコンテンツは Googlebot によって破棄され、最初の 15 MB のみが転送されてインデックス登録されます。

15 MB の上限が適用されるコンテンツ タイプを教えてください。
Google 検索でサポートされているファイル形式を Googlebot(スマートフォン用 Googlebot とパソコン用 Googlebot)が取得する場合は、15 MB の上限が適用されます。

Googlebot が画像または動画を認識できないということですか?
いいえ。Googlebot は、URL を使用して HTML で参照されている動画と画像を取得します(たとえば、<img src="https://example.com/images/puppy.jpg" alt="cute puppy looking very disappointed" /> は個別に連続して取得されます)。

データ URI は HTML のファイルサイズに加算されますか?
はい。data URIs は HTML ファイルに含まれているため、使用すると HTML ファイルサイズが増大します。

ページのサイズを確認するにはどうすればよいですか?
いくつかのブラウザが存在しますが、最も簡易であるのは、おそらく独自のブラウザとブラウザのデベロッパー ツールを使用することです。通常どおりにページを読み込み、デベロッパー ツールを起動して、[Network] タブに切り替えます。ページを再読み込みすると、ページをレンダリングするためにブラウザで行われたすべてのリクエストが表示されます。最初のリクエストは、[Size] 列のページのバイトサイズを含むリクエストです。

たとえば、Chrome デベロッパー ツールの [Size] 列には次のように 150 KB と表示されます。

Chrome デベロッパー ツールの [Network] タブ

より詳細にお試しいただくには、コマンドラインから cURL を使用できます。

curl \
-A "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36" \
-so /dev/null https://example.com/puppies.html -w '%{size_download}'

その他のご質問がございましたら、Twitter検索セントラル フォーラムをご覧ください。また、ドキュメントについてご不明な点につきましては、ページ自体にフィードバックを残してください。