深入了解 Googlebot:揭秘抓取、提取和我们处理的字节

2026 年 3 月 31 日,星期二

如果您收听了“Search Off the Record”播客的第 105 集,您可能已经听我们深入探讨了一个与我们(以及我们的服务器)都息息相关的话题:Googlebot 的内部运作机制。

一直以来,“Googlebot”这个名字都在我们脑海中描绘出这样一个画面:一个不知疲倦的机器人,孜孜不倦地在互联网上爬行,系统地阅读着每一个角落。但现实情况要复杂得多,也有趣得多。今天,我们想揭开抓取基础架构的神秘面纱,特别是那些连我们自己都感到头疼的“字节大小限制”。

首先,Googlebot 并非单个程序

我们先来澄清一个历史上的误称。在 2000 年代初,Google 只有一款产品,因此我们只有一个抓取工具。“Googlebot”这个名称就此沿用下来。但如今,Googlebot 只是一个用户,它所使用的,是一个类似于集中式抓取平台的工具。

当您在服务器日志中看到 Googlebot 时,您看到的只是 Google 搜索。其他数十个客户端(包括 Google 购物、AdSense 等)也都会通过这个相同的底层基础架构来路由其抓取请求,但会使用不同的抓取工具名称,其中较大的抓取工具已记录在 Google 抓取工具基础架构网站上。

2MB 上限:您的字节会怎样?

这部分内容可能会让您感到有些困惑。爬虫基础架构的每个客户端都需要为其抓取操作配置一些设置。这些设置包括用户代理字符串、用户代理将在 robots.txt 中查找哪些令牌,以及它们将从单个网址抓取多少字节。

Googlebot 目前会为任何单个网址(不包括 PDF)抓取最多 2MB 的内容。这意味着,它只会抓取资源的前 2MB 内容(包括 HTTP 标头)。对于 PDF 文件,上限为 64MB。

图片和视频抓取工具通常具有广泛的阈值范围,这在很大程度上取决于它们要抓取的产品。例如,与图片搜索不同,抓取网站图标的上限可能非常低。

对于未指定上限的任何其他抓取工具,无论内容类型如何,默认上限均为 15MB。

这对服务器通过网络发送的字节有何影响?

  1. 部分抓取:如果 HTML 文件大于 2MB,Googlebot 不会拒绝该网页。而是会在达到 2MB 上限时停止抓取。请注意,此上限包括 HTTP 请求标头。
  2. 截断处理:这部分已下载的内容(前 2MB 字节)会被我们的索引系统和网页渲染服务 (WRS) 接收,并被视为完整文件进行处理。
  3. 未看到的字节:超出 2MB 阈值之后的任何字节都会被完全忽略。它们不会被抓取、渲染和编入索引。
  4. 引入资源:HTML 中引用的每一项资源(媒体、字体和少数特殊文件除外),WRS 都会像处理父级 HTML 一样,通过 Googlebot 进行抓取。它们有自己独立的、针对每个网址的字节计数器,不会计入父级页面的大小。

对于绝大多数网站而言,2MB 的 HTML 载荷非常大,您绝不会达到此上限。不过,如果您的网页包含臃肿的内嵌 base64 图片、大量的内嵌 CSS/JavaScript,或者一开头就是数兆字节的菜单,您可能会不小心将实际的文本内容或关键的结构化数据推到 2MB 的限制之外。如果 Googlebot 未抓取到这些关键字节,那么在它看来,这些字节根本不存在。

渲染字节

当抓取工具成功检索到字节(不超过上限)后,会将接力棒传递给 WRS。WRS 会像现代浏览器一样处理 JavaScript 并执行客户端代码,以了解网页的最终视觉和文本状态。渲染会抓取并执行 JavaScript 和 CSS 文件,并处理 XHR 请求,以便更好地了解网页的文本内容和结构(它不会请求图片或视频)。对于每个请求的资源,也适用 2MB 的上限。

不过,请注意,WRS 只能执行抓取工具实际检索到的代码。此外,WRS 以无状态模式运行,这意味着它会在每次请求之间清除本地存储和会话数据。这可能会对我们的系统如何解读动态的、依赖 JavaScript 的元素产生特殊影响。

关于字节的最佳实践

为确保 Googlebot 能够高效地抓取和理解您的内容,请牢记以下关于字节的最佳实践:

  • 保持 HTML 的简洁性:将大型 CSS 和 JavaScript 移至外部文件。虽然初始 HTML 文档有 2MB 的大小限制,但外部脚本和样式表会单独抓取(并受各自的限制约束)。
  • 顺序很重要:将最重要的元素(例如元标记、<title> 元素、<link> 元素、规范化标记和必要的结构化数据)放在 HTML 文档的更上方。这样能确保它们不会被“截断”而遗漏。
  • 监控服务器日志:密切关注服务器响应时间。如果您的服务器在传输字节时遇到困难,我们的抓取工具会自动放慢速度,以避免您的基础架构超载,但这也会导致您的抓取频率下降。

请注意,此限制并非一成不变,可能会随着网络的发展和 HTML 网页大小的增加(或缩小。 希望可以缩小。)而发生变化。

抓取并非魔法,而是一场精心编排、规模宏大的字节交换。通过了解我们的中央抓取基础架构如何检索和限制这些字节,您可以确保网站最重要的内容始终能够被抓取。

祝您优化顺利!

想了解更多幕后细节?欢迎前往 YouTube 或您收听播客的任何平台,收听“Search Off the Record”播客的第 105 集