抓取预算对 Googlebot 而言有何意义

2017 年 1 月 16 日,星期一

最近,我们听到了很多种关于“抓取预算”的定义,但我们尚未找到一个能够向外部全面描述“抓取预算”含义的术语。这篇博文将会阐明我们实际上已有的定义以及这对 Googlebot 来说意味着什么。

首先,我们想强调一下,大多数发布商都不必担心下文所述的抓取预算。如果新网页预计会于发布当日被抓取,网站站长便无需重点关注抓取预算。同样,如果某个网站所拥有的网址数不足几千个,则大部分时间 Google 都会高效抓取该网站。

如果网站规模更大,或者网站会根据网址参数自动生成网页,那么网站所有者需要更加重视该如何安排抓取优先级、抓取时间以及网站托管服务器可以分配多少抓取资源。

抓取速度上限

Googlebot 经过精心设计,是一名优秀的网上公民。它的主要任务是抓取网站,同时确保其抓取操作不会导致网站的用户体验下降。为此,我们提出了“抓取速度上限”这个概念,用于限制对某个具体网站的最高抓取速度。

简而言之,此概念表示 Googlebot 可以使用多少同时载入的并行连接来抓取网站,以及它在完成一次抓取后需要等待多久才能执行下一次抓取。抓取速度可能会变快或变慢,具体取决于下面这几个因素:

  • 抓取状况:如果网站在一段时间内的响应速度很快,抓取速度上限便会升高,这意味着 Googlebot 可以使用更多的连接进行抓取。如果网站运行速度变慢或出现服务器错误,这一上限便会降低,Googlebot 能抓取的网页随之减少。
  • Search Console 中设定的抓取速度上限:网站所有者可以降低 Googlebot 对其网站的抓取速度。但请注意,设置更高的抓取速度上限并不会自动提高抓取速度。

抓取需求

即使未达到抓取速度上限,如果没有索引编制需求,Googlebot 的活动量也会很小。下面这两大因素在确定抓取需求方面起着重要作用:

  • 热门程度:Googlebot 往往会更加频繁地抓取互联网上较为热门的网址,以便在我们的索引中及时更新这些网址的内容。
  • 过时性:我们的系统会努力防止索引中的网址变得过时。

此外,诸