Google 如何解读 robots.txt 规范

Google 的自动抓取工具支持 robots 协议 (REP)。 这意味着,在抓取某一网站之前,Google 的抓取工具会下载并解析该网站的 robots.txt 文件,以提取关于网站的哪些部分可以抓取的信息。REP 不适用于由用户控制的 Google 抓取工具(例如 Feed 订阅),也不适用于用来提高用户安全性的抓取工具(例如,恶意软件分析)。

什么是 robots.txt 文件

如果您不希望抓取工具访问您网站中的部分内容,可以创建包含相应规则的 robots.txt 文件。robots.txt 文件是一个简单的文本文件,其中包含关于哪些抓取工具可以访问网站的哪些部分的规则。

文件位置和有效范围

您必须将 robots.txt 文件放在网站的顶级目录中,并为其使用支持的协议。就 Google 搜索而言,支持的协议包括 HTTP、HTTPS 和 FTP。使用 HTTP 和 HTTPS 协议时,抓取工具会使用 HTTP 无条件 GET 请求来提取 robots.txt 文件;使用 FTP 时,抓取工具会使用标准 RETR (RETRIEVE) 命令,并采用匿名登录方式。

robots.txt 文件中列出的规则只适用于该文件所在的主机、协议和端口号。

有效 robots.txt 网址的示例

robots.txt 网址示例
http://example.com/robots.txt 适用于:
  • http://example.com/
  • http://example.com/folder/file
不适用于:
  • http://other.example.com/
  • https://example.com/
  • http://example.com:8181/
http://www.example.com/robots.txt

适用于: http://www.example.com/

不适用于:

  • http://example.com/
  • http://shop.www.example.com/
  • http://www.shop.example.com/
http://example.com/folder/robots.txt robots.txt 文件无效。抓取工具不会检查子目录中是否包含 robots.txt 文件。
http://www.exämple.com/robots.txt 适用于:
  • http://www.exämple.com/
  • http://xn--exmple-cua.com/

不适用于: http://www.example.com/

ftp://example.com/robots.txt

适用于: ftp://example.com/

不适用于: http://example.com/

http://212.96.82.21/robots.txt

适用于: http://212.96.82.21/

不适用于: http://example.com/(即使托管在 212.96.82.21 上)

http://example.com:80/robots.txt

适用于:

  • http://example.com:80/
  • http://example.com/

不适用于: http://example.com:81/

http://example.com:8181/robots.txt

适用于: http://example.com:8181/

不适用于: http://example.com/

错误处理和 HTTP 状态代码

在请求 robots.txt 文件时,服务器响应的 HTTP 状态代码会影响 Google 抓取工具使用 robots.txt 文件的方式。

错误处理和 HTTP 状态代码
2xx(成功) 该 HTTP 状态代码指示已成功提示 Google 的抓取工具处理服务器提供的 robots.txt 文件。
3xx(重定向)

对于 robots.txt,Google 会按照 RFC 1945 的规定跟踪至少五次重定向,然后便会停止,并将其作为 404 错误处理。这也适用于重定向链中任何被禁止访问的网址,因为抓取工具由于重定向而无法提取规则。

Google 不会跟踪 robots.txt 文件中的逻辑重定向(框架、JavaScript 或元刷新型重定向)。

4xx(客户端错误)

Google 的抓取工具会将所有 4xx 错误解读为网站不存在有效的 robots.txt 文件,这意味着会不受限制地进行抓取。

5xx(服务器错误)

由于服务器无法对 Google 的 robots.txt 请求提供明确响应,因此 Google 会暂时将服务器错误解读为网站完全禁止访问。Google 会尝试抓取 robots.txt 文件,直到获得非服务器错误的 HTTP 状态代码。503 (service unavailable) 错误会导致非常频繁的重试操作。如果 robots.txt 连续 30 天以上无法访问,Google 会使用 robots.txt 的最后一个缓存副本。如果没有缓存副本,Google 会假定没有任何抓取限制。

如果我们能够确定,某网站因为配置不正确而在缺少网页时返回 5xx 而不是 404 状态代码,就会将该网站的 5xx 错误作为 404 错误处理。例如,如果返回 5xx 状态代码的网页上的错误消息为“找不到网页”,我们会将该状态代码解释为 404 (not found)

其他错误 对于因 DNS 或网络问题(例如超时、响应无效、重置或断开连接、HTTP 组块错误等)而无法抓取的 robots.txt 文件,系统在处理时会将其视为服务器错误

缓存

Google 通常会将 robots.txt 文件的内容缓存长达 24 小时,但在无法刷新缓存版本的情况下(例如,出现超时或 5xx 错误),缓存时间可能会延长。缓存的响应可由各种不同的抓取工具共享。 Google 会根据 max-age Cache-Control HTTP 标头延长或缩短缓存生命周期。

文件格式

robots.txt 文件必须是采用 UTF-8 编码的纯文本文件,且各行代码必须以 CRCR/LFLF 分隔。

Google 会忽略 robots.txt 文件中的无效行,包括 robots.txt 文件开头处的 Unicode 字节顺序标记 (BOM),并且只使用有效行。例如,如果下载的内容是 HTML 格式而非 robots.txt 规则,Google 会尝试解析内容并提取规则,而忽略其他所有内容。

同样,如果 robots.txt 文件的字符编码不是 UTF-8,Google 可能会忽略不属于 UTF-8 范围的字符,从而可能会导致 robots.txt 规则无效。

Google 目前强制执行的 robots.txt 文件大小限制是 500 KiB,并忽略超过该上限的内容。您可以通过整合会导致 robots.txt 文件过大的指令来减小 robots.txt 文件的大小。例如,将已排除的内容放在一个单独的目录中。

语法

有效的 robots.txt 行由一个字段、一个冒号和一个值组成。可以选择是否使用空格,但建议使用空格,有助于提高可读性。系统会忽略行开头和结尾的空格。若要添加注释,请在注释前面加上 # 字符。请注意,# 字符后面的所有内容都会被忽略。常见格式为 <field>:<value><#optional-comment>

Google 支持以下字段:

  • user-agent:标识规则适用的抓取工具。
  • allow:可抓取的网址路径。
  • disallow:不可抓取的网址路径。
  • sitemap:站点地图的完整网址。

allowdisallow 字段也称为"指令"。 这些指令始终以 directive: [path] 的形式指定,其中 [path] 可以选择性使用。默认情况下,指定的抓取工具没有抓取限制。抓取工具会忽略不带 [path] 的指令。

如果指定了 [path] 值,该路径值就是 robots.txt 文件所在网站的根目录的相对路径(使用相同的协议、端口号、主机和域名)。 路径值必须以 / 开头来表示根目录,该值区分大小写。详细了解基于路径值的网址匹配

user-agent

user-agent 行标识规则适用的抓取工具。请参阅 Google 的抓取工具和用户代理字符串,获取可在 robots.txt 文件中使用的用户代理字符串的完整列表。

user-agent 行的值不区分大小写。

disallow

disallow 指令指定由与 disallow 指令合为一组的用户代理行所标识的抓取工具不能访问的路径。 抓取工具会忽略不含路径的指令。

disallow 指令的值区分大小写。

用法:

disallow: [path]

allow

allow 指令指定相应抓取工具可以访问的路径。如果未指定路径,该指令将被忽略。

allow 指令的值区分大小写。

用法:

allow: [path]

sitemap

Google、Bing 和其他主流搜索引擎支持 robots.txt 中的 sitemap 字段(如 sitemaps.org 所定义)。

sitemap 字段的值区分大小写。

用法:

sitemap: [absoluteURL]

[absoluteURL] 行指向站点地图或站点地图索引文件的位置。 此网址必须是完全限定网址,包含协议和主机,且无需进行网址编码。此网址不需要与 robots.txt 文件位于同一主机上。您可以指定多个 sitemap 字段。sitemap 字段不依赖于任何特定的用户代理,只要未被禁止抓取,所有抓取工具都可以追踪它们。

例如:

user-agent: otherbot
disallow: /kale

sitemap: https://example.com/sitemap.xml
sitemap: https://cdn.example.org/other-sitemap.xml
sitemap: https://ja.example.org/テスト-サイトマップ.xml

行和规则分组

通过对每个抓取工具重复 user-agent 行,可将适用于多个用户代理的规则组合在一起。

例如:

user-agent: a
disallow: /c

user-agent: b
disallow: /d

user-agent: e
user-agent: f
disallow: /g

user-agent: h

此示例中有四个不同的规则组:

  • 用户代理“a”为一组
  • 用户代理“b”为一组
  • 用户代理“e”和“f”为一组
  • 用户代理“h”为一组

有关组的技术说明,请参阅 REP 的第 2.1 节

用户代理的优先顺序

对于某个抓取工具而言,只有一个组是有效的。Google 的抓取工具会在 robots.txt 文件中查找包含与抓取工具的用户代理相匹配的最具体用户代理的组,从而确定正确的规则组。其他组会被忽略。所有非匹配文本都会被忽略(例如,googlebot/1.2googlebot* 均等同于 googlebot)。这与 robots.txt 文件中的组顺序无关。

如果为用户代理声明多个特定组,则这些组中适用于该特定用户代理的所有规则会在内部合并成一个组。 特定于用户代理的组和全局组 (*) 不会合并。

示例

user-agent 字段的匹配情况

user-agent: googlebot-news
(group 1)

user-agent: *
(group 2)

user-agent: googlebot
(group 3)

以下为抓取工具选择相关组的方法:

每个抓取工具追踪的组
Googlebot News googlebot-news 遵循组 1,因为组 1 是最具体的组。
Googlebot(网络) googlebot 遵循组 3。
Googlebot Images googlebot-images 遵循组 2,因为没有具体的 googlebot-images 组。
Googlebot News(抓取图片时) 抓取图片时,googlebot-news 遵循组 1。 googlebot-news 不会为 Google 图片抓取图片,因此它只遵循组 1。
Otherbot(网络) 其他 Google 抓取工具遵循组 2。
Otherbot(新闻) 抓取新闻内容但未标识为 googlebot-news 的其他 Google 抓取工具遵循组 2。即使有相关抓取工具的对应条目,也只有在明确匹配时才会有效。

规则分组

如果 robots.txt 文件中有多个组与特定用户代理相关,则 Google 的抓取工具会在内部合并这些组。例如:

user-agent: googlebot-news
disallow: /fish

user-agent: *
disallow: /carrots

user-agent: googlebot-news
disallow: /shrimp

抓取工具会根据用户代理在内部对规则进行分组,例如:

user-agent: googlebot-news
disallow: /fish
disallow: /shrimp

user-agent: *
disallow: /carrots

基于路径值的网址匹配

Google 会以 allowdisallow 指令中的路径值为基础,确定某项规则是否适用于网站上的特定网址。为此,系统会将相应规则与抓取工具尝试抓取的网址的路径部分进行比较。 路径中的非 7 位 ASCII 字符可以按照 RFC 3986 作为 UTF-8 字符或百分号转义的 UTF-8 编码字符纳入。

对于路径值,Google、Bing 和其他主流搜索引擎支持有限形式的通配符。这些通配符包括:

  • * 表示出现 0 次或多次的任何有效字符。
  • $ 表示网址结束。
路径匹配示例
/ 匹配根目录以及任何下级网址。
/* 等同于 /。结尾的通配符会被忽略。
/$ 仅匹配根目录。任何更低级别的网址均可抓取。
/fish

匹配以 /fish 开头的任何路径。

匹配项:

  • /fish
  • /fish.html
  • /fish/salmon.html
  • /fishheads
  • /fishheads/yummy.html
  • /fish.php?id=anything

不匹配项:

  • /Fish.asp
  • /catfish
  • /?id=fish
  • /desert/fish
/fish*

等同于 /fish。结尾的通配符会被忽略。

匹配项:

  • /fish
  • /fish.html
  • /fish/salmon.html
  • /fishheads
  • /fishheads/yummy.html
  • /fish.php?id=anything

不匹配项:

  • /Fish.asp
  • /catfish
  • /?id=fish
/fish/

匹配 /fish/ 文件夹中的任何内容。

匹配项:

  • /fish/
  • /animals/fish/
  • /fish/?id=anything
  • /fish/salmon.htm

不匹配项:

  • /fish
  • /fish.html
  • /Fish/Salmon.asp
/*.php

匹配包含 .php 的任何路径。

匹配项:

  • /index.php
  • /filename.php
  • /folder/filename.php
  • /folder/filename.php?parameters
  • /folder/any.php.file.html
  • /filename.php/

不匹配项:

  • /(即使其映射到 /index.php)
  • /windows.PHP
/*.php$

匹配以 .php 结尾的任何路径。

匹配项:

  • /filename.php
  • /folder/filename.php

不匹配项:

  • /filename.php?parameters
  • /filename.php/
  • /filename.php5
  • /windows.PHP
/fish*.php

匹配包含 /fish.php(按此顺序)的任何路径。

匹配项:

  • /fish.php
  • /fishheads/catfish.php?parameters

不匹配项: /Fish.PHP

规则的优先顺序

匹配 robots.txt 规则与网址时,抓取工具会根据规则路径的长度使用最具体的规则。如果规则(包括使用通配符的规则)存在冲突,Google 将使用限制性最弱的规则。

以下示例演示了 Google 抓取工具会对特定网址应用什么规则。

示例情况
http://example.com/page

allow: /p
disallow: /

适用规则allow: /p,因为它更具体。

http://example.com/folder/page

allow: /folder
disallow: /folder

适用规则allow: /folder,因为存在多个匹配规则时,Google 会使用限制性最弱的规则。

http://example.com/page.htm

allow: /page
disallow: /*.htm

适用规则disallow: /*.htm,因为它与网址中的字符匹配得更多,因此更具体。

http://example.com/page.php5

allow: /page
disallow: /*.ph

适用规则allow: /page,因为存在多个匹配规则时,Google 会使用限制性最弱的规则。

http://example.com/

allow: /$
disallow: /

适用规则allow: /$,因为它更具体。

http://example.com/page.htm

allow: /$
disallow: /

适用规则disallow: /,因为 allow 规则仅适用于根网址。