测试robots.txt文件变得更轻松

2014年7月17日星期四

作者: Asaph Arnon, 网站站长工具小组

是否抓取相应网址由robots.txt决定的。

创建并维护正确的robots.txt文件有时并非易事。尽管大多数网站的robots.txt文件创建工作都非常轻松(提示:这些网站通常甚至不需要robots.txt文件!),但是,当robots.txt文件非常大时,要在其中找到当前或以前规定禁止抓取个别网址的指令无异于大海捞针。为了更轻松地进行此项工作,现在我们在网站站长工具中推出了经过改进的 r obots.txt测试工具

您可以在 网站站长工具 中的“抓取”部分找到该工具:



您可以在其中查看当前使用的robots.txt文件,并可测试新网址是否已被禁止抓取。为了帮助您厘清复杂的指令,该工具会突出显示促成最终决定的指令。您可以在robots.txt文件中进行更改,并对所做更改进行测试。然后,您只需将文件的新版本上传到服务器,即可使更改生效。您可以在我们的开发者网站上找到 与robots.txt指令以及robots.txt文件处理方式有关的更多内容

此外,您还可以查看robots.txt文件的旧版本,并了解访问权限问题何时会导致我们无法抓取网址。例如,如果Googlebot在查找robots.txt文件时遇到500服务器错误,通常会暂停抓取相应网站。

由于您现有的网站可能会出现一些抓取错误或警告,因此我们建议您仔细检查其robots.txt文件。您还可以将该工具与网站站长工具中的其他部分结合使用:例如,您可以使用经过改进的 Google抓取方式工具 来呈现您网站上的重要网页。如果相应工具报告了任何被禁止抓取的网址,您都可以使用该robots.txt测试工具查找文件中规定禁止抓取这些网址的指令,然后改进相应指令。我们经常遇到的一个问题就是因为旧版的robots.txt文件指示禁止抓取CSS、JavaScript或移动内容而导致的 - 您只要看到这样的指令,解决起来通常非常容易。

我们希望这款经过改进的工具能够让您更轻松地测试和维护robots.txt文件。如果您有任何问题,或者您需要一些帮助来编写出色的指令,请随时访问 网站站长帮助论坛