本文档旨在介绍 Google Transport 价格准确性爬虫的流量。
有关查询数量的注意事项
例如,如果我们同意每天发送 5,000 次查询,这意味着每天 5,000 次(均匀分布在一天中,即大约每 17 秒一次),我们的抓取工具会执行普通用户会执行的所有以下操作:
从 Google 搜索开始,然后点击合作伙伴链接
选择所需的旅行行程(如果尚未选择)
点击“继续”,直到到达用户必须输入个人 / 付款详细信息的页面
从网页中读取最终价格详情
抓取工具会过滤所提取的资源
抓取工具仅提取获取我们感兴趣的信息(价格和库存状况详细信息)所需的资源。具体而言,这意味着它通常只从合作伙伴网站提取资源(即,我们只授权来自同一网域的网址)。此外,我们还会避免提取读取正确价格数据不需要的任何资源,例如图片。
具体而言,这意味着抓取工具不会加载和执行来自第三方(Google Analytics、Facebook、Criteo 等)的脚本,因此应从这些分析中排除抓取工具流量。
缓存
为了减轻合作伙伴网站的负载,我们的抓取工具通常配置为遵循响应中存在的所有标准 HTTP 缓存标头。这意味着,对于配置正确的网站,我们会避免重复提取很少更改的内容(例如 JavaScript 库)。
问题排查
我们抓取工具网络的质量检查取决于能否访问合作伙伴网站。如需了解相关信息,请参阅这篇帮助中心文章。