Данный документ призван описать трафик, поступающий от поисковых роботов Google Transport, предназначенных для уточнения цен на транспортные услуги.
Примечание о количестве запросов
Например, если мы договорились отправлять 5000 запросов в день, это означает, что 5000 раз в день (равномерно распределенных в течение дня, то есть примерно один раз каждые 17 секунд) наш веб-краулер выполняет все следующие действия, которые обычно выполняет обычный пользователь:
Начните с поиска Google и перейдите по ссылке "Партнер".
Выберите желаемый маршрут путешествия (если он еще не выбран).
Нажимайте кнопку «Продолжить», пока не дойдете до страницы, где пользователю необходимо будет ввести личные/платежные данные.
Подробную информацию об окончательной цене смотрите на странице.
Фильтры веб-краулера отфильтровывают полученные ресурсы.
Краулер загружает только те ресурсы, которые необходимы для получения интересующей нас информации: сведения о цене и наличии товара. В частности, это означает, что обычно он загружает ресурсы только с партнерского веб-сайта (т.е. мы разрешаем загрузку только URL-адресов с того же домена). Кроме того, мы избегаем загрузки любых ресурсов, которые не требуются для чтения корректных данных о цене, таких как изображения.
В частности, это означает, что веб-краулер не загружает и не выполняет скрипты сторонних разработчиков (Google Analytics, Facebook, Criteo и т. д.), поэтому трафик, поступающий от краулера, должен быть исключен из анализа этих сервисов.
Кэширование
В целях снижения нагрузки на веб-сайт партнера наши поисковые роботы, как правило, настроены на учет всех стандартных заголовков HTTP-кэширования, присутствующих в ответе. Это означает, что для правильно настроенных веб-сайтов мы избегаем повторной загрузки контента, который редко меняется (например, библиотек JavaScript).
Поиск неисправностей
Проверка качества нашей сети веб-краулеров зависит от наличия доступа к веб-сайту партнера. Информацию о том, как это сделать, можно найти в этой статье справочного центра .