Сканеры Google Transport для определения цен на транспорт

Данный документ призван описать трафик, поступающий от поисковых роботов Google Transport, предназначенных для уточнения цен на транспортные услуги.

Примечание о количестве запросов

Например, если мы договорились отправлять 5000 запросов в день, это означает, что 5000 раз в день (равномерно распределенных в течение дня, то есть примерно один раз каждые 17 секунд) наш веб-краулер выполняет все следующие действия, которые обычно выполняет обычный пользователь:

  • Начните с поиска Google и перейдите по ссылке "Партнер".

  • Выберите желаемый маршрут путешествия (если он еще не выбран).

  • Нажимайте кнопку «Продолжить», пока не дойдете до страницы, где пользователю необходимо будет ввести личные/платежные данные.

  • Подробную информацию об окончательной цене смотрите на странице.

Фильтры веб-краулера отфильтровывают полученные ресурсы.

Краулер загружает только те ресурсы, которые необходимы для получения интересующей нас информации: сведения о цене и наличии товара. В частности, это означает, что обычно он загружает ресурсы только с партнерского веб-сайта (т.е. мы разрешаем загрузку только URL-адресов с того же домена). Кроме того, мы избегаем загрузки любых ресурсов, которые не требуются для чтения корректных данных о цене, таких как изображения.

В частности, это означает, что веб-краулер не загружает и не выполняет скрипты сторонних разработчиков (Google Analytics, Facebook, Criteo и т. д.), поэтому трафик, поступающий от краулера, должен быть исключен из анализа этих сервисов.

Кэширование

В целях снижения нагрузки на веб-сайт партнера наши поисковые роботы, как правило, настроены на учет всех стандартных заголовков HTTP-кэширования, присутствующих в ответе. Это означает, что для правильно настроенных веб-сайтов мы избегаем повторной загрузки контента, который редко меняется (например, библиотек JavaScript).

Поиск неисправностей

Проверка качества нашей сети веб-краулеров зависит от наличия доступа к веб-сайту партнера. Информацию о том, как это сделать, можно найти в этой статье справочного центра .