Feedfetcher

Google использует Feedfetcher, чтобы сканировать фиды RSS или Atom для Google Новостей и WebSub. Feedfetcher сохраняет и периодически обновляет фиды, которые запрашивают пользователи определенного сервиса или приложения. В Google Поиске индексируются только фиды подкастов. При этом проиндексированы могут быть даже фиды, не соответствующие спецификации Atom или RSS. Ниже приведены ответы на часто задаваемые вопросы о Feedfetcher.

Как запретить роботам Google обрабатывать какие-либо (или все) фиды на моем сайте?

Когда пользователь добавляет сервис или приложение, которое использует данные Feedfetcher, этот робот пытается скачать содержание фида, чтобы показать его. Поскольку запросы от Feedfetcher являются результатом действий пользователей, а не отправляются согласно алгоритму индексирования, Feedfetcher не соблюдает инструкции, указанные в файле robots.txt.

Если ваш фид общедоступен, Google не может ограничить пользователям доступ к нему. Попробуйте настроить сервер так, чтобы он выдавал агенту пользователя Feedfetcher-Google сообщения об ошибках 404, 410 и т. п.

Если фид предоставляется сервисом хостинга блогов или сайтов, обратитесь по поводу ограничения доступа к представителям этого сервиса.

Часто ли Feedfetcher извлекает мои фиды?

Обычно не чаще, чем один раз в час. Если сайт обновляется очень часто, временные промежутки могут быть меньше. Кроме того, из-за задержек в сети иногда может казаться, что Feedfetcher извлекает данные с более короткими промежутками, хотя на самом деле это не так.

Почему Feedfetcher пытается скачать информацию из несуществующего домена или обращается к моему серверу по неверным ссылкам?

Feedfetcher извлекает фиды по запросам сервисов и приложений, установленных пользователями. Возможно, в одном из таких запросов указан несуществующий URL.

Почему Feedfetcher скачивает информацию с моего секретного веб-сервера?

Feedfetcher извлекает фиды по запросам сервисов и приложений, установленных пользователями. Возможно, запросы приходят от пользователя, который знает про ваш секретный сервер или указал его по ошибке.

Почему Feedfetcher игнорирует мой файл robots.txt?

Feedfetcher получает фид после того, как пользователь запросил данные фида через специальный сервис или приложение. Feedfetcher действует как агент настоящего пользователя, а не как обычный робот, поэтому он не учитывает записи в файле robots.txt. При этом Feedfetcher экономит трафик сервера, поскольку запрашивает фиды в основных форматах от лица всех заинтересованных пользователей сразу, а не каждого в отдельности (то есть один раз вместо нескольких). Основными форматами фидов считаются RSS и Atom.

Если вы не хотите, чтобы робот Feedfetcher заходил на ваш сайт, настройте сервер так, чтобы он выдавал агенту пользователя Feedfetcher-Google сообщения об ошибках 404, 410 и т. п.

Почему обращения идут с нескольких компьютеров в домене google.com, и у всех в качестве агента пользователя указан Feedfetcher?

Feedfetcher предназначен для распределенной работы на нескольких компьютерах. Это обеспечивает эффективность и масштабирование системы по мере роста числа сайтов в интернете. В целях сокращения трафика используемые компьютеры часто размещают в сети рядом с сайтами, с которых они получают данные.

Могу ли я узнать IP-адреса, с которых Feedfetcher выполняет запросы, чтобы отфильтровать их в журналах?

IP-адреса, которые использует Feedfetcher, хранятся в объекте user-triggered-fetchers-google.json.

Почему Feedfetcher скачивает с сайта одну и ту же страницу несколько раз?

Как правило, Feedfetcher при получении фида скачивает с сайта одну копию каждого файла. Но в редких случаях при отключении и перезагрузке компьютеров может наблюдаться повторное скачивание одних и тех же страниц.

Какие ссылки сканирует Feedfetcher?

В отличие от обычных поисковых роботов Feedfetcher не находит ссылки для сканирования. Вместо этого он сканирует один URL, указанный пользователями сервиса или приложения, в котором задействован Feedfetcher.

В этой статье нет ответа на мой вопрос о Feedfetcher. Как его найти?

Посетите наш справочный форум в Центре Google Поиска.