PDF-файлы в результатах поиска Google

Четверг, 1 сентября 2011 г.

Наша цель – систематизировать всю имеющуюся в мире информацию, сделав ее доступной и удобной для использования. Информация встречается не только в HTML-файлах, но и в документах формата PDF, таблицах, презентациях и других материалах. Наши алгоритмы обрабатывают все типы файлов одинаково быстро, и мы прикладываем немало усилий для того, чтобы извлекать из источников релевантный контент и корректно его индексировать для показа в результатах поиска. Как именно индексируются файлы разных типов? Какие правила действуют для подобных файлов, которые существенно отличаются от обычных документов HTML? Что, если владелец сайта не хочет, чтобы роботы Google индексировали эти файлы?

Google индексирует PDF-файлы с 2001 г. На сегодняшний день нами проиндексированы сотни миллионов подобных файлов. В этой статье мы постарались ответить на наиболее часто задаваемые вопросы об индексировании PDF-файлов.

Могут ли роботы Google индексировать любые PDF-файлы?
Наши роботы могут проиндексировать текстовое содержимое PDF-файла на любом языке и в разных кодировках, если этот файл не защищен паролем и не зашифрован. Если текст встроен в файл как изображение, мы можем извлечь его при помощи оптического распознавания символов. В общем случае, если текст можно скопировать из PDF-документа в обычный текстовый файл, скорее всего, документ удастся проиндексировать.

Как обрабатываются изображения в PDF-файлах?
В настоящее время индексирование изображений не выполняется. Мы можем индексировать только картинки, которые размещены на веб-страницах. Чтобы повысить вероятность появления ваших изображений в результатах поиска, следуйте рекомендациям по работе с Google Картинками.

Как обрабатываются ссылки из PDF-документов?
Принципы обработки ссылок из PDF-документов и HTML-файлов практически одинаковы. В частности, ссылки из PDF-документов учитываются в системе PageRank и оцениваются с точки зрения других сигналов индексирования. Поэтому наши роботы могут переходить по подобным ссылкам после сканирования самого файла PDF. Использовать ссылки с атрибутом nofollow в документах PDF в настоящее время нельзя.

Как запретить показ моих PDF-файлов в результатах поиска? А если мои PDF-файлы уже появляются в Google, как это прекратить?
Проще всего добавить в HTTP-заголовок для показа файла элемент X-Robots-Tag: noindex. Если файл уже проиндексирован, то через некоторое время после добавления элемента X-Robot-Tag с правилом noindex он исчезнет из результатов поиска Google. Если вам нужно, чтобы это произошло быстрее, вы можете воспользоваться инструментом удаления URL в Search Console.

Могут ли PDF-файлы появляться на высоких позициях в результатах поиска?
Конечно! Позиции PDF-файлов определяются примерно так же, как и позиции обычных веб-страниц. Например, на момент написания этого сообщения по запросам mortgage market review (исследование Mortgage Market Review), irs form 2011 (форма Налогового управления США за 2011 г.) или paracetamol expert report (экспертный отчет о парацетамоле) на высоких позициях в результатах поиска появляются PDF-документы. Это обусловлено как актуальностью содержания таких PDF-файлов, так и тем, что ссылки на них часто встречаются на других сайтах.

Предположим, у меня есть версии одной и той же страницы в формате HTML и PDF. Считаются ли они страницами с идентичным контентом?
Мы не рекомендуем размещать один и тот же контент в нескольких форматах. Если вам это необходимо, отметьте предпочтительную версию. Для этого можно включить URL предпочтительной страницы в файл Sitemap или указать каноническую версию в HTML-файле либо в HTTP-заголовках PDF-файла. Дополнительные сведения представлены в статье о канонических URL.

Как можно указать на заголовок, под которым желательно показывать мой PDF-файл в результатах поиска?
Заголовок для показа определяется с помощью таких элементов, как метаданные title из файла, а также текст ссылок, указывающих на этот PDF-файл. Чтобы явным образом указать, под каким заголовком должен появляться файл, лучше задать этот заголовок в обоих элементах.

Если вас интересует дополнительная информация, посмотрите видео Мэтта Каттса о подготовке PDF-файлов для показа в результатах поиска. Чтобы узнать, какие ещё типы контента мы можем индексировать, посетите наш Справочный центр. Если у вас есть вопросы или предложения, свяжитесь с нами на нашем справочном форуме.