Страницы с идентичным контентом

Идентичным контентом обычно называют большие блоки материалов на одном и том же языке, которые совершенно одинаковы или очень похожи. Они могут быть размещены в одном или разных доменах. Как правило, такой контент публикуется без намерения обмануть пользователей. Примеры идентичных материалов, которые не относятся к категории вредоносных:

  • страницы форумов в версиях для компьютеров и мобильных устройств;
  • товары в интернет-магазине, доступные по разным URL;
  • версии веб-страниц для печати.

Если на вашем сайте размещено несколько страниц с почти одинаковым контентом, вы можете указать Google на предпочтительный URL. Это можно сделать разными способами. Такая процедура называется нормализацией. Рекомендуем изучить более подробную информацию о ней.

В некоторых случаях злоумышленники намеренно дублируют контент в разных доменах, чтобы повлиять на позицию сайта в поисковой системе или привлечь больше трафика. Использование подобных обманных приемов может причинить неудобства пользователям, так как в результатах поиска они будут видеть практически один и тот же многократно повторяющийся контент.

Google делает все возможное, чтобы индексировать и показывать страницы с уникальной информацией. Например, если на вашем сайте каждая статья имеет две версии (стандартную и предназначенную для печати), которые не отмечены тегом с директивой noindex, в результатах поиска будет появляться только одна из них. В тех редких случаях, когда идентичный контент определенно применяется для того, чтобы манипулировать позицией сайта в результатах поиска или вводить пользователей в заблуждение, Google корректирует алгоритмы индексирования и ранжирования сайта. В связи с этим позиции ресурса могут понизиться или он может быть вообще удален из индекса Google и перестать появляться в результатах поиска.

Приведенные ниже рекомендации позволят вам предотвратить проблемы, связанные с идентичным контентом, и добиться того, чтобы посетителям сайта предлагались только интересующие их материалы.

  • Используйте переадресацию 301. Если вы изменили структуру своего сайта, настройте переадресацию 301 (RedirectPermanent) в файле .htaccess, чтобы перенаправлять пользователей, робота Googlebot и других "пауков" на нужные страницы. В случае с веб-сервером Apache можно использовать файл .htaccess, а при работе с IIS – консоль администрирования.
  • Обеспечивайте единообразие. Система ваших внутренних ссылок должна быть упорядоченной. Например, не добавляйте ссылки одновременно на http://www.example.com/page/, http://www.example.com/page и http://www.example.com/page/index.htm.
  • Применяйте домены верхнего уровня. При публикации материалов, относящихся к определенной стране, по возможности используйте домены верхнего уровня. Это поможет нам показывать в результатах поиска самые подходящие версии веб-документов. Например, контент, предназначенный для пользователей из Германии, рекомендуется размещать на сайте http://www.example.de, а не на http://www.example.com/de или http://de.example.com.
  • Внимательно относитесь к распространению контента. Если вы предоставляете свой контент другим сайтам, то при каждом поисковом запросе Google всегда будет показывать версию, которую интерпретирует как самую подходящую для пользователя. Это может быть не та версия, которую выбрали бы вы. Тем не менее желательно, чтобы на всех сайтах, где размещаются ваши материалы, была ссылка на исходную статью. Вы также можете попросить владельцев сайтов, использующих ваш контент, запретить его индексирование на принадлежащих им страницах при помощи тега с директивой noindex.
  • Избегайте повторов шаблонных текстов. Например, не стоит размещать внизу каждой страницы пространное уведомление об авторских правах. Достаточно его краткой версии, которая будет включать ссылку на страницу с подробными сведениями.
  • Не применяйте программные заглушки. Пользователям неинтересны пустые страницы. В частности, не стоит публиковать страницы, для которых у вас пока нет контента. Если же без страниц-заполнителей не обойтись, заблокируйте их индексирование при помощи тега с директивой noindex.
  • Изучите свою систему управления контентом. Разберитесь в том, как на вашем сайте представлены те или иные материалы. В блогах, на форумах и в других подобных сервисах одни и те же материалы зачастую представлены по-разному. Например, запись блога может находиться на главной странице, на странице из архива, а также на странице с другими записями, отмеченными тем же ярлыком.
  • Стремитесь к разнообразию контента. Если у вас есть много похожих страниц, лучше дополнить каждую из них уникальными материалами или свести их все в одну. Предположим, у вас туристический сайт с отдельными страницами о двух городах, но информация на них одинакова. Вы можете добавить на каждую страницу уникальный контент или объединить их.

Google не рекомендует блокировать поисковым роботам доступ к идентичному контенту с помощью файла robots.txt или иными способами. Не имея возможности сканировать страницы с идентичным контентом, поисковые системы не смогут автоматически определять, что по разным URL размещены одинаковые материалы, и будут обращаться с этими страницами как с уникальными. Лучше всего разрешить сканирование этих URL, но при этом пометить их как точные копии с помощью элемента link rel="canonical" или переадресации 301. Если наличие многочисленных копий значительно замедляет нашим роботам обработку страниц, настройте частоту сканирования в Search Console.

Мы не принимаем меры в отношении сайтов, содержащих страницы с идентичным контентом, если только не очевидно, что такие материалы призваны обмануть пользователей или поисковые алгоритмы Google. Если у вас возникают проблемы из-за идентичного контента, но вы не последовали советам, приведенным в этом руководстве, то мы будем по своему усмотрению выбирать версии ваших материалов для показа в результатах поиска.

Если же мы пришли к выводу, что вы использовали идентичный контент, чтобы обмануть пользователей, и ваш сайт был удален из результатов поиска Google, внимательно проверьте свои страницы. Изучите рекомендации для веб-мастеров, устраните нарушения и затем отправьте нам запрос на повторную проверку сайта.

В редких случаях алгоритмы Google могут выбрать URL внешней страницы, на которой без разрешения размещены копии ваших материалов. Если ваши материалы были опубликованы на другом сайте в нарушение авторских прав, обратитесь к владельцу сервера этого сайта с просьбой их убрать. Вы также можете запросить в Google удаление страницы с украденными материалами из результатов поиска в связи с нарушением закона США "Об авторском праве в цифровую эпоху" (DMCA).