Объединение повторяющихся URL

Если у вас есть одна страница, доступная по нескольким URL, или разные страницы с похожим контентом (например, версии для мобильных устройств и компьютеров), Google будет считать один URL каноническим, а остальные – его копиями. Сканирование канонического URL будет выполняться чаще, чем сканирование копий.

Сообщите нам, какой из URL является каноническим. В противном случае мы выберем его самостоятельно или будем считать оба адреса равноценными, а это может привести к нежелательным последствиям. Дополнительные сведения представлены в разделе ниже, где говорится о том, для чего нужно выбирать канонический URL.

Что такое канонический URL

Каноническим называется URL страницы, которую роботы Google считают главной среди нескольких ее вариантов на вашем сайте. Например, если одна и та же страница размещена по URL example.com?dress=1234 и example.com/dresses/1234, только одна из ее версий будет выбрана в качестве канонической. Обратите внимание, что страницы могут быть не полностью идентичными. Они могут различаться, например, настройками фильтров или сортировки (сортировка по цене или фильтрация товаров по цвету не делают страницу уникальной).

Домен канонической страницы также может отличаться от домена дубликата.

Дополнительные сведения

Когда робот Googlebot индексирует сайты, он старается определить основной контент на каждой странице. Если на одном сайте есть несколько похожих страниц, робот выбирает в качестве канонической ту из них, контент которой он интерпретирует как наиболее полный и полезный. Она будет сканироваться наиболее часто, а ее копии и варианты – реже. Это позволяет снизить нагрузку на ваш сайт, связанную с индексированием.

Канонические страницы выбираются по ряду критериев, также называемых сигналами. Примеры сигналов: протокол (http или https), качество страницы, присутствие URL в файле Sitemap, а также наличие атрибута rel=canonical. Даже если вы укажете Google каноническую страницу, используя описанные в этой статье способы, мы по той или иной причине можем выбрать другую.

Версии одной страницы на разных языках считаются дубликатами, только если основной контент написан на одном и том же языке. Например, если переведены лишь колонтитулы и прочие незначительные текстовые элементы, а основные материалы представлены на одном языке, такие страницы будут считаться дубликатами.

Мы оцениваем контент по каноническим страницам и показываем в результатах поиска именно их, за исключением случаев, когда другой вариант страницы в большей степени подходит для пользователя или его устройства.

Почему на сайтах бывают похожие или повторяющиеся страницы?

Разные URL, ведущие на одну и ту же, одинаковые или очень похожие страницы, могут возникать в следующих ситуациях:

  • когда нужна поддержка нескольких типов устройств;
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • чтобы создавать динамические URL, включающие, например, параметры поиска или идентификаторы сеансов;
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • если в вашем блоге автоматически создаются разные URL для одной и той же записи, размещаемой в нескольких разделах;
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • если ваш сервер показывает один и тот же контент по адресам с префиксом www и протоколом http или https;
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • если контент блога, предназначенный для распространения на нескольких сайтах, полностью или частично повторяется в других доменах:
    https://news.example.com/green-dresses-for-every-day-155672.html (скопированная запись) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (исходная запись)

Для чего выбирать канонический URL?

Указывать каноническую страницу из числа одинаковых или похожих стоит в следующих случаях:

  • Если нужно выбрать, какой URL следует показывать в результатах поиска. Предположим, вы хотите, чтобы посетители переходили на страницу с описанием платьев зеленого цвета по адресу https://www.example.com/dresses/green/greendress.html, а не https://example.com/dresses/cocktail?gclid=ABCD.
  • Для консолидации переходов на одинаковые или повторяющиеся страницы. Это поможет поисковым системам объединить информацию по отдельным страницам (например, ссылки на них) в одном основном URL. В результате ссылки с других сайтов на страницу http://example.com/dresses/cocktail?gclid=ABCD будут объединены со ссылками на страницу https://www.example.com/dresses/green/greendress.html.
  • Чтобы упростить получение статистики по отдельным товарам или темам. Если контент размещен на нескольких страницах с разными URL, это затрудняет получение обобщенной статистики по нему.
  • Для управления скопированным контентом. Если вы размещаете контент в других доменах, нужно, чтобы в результатах поиска появлялся основной URL.
  • Чтобы оптимизировать затраты ресурсов на сканирование повторяющихся страниц. Желательно, чтобы роботу Googlebot не приходилось сканировать множество вариантов страниц, например предназначенных для разных типов устройств или обновляемых. В противном случае ваш сайт не будет индексироваться эффективно.

Как узнать, какой URL роботы Google считают каноническим?

Чтобы узнать, какую страницу Google считает канонической, воспользуйтесь инструментом проверки URL. Обратите внимание, что, даже если вы явно укажете канонический URL, Google может выбрать другую страницу. Это зависит от многих факторов, например от содержимого страницы или ее эффективности в Google Поиске.

Устранение неполадок

Если канонический URL относится к ресурсу, который вам не принадлежит, вы не сможете отслеживать трафик на повторяющейся странице. Ниже перечислены основные причины, по которым канонический URL может принадлежать к отдельному ресурсу.

  • Неправильно отмеченные языковые варианты. Если на нескольких ваших сайтах размещен практически одинаковый контент на разных языках, следуйте нашим рекомендациям в отношении локализованных версий страниц.
  • Ошибки в тегах с атрибутом rel="canonical". Некоторые системы управления контентом или их плагины могут неправильно выполнять нормализацию, указывая на внешние URL. Проверьте, не в этом ли заключается проблема. Если ваш сайт указывает на неверный канонический URL, возможно, это происходит из-за некорректного использования атрибута rel="canonical" или переадресации 301. Вы можете сами исправить эту проблему.
  • Ошибки в настройках серверов. Неправильный выбор основного URL вне вашего домена может быть связан с ошибками в настройках серверов, на которых размещен контент. Примеры:
    • Некорректно настроенный сервер может возвращать контент с сайта a.com в ответ на запрос URL с сайта b.com.
    • Два не связанных между собой сервера могут выдавать одинаковые страницы ложных ошибок 404, которые не распознаются Google как сообщения об ошибках.
  • Атаки злоумышленников. Некоторые виды хакерских атак заключаются в добавлении на сайт кода, который выполняет переадресацию 301 HTTP или вставляет междоменный элемент link с атрибутом rel="canonical" в раздел <head> HTML или HTTP-заголовок. В результате пользователь попадает на сайт, который содержит вредоносное ПО или спам. В таких случаях вместо настоящего URL взломанного сайта алгоритмы Google могут выбрать URL, указанный злоумышленником.
  • Кража контента. В редких случаях алгоритмы Google могут выбрать URL внешней страницы, на которой без разрешения размещены копии вашего контента. Если ваши материалы были опубликованы на другом сайте в нарушение авторских прав, вы можете обратиться к владельцу сервера этого сайта с просьбой их убрать. Вы также можете запросить в Google удаление страницы с украденными материалами из результатов поиска в соответствии с законом США "Об авторском праве в цифровую эпоху" (DMCA).

Как указать каноническую страницу

Существует несколько способов указать каноническую страницу из числа повторяющихся.

Способ и описание
Общие рекомендации Рекомендации, которые имеют силу независимо от выбранного способа нормализации URL.
Тег rel=canonical <link>

Добавьте в код всех повторяющихся страниц тег <link>, указывающий на каноническую страницу.

Плюсы

  • Так можно пометить сколько угодно страниц.

Минусы

  • Увеличивает размер страницы.
  • Разметка на крупных сайтах или ресурсах, на которых URL часто меняются, отнимает много усилий.
  • Работает только с HTML-страницами, но не с файлами, например PDF. Для последних можно использовать атрибут rel=canonical в HTTP-заголовке.
HTTP-заголовок rel=canonical

Включите в ответ страницы заголовок rel=canonical.

Плюсы

  • Не увеличивает размер страницы.
  • Так можно пометить сколько угодно страниц.

Минусы

  • Разметка на крупных сайтах или ресурсах, на которых URL часто меняются, отнимает много усилий.
Файл Sitemap

Укажите канонические страницы в файле Sitemap.

Плюсы

  • Легко настроить и обновлять, особенно на крупных сайтах.

Минусы

  • Роботу Googlebot тем не менее нужно определить повторяющуюся страницу для каждой канонической, которую вы укажете в файле Sitemap.
  • Менее значимый сигнал для робота Googlebot, чем атрибут rel=canonical.
Код статуса 301 Используйте код статуса 301, чтобы сообщить роботу Googlebot, что URL, заданный в качестве нового адреса страницы, ведет на ее более актуальную версию.
Вариант страницы в формате AMP Если один из вариантов страницы – AMP, укажите каноническую страницу и ее варианты согласно инструкциям для AMP.

Мы рекомендуем использовать перечисленные выше методы, однако ни один из них не является обязательным. Если вы не укажете канонический URL, мы попытаемся определить его самостоятельно.

Общие рекомендации

Ниже приведены общие инструкции по указанию канонических URL.

Общие рекомендации

  • Не обозначайте канонические страницы с помощью файла robots.txt.
  • Не используйте инструмент удаления URL для указания канонической страницы: в этом случае из результатов поиска будут удалены все варианты адреса.
  • Не указывайте разные URL одной страницы в качестве канонических одним и тем же или разными способами (например, не надо добавлять один URL, используя файл Sitemap, а другой – с помощью атрибута rel="canonical").
  • Не пытайтесь предотвратить выбор канонической страницы, применяя директиву noindex. Она предназначена для исключения страницы из индекса.
  • Обязательно указывайте каноническую страницу при использовании атрибутов hreflang. Выбирайте для этого страницу на том же языке или ее вариант на наиболее близком языке.

  • Используйте канонический URL при создании ссылок в пределах своего сайта. Это поможет нам понять, какую страницу вы считаете приоритетной.

О преимуществе HTTPS над HTTP в канонических ссылках

При определении канонических ссылок Google отдает предпочтение страницам HTTPS, если при этом не возникают проблемы, например следующие:

  • Страница HTTPS использует недействительный сертификат SSL.
  • Страница HTTPS содержит небезопасные зависимости (кроме изображений).
  • Страница HTTPS выполняет переадресацию на страницу HTTP.
  • Страница HTTPS указывает на страницу HTTP с помощью атрибута rel="canonical".

Кроме того, вы можете дополнительно указать, что адресу HTTPS следует отдавать предпочтение. Выполните одно из следующих действий:

  • Добавьте переадресацию с HTTP-страницы на HTTPS.
  • Добавьте на страницу HTTP тег link с атрибутом rel="canonical", указывающий на страницу HTTPS.
  • Используйте технологию HSTS.

Как предотвратить использование страницы HTTP в качестве канонической:

  • Проверяйте сертификаты SSL, а также ссылки со страницы HTTPS на HTTP. Ошибки в них могут привести к тому, что каноническим будет считаться адрес HTTP. При этом неважно, применяется ли протокол HSTS.
  • В файлах Sitemap и атрибутах hreflang указывайте страницу HTTPS, а не HTTP.
  • Не используйте сертификат SSL/TLS для некорректного хоста (например, если example.com передает сертификат для www.example.com). Этот сертификат должен соответствовать полному URL сайта или являться групповым, то есть пригодным для использования на нескольких субдоменах.

Только для опытных пользователей: как заставить роботов Google игнорировать динамические параметры

Вы можете сообщить Google о параметрах, которые следует игнорировать. Подробные сведения представлены в Справочном центре. При использовании этой функции наши роботы не будут обрабатывать повторяющийся контент, что упростит им работу. Например, если вы укажете, что нужно проигнорировать параметр sessionid, мы посчитаем идентичными следующие страницы:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Способы

Указать канонический URL для повторяющихся URL или похожих страниц можно одним из способов, описанных ниже.

Какой бы способ вы ни выбрали, обязательно следуйте приведенным выше общим рекомендациям.

Указать, что данная страница копирует другую, можно с помощью тега <link> в заголовке страницы.

Предположим, вы хотите в качестве канонической указать страницу https://example.com/dresses/green-dresses , хотя ее контент и воспроизводится на других. Выполните следующие действия:

  1. Пометьте все повторяющиеся страницы при помощи элемента link с атрибутом rel="canonical". Добавьте в раздел <head> этих страниц элемент <link>, содержащий атрибут rel="canonical" и ссылку на каноническую страницу:
    <link rel="canonical" href="https://example.com/dresses/green-dresses" />

  2. Если у канонической страницы есть вариант для мобильных устройств, добавьте элемент link с атрибутом rel="alternate" и ссылкой на мобильную версию:
    <link rel="alternate" media="only screen and (max-width: 640px)" href="http://m.example.com/dresses/green-dresses">

  3. В случае необходимости добавьте атрибуты hreflang или настройте переадресацию другими способами.

HTTP-заголовок rel="canonical"

Если у вас есть доступ к настройкам сервера, вы можете указывать канонический URL для документов в формате, отличном от HTML (например, PDF), с помощью атрибута rel="canonical" в HTTP-заголовках (а не с помощью HTML-тегов).

Например, если на вашем сайте один и тот же файл PDF доступен по нескольким разным URL, вы можете с помощью HTTP-заголовка rel="canonical" сообщить роботу Googlebot, какой из этих URL является каноническим:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

В настоящее время этот способ поддерживается только для веб-поиска.

Файл Sitemap

Укажите канонический URL для каждой страницы в файле Sitemap. Все страницы в нем предлагаются в качестве канонических. Googlebot будет определять, какие из них являются повторяющимися (при наличии), по их контенту.

Мы не гарантируем, что URL в файле Sitemap будут рассматриваться как канонические во всех случаях. Но в целом это удобный способ для определения приоритетных URL на крупном сайте.

Не включайте в файл Sitemap неканонические страницы, если вы его используете.

Код статуса 301 для URL удаленных страниц

Этот метод позволяет исключить устаревшие адреса и обеспечить переадресацию на новые.

Предположим, на вашу страницу можно перейти по следующим URL:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Выберите один из этих адресов в качестве канонического и используйте переадресацию 301 на стороне сервера, чтобы перенаправлять на данный адрес трафик с других URL. Это один из самых надежных способов обеспечить переход пользователей и поисковых систем на нужную страницу. Код статуса 301 означает, что запрашиваемая страница находится по другому адресу.

Если у вас есть доступ к сервису веб-хостинга, узнайте из его документации, как настроить переадресацию 301.