Объединение URL повторяющихся страниц

Если у вас есть одна страница, доступная по нескольким URL, или разные страницы с практически одинаковым контентом (например, версии для мобильных устройств и компьютеров), Google будет считать один URL каноническим, а остальные – его копиями. Сканирование канонического URL будет выполняться чаще, чем сканирование копий.

Вы можете сообщить нам, какой URL является каноническим. В противном случае мы выберем его самостоятельно или будем считать оба адреса равноценными, а это может привести к нежелательным последствиям. Дополнительные сведения приведены в разделе Для чего вам нужно выбирать канонический URL.

Как робот Googlebot выбирает канонический URL при индексировании

Когда робот Googlebot индексирует сайты, он старается определить основной контент на каждой странице. Если на одном сайте есть несколько похожих страниц, робот выбирает в качестве канонической ту из них, контент которой он интерпретирует как наиболее полный и полезный. Она будет сканироваться наиболее часто, а ее копии и варианты – реже. Это позволяет снизить нагрузку на ваш сайт, связанную с индексированием.

Канонические страницы выбираются по ряду критериев, также называемых сигналами. Примеры сигналов: протокол (HTTP или HTTPS), качество страницы, упоминание URL в файле Sitemap, а также наличие атрибута rel=canonical. Даже если вы укажете каноническую страницу самостоятельно, используя описанные в этой статье способы, мы по той или иной причине можем выбрать другую.

Версии одной страницы на разных языках считаются копиями, только если основной контент написан на одном и том же языке. Иными словами, если переведены лишь колонтитулы и прочие незначительные текстовые элементы, такие страницы будут считаться копиями.

Мы оцениваем контент по каноническим страницам и показываем в результатах поиска именно их (за исключением случаев, когда другой вариант страницы в большей степени подходит для пользователя). Например, при поиске на мобильном устройстве пользователь, скорее всего, увидит в результатах мобильную страницу, даже если канонической является ее версия для компьютеров.

В каких случаях наличие похожих или идентичных страниц оправданно

В некоторых случаях имеет смысл сохранять разные URL, которые ведут на одну и ту же страницу (или на очень похожие ее варианты). Вот примеры таких ситуаций:

  • Таким способом реализована поддержка нескольких типов устройств:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Требуется создавать динамические URL, включающие, например, параметры поиска или идентификаторы сеансов:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • В выбранном сервисе для работы с блогами автоматически создаются разные URL при публикации одной записи в нескольких разделах:
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Ваш сервер отправляет один и тот же контент, когда URL различаются только префиксами www, http и https:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Контент блога, предназначенный для распространения на других сайтах, полностью или частично публикуется заново в доменах этих сайтов:
    https://news.example.com/green-dresses-for-every-day-155672.html (скопированная запись) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (исходная запись)

Для чего вам нужно выбирать канонический URL

Выбрать каноническую страницу из числа одинаковых или похожих стоит по нескольким причинам:

  • Чтобы указать, какой URL следует показывать в результатах поиска. Предположим, вы хотите, чтобы посетители переходили на страницу с описанием платьев зеленого цвета по адресу https://www.example.com/dresses/green/greendress.html, а не https://example.com/dresses/cocktail?gclid=ABCD.
  • Для консолидации переходов на одинаковые или повторяющиеся страницы. Это позволит поисковым системам объединить всю информацию, которая у них есть о разных страницах (например, ссылки на них), и связать ее с одним URL. Так, ссылки с других сайтов на страницу http://example.com/dresses/cocktail?gclid=ABCD будут объединены со ссылками на страницу https://www.example.com/dresses/green/greendress.html.
  • Чтобы упростить получение статистики по отдельным товарам или темам. Если контент размещен на нескольких страницах с разными URL, это затрудняет получение обобщенной статистики по нему.
  • Для управления скопированным контентом. Если вы размещаете контент в других доменах, нужно, чтобы в результатах поиска появлялся основной URL.
  • Чтобы оптимизировать сканирование сайта. У робота Googlebot должна быть возможность обрабатывать новый и обновленный контент, не тратя время на множество вариантов страниц, например предназначенных для разных типов устройств. В противном случае ваш сайт не будет сканироваться эффективно.

Как узнать, какую страницу Google считает канонической

Выяснить, какую страницу Google считает канонической, можно с помощью инструмента проверки URL.

Как указать каноническую страницу

Это можно сделать одним из описанных ниже способов. Не забывайте следовать общим рекомендациям.

Способ и описание
Тег rel=canonical <link>

Добавьте в код всех повторяющихся страниц тег <link>, указывающий на каноническую страницу.

Плюсы
  • Так можно пометить любое количество страниц.

Минусы

  • Увеличивается размер страницы.
  • Разметка крупных сайтов или ресурсов, на которых URL часто меняются, отнимает много усилий.
  • Способ работает только с HTML-страницами, но не с файлами, например в формате PDF. Для такого контента можно использовать атрибут rel=canonical в HTTP-заголовке.
HTTP-заголовок rel=canonical

Включите в HTTP-заголовок страницы поле rel=canonical.

Плюсы

  • Не увеличивает размер страницы.
  • Так можно пометить любое количество страниц.

Минусы

  • Разметка крупных сайтов или ресурсов, на которых URL часто меняются, отнимает много усилий.
Файл Sitemap

Укажите канонические страницы в файле Sitemap.

Плюсы

  • Легко настроить и обновлять, особенно на крупных сайтах.

Минусы

  • Роботу Googlebot все равно нужно определить повторяющуюся страницу для каждой канонической, которую вы укажете в файле Sitemap.
  • Этот сигнал является менее значимым для робота Googlebot, чем атрибут rel=canonical.
Код статуса 301 С помощью переадресации с кодом статуса 301 можно сообщить роботу Googlebot, что конечный URL более актуален. К этому способу следует прибегать только в том случае, если решено прекратить показ копии страницы.
Вариант страницы в формате AMP Если один из вариантов страницы опубликован в таком формате, укажите каноническую страницу и ее AMP-версию согласно инструкциям для AMP.

Общие рекомендации

Ниже приведены общие правила нормализации URL.

  • Не используйте для нормализации файл robots.txt.
  • Не используйте для нормализации инструмент удаления URL. Он удаляет из результатов поиска все варианты адреса.
  • Не указывайте разные URL в качестве канонических для одной страницы, какой бы способ вы ни выбрали (например, не надо выделять в файле Sitemap один URL, а с помощью атрибута rel="canonical" – другой).
  • Не используйте директиву noindex, чтобы запретить выбирать ту или иную страницу в качестве канонической. Она предназначена для исключения страницы из индекса.
  • Указывайте каноническую страницу при использовании тегов с атрибутом hreflang. Каноническая страница должна быть на том же языке, что и альтернативная, а если это невозможно, то на самом близком к нему языке.

  • При создании ссылок в пределах своего сайта используйте канонический URL, а не URL копий. Это поможет нам понять, какую страницу вы считаете приоритетной.

Почему следует отдавать предпочтение протоколу HTTPS при выборе канонических URL

Определяя канонические URL, Google отдает предпочтение страницам HTTPS, если не обнаруживаются проблемы, например такие:

  • Страница HTTPS использует недействительный сертификат SSL.
  • Страница HTTPS содержит небезопасные зависимости (кроме изображений).
  • Страница HTTPS выполняет переадресацию на страницу HTTP.
  • Страница HTTPS указывает на страницу HTTP с помощью атрибута rel="canonical".

Хотя наши алгоритмы по умолчанию отдают предпочтение страницам HTTPS, вы можете дополнительно предпринять шаги, которые сделают выбор в их пользу гарантированным:

  • Добавьте переадресацию со страницы HTTP на HTTPS.
  • Добавьте на страницу HTTP тег link с атрибутом rel="canonical", указывающий на страницу HTTPS.
  • Используйте технологию HSTS.

Что делать, чтобы страница HTTP не была ошибочно назначена канонической:

  • Избегайте использования недействительных сертификатов TLS или SSL, а также переадресаций со страниц HTTPS на HTTP, поскольку эти факторы в высокой степени способствуют выбору страниц HTTP даже в случае применения технологии HSTS.
  • В файлах Sitemap и атрибутах hreflang указывайте страницу HTTPS, а не HTTP.
  • Не используйте сертификат SSL или TLS для некорректного хоста (например, когда example.com передает сертификат для www.example.com). Сертификат должен соответствовать полному URL сайта или являться групповым, то есть охватывающим несколько субдоменов определенного домена.

Только для опытных пользователей: как запретить роботу Googlebot учитывать динамические параметры

Вы можете сообщить нашему роботу о параметрах, которые следует игнорировать (рекомендуем ознакомиться с более подробными сведениями). В результате робот Googlebot будет добавлять в индекс меньше страниц с идентичным контентом и эффективнее сканировать ваш сайт. Например, если вы укажете, что нужно игнорировать параметр sessionid, наш робот посчитает идентичными следующие страницы:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Чтобы указать, является ли страница канонической, можно использовать тег <link> в разделе head HTML-документа.

Предположим, вы хотите назначить канонической страницу https://example.com/dresses/green-dresses, в то время как ее контент доступен и по другим URL. Выполните следующие действия:

  1. Пометьте все копии страницы при помощи элемента link с атрибутом rel="canonical".

    Добавьте в раздел <head> всех копий страницы элемент <link>, содержащий атрибут rel="canonical" и ссылку на каноническую версию. Пример:

    <link rel="canonical" href="https://example.com/dresses/green-dresses" />
  2. Если у канонической страницы есть вариант для мобильных устройств, добавьте на нее элемент link с атрибутом rel="alternate" и ссылкой на мобильную версию:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">
  3. В случае необходимости добавьте атрибуты hreflang или настройте переадресацию другими способами.

HTTP-заголовок с атрибутом rel="canonical"

Если у вас есть доступ к настройкам сервера, то для HTML-страниц, PDF-файлов и других поддерживаемых Google Поиском документов канонические URL можно указывать с помощью атрибута rel="canonical" в HTTP-заголовке, а не HTML-теге.

Например, если на вашем сайте один и тот же PDF-файл доступен по нескольким URL, вы можете использовать HTTP-заголовок с атрибутом rel="canonical", чтобы сообщить роботу Googlebot, какой из этих URL является каноническим:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

В настоящее время этот способ поддерживается только для веб-поиска.

Файл Sitemap

Укажите канонический URL для каждой страницы в файле Sitemap. Все страницы в нем предлагаются в качестве канонических. Робот Googlebot будет определять, какие из них являются повторяющимися, по их контенту.

Мы не гарантируем, что URL в файле Sitemap будут рассматриваться как канонические во всех случаях. Но в целом это удобный способ для указания приоритетных URL на крупном сайте.

Не включайте в файл Sitemap неканонические страницы, если вы его используете.

Код статуса 301 для устаревших URL

Этот способ подойдет вам, если вы решили избавиться от повторяющихся страниц и хотите настроить переадресацию с устаревших URL на канонический.

Предположим, на вашу страницу можно перейти по следующим URL:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Выберите один из этих адресов в качестве канонического и используйте переадресацию 301 на стороне сервера, чтобы перенаправлять трафик на предпочтительный URL. Это один из самых надежных способов обеспечить переход пользователей и поисковых роботов на нужную страницу. Код статуса 301 означает, что у запрашиваемой страницы сменился адрес.

Если вы пользуетесь сервисом веб-хостинга, поищите сведения о настройке переадресации 301 в справочных материалах к нему.

Устранение неполадок

Если канонический URL относится к ресурсу, который вам не принадлежит, вы не сможете отслеживать трафик на повторяющейся странице. Ниже перечислены основные причины, по которым канонический URL может относиться к отдельному ресурсу.

  • Неправильно отмеченные языковые варианты. Если на нескольких ваших сайтах размещен практически одинаковый контент на разных языках, следуйте нашим рекомендациям в отношении локализованных версий страниц.
  • Ошибки в тегах с атрибутом rel="canonical". Некоторые системы управления контентом (CMS) или их плагины могут неправильно выполнять нормализацию, указывая на внешние URL. Проверьте, не в этом ли заключается проблема. Если ваш сайт указывает на неверный канонический URL, возможно, это происходит из-за некорректного использования атрибута rel="canonical" или переадресации 301. Вам достаточно исправить ошибки.
  • Неправильно настроенные серверы. Выбор основного URL вне вашего домена может быть связан с ошибками в настройках серверов, на которых размещен контент. Примеры:
    • Сервер может быть настроен так, чтобы передавать контент с сайта a.com в ответ на обращение к URL сайта b.com.
    • Два не связанных между собой сервера могут выдавать одинаковые страницы ложных ошибок 404, которые не распознаются Google как страницы ошибок.
  • Атаки злоумышленников. Некоторые виды хакерских атак заключаются в добавлении на сайт кода, который выполняет переадресацию 301 HTTP или вставляет элемент link с атрибутом rel="canonical" и междоменной ссылкой в раздел <head> HTML-документа или в HTTP-заголовок. В результате пользователь попадает на сайт, который содержит вредоносное ПО или спам. В таких случаях вместо настоящего URL взломанного сайта алгоритмы Google могут выбрать URL, указанный злоумышленником.
  • Кража контента. В редких случаях алгоритмы Google выбирают URL внешней страницы, на которой без разрешения размещен ваш контент. Если ваши материалы были опубликованы на другом сайте в нарушение авторских прав, вы можете обратиться к владельцу сервера этого сайта с просьбой их убрать. Вы также можете запросить в Google удаление страницы с украденными материалами из результатов поиска в соответствии с законом США "Об авторском праве в цифровую эпоху" (DMCA).