Нормализация URL копий страниц и использование тега canonical
Если у вас есть страница, которая доступна по нескольким URL, или несколько страниц с практически одинаковым контентом (например, версии для мобильных устройств и компьютеров), Google будет считать один URL каноническим, а остальные – его копиями. Сканирование канонического URL будет выполняться чаще, чем сканирование копий.
Рекомендуем сообщить нам, какой URL является каноническим. В противном случае мы выберем его самостоятельно или будем считать оба адреса равноценными, а это может привести к нежелательным последствиям. Дополнительные сведения приведены в разделе Для чего нужно выбирать канонический URL.
В этом документе рассказывается о том, как работает нормализация URL в Google Поиске, нужно ли вам указывать канонический URL и как сообщить Google о своем выборе.
Что такое канонический URL
Каноническим называется URL страницы, которую роботы Google считают главной среди нескольких ее вариантов на вашем сайте. К примеру, если одна и та же страница размещена по двум URL, таким как example.com?dress=1234
и example.com/dresses/1234
, один из них будет выбран Google в качестве канонического.
При этом небольшие различия в контенте, например обусловленные настройками фильтрации или сортировки, не имеют значения (сортировка по цене или фильтрация товаров по цвету не делает страницу уникальной). Каноническая страница и ее копии могут находиться в разных доменах.
Как Google выбирает канонический URL при индексировании
Когда робот Google индексирует сайты, он старается определить основной контент на каждой странице. Если на одном сайте есть несколько похожих страниц, робот выбирает в качестве канонической ту из них, контент которой он интерпретирует как наиболее полный и полезный. Она будет сканироваться наиболее часто, а ее копии и варианты – реже. Это позволяет снизить нагрузку на ваш сайт, связанную с индексированием.
Канонические страницы выбираются по ряду критериев, также называемых сигналами. Примеры сигналов: протокол (HTTP или HTTPS), качество страницы, упоминание URL в файле Sitemap, а также наличие атрибута rel=canonical
. Даже если вы укажете каноническую страницу самостоятельно, используя описанные в этой статье способы, мы по той или иной причине можем выбрать другую.
Версии одной страницы на разных языках считаются копиями, только если основной контент написан на одном и том же языке. Иными словами, если переведены лишь колонтитулы и прочие незначительные текстовые элементы, такие страницы будут считаться копиями.
Мы оцениваем контент и качество сайтов по каноническим страницам и обычно показываем в результатах поиска именно их. Исключение составляют случаи, когда другой вариант страницы в большей степени подходит для пользователя. Например, при поиске на мобильном устройстве пользователь, скорее всего, увидит в результатах мобильную версию страницы, даже если канонической является ее версия для компьютеров.
Для чего нужны похожие или идентичные страницы
В некоторых случаях имеет смысл сохранять разные URL, которые ведут на одну и ту же страницу (или на очень похожие ее варианты). Вот примеры таких ситуаций:
- Таким способом реализована поддержка нескольких типов устройств:
https://example.com/news/koala-rampage https://m.example.com/news/koala-rampage https://amp.example.com/news/koala-rampage
- Требуется создавать динамические URL, включающие, например, параметры поиска или идентификаторы сеансов:
https://www.example.com/products?category=dresses&color=green https://example.com/dresses/cocktail?gclid=ABCD https://www.example.com/dresses/green/greendress.html
- В выбранном сервисе для работы с блогами автоматически создаются разные URL при публикации одной записи в нескольких разделах:
https://blog.example.com/dresses/green-dresses-are-awesome/ https://blog.example.com/green-things/green-dresses-are-awesome/
-
Ваш сервер отправляет один и тот же контент, когда URL различаются только префиксами www, http и https, а также вариантами портов протоколов:
https://example.com/green-dresses https://example.com/green-dresses https://www.example.com/green-dresses https://example.com:80/green-dresses https://example.com:443/green-dresses
- Контент блога, предназначенный для распространения на других сайтах, полностью или частично публикуется заново в доменах этих сайтов:
https://news.example.com/green-dresses-for-every-day-155672.html
(скопированная запись)https://blog.example.com/dresses/green-dresses-are-awesome/3245/
(исходная запись)
Для чего нужно выбирать канонический URL
Выбрать каноническую страницу из числа одинаковых или похожих стоит по нескольким причинам:
-
Чтобы указать, какой URL следует показывать в результатах поиска. Предположим, вы хотите, чтобы посетители переходили на страницу с описанием платьев зеленого цвета по адресу
https://www.example.com/dresses/green/greendress.html
, а неhttps://example.com/dresses/cocktail?gclid=ABCD
. -
Для консолидации переходов на одинаковые или повторяющиеся страницы. Это позволит поисковым системам объединить всю информацию, которая у них есть о разных страницах (например, ссылки на них), и связать ее с одним URL. В этом случае ссылки с других сайтов на страницу
https://example.com/dresses/cocktail?gclid=ABCD
будут объединены со ссылками на страницуhttps://www.example.com/dresses/green/greendress.html
. - Чтобы упростить получение статистики по отдельным товарам или темам. Если контент размещен на нескольких страницах с разными URL, это затрудняет получение обобщенной статистики по нему.
- Для управления скопированным контентом. Если вы размещаете контент в других доменах, нужно, чтобы в результатах поиска появлялся основной URL.
- Чтобы оптимизировать сканирование сайта. Необходимо обеспечить максимальную эффективность сканирования вашего сайта роботом Googlebot. Гораздо полезнее обрабатывать новый или обновленный контент, нежели тратить время на множество вариантов страниц, например предназначенных для разных типов устройств.
Как узнать, какую страницу Google считает канонической
Чтобы узнать, какую страницу алгоритмы Google считают канонической, воспользуйтесь инструментом проверки URL. Даже если вы явно укажете канонический URL, Google может выбрать другую страницу. Это зависит от многих факторов, например от контента страницы и ее эффективности в Google Поиске.
Как указать каноническую страницу
Это можно сделать одним из описанных ниже способов. Указывать канонический URL любым из перечисленных здесь способов желательно, но не обязательно. Если вы не выделите в качестве канонического ни один URL, мы выберем наиболее подходящую версию сами. Следуйте общим рекомендациям.
Способ и описание | |||
---|---|---|---|
Тег rel=canonical <link> |
Добавьте в код всех повторяющихся страниц тег
|
||
HTTP-заголовок rel=canonical |
Включите в HTTP-заголовок страницы поле
|
||
Файл Sitemap |
Укажите канонические страницы в файле Sitemap.
|
||
Переадресация с кодом статуса 301 |
С помощью переадресации с кодом статуса 301 можно сообщить роботу Googlebot, что URL переадресации более актуален. К этому способу следует прибегать только в том случае, если решено прекратить показ копии страницы. |
||
Вариант страницы в формате AMP | Если один из вариантов страницы опубликован в таком формате, укажите каноническую страницу и ее AMP-версию согласно инструкциям для AMP. |
Общие рекомендации
Ниже приведены общие правила нормализации URL.
- Не используйте для нормализации файл robots.txt.
- Не используйте для нормализации инструмент удаления URL. Он скрывает из результатов поиска все варианты адреса.
- Не указывайте разные канонические URL для одной страницы, какую бы технологию нормализации вы ни выбрали (например, не надо указывать в файле Sitemap один URL, а с помощью атрибута
rel="canonical"
– другой). - Не используйте директиву
noindex
как способ запретить выбор той или иной страницы в качестве канонической. Это правило предназначено для исключения страниц из индекса. -
Указывайте канонические страницы, когда используете теги с атрибутом hreflang. Каноническая страница должна быть на том же языке, что и альтернативная, а если это невозможно, то на самом близком к нему языке.
-
При создании ссылок в пределах своего сайта используйте канонический URL, а не URL копий. Это поможет нам понять, какую страницу вы считаете приоритетной.
Почему следует отдавать предпочтение протоколу HTTPS при выборе канонических URL
Определяя канонические URL, Google отдает предпочтение страницам HTTPS, если не обнаруживаются проблемы, например такие:
- На странице HTTPS используется недействительный сертификат SSL.
- Страница HTTPS содержит небезопасные зависимости (кроме изображений).
- Страница HTTPS выполняет переадресацию на страницу HTTP.
- Страница HTTPS указывает на страницу HTTP при помощи тега
link
с атрибутомrel="canonical"
.
Хотя в Google HTTPS-страницы в приоритете по умолчанию, вы можете явным образом указать, что именно HTTPS-версия должна быть канонической. Для этого выполните одно из следующих действий:
- Добавьте переадресацию с HTTP-страницы на HTTPS.
- Добавьте на страницу HTTP переадресацию на страницу HTTPS с помощью тега
link
с атрибутомrel="canonical"
. - Используйте технологию HSTS.
Что делать, чтобы страница HTTP не была ошибочно назначена канонической:
- Избегайте использования недействительных сертификатов TLS или SSL, а также переадресаций со страниц HTTPS на HTTP, поскольку эти факторы в высокой степени способствуют выбору страниц HTTP даже в случае применения технологии HSTS.
- В файлах Sitemap и атрибутах hreflang указывайте страницу HTTPS, а не HTTP.
- Не используйте сертификат SSL или TLS для некорректного хоста (например, когда example.com передает сертификат для www.example.com). Сертификат должен соответствовать полному URL сайта или являться групповым, то есть охватывающим несколько субдоменов определенного домена.
Тег link
с атрибутом rel="canonical"
Тег link rel="canonical" (канонический тег) используется в разделе head HTML-страницы, чтобы указать на то, что одна страница совпадает с другой. Чтобы указать, является ли страница канонической, можно использовать тег <link>
в разделе head
HTML-документа.
Предположим, вы хотите назначить канонической страницу https://example.com/dresses/green-dresses
, в то время как ее контент доступен и по другим URL. Выполните следующие действия:
-
Пометьте все копии страницы при помощи тега link с атрибутом
rel="canonical"
.Добавьте в раздел
<head>
всех копий страницы элемент<
, содержащий атрибутlink
>rel="canonical"
со ссылкой на каноническую страницу. Пример:<link rel="canonical" href="https://example.com/dresses/green-dresses" />
- Если у канонической страницы есть вариант для мобильных устройств, добавьте на нее тег
link
с атрибутомrel="alternate"
, указывающим на мобильную версию:<link rel="alternate" media="only screen and (max-width: 640px)" href="https://m.example.com/dresses/green-dresses">
- В случае необходимости добавьте атрибуты hreflang или настройте переадресацию другими способами.
Теги link
с атрибутом rel="canonical"
должны содержать абсолютные пути, а не относительные.
Хороший пример:
https://www.example.com/dresses/green/greendress.html
Плохой пример:
/dresses/green/greendress.html
Если при добавлении тегов link с атрибутом rel="canonical"
вы используете JavaScript, соблюдайте инструкции.
HTTP-заголовок с атрибутом rel="canonical"
Если у вас есть доступ к управлению сервером, то для HTML-страниц, PDF-файлов и других поддерживаемых Google Поиском документов канонические URL можно указывать с помощью атрибута rel="canonical"
в HTTP-заголовке, а не HTML-теге.
В настоящее время этот способ поддерживается только для веб-поиска.
Например, если на вашем сайте один и тот же PDF-файл доступен по нескольким URL, вы можете использовать HTTP-заголовок с атрибутом rel="canonical"
, чтобы сообщить роботу Googlebot, какой из этих URL является каноническим:
Link: <https://www.example.com/downloads/white-paper.pdf>; rel="canonical"
Для HTTP-заголовка с атрибутом rel="canonical"
действуют те же рекомендации, что и для тега link
с атрибутом rel="canonical"
. Согласно протоколу RFC2616 в HTTP-заголовке rel="canonical"
следует использовать только двойные кавычки.
Файл Sitemap
Укажите канонический URL для каждой страницы в файле Sitemap. Все страницы в нем предлагаются в качестве канонических. Роботы Google будут определять, какие из них являются повторяющимися (при наличии), по их контенту.
Мы не гарантируем, что URL в файле Sitemap будут рассматриваться как канонические во всех случаях. Но в целом это удобный способ для указания приоритетных URL на крупном сайте.
Не включайте в файл Sitemap неканонические страницы, если вы его используете.
Код статуса 301
для URL удаленных страниц
Этот способ подойдет вам, если вы решили избавиться от повторяющихся страниц и хотите настроить переадресацию с устаревших URL на канонический.
Предположим, на вашу страницу можно перейти по следующим URL:
https://example.com/home
https://home.example.com
https://www.example.com
Укажите один из этих адресов в качестве канонического и используйте переадресацию 301
, чтобы перенаправлять на выбранный адрес трафик с других URL. Переадресация 301
на стороне сервера – это лучший способ обеспечить переход пользователей и поисковых систем на нужную страницу. Код статуса 301
означает, что запрашиваемая страница находится по другому адресу.
Если у вас есть доступ к сервису веб-хостинга, узнайте из его документации, как настроить переадресацию 301
.
Устранение неполадок
Если канонический URL относится к ресурсу, который вам не принадлежит, то вы не сможете отслеживать трафик по копиям страницы. Ниже перечислены основные причины, по которым канонический URL может относиться к отдельному ресурсу.
- Неправильно отмеченные языковые варианты. Если на нескольких ваших сайтах размещен практически одинаковый контент на разных языках, следуйте нашим рекомендациям в отношении локализованных версий страниц.
- Ошибки в тегах с атрибутом rel="canonical". Некоторые системы управления контентом (CMS) или их плагины могут неправильно выполнять нормализацию, указывая на внешние URL. Проверьте, не в этом ли заключается проблема. Если ваш сайт указывает на неверный канонический URL, это может происходить из-за некорректного использования атрибута
rel="canonical"
или переадресации301
. Вы можете сами исправить эту ошибку. - Неправильно настроенные серверы. Выбор основного URL вне вашего домена может быть связан с ошибками в настройках серверов, на которых размещен контент. Примеры:
- Сервер может быть настроен так, чтобы передавать контент с сайта a.com в ответ на обращение к URL сайта b.com.
- Два не связанных между собой сервера могут выдавать одинаковые страницы ложных ошибок
soft 404
, которые не распознаются Google как сообщения об ошибках.
- Атаки злоумышленников. Некоторые виды хакерских атак заключаются в добавлении на сайт кода, который выполняет переадресацию 301 HTTP или вставляет междоменный тег link с атрибутом
rel="canonical"
в раздел<head>
HTML или HTTP-заголовок. В результате пользователь попадает на сайт, который содержит вредоносное ПО или спам. В таких случаях вместо настоящего URL взломанного сайта алгоритмы Google могут выбрать URL, указанный злоумышленником. - Кража контента. В редких случаях алгоритмы Google выбирают URL внешней страницы, на которой без разрешения размещен ваш контент. Если вы считаете, что ваши материалы публикуются на другом сайте в нарушение авторских прав, вы можете обратиться к владельцу сервера этого сайта с просьбой их убрать. Вы также можете запросить в Google удаление страницы с украденными материалами из результатов поиска в соответствии с законом США "Об авторском праве в цифровую эпоху" (DMCA).