Работа с многоязычными сайтами

Пятница, 19 марта 2010 г.

Многоязычный сайт содержит контент на нескольких языках. Например, сайт канадской компании может иметь две версии – на английском и французском, а латиноамериканский блог о футболе – на испанском и португальском.

Создавать многоязычный сайт обычно имеет смысл тогда, когда ваша целевая аудитория говорит на разных языках. Если ваш блог о футболе предназначен для бразильской аудитории, достаточно публиковать его только на португальском. Но если вы хотите, чтобы вас читали и аргентинские футбольные фанаты, вам нужно добавить контент на испанском.

Google и распознавание языка

Наши алгоритмы способны определять основной язык страниц сайтов. Чтобы упростить им задачу, постарайтесь придерживаться одного языка на страницу и избегайте параллельного перевода. Хотя наши алгоритмы и способны распознавать сразу несколько языков, рекомендуем использовать один язык для всех элементов страницы: заголовков, боковых панелей, меню и т. д.

Помните, что Google игнорирует любую информацию о языке в коде страницы, от атрибутов lang до определений типа документа (DTD). Некоторые редакторы веб-страниц автоматически создают эти атрибуты, и поэтому мы не полагаемся на них при определении языка страницы.

Задав поисковый запрос на родном языке, любой пользователь ожидает получить локализованные результаты, а это уже область ответственности веб-мастера: если вы делаете локализованную версию страницы, она должна появляться в результатах поиска. Чтобы узнать, как этого добиться, читайте далее.

Как устроен многоязычный сайт: структура URL

При разработке многоязычного сайта не нужно создавать специальные URL. Тем не менее вашим посетителям будет удобнее, если они смогут определить, в каком разделе сайта они находятся, просто взглянув на URL. Например, по следующим URL пользователи смогут понять, что они в английском разделе сайта: https://example.ca/en/mountain-bikes.html или https://en.example.ca/mountain-bikes.html. А по этим – что во французском: https://example.ca/fr/mountain-bikes.html или https://fr.example.ca/mountain-bikes.html. Кроме этого, подобная структура URL упростит проверку индексирования вашего многоязычного контента.

При использовании в URL символов, которых нет в английском языке, применяйте кодировку UTF-8. Если в ссылках из вашего контента используются такие URL, их нужно экранировать. Если вам понадобится выполнить экранирование вручную, для ускорения процесса можете воспользоваться любым онлайн-кодировщиком URL. К примеру, URL на английском https://example.ca/fr/mountain-bikes.html при переводе на французский будет выглядеть так: https://example.ca/fr/vélo-de-montagne.html. Поскольку этот URL содержит символ, которого нет в английском языке (é), в результате экранирования получится https://example.ca/fr/v%C3%A9lo-de-montagne.html.

Сканирование и индексирование многоязычного сайта

Рекомендуем запрещать сканирование автоматически переведенных страниц. Подобный перевод порой содержит бессмыслицу и может быть принят за спам. Важно понимать, что многоязычные сайты создаются с целью расширить аудиторию. Если машинный перевод трудно разобрать или он звучит неестественно, готовы ли вы предложить такой контент своим посетителям?

При локализации сайта позаботьтесь о том, чтобы у робота Googlebot был доступ ко всем языковым версиям вашего ресурса. Подумайте о размещении взаимных ссылок. Такие ссылки связывают страницы с одинаковым контентом, но на разных языках. Tак вашим посетителям будет гораздо удобнее ориентироваться на сайте. Пользуясь предыдущим примером, предположим, что пользователь из Франции попал на страницу https://example.ca/en/mountain-bikes.html. Ему будет достаточно одного клика, чтобы перейти на страницу https://example.ca/fr/vélo-de-montagne.html, где он сможет ознакомиться с тем же контентом на родном языке.

Чтобы упростить сканирование сайта, старайтесь избегать автоматической переадресации по предполагаемому языку пользователя. Ее применение может привести к тому, что посетителям и поисковым системам будут доступны не все версии сайта.

И последнее – размещайте контент для каждого из языков по отдельным URL. Не используйте файлы cookie для выбора переведенных версий страницы.

Кодировка символов

Наши алгоритмы распознают кодировку символов в HTTP-заголовках, заголовках HTML-страниц и контенте. Вам нужно не столько разбираться в кодировке символов, сколько следить за тем, чтобы не было расхождений в данных, например несоответствий между контентом и заголовками. Хотя наши алгоритмы работают с многочисленными кодировками символов, на сайтах мы рекомендуем повсеместно использовать UTF-8.

Если заплетается язык…

Теперь, когда вы всё это знаете, ваш язык ещё может заплестись от общения на разных языках, но ваш сайт – ни в коем случае!

Дополнительную информацию вы сможете найти в нашей публикации о мультирегиональных сайтах, а в ближайшее время ждите новой статьи, где мы разберем отдельные ситуации, которые могут возникнуть при работе с глобальными сайтами. И конечно же, не стесняйтесь заходить на наш справочный форум.