Как Google создает заголовки для документов, если находит несовпадение языков или письменности

3 июня 2022 г.

На этой неделе мы представили улучшенный алгоритм для идентификации документов, в элементе title которых используются язык или скрипт, отличающиеся от языка или скрипта контента. Этот алгоритм автоматически подбирает заголовок, соответствующий языку или скрипту документа. Согласно общему принципу в теге title должны использоваться те же язык или письменность, что и в документе. Поэтому при создании заголовков поисковых результатов Google учитываются не только теги title.

Многоязычные заголовки

В многоязычных заголовках одна и та же фраза передается при помощи двух разных языков или письменностей. Чаще всего к оригинальному заголовку добавляют версию на английском языке.

गीतांजलि की जीवनी - Geetanjali Biography in Hindi (Биография Гитанджали на языке хинди)

В этом примере заголовок состоит из двух частей, разделенных тире. Обе части выражают один и тот же смысл, но на разных языках (хинди и английский). Хотя заголовок написан на двух языках, в документе используется только язык хинди. Наша система обнаружит такое несоответствие и будет использовать только текст заголовка на хинди:

गीतांजलि की जीवनी

Заголовки на латинице

В случае транслитерации текст на одном языке передается с помощью другого языка, то есть используется другая письменность или алфавит. Например, заголовок страницы для песни на хинди написан с использованием латиницы, а не традиционного для хинди письма деванагари:

jis desh me holi kheli jati hai

В этом случае наша система будет искать альтернативный заголовок с использованием письменности, которая преобладает в тексте на странице. Например:

जिस देश में होली खेली जाती है

Заключение

В большинстве случаев наша система использует информацию из тега title. Если на странице многоязычный или транслитерированный заголовок, то система будет искать альтернативы, соответствующие основному языку текста на странице. Поэтому рекомендуется использовать заголовок, соответствующий языку и/или скрипту основного контента страницы.

Мы рады услышать ваши мнения и советы на нашем форуме, в том числе и в разделах, посвященных этой теме на английском и японском.