Wie Google Titel für Dokumente mit abweichender Sprache oder Schrift erstellt

Freitag, 3. Juni 2022

Diese Woche haben wir eine algorithmische Verbesserung eingeführt, mit der Dokumente identifiziert werden, bei denen das Titelelement in einer anderen Sprache oder einer anderen Schrift als der Dokumentinhalt geschrieben ist, und ein Titel gewählt wird, der der Sprache und der Schrift des Dokuments ähnelt. Dies basiert auf dem allgemeinen Prinzip, dass der Titel eines Dokuments in der Sprache oder der Schrift des Hauptinhalts geschrieben sein sollte. Dies ist einer der Gründe, warum wir in Bezug auf Webergebnistitel über Titelelemente hinausgehen können.

Mehrsprachige Titel

Bei mehrsprachigen Titeln wird dieselbe Wortgruppe in zwei verschiedenen Sprachen oder Schriften wiederholt. Das gängigste Muster ist das Anhängen einer englischen Version an den ursprünglichen Titeltext.

गीतांजलि की जीवनी - Geetanjali Biography in Hindi

In diesem Beispiel besteht der Titel aus zwei Teilen (geteilt durch einen Bindestrich) und drückt denselben Inhalt in verschiedenen Sprachen aus (Hindi und Englisch). Obwohl der Titel in beiden Sprachen angegeben ist, ist das Dokument selbst nur auf Hindi geschrieben. Unser System erkennt eine solche Inkonsistenz und verwendet möglicherweise nur den Hindi-Überschriftstext, wie etwa:

गीतांजलि की जीवनी

Titel in lateinischer Schrift

Transliteration bedeutet, dass Inhalte aus einer Sprache in der abweichenden Schrift oder dem abweichenden Alphabet einer anderer Sprache geschrieben werden. Ein Beispiel wäre ein Seitentitel für einen Song auf Hindi, der in lateinische Schrift transliteriert wurde, statt die für Hindi übliche Devanagari-Schrift zu verwenden.

jis desh me holi kheli jati hai

In einem solchen Fall versucht unser System, einen alternativen Titel in der auf der Seite vorherrschenden Schrift zu finden. In diesem Fall könnte das so aussehen:

जिस देश में होली खेली जाती है

Zusammenfassung

Im Allgemeinen verwenden unsere Systeme das Titelelement der Seite. Bei mehrsprachigen oder transliterierten Titeln suchen unsere Systeme möglicherweise nach Alternativen, die der Hauptsprache der Seite entsprechen. Aus diesem Grund empfiehlt es sich, einen Titel anzugeben, der mit der Sprache und/oder der Schrift des Hauptinhalts der Seite übereinstimmt.

Wir freuen uns über weitere Rückmeldungen in unserem Forum, auch in den bereits vorhandenen Threads zu diesem Thema auf Englisch und Japanisch.