الطريقة المتّبَعة في Google لإنشاء عناوين للمستندات لا يتطابق فيها النص البرمجي أو اللغة

الجمعة 3 حزيران (يونيو) 2022

قدّمنا هذا الأسبوع تحسينًا خوارزميًا يحدّد المستندات التي تتم فيها كتابة عنصر العنوان بلغة أو نص برمجي مختلف عن محتواها، كما يساعد هذا التحسين في اختيار عنوان مشابه للمستند من ناحية اللغة والنص البرمجي. يعتمد ذلك على المبدأ العام الذي يقتضي بأن يكون عنوان المستند مكتوبًا باللغة أو النص البرمجي للمحتوى الأساسي في المستند. إنه أحد الأسباب التي تجعلنا نستبدل عناصر العنوان بعناوين للنتائج من شبكة الويب.

العناوين المتعددة اللغات

تكرّر العناوين المتعددة اللغات عبارة واحدة بلغتَين مختلفتَين أو نصَّين برمجيَّين مختلفَين. والنمط الأكثر شيوعًا هو إلحاق نسخة إنجليزية بنص العنوان الأصلي.

गीतांजलि की जीवनी - سيرة "جيتانجالي" باللغة الهندية

في هذا المثال، يتكون العنوان من جزأين (تفصل بينهما واصلة)، ويعبّران عن المحتوى نفسه ولكن بلغتَين مختلفتَين (الهندية والعربية). في هذه الحالة، يتوفر العنوان بلغتَين، لكنّ المستند مكتوب باللغة الهندية فقط. يكتشف نظامنا هذا التناقض، وقد يستخدم نص العنوان الهندي فقط، مثل:

गीतांजलि की जीवनी

العناوين المكتوبة باللاتينية

التحويل الصوتي هو عندما تتم كتابة المحتوى من لغة إلى لغة مختلفة تستخدم نصًا برمجيًا أو نظامًا أبجديًا مختلفًا. نذكر على سبيل المثال عنوان صفحة لأغنية مكتوبة باللغة الهندية ولكن تم إجراء تحويل صوتي لها لاستخدام الأحرف اللاتينية بدلاً من النص البرمجي المكتوب بنظام الديوَناكَري الأصلي في اللغة الهندية:

jis desh me holi kheli jati hai

في هذه الحالة، يحاول نظامنا العثور على عنوان بديل يستخدم النص البرمجي السائد على الصفحة، والذي قد يكون في هذا المثال ما يلي:

जिस देश में होली खेली जाती है

الملخّص

بشكل عام، تميل أنظمتنا إلى استخدام عنصر العنوان الخاص بالصفحة. وفي حالة العناوين المتعددة اللغات أو التي تم تحويلها صوتيًّا إلى أحرف لغة أخرى، قد تبحث أنظمتنا عن بدائل تطابق اللغة السائدة على الصفحة. لذلك، من الممارسات الجيدة تقديم عنوان يطابق اللغة و/أو النص البرمجي للمحتوى الرئيسي في الصفحة.

نرحّب بمزيد من الملاحظات في المنتدى، بما في ذلك سلاسل المحادثات الحالية حول هذا الموضوع باللغتَين الإنجليزية واليابانية.