ما هو نموذج اللغة؟
النموذج اللغوي يقدّر احتمالية ظهور رمز مميّز أو تسلسل من الرموز المميّزة ضمن تسلسل أطول من الرموز المميّزة. يمكن أن يكون الرمز المميّز كلمة أو كلمة فرعية (مجموعة فرعية من كلمة) أو حتى حرفًا واحدًا.
ضَع في اعتبارك الجملة التالية والرموز المميزة التي قد تكملها:
When I hear rain on my roof, I _______ in my kitchen.
يحدّد النموذج اللغوي احتمالات الرموز المميزة المختلفة أو تسلسلات الرموز المميزة لإكمال الفراغ. على سبيل المثال، يحدّد جدول الاحتمالات التالي بعض الرموز المميزة المحتملة واحتمالاتها:
| الاحتمالية | الرموز المميزة |
|---|---|
| 9.4% | طهي الحساء |
| 5.2% | تسخين غلّاية |
| 3.6% | يختبئ |
| 2.5% | قيلولة |
| 2.2% | استرخاء |
في بعض الحالات، يمكن أن يكون تسلسل الرموز المميزة جملة كاملة أو فقرة أو حتى مقالة كاملة.
يمكن لأي تطبيق استخدام جدول الاحتمالات لوضع التوقعات. قد يكون التوقّع هو الاحتمال الأرجح (على سبيل المثال، "طبخ الحساء") أو اختيار عشوائي من الرموز المميزة التي يزيد احتمالها عن حدّ معيّن.
يمكن توسيع نطاق تقدير احتمال ملء الفراغ في تسلسل نصي ليشمل مهامًا أكثر تعقيدًا، بما في ذلك:
- جارٍ إنشاء النص
- لترجمة نص من لغة إلى أخرى
- تلخيص المستندات
من خلال وضع نماذج للأنماط الإحصائية للرموز المميزة، تطوّر النماذج اللغوية الحديثة تمثيلات داخلية قوية للغاية للغة، ويمكنها إنشاء لغة معقولة.
نماذج لغوية تستند إلى وحدات N-gram
النماذج النونية هي تسلسلات مرتبة من الكلمات تُستخدم لإنشاء نماذج لغوية، حيث يمثل الحرف N عدد الكلمات في التسلسل. على سبيل المثال، عندما تكون قيمة N هي 2، يُطلق على N-gram اسم 2-gram (أو bigram)، وعندما تكون قيمة N هي 5، يُطلق على N-gram اسم 5-gram. في ما يلي عبارة في مستند تدريبي:
you are very nice
في ما يلي ثنائيات الحروف الناتجة:
- أنت
- مهمة جدًا
- جميل جدًا!
عندما تكون قيمة N هي 3، يُطلق على N-gram اسم 3-gram (أو trigram). بالنظر إلى العبارة نفسها، تكون العبارات الثلاثية الناتجة كما يلي:
- أنت
- لطيف جدًا
عند إدخال كلمتَين، يمكن لنموذج لغة يستند إلى ثلاثيات الألفاظ أن يتوقّع احتمالية ظهور الكلمة الثالثة. على سبيل المثال، إذا كان لديك الكلمتان التاليتان:
orange is
يفحص نموذج اللغة كل الأجزاء الثلاثية المختلفة المستمدّة من مجموعة النصوص التدريبية التي تبدأ بـ orange is لتحديد الكلمة الثالثة الأكثر احتمالاً.
يمكن أن تبدأ مئات من ثلاثيات الحروف بالكلمتين orange is، ولكن يمكنك التركيز فقط على الاحتمالين التاليين:
orange is ripe orange is cheerful
الاحتمال الأول (orange is ripe) يتعلّق بفاكهة البرتقال،
بينما الاحتمال الثاني (orange is cheerful) يتعلّق بلون
البرتقال.
السياق
يمكن للبشر الاحتفاظ بسياقات طويلة نسبيًا. أثناء مشاهدة الفصل الثالث من مسرحية، تحتفظ بمعلومات حول الشخصيات التي تم تقديمها في الفصل الأول. وبالمثل، فإنّ الجملة الأخيرة من نكتة طويلة تجعلك تضحك لأنّك تتذكّر السياق من مقدّمة النكتة.
في نماذج اللغة، يشير السياق إلى المعلومات المفيدة التي تسبق الرمز المميز المستهدف أو تليه. يمكن أن يساعد السياق نموذج اللغة في تحديد ما إذا كانت كلمة "برتقالي" تشير إلى فاكهة حمضية أو إلى لون.
يمكن أن يساعد السياق نموذج اللغة في تقديم توقّعات أفضل، ولكن هل يمكن أن يوفّر نموذج ثلاثي الألفاظ سياقًا كافيًا؟ للأسف، السياق الوحيد الذي توفّره ثلاثية الحروف هو الكلمتان الأوليان. على سبيل المثال، لا توفّر الكلمتان orange is سياقًا كافيًا ليتوقّع نموذج اللغة الكلمة الثالثة.
بسبب نقص السياق، ترتكب النماذج اللغوية المستندة إلى 3-grams الكثير من الأخطاء.
من المؤكّد أنّ N-grams الأطول تقدّم سياقًا أكثر من N-grams الأقصر. ومع ذلك، كلما زاد عدد N، قلّت نسبة تكرار كل مثيل. عندما يصبح N كبيرًا جدًا، لا يحتوي النموذج اللغوي عادةً إلا على مثيل واحد لكل تكرار لـ N من الرموز المميزة، وهو ما لا يساعد كثيرًا في توقّع الرمز المميز المستهدف.
الشبكات العصبونية المتكرّرة
الشبكات العصبية المتكررة توفّر سياقًا أكثر من نماذج N-gram. الشبكة العصبونية المتكرّرة هي نوع من الشبكات العصبونية التي يتم تدريبها على سلسلة من الرموز المميزة. على سبيل المثال، يمكن لشبكة عصبونية متكرّرة أن تتعلّم تدريجيًا (وأن تتجاهل) سياقًا محدّدًا من كل كلمة في جملة، تمامًا كما تفعل أنت عندما تستمع إلى شخص يتحدّث. يمكن لشبكة عصبية متكررة كبيرة أن تستخلص السياق من فقرة مؤلفة من عدة جمل.
على الرغم من أنّ الشبكات العصبونية المتكرّرة تتعرّف على سياق أكبر من N-grams، إلا أنّ مقدار السياق المفيد الذي يمكن أن تستنتجه الشبكات العصبونية المتكرّرة لا يزال محدودًا نسبيًا. تقيِّم الشبكات العصبية المتكرّرة المعلومات "رمزًا مميزًا تلو الآخر". في المقابل، يمكن للنماذج اللغوية الكبيرة، وهي موضوع القسم التالي، تقييم السياق بأكمله في وقت واحد.
يُرجى العِلم أنّ تدريب الشبكات العصبونية المتكرّرة على سياقات طويلة يواجه قيودًا بسبب مشكلة تضاؤل التدرّج.
تمرين: التحقّق من فهمك
- نموذج لغوي يستند إلى 6 أحرف
- نموذج لغوي مستند إلى 5 غرامات