ما المقصود بالنموذج اللغوي؟
نموذج لغوي تقدِّر احتمالية وجود رمز مميّز. أو سلسلة من الرموز المميزة تحدث ضمن تسلسل أطول رمز مميز يمكن أن يكون كلمة أو كلمة فرعية (مجموعة فرعية من الكلمة) أو حتى حرفًا واحدًا.
فكِّر في الجملة التالية والرموز المميّزة التي قد تكملها:
When I hear rain on my roof, I _______ in my kitchen.
يحدِّد نموذج اللغة احتمالات الرموز أو تسلسلات الرموز المختلفة لإكمال هذا المربّع. على سبيل المثال، ما يلي يحدد جدول الاحتمالات بعض الرموز المميزة المحتملة واحتمالاتها:
الاحتمالية | الرموز المميّزة |
---|---|
9.4% | طهي شوربة |
5.2% | تدفئة غلّاية |
3.6% | الارتباك |
2.5% | قَيْلُولَة |
2.2% | استرخاء |
وفي بعض الحالات، يمكن أن يكون تسلسل الرموز جملة كاملة، أو فقرة كاملة أو حتى مقال كامل.
يمكن للتطبيق استخدام جدول الاحتمالية لإجراء توقّعات. وقد يكون التوقع هو الأعلى احتمالية (على سبيل المثال، "طهي الحساء") أو اختيار عشوائي من الرموز المميزة التي لها احتمالية أكبر من قيمة الحد الأقصى المسموح به.
يمكن استخدام ميزة تقدير احتمالية ما سيملؤ الفراغات في تسلسل نصي في مهام أكثر تعقيدًا، بما في ذلك:
- يتم إنشاء النص.
- ترجمة نص من لغة إلى أخرى
- تلخيص المستندات
من خلال وضع نماذج للأنماط الإحصائية للرموز، تُطوّر النماذج اللغوية الحديثة تمثيلات داخلية فعّالة للغاية للغة ويمكنها إنشاء لغة معقولة.
النماذج اللغوية المستندة إلى المقاطع
ني غرام هي تسلسلات مرتبة من الكلمات لإنشاء نماذج لغوية، حيث يشير الحرف N إلى عدد الكلمات في التسلسل. على سبيل المثال، عندما تساوي N 2، فإن جرام N يسمى 2 غرام (أو bigram); عندما يكون N 5، يكون N-gram يسمى 5 غرامات. في ما يلي العبارة التالية في مستند تدريبي:
you are very nice
في ما يلي الثنائيات الناتجة:
- أنت
- are very
- جميل جدًا!
عندما يكون N هو 3، يسمى N-gram 3 غرام (أو trigram). بناءً على نفس العبارة، الـ 3 غرامات الناتجة هي:
- أنت
- لطيفة جدًا
عند إدخال كلمتَين، يمكن لنموذج اللغة المستنِد إلى المجموعات الثلاثية من الكلمات توقّع احتمالية الظهور للكلمة الثالثة. على سبيل المثال، بالنظر إلى الكلمتين التاليتَين:
orange is
يفحص نموذج اللغة جميع المجموعات الثلاثية المختلفة المستمدة من ملفه المتعلّق بالتدريب
والتي تبدأ بـ orange is
لتحديد الكلمة الثالثة الأكثر احتمالًا.
يمكن أن تبدأ المئات من 3 غرامات بالكلمتين orange is
، ولكن يمكنك
التركيز فقط على الاحتمالين التاليين:
orange is ripe orange is cheerful
يشير الخيار الأول (orange is ripe
) إلى البرتقال كثمرة،
بينما يشير الخيار الثاني (orange is cheerful
) إلى اللون
البرتقالي.
السياق
يمكن أن يحتفظ البشر بسياقات طويلة نسبيًا. أثناء مشاهدة الفصل الثالث من مسرحية، تحفظ معلومات عن الشخصيات التي تم تقديمها في الفصل الأول. وبالمثل، يضحكك punchline في نكتة طويلة لأنّه يمكنك تذكُّر السياق من الإعداد.
في النماذج اللغوية، يشير السياق إلى معلومات مفيدة قبل الرمز المستهدف أو بعده. يمكن أن يساعد السياق نموذج اللغة في تحديد ما إذا كانت كلمة "برتقالي" تشير إلى فاكهة من الحمضيات أو لون.
يمكن للسياق مساعدة النموذج اللغوي في تقديم تنبؤات أفضل، ولكنه
3 غرامات توفر سياقًا كافيًا؟ لكن للأسف، في 3 غرامات فقط
التي تقدمها هي أول كلمتين. على سبيل المثال، لا تشير الكلمتان orange is
إلى
توفير سياق كافٍ للنموذج اللغوي للتنبؤ بالكلمة الثالثة.
تؤدي النماذج اللغوية المستندة إلى 3 غرامات إلى ارتكاب الكثير من الأخطاء بسبب عدم توفّر السياق.
من المؤكد أنّ النصوص القصيرة من وحدات الكلمات ستوفّر سياقًا أكثر من النصوص الطويلة من وحدات الكلمات. ومع ذلك، مع زيادة N، ينخفض معدّل حدوث كل مثيل. عندما يصبح العدد N كبيرًا جدًا، لا يحتوي نموذج اللغة عادةً إلا على مثيل واحد لكل مرّة من مرّات ظهور الرموز N، ما لا يساعد كثيرًا في توقّع الرمز المميّز المستهدَف.
الشبكات العصبية المتكرّرة
توفّر الشبكات العصبية المتكرّرة سياقًا أكثر من النصوص التحليلية. الشبكة العصبية المتكرّرة هي نوع من الشبكات العصبية التي يتم تدريبها على تسلسل من الرموز. على سبيل المثال، شبكة عصبية متكررة يمكنه التدريج تعلم (وتعلّم تجاهل) السياق المحدد من كل كلمة في جملة، تمامًا كما تفعل عند الاستماع إلى شخص ما يتحدث. يمكن لشبكة عصبية متكررة كبيرة الحصول على سياق من فقرة تتضمّن عدة جمل.
وبالرغم من أن الشبكات العصبية المتكررة تتعلم سياقًا أكثر من الجار الأقرب، إلا أن مقدار في سياق مفيد، يمكن للشبكات العصبية المتكررة أن تستوعب الأمر محدودة. تقيّم الشبكات العصبية المتكررة المعلومات "رمز مميّز بواسطة رمز مميز". وعلى النقيض، فإن النماذج اللغوية الكبيرة—موضوع — يمكنه تقييم السياق بالكامل في وقت واحد.
يُرجى العِلم أنّ تدريب الشبكات العصبية المتكرّرة على السياقات الطويلة مقيّد بمشكلة تلاشي التدرّج .
تمرين: التحقّق من فهمك
- نموذج لغوي يستند إلى مجموعات من 6 كلمات
- نموذج لغوي يستند إلى 5 غرامات