مدل زبانی چیست؟
یک مدل زبانی احتمال وقوع یک توکن یا دنبالهای از توکنها را در یک دنباله طولانیتر از توکنها تخمین میزند. یک توکن میتواند یک کلمه، یک زیرکلمه (زیرمجموعهای از یک کلمه) یا حتی یک کاراکتر واحد باشد.
جمله زیر و نشانه (نشانههایی) که میتوانند آن را کامل کنند را در نظر بگیرید:
When I hear rain on my roof, I _______ in my kitchen.
یک مدل زبانی، احتمال وجود توکنهای مختلف یا توالیهایی از توکنها را برای تکمیل آن جای خالی تعیین میکند. برای مثال، جدول احتمال زیر برخی از توکنهای ممکن و احتمالات آنها را مشخص میکند:
| احتمال | توکن(ها) |
|---|---|
| ۹.۴٪ | سوپ بپزید |
| ۵.۲٪ | یک کتری را گرم کنید |
| ۳.۶٪ | از ترس لرزیدن |
| ۲.۵٪ | چرت زدن |
| ۲.۲٪ | آرامش |
در برخی موقعیتها، توالی نشانهها میتواند یک جمله کامل، پاراگراف یا حتی یک مقاله کامل باشد.
یک برنامه میتواند از جدول احتمال برای پیشبینی استفاده کند. پیشبینی میتواند بالاترین احتمال (مثلاً «پختن سوپ») یا یک انتخاب تصادفی از توکنهایی باشد که احتمالی بزرگتر از یک آستانه مشخص دارند.
تخمین احتمال اینکه چه چیزی جای خالی را در یک دنباله متنی پر میکند، میتواند به کارهای پیچیدهتری از جمله موارد زیر تعمیم داده شود:
- تولید متن.
- ترجمه متن از یک زبان به زبان دیگر.
- خلاصه کردن اسناد.
با مدلسازی الگوهای آماری توکنها، مدلهای زبانی مدرن، بازنماییهای درونی بسیار قدرتمندی از زبان ایجاد میکنند و میتوانند زبانی قابل قبول تولید کنند.
مدلهای زبانی N-gram
N-gramها توالیهای مرتبی از کلمات هستند که برای ساخت مدلهای زبانی استفاده میشوند، که در آن N تعداد کلمات در توالی است. برای مثال، وقتی N برابر با ۲ باشد، N-gram، 2-gram (یا bigram ) نامیده میشود؛ وقتی N برابر با ۵ باشد، N-gram، 5-gram نامیده میشود. عبارت زیر در یک سند آموزشی داده شده است:
you are very nice
دو گرم حاصل به شرح زیر است:
- تو هستی.
- خیلی هستند
- خیلی خوب
وقتی N برابر با ۳ باشد، N-گرم، 3-گرم (یا سهخطی ) نامیده میشود. با توجه به همین عبارت، 3-گرمهای حاصل عبارتند از:
- تو خیلی
- خیلی خوشتیپن
با دریافت دو کلمه به عنوان ورودی، یک مدل زبانی مبتنی بر 3-gram میتواند احتمال کلمه سوم را پیشبینی کند. برای مثال، با دریافت دو کلمه زیر:
orange is
یک مدل زبانی، تمام ۳-گرمهای مختلف مشتق شده از مجموعه آموزشی خود را که با orange is بررسی میکند تا محتملترین کلمه سوم را تعیین کند. صدها ۳-گرم میتوانند با دو کلمه orange is شروع شوند، اما شما میتوانید صرفاً روی دو احتمال زیر تمرکز کنید:
orange is ripe orange is cheerful
احتمال اول ( orange is ripe ) درباره پرتقال بودن میوه است، در حالی که احتمال دوم ( orange is cheerful ) درباره رنگ نارنجی است.
زمینه
انسانها میتوانند زمینههای نسبتاً طولانی را به خاطر بسپارند. هنگام تماشای پرده سوم یک نمایش، شما دانش شخصیتهای معرفیشده در پرده اول را به خاطر میآورید. به همین ترتیب، نکته اصلی یک جوک طولانی شما را به خنده میاندازد زیرا میتوانید زمینه را از طریق مقدمهچینی جوک به خاطر بسپارید.
در مدلهای زبانی، زمینه اطلاعات مفیدی قبل یا بعد از توکن هدف است. زمینه میتواند به یک مدل زبانی کمک کند تا مشخص کند که آیا «پرتقال» به یک میوه مرکبات یا یک رنگ اشاره دارد.
زمینه میتواند به یک مدل زبانی کمک کند تا پیشبینیهای بهتری انجام دهد، اما آیا یک 3-gram زمینه کافی را ارائه میدهد؟ متأسفانه، تنها زمینهای که یک 3-gram ارائه میدهد، دو کلمه اول است. به عنوان مثال، دو کلمه orange is زمینه کافی را برای مدل زبانی فراهم نمیکند تا کلمه سوم را پیشبینی کند. به دلیل کمبود زمینه، مدلهای زبانی مبتنی بر 3-gram اشتباهات زیادی مرتکب میشوند.
N-gram های طولانیتر قطعاً زمینه بیشتری نسبت به N-gram های کوتاهتر ارائه میدهند. با این حال، با افزایش N، میزان نسبی هر نمونه کاهش مییابد. وقتی N بسیار بزرگ میشود، مدل زبانی معمولاً فقط یک نمونه از هر رخداد N توکن دارد که در پیشبینی توکن هدف خیلی مفید نیست.
شبکههای عصبی بازگشتی
شبکههای عصبی بازگشتی نسبت به N-gramها، زمینه بیشتری ارائه میدهند. یک شبکه عصبی بازگشتی نوعی شبکه عصبی است که روی دنبالهای از توکنها آموزش میبیند. به عنوان مثال، یک شبکه عصبی بازگشتی میتواند به تدریج زمینه انتخاب شده را از هر کلمه در یک جمله یاد بگیرد (و یاد بگیرد که نادیده بگیرد)، تقریباً مانند زمانی که به صحبت کسی گوش میدهید. یک شبکه عصبی بازگشتی بزرگ میتواند زمینه را از یک متن چندین جملهای به دست آورد.
اگرچه شبکههای عصبی بازگشتی نسبت به N-gramها زمینه بیشتری را یاد میگیرند، اما میزان زمینه مفیدی که شبکههای عصبی بازگشتی میتوانند درک کنند، هنوز نسبتاً محدود است. شبکههای عصبی بازگشتی اطلاعات را "توک به توک" ارزیابی میکنند. در مقابل، مدلهای زبانی بزرگ - موضوع بخش بعدی - میتوانند کل زمینه را به طور همزمان ارزیابی کنند.
توجه داشته باشید که آموزش شبکههای عصبی بازگشتی برای زمینههای طولانی توسط مسئله گرادیان ناپدید شونده محدود میشود.
تمرین: درک خود را بسنجید
- یک مدل زبانی مبتنی بر ۶-گرم
- یک مدل زبانی مبتنی بر 5-گرم