مقدمه ای بر مدل های زبان بزرگ

مدل زبانی چیست؟

یک مدل زبانی احتمال وقوع یک توکن یا دنباله‌ای از توکن‌ها را در یک دنباله طولانی‌تر از توکن‌ها تخمین می‌زند. یک توکن می‌تواند یک کلمه، یک زیرکلمه (زیرمجموعه‌ای از یک کلمه) یا حتی یک کاراکتر واحد باشد.

جمله زیر و نشانه (نشانه‌هایی) که می‌توانند آن را کامل کنند را در نظر بگیرید:

When I hear rain on my roof, I _______ in my kitchen.

یک مدل زبانی، احتمال وجود توکن‌های مختلف یا توالی‌هایی از توکن‌ها را برای تکمیل آن جای خالی تعیین می‌کند. برای مثال، جدول احتمال زیر برخی از توکن‌های ممکن و احتمالات آنها را مشخص می‌کند:

احتمال توکن(ها)
۹.۴٪ سوپ بپزید
۵.۲٪ یک کتری را گرم کنید
۳.۶٪ از ترس لرزیدن
۲.۵٪ چرت زدن
۲.۲٪ آرامش

در برخی موقعیت‌ها، توالی نشانه‌ها می‌تواند یک جمله کامل، پاراگراف یا حتی یک مقاله کامل باشد.

یک برنامه می‌تواند از جدول احتمال برای پیش‌بینی استفاده کند. پیش‌بینی می‌تواند بالاترین احتمال (مثلاً «پختن سوپ») یا یک انتخاب تصادفی از توکن‌هایی باشد که احتمالی بزرگتر از یک آستانه مشخص دارند.

تخمین احتمال اینکه چه چیزی جای خالی را در یک دنباله متنی پر می‌کند، می‌تواند به کارهای پیچیده‌تری از جمله موارد زیر تعمیم داده شود:

  • تولید متن.
  • ترجمه متن از یک زبان به زبان دیگر.
  • خلاصه کردن اسناد.

با مدل‌سازی الگوهای آماری توکن‌ها، مدل‌های زبانی مدرن، بازنمایی‌های درونی بسیار قدرتمندی از زبان ایجاد می‌کنند و می‌توانند زبانی قابل قبول تولید کنند.

مدل‌های زبانی N-gram

N-gramها توالی‌های مرتبی از کلمات هستند که برای ساخت مدل‌های زبانی استفاده می‌شوند، که در آن N تعداد کلمات در توالی است. برای مثال، وقتی N برابر با ۲ باشد، N-gram، 2-gram (یا bigram ) نامیده می‌شود؛ وقتی N برابر با ۵ باشد، N-gram، 5-gram نامیده می‌شود. عبارت زیر در یک سند آموزشی داده شده است:

you are very nice

دو گرم حاصل به شرح زیر است:

  • تو هستی.
  • خیلی هستند
  • خیلی خوب

وقتی N برابر با ۳ باشد، N-گرم، 3-گرم (یا سه‌خطی ) نامیده می‌شود. با توجه به همین عبارت، 3-گرم‌های حاصل عبارتند از:

  • تو خیلی
  • خیلی خوشتیپن

با دریافت دو کلمه به عنوان ورودی، یک مدل زبانی مبتنی بر 3-gram می‌تواند احتمال کلمه سوم را پیش‌بینی کند. برای مثال، با دریافت دو کلمه زیر:

orange is

یک مدل زبانی، تمام ۳-گرم‌های مختلف مشتق شده از مجموعه آموزشی خود را که با orange is بررسی می‌کند تا محتمل‌ترین کلمه سوم را تعیین کند. صدها ۳-گرم می‌توانند با دو کلمه orange is شروع شوند، اما شما می‌توانید صرفاً روی دو احتمال زیر تمرکز کنید:

orange is ripe
orange is cheerful

احتمال اول ( orange is ripe ) درباره پرتقال بودن میوه است، در حالی که احتمال دوم ( orange is cheerful ) درباره رنگ نارنجی است.

زمینه

انسان‌ها می‌توانند زمینه‌های نسبتاً طولانی را به خاطر بسپارند. هنگام تماشای پرده سوم یک نمایش، شما دانش شخصیت‌های معرفی‌شده در پرده اول را به خاطر می‌آورید. به همین ترتیب، نکته اصلی یک جوک طولانی شما را به خنده می‌اندازد زیرا می‌توانید زمینه را از طریق مقدمه‌چینی جوک به خاطر بسپارید.

در مدل‌های زبانی، زمینه اطلاعات مفیدی قبل یا بعد از توکن هدف است. زمینه می‌تواند به یک مدل زبانی کمک کند تا مشخص کند که آیا «پرتقال» به یک میوه مرکبات یا یک رنگ اشاره دارد.

زمینه می‌تواند به یک مدل زبانی کمک کند تا پیش‌بینی‌های بهتری انجام دهد، اما آیا یک 3-gram زمینه کافی را ارائه می‌دهد؟ متأسفانه، تنها زمینه‌ای که یک 3-gram ارائه می‌دهد، دو کلمه اول است. به عنوان مثال، دو کلمه orange is زمینه کافی را برای مدل زبانی فراهم نمی‌کند تا کلمه سوم را پیش‌بینی کند. به دلیل کمبود زمینه، مدل‌های زبانی مبتنی بر 3-gram اشتباهات زیادی مرتکب می‌شوند.

N-gram های طولانی‌تر قطعاً زمینه بیشتری نسبت به N-gram های کوتاه‌تر ارائه می‌دهند. با این حال، با افزایش N، میزان نسبی هر نمونه کاهش می‌یابد. وقتی N بسیار بزرگ می‌شود، مدل زبانی معمولاً فقط یک نمونه از هر رخداد N توکن دارد که در پیش‌بینی توکن هدف خیلی مفید نیست.

شبکه‌های عصبی بازگشتی

شبکه‌های عصبی بازگشتی نسبت به N-gramها، زمینه بیشتری ارائه می‌دهند. یک شبکه عصبی بازگشتی نوعی شبکه عصبی است که روی دنباله‌ای از توکن‌ها آموزش می‌بیند. به عنوان مثال، یک شبکه عصبی بازگشتی می‌تواند به تدریج زمینه انتخاب شده را از هر کلمه در یک جمله یاد بگیرد (و یاد بگیرد که نادیده بگیرد)، تقریباً مانند زمانی که به صحبت کسی گوش می‌دهید. یک شبکه عصبی بازگشتی بزرگ می‌تواند زمینه را از یک متن چندین جمله‌ای به دست آورد.

اگرچه شبکه‌های عصبی بازگشتی نسبت به N-gramها زمینه بیشتری را یاد می‌گیرند، اما میزان زمینه مفیدی که شبکه‌های عصبی بازگشتی می‌توانند درک کنند، هنوز نسبتاً محدود است. شبکه‌های عصبی بازگشتی اطلاعات را "توک به توک" ارزیابی می‌کنند. در مقابل، مدل‌های زبانی بزرگ - موضوع بخش بعدی - می‌توانند کل زمینه را به طور همزمان ارزیابی کنند.

توجه داشته باشید که آموزش شبکه‌های عصبی بازگشتی برای زمینه‌های طولانی توسط مسئله گرادیان ناپدید شونده محدود می‌شود.

تمرین: درک خود را بسنجید

کدام مدل زبانی پیش‌بینی‌های بهتری برای متن انگلیسی ارائه می‌دهد؟
  • یک مدل زبانی مبتنی بر ۶-گرم
  • یک مدل زبانی مبتنی بر 5-گرم
پاسخ به اندازه و تنوع مجموعه آموزشی بستگی دارد.
اگر مجموعه آموزشی میلیون‌ها سند متنوع را در بر بگیرد، مدل مبتنی بر ۶ گرم احتمالاً از مدل مبتنی بر ۵ گرم بهتر عمل خواهد کرد.
مدل زبانی مبتنی بر ۶-گرم.
این مدل زبانی زمینه بیشتری دارد، اما مگر اینکه این مدل روی اسناد زیادی آموزش دیده باشد، بیشتر ۶-گرم‌ها کمیاب خواهند بود.
مدل زبانی مبتنی بر ۵-گرم.
این مدل زبانی زمینه کمتری دارد، بنابراین بعید است که از مدل زبانی مبتنی بر 6-گرم بهتر عمل کند.