واژه نامه یادگیری ماشینی: ارزیابی زبان

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

این صفحه شامل اصطلاحات واژه نامه ارزیابی زبان است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .

آ

توجه

#زبان

هر یک از طیف وسیعی از مکانیزم‌های معماری شبکه‌های عصبی که اطلاعات را از مجموعه‌ای از ورودی‌ها به روشی وابسته به داده جمع‌آوری می‌کنند. یک مکانیسم توجه معمولی ممکن است شامل یک جمع وزنی بر روی مجموعه‌ای از ورودی‌ها باشد، جایی که وزن هر ورودی توسط بخش دیگری از شبکه عصبی محاسبه می‌شود.

رجوع به خود توجهی و خودتوجهی چند سر نیز شود که اجزای سازنده ترانسفورماتورها هستند.

ب

کیسه کلمات

#زبان

نمایشی از کلمات در یک عبارت یا متن، صرف نظر از ترتیب. به عنوان مثال، کیسه کلمات سه عبارت زیر را به طور یکسان نشان می دهد:

  • سگ می پرد
  • سگ را می پرد
  • سگ می پرد

هر کلمه به یک شاخص در یک بردار پراکنده نگاشت می شود، که در آن بردار برای هر کلمه در واژگان یک شاخص دارد. به عنوان مثال، عبارت dog jumps در یک بردار ویژگی با مقادیر غیر صفر در سه شاخص مربوط به کلمات the , dog و jumps نگاشت می شود. مقدار غیر صفر می تواند یکی از موارد زیر باشد:

  • A 1 برای نشان دادن وجود یک کلمه.
  • تعداد دفعاتی که یک کلمه در کیسه ظاهر می شود. به عنوان مثال، اگر عبارت were the maroon dog یک سگ با خز قهوه ای است ، هر دو قهوه ای و سگ به صورت 2 نشان داده می شوند، در حالی که کلمات دیگر به عنوان 1 نمایش داده می شوند.
  • مقدار دیگری مانند لگاریتم تعداد دفعاتی که یک کلمه در کیسه ظاهر می شود.

BERT (نمایش رمزگذار دوطرفه از ترانسفورماتورها)

#زبان

معماری مدلی برای نمایش متن یک مدل BERT آموزش دیده می تواند به عنوان بخشی از یک مدل بزرگتر برای طبقه بندی متن یا سایر وظایف ML عمل کند.

BERT دارای ویژگی های زیر است:

انواع BERT عبارتند از:

برای مروری بر BERT به منبع باز BERT: پیش‌آموزش پیشرفته برای پردازش زبان طبیعی مراجعه کنید.

بیگرام

#دنباله
#زبان

یک N گرم که در آن N=2 است.

دو طرفه

#زبان

اصطلاحی که برای توصیف سیستمی استفاده می‌شود که متنی را که هم قبل و هم بعد از یک بخش هدف از متن است، ارزیابی می‌کند. در مقابل، یک سیستم یک طرفه فقط متنی را که قبل از بخش هدفی از متن قرار دارد ارزیابی می کند.

به عنوان مثال، یک مدل زبان پوشانده شده را در نظر بگیرید که باید احتمالات کلمه یا کلماتی را که نشان دهنده خط زیر در سؤال زیر هستند تعیین کند:

_____ با شما چیست؟

یک مدل زبانی یک طرفه باید احتمالات خود را فقط بر اساس زمینه ارائه شده توسط کلمات "What"، "is" و "the" استوار کند. در مقابل، یک مدل زبان دوطرفه همچنین می‌تواند زمینه را از «با» و «شما» به دست آورد، که ممکن است به مدل کمک کند پیش‌بینی‌های بهتری ایجاد کند.

مدل زبان دو طرفه

#زبان

یک مدل زبان که احتمال وجود یک نشانه داده شده در یک مکان معین در گزیده ای از متن را بر اساس متن قبلی و بعدی تعیین می کند.

BLEU (دو زبانه ارزیابی ارزشیابی)

#زبان

امتیازی بین 0.0 تا 1.0، شامل کیفیت ترجمه بین دو زبان انسانی (مثلاً بین انگلیسی و روسی) است. نمره BLEU 1.0 نشان دهنده ترجمه کامل است. نمره BLEU 0.0 نشان دهنده یک ترجمه وحشتناک است.

سی

مدل زبان علی

#زبان

مترادف مدل زبان تک جهتی .

برای تضاد رویکردهای مختلف جهت‌گیری در مدل‌سازی زبان ، مدل زبان دوطرفه را ببینید.

شکوفه تصادف

#زبان

جمله یا عبارتی با معنای مبهم. شکوفه های تصادفی مشکل مهمی در درک زبان طبیعی ایجاد می کنند. به عنوان مثال، عنوان Red Tape Holds Up Skyscraper یک شکوفه سقوط است زیرا یک مدل NLU می تواند عنوان را به معنای واقعی کلمه یا مجازی تفسیر کند.

D

رمزگشا

#زبان

به طور کلی، هر سیستم ML که از یک نمایش پردازش شده، متراکم یا داخلی به یک نمایش خام تر، پراکنده تر یا خارجی تبدیل می شود.

رمزگشاها اغلب جزء یک مدل بزرگتر هستند، جایی که اغلب با یک رمزگذار جفت می شوند.

در کارهای ترتیب به دنباله ، رمزگشا با حالت داخلی تولید شده توسط رمزگذار شروع می‌شود تا دنباله بعدی را پیش‌بینی کند.

برای تعریف رمزگشا در معماری ترانسفورماتور به Transformer مراجعه کنید.

حذف نویز

#زبان

یک رویکرد رایج برای یادگیری خود نظارتی که در آن:

  1. نویز به طور مصنوعی به مجموعه داده اضافه می شود.
  2. مدل سعی می کند نویز را حذف کند.

حذف نویز امکان یادگیری از نمونه های بدون برچسب را فراهم می کند. مجموعه داده اصلی به عنوان هدف یا برچسب و داده های پر سر و صدا به عنوان ورودی عمل می کند.

برخی از مدل‌های زبان پوشانده از حذف نویز به صورت زیر استفاده می‌کنند:

  1. نویز به طور مصنوعی با پوشاندن برخی از نشانه ها به یک جمله بدون برچسب اضافه می شود.
  2. مدل سعی می کند توکن های اصلی را پیش بینی کند.

E

لایه جاسازی

#زبان
#مبانی

یک لایه مخفی ویژه که بر روی یک ویژگی طبقه بندی با ابعاد بالا آموزش می دهد تا به تدریج بردار تعبیه ابعاد پایین تر را یاد بگیرد. یک لایه جاسازی شبکه عصبی را قادر می‌سازد تا بسیار کارآمدتر از آموزش فقط بر روی ویژگی طبقه‌بندی با ابعاد بالا آموزش ببیند.

برای مثال، زمین در حال حاضر از حدود 73000 گونه درختی پشتیبانی می کند. فرض کنید گونه درختی یک ویژگی در مدل شما باشد، بنابراین لایه ورودی مدل شما شامل یک بردار یک داغ به طول 73000 عنصر است. برای مثال، شاید baobab چیزی شبیه به این نشان داده شود:

آرایه ای از 73000 عنصر. 6232 عنصر اول مقدار 0 را نگه می دارند. عنصر بعدی مقدار 1 را دارد. 66767 عنصر نهایی مقدار صفر را نگه می دارند.

یک آرایه 73000 عنصری بسیار طولانی است. اگر یک لایه جاسازی به مدل اضافه نکنید، به دلیل ضرب 72999 صفر، آموزش بسیار وقت گیر خواهد بود. شاید لایه جاسازی را از 12 بعد انتخاب کنید. در نتیجه، لایه جاسازی به تدریج یک بردار تعبیه جدید برای هر گونه درختی را یاد می گیرد.

در شرایط خاص، هش جایگزین معقولی برای لایه جاسازی است.

فضای تعبیه شده

#زبان

فضای برداری d بعدی که از یک فضای برداری با ابعاد بالاتر مشخص می شود به آن نگاشت می شود. در حالت ایده آل، فضای جاسازی شامل ساختاری است که نتایج ریاضی معناداری را به همراه دارد. به عنوان مثال، در یک فضای جاسازی ایده آل، جمع و تفریق جاسازی ها می تواند وظایف قیاس کلمه را حل کند.

حاصل ضرب نقطه ای دو جاسازی معیاری برای تشابه آنهاست.

وکتور تعبیه شده

#زبان

به طور کلی، آرایه ای از اعداد ممیز شناور گرفته شده از هر لایه پنهان که ورودی های آن لایه پنهان را توصیف می کند. اغلب، یک بردار جاسازی آرایه ای از اعداد ممیز شناور است که در یک لایه جاسازی آموزش داده شده است. برای مثال، فرض کنید یک لایه جاسازی باید یک بردار جاسازی برای هر یک از ۷۳۰۰۰ گونه درختی روی زمین بیاموزد. شاید آرایه زیر بردار جاسازی یک درخت بائوباب باشد:

آرایه ای از 12 عنصر که هر کدام دارای یک عدد ممیز شناور بین 0.0 و 1.0 هستند.

بردار تعبیه شده مجموعه ای از اعداد تصادفی نیست. یک لایه جاسازی این مقادیر را از طریق آموزش تعیین می کند، مشابه روشی که یک شبکه عصبی وزن های دیگر را در طول تمرین یاد می گیرد. هر عنصر از آرایه رتبه بندی در امتداد برخی از ویژگی های یک گونه درختی است. کدام عنصر مشخصه کدام گونه درخت است؟ تشخیص آن برای انسان ها بسیار سخت است.

بخش قابل توجه ریاضی یک بردار تعبیه شده این است که موارد مشابه دارای مجموعه های مشابهی از اعداد ممیز شناور هستند. به عنوان مثال، گونه های درختی مشابه دارای مجموعه اعداد ممیز شناور مشابهی نسبت به گونه های درختی غیر مشابه هستند. سرخ‌وودها و سکویاها گونه‌های درختی مرتبط هستند، بنابراین مجموعه‌ای از اعداد شناور شبیه‌تری نسبت به درخت‌های قرمز و نخل نارگیل خواهند داشت. اعداد در بردار جاسازی با هر بار آموزش مجدد مدل تغییر خواهند کرد، حتی اگر مدل را با ورودی یکسان دوباره آموزش دهید.

رمزگذار

#زبان

به طور کلی، هر سیستم ML که از یک نمایش خام، پراکنده یا خارجی به یک نمایش پردازش شده تر، متراکم تر یا داخلی تر تبدیل می شود.

رمزگذارها اغلب جزء یک مدل بزرگتر هستند، جایی که اغلب با یک رمزگشا جفت می شوند. برخی از ترانسفورماتورها انکودرها را با رمزگشاها جفت می کنند، اگرچه سایر ترانسفورماتورها فقط از رمزگذار یا فقط رمزگشا استفاده می کنند.

برخی از سیستم ها از خروجی رمزگذار به عنوان ورودی یک شبکه طبقه بندی یا رگرسیون استفاده می کنند.

در کارهای ترتیب به دنباله ، یک رمزگذار یک دنباله ورودی را می گیرد و یک حالت داخلی (بردار) را برمی گرداند. سپس رمزگشا از آن حالت داخلی برای پیش بینی دنباله بعدی استفاده می کند.

برای تعریف رمزگذار در معماری ترانسفورماتور به Transformer مراجعه کنید.

جی

GPT (ترانسفورماتور از پیش آموزش دیده ژنراتور)

#زبان

خانواده ای از مدل های زبان بزرگ مبتنی بر Transformer که توسط OpenAI توسعه یافته است.

انواع GPT می توانند برای چندین روش اعمال شوند، از جمله:

  • تولید تصویر (مثلا ImageGPT)
  • تولید متن به تصویر (به عنوان مثال، DALL-E ).

L

LaMDA (مدل زبانی برای برنامه‌های گفتگو)

#زبان

یک مدل زبان بزرگ مبتنی بر ترانسفورماتور که توسط Google ایجاد شده است که بر روی یک مجموعه داده گفتگوی بزرگ آموزش داده شده است که می تواند پاسخ های مکالمه واقعی ایجاد کند.

LaMDA: فناوری مکالمه پیشرفت ما یک نمای کلی ارائه می دهد.

مدل زبان

#زبان

مدلی که احتمال وقوع یک توکن یا دنباله ای از توکن ها را در یک دنباله طولانی تر از توکن ها تخمین می زند.

مدل زبان بزرگ

#زبان

یک اصطلاح غیررسمی بدون تعریف دقیق که معمولاً به معنای مدل زبانی است که تعداد پارامترهای بالایی دارد. برخی از مدل های زبان بزرگ حاوی بیش از 100 میلیارد پارامتر هستند.

م

مدل زبان نقاب دار

#زبان

یک مدل زبان که احتمال توکن‌های کاندید را برای پر کردن جاهای خالی در یک دنباله پیش‌بینی می‌کند. به عنوان مثال، یک مدل زبان ماسک‌دار می‌تواند احتمالات کلمه(های) نامزد را برای جایگزینی خط زیر در جمله زیر محاسبه کند:

____ در کلاه برگشت.

ادبیات معمولاً از رشته "MASK" به جای زیر خط استفاده می کند. مثلا:

"ماسک" در کلاه برگشت.

بیشتر مدل‌های زبان نقاب‌دار مدرن دو جهته هستند.

فرا یادگیری

#زبان

زیر مجموعه ای از یادگیری ماشینی که الگوریتم یادگیری را کشف یا بهبود می بخشد. هدف یک سیستم فرا یادگیری می‌تواند آموزش مدلی برای یادگیری سریع یک کار جدید از روی مقدار کمی داده یا تجربیات به دست آمده در کارهای قبلی باشد. الگوریتم های فرا یادگیری به طور کلی سعی در دستیابی به موارد زیر دارند:

  • بهبود/یادگیری ویژگی های مهندسی شده با دست (مانند اولیه ساز یا بهینه ساز).
  • از نظر داده کارآمدتر و از نظر محاسباتی کارآمدتر باشید.
  • بهبود تعمیم.

فرایادگیری با یادگیری چند شات مرتبط است.

روش

#زبان

یک دسته داده سطح بالا. به عنوان مثال، اعداد، متن، تصاویر، ویدئو و صدا پنج حالت مختلف هستند.

موازی سازی مدل

#زبان

روشی برای مقیاس بندی آموزش یا استنتاج که بخش های مختلف یک مدل را در دستگاه های مختلف قرار می دهد. موازی سازی مدل ها، مدل هایی را قادر می سازد که بیش از حد بزرگ هستند که روی یک دستگاه قرار بگیرند.

همچنین به موازی سازی داده ها مراجعه کنید.

خود توجهی چند سر

#زبان

گسترش توجه به خود که مکانیسم توجه به خود را چندین بار برای هر موقعیت در دنباله ورودی اعمال می کند.

ترانسفورماتورها خود توجهی چند سر را معرفی کردند.

مدل چندوجهی

#زبان

مدلی که ورودی و/یا خروجی آن شامل بیش از یک مدالیته است . به عنوان مثال، مدلی را در نظر بگیرید که هم یک تصویر و هم یک عنوان متن (دو حالت) را به عنوان ویژگی می گیرد، و یک امتیاز به دست می دهد که نشان می دهد عنوان متن برای تصویر چقدر مناسب است. بنابراین ورودی های این مدل چند وجهی و خروجی تک وجهی است.

ن

درک زبان طبیعی

#زبان

تعیین مقاصد کاربر بر اساس آنچه کاربر تایپ کرده یا گفته است. به عنوان مثال، یک موتور جستجو از درک زبان طبیعی استفاده می کند تا مشخص کند کاربر چه چیزی را بر اساس آنچه کاربر تایپ کرده یا گفته است، جستجو می کند.

N-گرم

#دنباله
#زبان

دنباله ای منظم از N کلمه. به عنوان مثال، واقعا دیوانه وار یک 2 گرم است. از آنجا که نظم مرتبط است، madly true یک 2 گرم متفاوت از واقعا دیوانه است.

ن نام(های) این نوع N-gram مثال ها
2 بیگرم یا 2 گرم رفتن، رفتن، ناهار خوردن، شام خوردن
3 سه گرم یا 3 گرم زیاد خورد، سه موش کور، زنگ به صدا درآمد
4 4 گرم قدم زدن در پارک، گرد و غبار در باد، پسر عدس خورد

بسیاری از مدل‌های درک زبان طبیعی برای پیش‌بینی کلمه بعدی که کاربر تایپ می‌کند یا می‌گوید، بر N-gram تکیه می‌کنند. برای مثال، فرض کنید کاربری سه blind را تایپ کرده است. یک مدل NLU بر اساس سه‌گرام‌ها احتمالاً پیش‌بینی می‌کند که کاربر بعدی موش‌ها را تایپ خواهد کرد.

N-gram ها را با کیسه کلمات ، که مجموعه های نامرتب از کلمات هستند، مقایسه کنید.

NLU

#زبان

مخفف درک زبان طبیعی .

پ

خط لوله

#زبان

شکلی از موازی سازی مدل که در آن پردازش مدل به مراحل متوالی تقسیم می شود و هر مرحله بر روی دستگاه متفاوتی اجرا می شود. در حالی که یک مرحله در حال پردازش یک دسته است، مرحله قبل می تواند روی دسته بعدی کار کند.

آموزش مرحله‌ای را نیز ببینید.

اس

توجه به خود (که به آن لایه توجه به خود نیز می گویند)

#زبان

یک لایه شبکه عصبی که دنباله ای از جاسازی ها (مثلاً جاسازی های نشانه ) را به دنباله ای دیگر از تعبیه ها تبدیل می کند. هر جاسازی در دنباله خروجی با ادغام اطلاعات از عناصر دنباله ورودی از طریق مکانیزم توجه ساخته می شود.

بخش خود توجه به دنباله ای است که به خود توجه می کند نه به زمینه دیگری. توجه به خود یکی از اجزای اصلی سازنده ترانسفورماتورها است و از اصطلاحات جستجوی فرهنگ لغت مانند "پرس و جو"، "کلید" و "مقدار" استفاده می کند.

یک لایه توجه به خود با دنباله ای از نمایش های ورودی شروع می شود، یکی برای هر کلمه. نمایش ورودی برای یک کلمه می تواند یک جاسازی ساده باشد. برای هر کلمه در یک دنباله ورودی، شبکه ارتباط کلمه را با هر عنصر در کل دنباله کلمات نمره می دهد. نمرات ربط تعیین می کند که نمایش نهایی کلمه چقدر بازنمایی کلمات دیگر را در بر می گیرد.

برای مثال جمله زیر را در نظر بگیرید:

حیوان به دلیل خستگی زیاد از خیابان عبور نکرد.

تصویر زیر (از Transformer: A Novel Neural Network Architecture for Language Understanding ) الگوی توجه لایه توجه به خود را برای ضمیر it نشان می دهد، با تاریکی هر خط نشان می دهد که هر کلمه چقدر در نمایش نقش دارد:

جمله زیر دو بار ظاهر می شود: "حیوان از خیابان عبور نکرد زیرا خیلی خسته بود." خطوط کلمه «آن» را در یک جمله به پنج نشانه («The»، «حیوان»، «خیابان»، «آن» و نقطه) در جمله دیگر متصل می‌کنند. مرز بین «آن» و «حیوان» قوی‌ترین است.

لایه توجه به خود کلمات مرتبط با "آن" را برجسته می کند. در این مورد، لایه توجه یاد گرفته است که کلماتی را که ممکن است به آنها اشاره کند برجسته کند و بیشترین وزن را به حیوان اختصاص دهد.

برای دنباله‌ای از n نشانه ، توجه به خود، دنباله‌ای از جاسازی‌ها را n بار جداگانه، یک بار در هر موقعیت در دنباله، تبدیل می‌کند.

به توجه و خودتوجهی چند سر نیز رجوع شود.

تحلیل احساسات

#زبان

استفاده از الگوریتم های آماری یا یادگیری ماشینی برای تعیین نگرش کلی یک گروه - مثبت یا منفی - نسبت به یک سرویس، محصول، سازمان یا موضوع. به عنوان مثال، با استفاده از درک زبان طبیعی ، یک الگوریتم می تواند تجزیه و تحلیل احساسات را بر روی بازخورد متنی از یک دوره دانشگاهی انجام دهد تا میزان علاقه یا عدم علاقه دانش آموزان به دوره را مشخص کند.

کار دنباله به دنباله

#زبان

وظیفه ای که یک دنباله ورودی از نشانه ها را به دنباله ای از توکن های خروجی تبدیل می کند. به عنوان مثال، دو نوع رایج از وظایف ترتیب به دنباله عبارتند از:

  • مترجمان:
    • نمونه توالی ورودی: "دوستت دارم."
    • توالی خروجی نمونه: "Je t'aime."
  • پاسخ به سوال:
    • نمونه توالی ورودی: "آیا به ماشینم در شهر نیویورک نیاز دارم؟"
    • توالی خروجی نمونه: "خیر. لطفا ماشین خود را در خانه نگه دارید."

ویژگی پراکنده

#زبان
#مبانی

ویژگی که مقادیر آن عمدتاً صفر یا خالی است. به عنوان مثال، یک ویژگی حاوی یک مقدار 1 و یک میلیون مقدار 0 پراکنده است. در مقابل، یک ویژگی متراکم دارای مقادیری است که عمدتاً صفر یا خالی نیستند.

در یادگیری ماشین، تعداد شگفت انگیزی از ویژگی ها ویژگی های پراکنده هستند. ویژگی های طبقه بندی معمولاً ویژگی های پراکنده هستند. به عنوان مثال، از 300 گونه درختی ممکن در یک جنگل، یک مثال ممکن است فقط یک درخت افرا را شناسایی کند. یا، از میلیون‌ها ویدیوی ممکن در یک کتابخانه ویدیویی، یک مثال ممکن است فقط «کازابلانکا» را شناسایی کند.

در یک مدل، شما معمولاً ویژگی‌های پراکنده را با رمزگذاری یک‌طرفه نشان می‌دهید. اگر رمزگذاری یک داغ بزرگ است، ممکن است برای کارایی بیشتر، یک لایه جاسازی در بالای کدگذاری یک داغ قرار دهید.

نمایندگی پراکنده

#زبان
#مبانی

ذخیره فقط موقعیت(های) عناصر غیر صفر در یک ویژگی پراکنده.

به عنوان مثال، فرض کنید یک ویژگی طبقه بندی شده به نام species ، 36 گونه درخت را در یک جنگل خاص شناسایی می کند. علاوه بر این فرض کنید که هر نمونه تنها یک گونه را مشخص می کند.

می توانید از یک بردار یک داغ برای نشان دادن گونه های درختی در هر مثال استفاده کنید. یک بردار تک داغ شامل یک واحد 1 (برای نشان دادن گونه های درخت خاص در آن مثال) و 35 0 ثانیه (برای نشان دادن 35 گونه درختی که در آن مثال نیستند) خواهد بود. بنابراین، نمایش تک داغ maple ممکن است چیزی شبیه به زیر باشد:

برداری که در آن موقعیت های 0 تا 23 مقدار 0، موقعیت 24 مقدار 1 و موقعیت های 25 تا 35 دارای مقدار 0 است.

از طرف دیگر، نمایش پراکنده به سادگی موقعیت گونه خاص را مشخص می کند. اگر maple در موقعیت 24 باشد، نمایش پراکنده maple به سادگی خواهد بود:

24

توجه داشته باشید که نمایش پراکنده بسیار فشرده تر از نمایش یک داغ است.

آموزش مرحله ای

#زبان

تاکتیکی برای آموزش یک مدل در دنباله ای از مراحل گسسته. هدف می تواند سرعت بخشیدن به روند آموزش یا دستیابی به کیفیت بهتر مدل باشد.

تصویری از رویکرد انباشته شدن پیشرونده در زیر نشان داده شده است:

  • مرحله 1 شامل 3 لایه پنهان، مرحله 2 شامل 6 لایه پنهان و مرحله 3 شامل 12 لایه پنهان است.
  • مرحله 2 تمرین را با وزنه های آموخته شده در 3 لایه پنهان مرحله 1 آغاز می کند. مرحله 3 تمرین را با وزنه های آموخته شده در 6 لایه پنهان مرحله 2 آغاز می کند.

سه مرحله، که با عنوان "مرحله 1"، "مرحله 2" و "مرحله 3" نامگذاری شده اند. هر مرحله شامل تعداد لایه های متفاوتی است: مرحله 1 شامل 3 لایه، مرحله 2 شامل 6 لایه و مرحله 3 شامل 12 لایه است. 3 لایه از مرحله 1 به 3 لایه اول مرحله 2 تبدیل می شوند. به طور مشابه، 6 لایه از مرحله 2 به 6 لایه اول مرحله 3 تبدیل می شوند.

همچنین خط لوله را ببینید.

تی

نشانه

#زبان

در یک مدل زبان ، واحد اتمی که مدل روی آن آموزش می‌دهد و پیش‌بینی می‌کند. توکن معمولاً یکی از موارد زیر است:

  • یک کلمه - برای مثال، عبارت "سگ مانند گربه" از سه نشانه کلمه تشکیل شده است: "سگ"، "مثل" و "گربه".
  • یک کاراکتر - به عنوان مثال، عبارت "ماهی دوچرخه" از نه نشانه کاراکتر تشکیل شده است. (توجه داشته باشید که فضای خالی به عنوان یکی از نشانه ها به حساب می آید.)
  • زیر کلمات - که در آن یک کلمه می تواند یک نشانه یا چندین نشانه باشد. زیرکلمه از یک کلمه ریشه، یک پیشوند یا یک پسوند تشکیل شده است. به عنوان مثال، یک مدل زبانی که از کلمات فرعی به عنوان نشانه استفاده می کند، ممکن است کلمه "سگ" را به عنوان دو نشانه (ریشه کلمه "سگ" و پسوند جمع "s") مشاهده کند. همین مدل زبان ممکن است تک کلمه "taller" را به عنوان دو زیرکلمه (ریشه کلمه "tall" و پسوند "er") مشاهده کند.

در حوزه‌های خارج از مدل‌های زبان، نشانه‌ها می‌توانند انواع دیگری از واحدهای اتمی را نشان دهند. به عنوان مثال، در بینایی کامپیوتر، یک نشانه ممکن است زیر مجموعه ای از یک تصویر باشد.

تبدیل کننده

#زبان

یک معماری شبکه عصبی در Google ایجاد شده است که بر مکانیزم‌های توجه به خود تکیه دارد تا دنباله‌ای از جاسازی‌های ورودی را بدون تکیه بر پیچیدگی‌ها یا شبکه‌های عصبی مکرر به دنباله‌ای از جاسازی‌های خروجی تبدیل کند. یک ترانسفورماتور را می توان به عنوان پشته ای از لایه های توجه به خود مشاهده کرد.

یک ترانسفورماتور می تواند شامل یکی از موارد زیر باشد:

یک رمزگذار دنباله ای از جاسازی ها را به دنباله جدیدی با همان طول تبدیل می کند. یک رمزگذار شامل N لایه یکسان است که هر یک شامل دو لایه فرعی است. این دو لایه فرعی در هر موقعیت از دنباله تعبیه ورودی اعمال می شوند و هر عنصر دنباله را به یک جاسازی جدید تبدیل می کنند. اولین لایه فرعی رمزگذار اطلاعات را از سراسر دنباله ورودی جمع می کند. لایه فرعی رمزگذار دوم اطلاعات جمع آوری شده را به یک جاسازی خروجی تبدیل می کند.

رمزگشا ، دنباله ای از تعبیه های ورودی را به دنباله ای از تعبیه های خروجی، احتمالاً با طول متفاوت، تبدیل می کند. یک رمزگشا همچنین شامل N لایه یکسان با سه لایه فرعی است که دو لایه از آنها شبیه به لایه های فرعی رمزگذار هستند. سومین لایه فرعی رمزگشا خروجی رمزگذار را می گیرد و مکانیسم توجه به خود را برای جمع آوری اطلاعات از آن اعمال می کند.

پست وبلاگ Transformer: A Novel Neural Network Architecture for Language Understanding مقدمه خوبی برای Transformers است.

سه گرام

#دنباله
#زبان

یک N گرم که در آن N=3 است.

U

یک طرفه

#زبان

سیستمی که فقط متنی را که قبل از بخش هدفی از متن قرار دارد ارزیابی می کند. در مقابل، یک سیستم دو جهته هم متنی را که قبل و هم بعد از بخش هدف متن قرار می گیرد، ارزیابی می کند. برای جزئیات بیشتر به دو جهت مراجعه کنید.

مدل زبان یک طرفه

#زبان

یک مدل زبان که احتمالات خود را فقط بر اساس نشانه هایی است که قبل از نشانه(های) هدف ظاهر می شوند، نه بعد از آن. تضاد با مدل زبان دوطرفه .

دبلیو

جاسازی کلمه

#زبان

نمایش هر کلمه در یک مجموعه کلمه در یک بردار جاسازی . یعنی نمایش هر کلمه به عنوان بردار مقادیر ممیز شناور بین 0.0 و 1.0. کلماتی که معانی مشابه دارند، بازنمایی های مشابه بیشتری نسبت به کلمات با معانی متفاوت دارند. به عنوان مثال، هویج ، کرفس ، و خیار همگی نمایش‌های نسبتاً مشابهی دارند، که بسیار متفاوت از نمایش هواپیما ، عینک آفتابی و خمیر دندان است.