این صفحه شامل اصطلاحات واژه نامه ارزیابی زبان است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .
آ
توجه
هر یک از طیف وسیعی از مکانیزمهای معماری شبکههای عصبی که اطلاعات را از مجموعهای از ورودیها به روشی وابسته به داده جمعآوری میکنند. یک مکانیسم توجه معمولی ممکن است شامل یک جمع وزنی بر روی مجموعهای از ورودیها باشد، جایی که وزن هر ورودی توسط بخش دیگری از شبکه عصبی محاسبه میشود.
رجوع به خود توجهی و خودتوجهی چند سر نیز شود که اجزای سازنده ترانسفورماتورها هستند.
ب
کیسه کلمات
نمایشی از کلمات در یک عبارت یا متن، صرف نظر از ترتیب. به عنوان مثال، کیسه کلمات سه عبارت زیر را به طور یکسان نشان می دهد:
- سگ می پرد
- سگ را می پرد
- سگ می پرد
هر کلمه به یک شاخص در یک بردار پراکنده نگاشت می شود، که در آن بردار برای هر کلمه در واژگان یک شاخص دارد. به عنوان مثال، عبارت dog jumps در یک بردار ویژگی با مقادیر غیر صفر در سه شاخص مربوط به کلمات the , dog و jumps نگاشت می شود. مقدار غیر صفر می تواند یکی از موارد زیر باشد:
- A 1 برای نشان دادن وجود یک کلمه.
- تعداد دفعاتی که یک کلمه در کیسه ظاهر می شود. به عنوان مثال، اگر عبارت were the maroon dog یک سگ با خز قهوه ای است ، هر دو قهوه ای و سگ به صورت 2 نشان داده می شوند، در حالی که کلمات دیگر به عنوان 1 نمایش داده می شوند.
- مقدار دیگری مانند لگاریتم تعداد دفعاتی که یک کلمه در کیسه ظاهر می شود.
BERT (نمایش رمزگذار دوطرفه از ترانسفورماتورها)
معماری مدلی برای نمایش متن یک مدل BERT آموزش دیده می تواند به عنوان بخشی از یک مدل بزرگتر برای طبقه بندی متن یا سایر وظایف ML عمل کند.
BERT دارای ویژگی های زیر است:
- از معماری ترانسفورماتور استفاده می کند و بنابراین به خود توجهی متکی است.
- از بخش رمزگذار ترانسفورماتور استفاده می کند. وظیفه رمزگذار به جای انجام یک کار خاص مانند طبقه بندی، تولید بازنمایی متن خوب است.
- دو جهته است.
- از ماسک برای تمرینات بدون نظارت استفاده می کند.
انواع BERT عبارتند از:
برای مروری بر BERT به منبع باز BERT: پیشآموزش پیشرفته برای پردازش زبان طبیعی مراجعه کنید.
بیگرام
یک N گرم که در آن N=2 است.
دو طرفه
اصطلاحی که برای توصیف سیستمی استفاده میشود که متنی را که هم قبل و هم بعد از یک بخش هدف از متن است، ارزیابی میکند. در مقابل، یک سیستم یک طرفه فقط متنی را که قبل از بخش هدفی از متن قرار دارد ارزیابی می کند.
به عنوان مثال، یک مدل زبان پوشانده شده را در نظر بگیرید که باید احتمالات کلمه یا کلماتی را که نشان دهنده خط زیر در سؤال زیر هستند تعیین کند:
_____ با شما چیست؟
یک مدل زبانی یک طرفه باید احتمالات خود را فقط بر اساس زمینه ارائه شده توسط کلمات "What"، "is" و "the" استوار کند. در مقابل، یک مدل زبان دوطرفه همچنین میتواند زمینه را از «با» و «شما» به دست آورد، که ممکن است به مدل کمک کند پیشبینیهای بهتری ایجاد کند.
مدل زبان دو طرفه
یک مدل زبان که احتمال وجود یک نشانه داده شده در یک مکان معین در گزیده ای از متن را بر اساس متن قبلی و بعدی تعیین می کند.
BLEU (دو زبانه ارزیابی ارزشیابی)
امتیازی بین 0.0 تا 1.0، شامل کیفیت ترجمه بین دو زبان انسانی (مثلاً بین انگلیسی و روسی) است. نمره BLEU 1.0 نشان دهنده ترجمه کامل است. نمره BLEU 0.0 نشان دهنده یک ترجمه وحشتناک است.
سی
مدل زبان علی
مترادف مدل زبان تک جهتی .
برای تضاد رویکردهای مختلف جهتگیری در مدلسازی زبان ، مدل زبان دوطرفه را ببینید.
شکوفه تصادف
جمله یا عبارتی با معنای مبهم. شکوفه های تصادفی مشکل مهمی در درک زبان طبیعی ایجاد می کنند. به عنوان مثال، عنوان Red Tape Holds Up Skyscraper یک شکوفه سقوط است زیرا یک مدل NLU می تواند عنوان را به معنای واقعی کلمه یا مجازی تفسیر کند.
D
رمزگشا
به طور کلی، هر سیستم ML که از یک نمایش پردازش شده، متراکم یا داخلی به یک نمایش خام تر، پراکنده تر یا خارجی تبدیل می شود.
رمزگشاها اغلب جزء یک مدل بزرگتر هستند، جایی که اغلب با یک رمزگذار جفت می شوند.
در کارهای ترتیب به دنباله ، رمزگشا با حالت داخلی تولید شده توسط رمزگذار شروع میشود تا دنباله بعدی را پیشبینی کند.
برای تعریف رمزگشا در معماری ترانسفورماتور به Transformer مراجعه کنید.
حذف نویز
یک رویکرد رایج برای یادگیری خود نظارتی که در آن:
حذف نویز امکان یادگیری از نمونه های بدون برچسب را فراهم می کند. مجموعه داده اصلی به عنوان هدف یا برچسب و داده های پر سر و صدا به عنوان ورودی عمل می کند.
برخی از مدلهای زبان پوشانده از حذف نویز به صورت زیر استفاده میکنند:
- نویز به طور مصنوعی با پوشاندن برخی از نشانه ها به یک جمله بدون برچسب اضافه می شود.
- مدل سعی می کند توکن های اصلی را پیش بینی کند.
E
لایه جاسازی
یک لایه مخفی ویژه که بر روی یک ویژگی طبقه بندی با ابعاد بالا آموزش می دهد تا به تدریج بردار تعبیه ابعاد پایین تر را یاد بگیرد. یک لایه جاسازی شبکه عصبی را قادر میسازد تا بسیار کارآمدتر از آموزش فقط بر روی ویژگی طبقهبندی با ابعاد بالا آموزش ببیند.
برای مثال، زمین در حال حاضر از حدود 73000 گونه درختی پشتیبانی می کند. فرض کنید گونه درختی یک ویژگی در مدل شما باشد، بنابراین لایه ورودی مدل شما شامل یک بردار یک داغ به طول 73000 عنصر است. برای مثال، شاید baobab
چیزی شبیه به این نشان داده شود:
یک آرایه 73000 عنصری بسیار طولانی است. اگر یک لایه جاسازی به مدل اضافه نکنید، به دلیل ضرب 72999 صفر، آموزش بسیار وقت گیر خواهد بود. شاید لایه جاسازی را از 12 بعد انتخاب کنید. در نتیجه، لایه جاسازی به تدریج یک بردار تعبیه جدید برای هر گونه درختی را یاد می گیرد.
در شرایط خاص، هش جایگزین معقولی برای لایه جاسازی است.
فضای تعبیه شده
فضای برداری d بعدی که از یک فضای برداری با ابعاد بالاتر مشخص می شود به آن نگاشت می شود. در حالت ایده آل، فضای جاسازی شامل ساختاری است که نتایج ریاضی معناداری را به همراه دارد. به عنوان مثال، در یک فضای جاسازی ایده آل، جمع و تفریق جاسازی ها می تواند وظایف قیاس کلمه را حل کند.
حاصل ضرب نقطه ای دو جاسازی معیاری برای تشابه آنهاست.
وکتور تعبیه شده
به طور کلی، آرایه ای از اعداد ممیز شناور گرفته شده از هر لایه پنهان که ورودی های آن لایه پنهان را توصیف می کند. اغلب، یک بردار جاسازی آرایه ای از اعداد ممیز شناور است که در یک لایه جاسازی آموزش داده شده است. برای مثال، فرض کنید یک لایه جاسازی باید یک بردار جاسازی برای هر یک از ۷۳۰۰۰ گونه درختی روی زمین بیاموزد. شاید آرایه زیر بردار جاسازی یک درخت بائوباب باشد:
بردار تعبیه شده مجموعه ای از اعداد تصادفی نیست. یک لایه جاسازی این مقادیر را از طریق آموزش تعیین می کند، مشابه روشی که یک شبکه عصبی وزن های دیگر را در طول تمرین یاد می گیرد. هر عنصر از آرایه رتبه بندی در امتداد برخی از ویژگی های یک گونه درختی است. کدام عنصر مشخصه کدام گونه درخت است؟ تشخیص آن برای انسان ها بسیار سخت است.
بخش قابل توجه ریاضی یک بردار تعبیه شده این است که موارد مشابه دارای مجموعه های مشابهی از اعداد ممیز شناور هستند. به عنوان مثال، گونه های درختی مشابه دارای مجموعه اعداد ممیز شناور مشابهی نسبت به گونه های درختی غیر مشابه هستند. سرخوودها و سکویاها گونههای درختی مرتبط هستند، بنابراین مجموعهای از اعداد شناور شبیهتری نسبت به درختهای قرمز و نخل نارگیل خواهند داشت. اعداد در بردار جاسازی با هر بار آموزش مجدد مدل تغییر خواهند کرد، حتی اگر مدل را با ورودی یکسان دوباره آموزش دهید.
رمزگذار
به طور کلی، هر سیستم ML که از یک نمایش خام، پراکنده یا خارجی به یک نمایش پردازش شده تر، متراکم تر یا داخلی تر تبدیل می شود.
رمزگذارها اغلب جزء یک مدل بزرگتر هستند، جایی که اغلب با یک رمزگشا جفت می شوند. برخی از ترانسفورماتورها انکودرها را با رمزگشاها جفت می کنند، اگرچه سایر ترانسفورماتورها فقط از رمزگذار یا فقط رمزگشا استفاده می کنند.
برخی از سیستم ها از خروجی رمزگذار به عنوان ورودی یک شبکه طبقه بندی یا رگرسیون استفاده می کنند.
در کارهای ترتیب به دنباله ، یک رمزگذار یک دنباله ورودی را می گیرد و یک حالت داخلی (بردار) را برمی گرداند. سپس رمزگشا از آن حالت داخلی برای پیش بینی دنباله بعدی استفاده می کند.
برای تعریف رمزگذار در معماری ترانسفورماتور به Transformer مراجعه کنید.
جی
GPT (ترانسفورماتور از پیش آموزش دیده ژنراتور)
خانواده ای از مدل های زبان بزرگ مبتنی بر Transformer که توسط OpenAI توسعه یافته است.
انواع GPT می توانند برای چندین روش اعمال شوند، از جمله:
- تولید تصویر (مثلا ImageGPT)
- تولید متن به تصویر (به عنوان مثال، DALL-E ).
L
LaMDA (مدل زبانی برای برنامههای گفتگو)
یک مدل زبان بزرگ مبتنی بر ترانسفورماتور که توسط Google ایجاد شده است که بر روی یک مجموعه داده گفتگوی بزرگ آموزش داده شده است که می تواند پاسخ های مکالمه واقعی ایجاد کند.
LaMDA: فناوری مکالمه پیشرفت ما یک نمای کلی ارائه می دهد.
مدل زبان
مدلی که احتمال وقوع یک توکن یا دنباله ای از توکن ها را در یک دنباله طولانی تر از توکن ها تخمین می زند.
مدل زبان بزرگ
یک اصطلاح غیررسمی بدون تعریف دقیق که معمولاً به معنای مدل زبانی است که تعداد پارامترهای بالایی دارد. برخی از مدل های زبان بزرگ حاوی بیش از 100 میلیارد پارامتر هستند.
م
مدل زبان نقاب دار
یک مدل زبان که احتمال توکنهای کاندید را برای پر کردن جاهای خالی در یک دنباله پیشبینی میکند. به عنوان مثال، یک مدل زبان ماسکدار میتواند احتمالات کلمه(های) نامزد را برای جایگزینی خط زیر در جمله زیر محاسبه کند:
____ در کلاه برگشت.
ادبیات معمولاً از رشته "MASK" به جای زیر خط استفاده می کند. مثلا:
"ماسک" در کلاه برگشت.
بیشتر مدلهای زبان نقابدار مدرن دو جهته هستند.
فرا یادگیری
زیر مجموعه ای از یادگیری ماشینی که الگوریتم یادگیری را کشف یا بهبود می بخشد. هدف یک سیستم فرا یادگیری میتواند آموزش مدلی برای یادگیری سریع یک کار جدید از روی مقدار کمی داده یا تجربیات به دست آمده در کارهای قبلی باشد. الگوریتم های فرا یادگیری به طور کلی سعی در دستیابی به موارد زیر دارند:
- بهبود/یادگیری ویژگی های مهندسی شده با دست (مانند اولیه ساز یا بهینه ساز).
- از نظر داده کارآمدتر و از نظر محاسباتی کارآمدتر باشید.
- بهبود تعمیم.
فرایادگیری با یادگیری چند شات مرتبط است.
روش
یک دسته داده سطح بالا. به عنوان مثال، اعداد، متن، تصاویر، ویدئو و صدا پنج حالت مختلف هستند.
موازی سازی مدل
روشی برای مقیاس بندی آموزش یا استنتاج که بخش های مختلف یک مدل را در دستگاه های مختلف قرار می دهد. موازی سازی مدل ها، مدل هایی را قادر می سازد که بیش از حد بزرگ هستند که روی یک دستگاه قرار بگیرند.
همچنین به موازی سازی داده ها مراجعه کنید.
خود توجهی چند سر
گسترش توجه به خود که مکانیسم توجه به خود را چندین بار برای هر موقعیت در دنباله ورودی اعمال می کند.
ترانسفورماتورها خود توجهی چند سر را معرفی کردند.
مدل چندوجهی
مدلی که ورودی و/یا خروجی آن شامل بیش از یک مدالیته است . به عنوان مثال، مدلی را در نظر بگیرید که هم یک تصویر و هم یک عنوان متن (دو حالت) را به عنوان ویژگی می گیرد، و یک امتیاز به دست می دهد که نشان می دهد عنوان متن برای تصویر چقدر مناسب است. بنابراین ورودی های این مدل چند وجهی و خروجی تک وجهی است.
ن
درک زبان طبیعی
تعیین مقاصد کاربر بر اساس آنچه کاربر تایپ کرده یا گفته است. به عنوان مثال، یک موتور جستجو از درک زبان طبیعی استفاده می کند تا مشخص کند کاربر چه چیزی را بر اساس آنچه کاربر تایپ کرده یا گفته است، جستجو می کند.
N-گرم
دنباله ای منظم از N کلمه. به عنوان مثال، واقعا دیوانه وار یک 2 گرم است. از آنجا که نظم مرتبط است، madly true یک 2 گرم متفاوت از واقعا دیوانه است.
ن | نام(های) این نوع N-gram | مثال ها |
---|---|---|
2 | بیگرم یا 2 گرم | رفتن، رفتن، ناهار خوردن، شام خوردن |
3 | سه گرم یا 3 گرم | زیاد خورد، سه موش کور، زنگ به صدا درآمد |
4 | 4 گرم | قدم زدن در پارک، گرد و غبار در باد، پسر عدس خورد |
بسیاری از مدلهای درک زبان طبیعی برای پیشبینی کلمه بعدی که کاربر تایپ میکند یا میگوید، بر N-gram تکیه میکنند. برای مثال، فرض کنید کاربری سه blind را تایپ کرده است. یک مدل NLU بر اساس سهگرامها احتمالاً پیشبینی میکند که کاربر بعدی موشها را تایپ خواهد کرد.
N-gram ها را با کیسه کلمات ، که مجموعه های نامرتب از کلمات هستند، مقایسه کنید.
NLU
مخفف درک زبان طبیعی .
پ
خط لوله
شکلی از موازی سازی مدل که در آن پردازش مدل به مراحل متوالی تقسیم می شود و هر مرحله بر روی دستگاه متفاوتی اجرا می شود. در حالی که یک مرحله در حال پردازش یک دسته است، مرحله قبل می تواند روی دسته بعدی کار کند.
آموزش مرحلهای را نیز ببینید.
اس
توجه به خود (که به آن لایه توجه به خود نیز می گویند)
یک لایه شبکه عصبی که دنباله ای از جاسازی ها (مثلاً جاسازی های نشانه ) را به دنباله ای دیگر از تعبیه ها تبدیل می کند. هر جاسازی در دنباله خروجی با ادغام اطلاعات از عناصر دنباله ورودی از طریق مکانیزم توجه ساخته می شود.
بخش خود توجه به دنباله ای است که به خود توجه می کند نه به زمینه دیگری. توجه به خود یکی از اجزای اصلی سازنده ترانسفورماتورها است و از اصطلاحات جستجوی فرهنگ لغت مانند "پرس و جو"، "کلید" و "مقدار" استفاده می کند.
یک لایه توجه به خود با دنباله ای از نمایش های ورودی شروع می شود، یکی برای هر کلمه. نمایش ورودی برای یک کلمه می تواند یک جاسازی ساده باشد. برای هر کلمه در یک دنباله ورودی، شبکه ارتباط کلمه را با هر عنصر در کل دنباله کلمات نمره می دهد. نمرات ربط تعیین می کند که نمایش نهایی کلمه چقدر بازنمایی کلمات دیگر را در بر می گیرد.
برای مثال جمله زیر را در نظر بگیرید:
حیوان به دلیل خستگی زیاد از خیابان عبور نکرد.
تصویر زیر (از Transformer: A Novel Neural Network Architecture for Language Understanding ) الگوی توجه لایه توجه به خود را برای ضمیر it نشان می دهد، با تاریکی هر خط نشان می دهد که هر کلمه چقدر در نمایش نقش دارد:
لایه توجه به خود کلمات مرتبط با "آن" را برجسته می کند. در این مورد، لایه توجه یاد گرفته است که کلماتی را که ممکن است به آنها اشاره کند برجسته کند و بیشترین وزن را به حیوان اختصاص دهد.
برای دنبالهای از n نشانه ، توجه به خود، دنبالهای از جاسازیها را n بار جداگانه، یک بار در هر موقعیت در دنباله، تبدیل میکند.
به توجه و خودتوجهی چند سر نیز رجوع شود.
تحلیل احساسات
استفاده از الگوریتم های آماری یا یادگیری ماشینی برای تعیین نگرش کلی یک گروه - مثبت یا منفی - نسبت به یک سرویس، محصول، سازمان یا موضوع. به عنوان مثال، با استفاده از درک زبان طبیعی ، یک الگوریتم می تواند تجزیه و تحلیل احساسات را بر روی بازخورد متنی از یک دوره دانشگاهی انجام دهد تا میزان علاقه یا عدم علاقه دانش آموزان به دوره را مشخص کند.
کار دنباله به دنباله
وظیفه ای که یک دنباله ورودی از نشانه ها را به دنباله ای از توکن های خروجی تبدیل می کند. به عنوان مثال، دو نوع رایج از وظایف ترتیب به دنباله عبارتند از:
- مترجمان:
- نمونه توالی ورودی: "دوستت دارم."
- توالی خروجی نمونه: "Je t'aime."
- پاسخ به سوال:
- نمونه توالی ورودی: "آیا به ماشینم در شهر نیویورک نیاز دارم؟"
- توالی خروجی نمونه: "خیر. لطفا ماشین خود را در خانه نگه دارید."
ویژگی پراکنده
ویژگی که مقادیر آن عمدتاً صفر یا خالی است. به عنوان مثال، یک ویژگی حاوی یک مقدار 1 و یک میلیون مقدار 0 پراکنده است. در مقابل، یک ویژگی متراکم دارای مقادیری است که عمدتاً صفر یا خالی نیستند.
در یادگیری ماشین، تعداد شگفت انگیزی از ویژگی ها ویژگی های پراکنده هستند. ویژگی های طبقه بندی معمولاً ویژگی های پراکنده هستند. به عنوان مثال، از 300 گونه درختی ممکن در یک جنگل، یک مثال ممکن است فقط یک درخت افرا را شناسایی کند. یا، از میلیونها ویدیوی ممکن در یک کتابخانه ویدیویی، یک مثال ممکن است فقط «کازابلانکا» را شناسایی کند.
در یک مدل، شما معمولاً ویژگیهای پراکنده را با رمزگذاری یکطرفه نشان میدهید. اگر رمزگذاری یک داغ بزرگ است، ممکن است برای کارایی بیشتر، یک لایه جاسازی در بالای کدگذاری یک داغ قرار دهید.
نمایندگی پراکنده
ذخیره فقط موقعیت(های) عناصر غیر صفر در یک ویژگی پراکنده.
به عنوان مثال، فرض کنید یک ویژگی طبقه بندی شده به نام species
، 36 گونه درخت را در یک جنگل خاص شناسایی می کند. علاوه بر این فرض کنید که هر نمونه تنها یک گونه را مشخص می کند.
می توانید از یک بردار یک داغ برای نشان دادن گونه های درختی در هر مثال استفاده کنید. یک بردار تک داغ شامل یک واحد 1
(برای نشان دادن گونه های درخت خاص در آن مثال) و 35 0
ثانیه (برای نشان دادن 35 گونه درختی که در آن مثال نیستند) خواهد بود. بنابراین، نمایش تک داغ maple
ممکن است چیزی شبیه به زیر باشد:
از طرف دیگر، نمایش پراکنده به سادگی موقعیت گونه خاص را مشخص می کند. اگر maple
در موقعیت 24 باشد، نمایش پراکنده maple
به سادگی خواهد بود:
24
توجه داشته باشید که نمایش پراکنده بسیار فشرده تر از نمایش یک داغ است.
آموزش مرحله ای
تاکتیکی برای آموزش یک مدل در دنباله ای از مراحل گسسته. هدف می تواند سرعت بخشیدن به روند آموزش یا دستیابی به کیفیت بهتر مدل باشد.
تصویری از رویکرد انباشته شدن پیشرونده در زیر نشان داده شده است:
- مرحله 1 شامل 3 لایه پنهان، مرحله 2 شامل 6 لایه پنهان و مرحله 3 شامل 12 لایه پنهان است.
- مرحله 2 تمرین را با وزنه های آموخته شده در 3 لایه پنهان مرحله 1 آغاز می کند. مرحله 3 تمرین را با وزنه های آموخته شده در 6 لایه پنهان مرحله 2 آغاز می کند.
همچنین خط لوله را ببینید.
تی
نشانه
در یک مدل زبان ، واحد اتمی که مدل روی آن آموزش میدهد و پیشبینی میکند. توکن معمولاً یکی از موارد زیر است:
- یک کلمه - برای مثال، عبارت "سگ مانند گربه" از سه نشانه کلمه تشکیل شده است: "سگ"، "مثل" و "گربه".
- یک کاراکتر - به عنوان مثال، عبارت "ماهی دوچرخه" از نه نشانه کاراکتر تشکیل شده است. (توجه داشته باشید که فضای خالی به عنوان یکی از نشانه ها به حساب می آید.)
- زیر کلمات - که در آن یک کلمه می تواند یک نشانه یا چندین نشانه باشد. زیرکلمه از یک کلمه ریشه، یک پیشوند یا یک پسوند تشکیل شده است. به عنوان مثال، یک مدل زبانی که از کلمات فرعی به عنوان نشانه استفاده می کند، ممکن است کلمه "سگ" را به عنوان دو نشانه (ریشه کلمه "سگ" و پسوند جمع "s") مشاهده کند. همین مدل زبان ممکن است تک کلمه "taller" را به عنوان دو زیرکلمه (ریشه کلمه "tall" و پسوند "er") مشاهده کند.
در حوزههای خارج از مدلهای زبان، نشانهها میتوانند انواع دیگری از واحدهای اتمی را نشان دهند. به عنوان مثال، در بینایی کامپیوتر، یک نشانه ممکن است زیر مجموعه ای از یک تصویر باشد.
تبدیل کننده
یک معماری شبکه عصبی در Google ایجاد شده است که بر مکانیزمهای توجه به خود تکیه دارد تا دنبالهای از جاسازیهای ورودی را بدون تکیه بر پیچیدگیها یا شبکههای عصبی مکرر به دنبالهای از جاسازیهای خروجی تبدیل کند. یک ترانسفورماتور را می توان به عنوان پشته ای از لایه های توجه به خود مشاهده کرد.
یک ترانسفورماتور می تواند شامل یکی از موارد زیر باشد:
یک رمزگذار دنباله ای از جاسازی ها را به دنباله جدیدی با همان طول تبدیل می کند. یک رمزگذار شامل N لایه یکسان است که هر یک شامل دو لایه فرعی است. این دو لایه فرعی در هر موقعیت از دنباله تعبیه ورودی اعمال می شوند و هر عنصر دنباله را به یک جاسازی جدید تبدیل می کنند. اولین لایه فرعی رمزگذار اطلاعات را از سراسر دنباله ورودی جمع می کند. لایه فرعی رمزگذار دوم اطلاعات جمع آوری شده را به یک جاسازی خروجی تبدیل می کند.
رمزگشا ، دنباله ای از تعبیه های ورودی را به دنباله ای از تعبیه های خروجی، احتمالاً با طول متفاوت، تبدیل می کند. یک رمزگشا همچنین شامل N لایه یکسان با سه لایه فرعی است که دو لایه از آنها شبیه به لایه های فرعی رمزگذار هستند. سومین لایه فرعی رمزگشا خروجی رمزگذار را می گیرد و مکانیسم توجه به خود را برای جمع آوری اطلاعات از آن اعمال می کند.
پست وبلاگ Transformer: A Novel Neural Network Architecture for Language Understanding مقدمه خوبی برای Transformers است.
سه گرام
یک N گرم که در آن N=3 است.
U
یک طرفه
سیستمی که فقط متنی را که قبل از بخش هدفی از متن قرار دارد ارزیابی می کند. در مقابل، یک سیستم دو جهته هم متنی را که قبل و هم بعد از بخش هدف متن قرار می گیرد، ارزیابی می کند. برای جزئیات بیشتر به دو جهت مراجعه کنید.
مدل زبان یک طرفه
یک مدل زبان که احتمالات خود را فقط بر اساس نشانه هایی است که قبل از نشانه(های) هدف ظاهر می شوند، نه بعد از آن. تضاد با مدل زبان دوطرفه .
دبلیو
جاسازی کلمه
نمایش هر کلمه در یک مجموعه کلمه در یک بردار جاسازی . یعنی نمایش هر کلمه به عنوان بردار مقادیر ممیز شناور بین 0.0 و 1.0. کلماتی که معانی مشابه دارند، بازنمایی های مشابه بیشتری نسبت به کلمات با معانی متفاوت دارند. به عنوان مثال، هویج ، کرفس ، و خیار همگی نمایشهای نسبتاً مشابهی دارند، که بسیار متفاوت از نمایش هواپیما ، عینک آفتابی و خمیر دندان است.