این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

واژه نامه یادگیری ماشینی: ارزیابی زبان

این صفحه شامل اصطلاحات واژه نامه ارزیابی زبان است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .

آ

توجه

#زبان

مکانیزمی که در شبکه عصبی استفاده می شود و اهمیت یک کلمه یا بخشی از یک کلمه را نشان می دهد. توجه، مقدار اطلاعاتی را که یک مدل برای پیش‌بینی رمز/کلمه بعدی نیاز دارد، فشرده می‌کند. یک مکانیسم توجه معمولی ممکن است شامل یک جمع وزنی بر روی مجموعه‌ای از ورودی‌ها باشد، جایی که وزن هر ورودی توسط بخش دیگری از شبکه عصبی محاسبه می‌شود.

رجوع به خود توجهی و خودتوجهی چند سر نیز شود که اجزای سازنده ترانسفورماتورها هستند.

رمزگذار خودکار

#زبان

#تصویر

سیستمی که یاد می گیرد مهم ترین اطلاعات را از ورودی استخراج کند. رمزگذارهای خودکار ترکیبی از رمزگذار و رمزگشا هستند. رمزگذارهای خودکار بر فرآیند دو مرحله ای زیر متکی هستند:

رمزگذار ورودی را به یک قالب (معمولا) با ابعاد پایین تر (متوسط) ترسیم می کند.
رمزگشا با نگاشت قالب با ابعاد پایین تر به فرمت ورودی با ابعاد بالاتر، یک نسخه با اتلاف از ورودی اصلی ایجاد می کند.

رمزگذارهای خودکار با تلاش رمزگشا برای بازسازی ورودی اصلی از فرمت میانی رمزگذار تا حد امکان به صورت سرتاسر آموزش داده می شوند. از آنجایی که فرمت میانی کوچکتر (بُعد پایین) از فرمت اصلی است، رمزگذار خودکار مجبور است اطلاعاتی را که در ورودی ضروری است، بیاموزد و خروجی کاملاً با ورودی یکسان نخواهد بود.

مثلا:

اگر داده های ورودی گرافیکی باشد، کپی غیر دقیق شبیه به گرافیک اصلی است، اما تا حدودی تغییر یافته است. شاید کپی غیر دقیق، نویز را از گرافیک اصلی حذف می کند یا برخی از پیکسل های از دست رفته را پر می کند.
اگر داده ورودی متن باشد، یک رمزگذار خودکار متن جدیدی تولید می کند که متن اصلی را تقلید می کند (اما مشابه نیست).

رمزگذارهای خودکار متغیر را نیز ببینید.

مدل خود رگرسیون

#زبان

#تصویر

#تولید هوش مصنوعی

مدلی که پیش بینی را بر اساس پیش بینی های قبلی خود استنباط می کند. برای مثال، مدل‌های زبان رگرسیون خودکار، نشانه‌های بعدی را بر اساس نشانه‌های پیش‌بینی‌شده قبلی پیش‌بینی می‌کنند. همه مدل‌های زبان بزرگ مبتنی بر Transformer دارای رگرسیون خودکار هستند.

در مقابل، مدل‌های تصویر مبتنی بر GAN معمولاً رگرسیون خودکار نیستند، زیرا آنها یک تصویر را در یک گذر به جلو و نه به صورت تکراری در مراحل تولید می‌کنند. با این حال، برخی از مدل‌های تولید تصویر دارای رگرسیون خودکار هستند ، زیرا آنها یک تصویر را در مراحل تولید می‌کنند.

ب

کیسه کلمات

#زبان

نمایشی از کلمات در یک عبارت یا متن، صرف نظر از ترتیب. به عنوان مثال، کیسه کلمات سه عبارت زیر را به طور یکسان نشان می دهد:

سگ می پرد
سگ را می پرد
سگ می پرد

هر کلمه به یک شاخص در یک بردار پراکنده نگاشت می شود، که در آن بردار برای هر کلمه در واژگان یک شاخص دارد. به عنوان مثال، عبارت dog jumps در یک بردار ویژگی با مقادیر غیر صفر در سه شاخص مربوط به کلمات the , dog و jumps نگاشت می شود. مقدار غیر صفر می تواند یکی از موارد زیر باشد:

A 1 برای نشان دادن وجود یک کلمه.
تعداد دفعاتی که یک کلمه در کیسه ظاهر می شود. به عنوان مثال، اگر عبارت were the maroon dog یک سگ با خز قهوه ای است ، هر دو قهوه ای و سگ به صورت 2 نشان داده می شوند، در حالی که کلمات دیگر به عنوان 1 نمایش داده می شوند.
مقدار دیگری مانند لگاریتم تعداد دفعاتی که یک کلمه در کیسه ظاهر می شود.

BERT (نمایش رمزگذار دوطرفه از ترانسفورماتورها)

#زبان

معماری مدلی برای نمایش متن یک مدل BERT آموزش دیده می تواند به عنوان بخشی از یک مدل بزرگتر برای طبقه بندی متن یا سایر وظایف ML عمل کند.

BERT دارای ویژگی های زیر است:

از معماری ترانسفورماتور استفاده می کند و بنابراین به خود توجهی متکی است.
از بخش رمزگذار ترانسفورماتور استفاده می کند. وظیفه رمزگذار به جای انجام یک کار خاص مانند طبقه بندی، تولید بازنمایی متن خوب است.
دو جهته است.
از ماسک برای تمرینات بدون نظارت استفاده می کند.

انواع BERT عبارتند از:

ALBERT که مخفف A L ight BERT است.
LaBSE .

برای مروری بر BERT به منبع باز BERT: پیش‌آموزش پیشرفته برای پردازش زبان طبیعی مراجعه کنید.

دو طرفه

#زبان

اصطلاحی که برای توصیف سیستمی استفاده می‌شود که متنی را که هم قبل و هم بعد از یک بخش هدف از متن است، ارزیابی می‌کند. در مقابل، یک سیستم یک طرفه فقط متنی را که قبل از بخش هدفی از متن قرار دارد ارزیابی می کند.

به عنوان مثال، یک مدل زبان پوشانده شده را در نظر بگیرید که باید احتمالات کلمه یا کلماتی را که نشان دهنده خط زیر در سؤال زیر هستند تعیین کند:

_____ با شما چیست؟

یک مدل زبانی یک طرفه باید احتمالات خود را فقط بر اساس زمینه ارائه شده توسط کلمات "What"، "is" و "the" استوار کند. در مقابل، یک مدل زبان دوطرفه همچنین می‌تواند زمینه را از «با» و «شما» به دست آورد، که ممکن است به مدل کمک کند پیش‌بینی‌های بهتری ایجاد کند.

مدل زبان دو طرفه

#زبان

یک مدل زبان که احتمال وجود یک نشانه داده شده در یک مکان معین در گزیده ای از متن را بر اساس متن قبلی و بعدی تعیین می کند.

بیگرام

#دنباله

#زبان

یک N گرم که در آن N=2 است.

BLEU (دو زبانه ارزیابی ارزشیابی)

#زبان

امتیازی بین 0.0 تا 1.0، شامل کیفیت ترجمه بین دو زبان انسانی (مثلاً بین انگلیسی و روسی) است. نمره BLEU 1.0 نشان دهنده ترجمه کامل است. نمره BLEU 0.0 نشان دهنده یک ترجمه وحشتناک است.

سی

مدل زبان علی

#زبان

مترادف مدل زبان تک جهتی .

برای تضاد رویکردهای مختلف جهت‌گیری در مدل‌سازی زبان، مدل زبان دوطرفه را ببینید.

تحریک زنجیره ای از فکر

#زبان

#تولید هوش مصنوعی

یک تکنیک مهندسی سریع که یک مدل زبان بزرگ (LLM) را تشویق می کند تا استدلال خود را گام به گام توضیح دهد. به عنوان مثال، با توجه خاص به جمله دوم، دستور زیر را در نظر بگیرید:

یک راننده چند گرم نیرو را در اتومبیلی که از 0 تا 60 مایل در ساعت در 7 ثانیه طی می کند تجربه می کند؟ در پاسخ، تمام محاسبات مربوطه را نشان دهید.

پاسخ LLM به احتمال زیاد:

دنباله ای از فرمول های فیزیک را نشان دهید و مقادیر 0، 60 و 7 را در مکان های مناسب وصل کنید.
توضیح دهید که چرا آن فرمول ها را انتخاب کرده است و معنی متغیرهای مختلف چیست.

تحریک زنجیره‌ای از فکر، LLM را مجبور می‌کند همه محاسبات را انجام دهد، که ممکن است به پاسخ صحیح‌تری منجر شود. علاوه بر این، تحریک زنجیره‌ای از فکر، کاربر را قادر می‌سازد تا مراحل LLM را برای تعیین اینکه آیا پاسخ منطقی است یا نه، بررسی کند.

تجزیه حوزه انتخابیه

#زبان

تقسیم یک جمله به ساختارهای گرامری کوچکتر ("مواد تشکیل دهنده"). بخش بعدی سیستم ML، مانند یک مدل درک زبان طبیعی ، می تواند اجزای تشکیل دهنده را راحت تر از جمله اصلی تجزیه کند. برای مثال جمله زیر را در نظر بگیرید:

دوستم دو گربه را به فرزندی پذیرفت.

تجزیه کننده حوزه انتخابیه می تواند این جمله را به دو جزء زیر تقسیم کند:

دوست من یک عبارت اسمی است.
adopted two cats یک عبارت فعل است.

این اجزاء را می توان بیشتر به اجزای کوچکتر تقسیم کرد. مثلاً عبارت فعل

دو گربه را به فرزندی پذیرفت

را می توان بیشتر به زیر تقسیم کرد:

اتخاذ یک فعل است.
دو گربه یک عبارت اسمی دیگر است.

شکوفه تصادف

#زبان

جمله یا عبارتی با معنای مبهم. شکوفه های تصادفی مشکل مهمی در درک زبان طبیعی ایجاد می کنند. به عنوان مثال، عنوان Red Tape Holds Up Skyscraper یک شکوفه سقوط است زیرا یک مدل NLU می تواند عنوان را به معنای واقعی کلمه یا مجازی تفسیر کند.

برای یادداشت های اضافی روی نماد کلیک کنید.

فقط برای روشن شدن آن تیتر مرموز:

نوار قرمز می تواند به یکی از موارد زیر اشاره داشته باشد:
- یک چسب
- بوروکراسی بیش از حد
Holds Up می تواند به یکی از موارد زیر اشاره داشته باشد:
- پشتیبانی ساختاری
- تاخیر

D

رمزگشا

#زبان

به طور کلی، هر سیستم ML که از یک نمایش پردازش شده، متراکم یا داخلی به یک نمایش خام تر، پراکنده تر یا خارجی تبدیل می شود.

رمزگشاها اغلب جزء یک مدل بزرگتر هستند، جایی که اغلب با یک رمزگذار جفت می شوند.

در کارهای ترتیب به دنباله ، رمزگشا با حالت داخلی تولید شده توسط رمزگذار شروع می‌شود تا دنباله بعدی را پیش‌بینی کند.

برای تعریف رمزگشا در معماری ترانسفورماتور به Transformer مراجعه کنید.

حذف نویز

#زبان

یک رویکرد رایج برای یادگیری خود نظارتی که در آن:

نویز به طور مصنوعی به مجموعه داده اضافه می شود.
مدل سعی می کند نویز را حذف کند.

حذف نویز امکان یادگیری از نمونه های بدون برچسب را فراهم می کند. مجموعه داده اصلی به عنوان هدف یا برچسب و داده های پر سر و صدا به عنوان ورودی عمل می کند.

برخی از مدل‌های زبان پوشانده از حذف نویز به صورت زیر استفاده می‌کنند:

نویز به طور مصنوعی با پوشاندن برخی از نشانه ها به یک جمله بدون برچسب اضافه می شود.
مدل سعی می کند توکن های اصلی را پیش بینی کند.

تحریک مستقیم

#زبان

#تولید هوش مصنوعی

مترادف عبارت zero-shot prompting .

E

فاصله را ویرایش کنید

#زبان

اندازه گیری شباهت دو رشته متنی به یکدیگر. در یادگیری ماشینی، ویرایش فاصله مفید است زیرا محاسبه آن ساده و آسان است، و روشی موثر برای مقایسه دو رشته ای که شناخته شده هستند مشابه هستند یا برای یافتن رشته هایی که مشابه یک رشته معین هستند.

تعاریف متعددی از فاصله ویرایش وجود دارد که هر کدام از عملیات رشته های متفاوتی استفاده می کنند. به عنوان مثال، فاصله Levenshtein کمترین عملیات حذف، درج و جایگزینی را در نظر می گیرد.

به عنوان مثال، فاصله Levenshtein بین کلمات "قلب" و "دارت" 3 است زیرا 3 ویرایش زیر کمترین تغییر برای تبدیل یک کلمه به کلمه دیگر است:

قلب ← عزیز (h را با "d" جایگزین کنید)
deart → dart (حذف "e")
دارت → دارت (درج "s")

لایه جاسازی

#زبان

#مبانی

یک لایه مخفی ویژه که بر روی یک ویژگی طبقه بندی با ابعاد بالا آموزش می دهد تا به تدریج بردار تعبیه ابعاد پایین تر را یاد بگیرد. یک لایه جاسازی شبکه عصبی را قادر می‌سازد تا بسیار کارآمدتر از آموزش فقط بر روی ویژگی طبقه‌بندی با ابعاد بالا آموزش ببیند.

برای مثال، زمین در حال حاضر از حدود 73000 گونه درختی پشتیبانی می کند. فرض کنید گونه درختی یک ویژگی در مدل شما باشد، بنابراین لایه ورودی مدل شما شامل یک بردار یک داغ به طول 73000 عنصر است. برای مثال، شاید baobab چیزی شبیه به این نشان داده شود:

آرایه ای از 73000 عنصر. 6232 عنصر اول مقدار 0 را نگه می دارند. عنصر بعدی مقدار 1 را دارد. 66767 عنصر نهایی مقدار صفر را نگه می دارند.

یک آرایه 73000 عنصری بسیار طولانی است. اگر یک لایه جاسازی به مدل اضافه نکنید، به دلیل ضرب 72999 صفر، آموزش بسیار وقت گیر خواهد بود. شاید لایه جاسازی را از 12 بعد انتخاب کنید. در نتیجه، لایه جاسازی به تدریج یک بردار تعبیه جدید برای هر گونه درختی را یاد می گیرد.

در شرایط خاص، هش جایگزین معقولی برای لایه جاسازی است.

فضای تعبیه شده

#زبان

فضای برداری d بعدی که از یک فضای برداری با ابعاد بالاتر مشخص می شود به آن نگاشت می شود. در حالت ایده آل، فضای جاسازی شامل ساختاری است که نتایج ریاضی معناداری را به همراه دارد. به عنوان مثال، در یک فضای جاسازی ایده آل، جمع و تفریق جاسازی ها می تواند وظایف قیاس کلمه را حل کند.

حاصل ضرب نقطه ای دو جاسازی معیاری برای تشابه آنهاست.

وکتور تعبیه شده

#زبان

به طور کلی، آرایه ای از اعداد ممیز شناور گرفته شده از هر لایه پنهان که ورودی های آن لایه پنهان را توصیف می کند. اغلب، یک بردار جاسازی آرایه ای از اعداد ممیز شناور است که در یک لایه جاسازی آموزش داده شده است. برای مثال، فرض کنید یک لایه جاسازی باید یک بردار جاسازی برای هر یک از ۷۳۰۰۰ گونه درختی روی زمین بیاموزد. شاید آرایه زیر بردار جاسازی یک درخت بائوباب باشد:

آرایه ای از 12 عنصر که هر کدام دارای یک عدد ممیز شناور بین 0.0 و 1.0 هستند.

بردار تعبیه شده مجموعه ای از اعداد تصادفی نیست. یک لایه جاسازی این مقادیر را از طریق آموزش تعیین می کند، مشابه روشی که یک شبکه عصبی وزن های دیگر را در طول تمرین یاد می گیرد. هر عنصر از آرایه رتبه بندی در امتداد برخی از ویژگی های یک گونه درختی است. کدام عنصر مشخصه کدام گونه درخت است؟ تشخیص آن برای انسان ها بسیار سخت است.

بخش قابل توجه ریاضی یک بردار تعبیه شده این است که موارد مشابه دارای مجموعه های مشابهی از اعداد ممیز شناور هستند. به عنوان مثال، گونه های درختی مشابه دارای مجموعه اعداد ممیز شناور مشابهی نسبت به گونه های درختی غیر مشابه هستند. سرخ‌وودها و سکویاها گونه‌های درختی مرتبط هستند، بنابراین مجموعه‌ای از اعداد شناور شبیه‌تری نسبت به درخت‌های قرمز و نخل نارگیل خواهند داشت. اعداد در بردار جاسازی با هر بار آموزش مجدد مدل تغییر خواهند کرد، حتی اگر مدل را با ورودی یکسان دوباره آموزش دهید.

رمزگذار

#زبان

به طور کلی، هر سیستم ML که از یک نمایش خام، پراکنده یا خارجی به یک نمایش پردازش شده تر، متراکم تر یا داخلی تر تبدیل می شود.

رمزگذارها اغلب جزء یک مدل بزرگتر هستند، جایی که اغلب با یک رمزگشا جفت می شوند. برخی از ترانسفورماتورها انکودرها را با رمزگشاها جفت می کنند، اگرچه سایر ترانسفورماتورها فقط از رمزگذار یا فقط رمزگشا استفاده می کنند.

برخی از سیستم ها از خروجی رمزگذار به عنوان ورودی یک شبکه طبقه بندی یا رگرسیون استفاده می کنند.

در کارهای ترتیب به دنباله ، یک رمزگذار یک دنباله ورودی را می گیرد و یک حالت داخلی (بردار) را برمی گرداند. سپس رمزگشا از آن حالت داخلی برای پیش بینی دنباله بعدی استفاده می کند.

برای تعریف رمزگذار در معماری ترانسفورماتور به Transformer مراجعه کنید.

اف

چند شات تحریک

#زبان

#تولید هوش مصنوعی

درخواستی که حاوی بیش از یک («چند») مثال است که نشان می‌دهد مدل زبان بزرگ چگونه باید پاسخ دهد. برای مثال، دستور طولانی زیر حاوی دو مثال است که یک مدل زبان بزرگ را نشان می دهد که چگونه به یک پرس و جو پاسخ دهد.

بخش هایی از یک فرمان	یادداشت
`واحد پول رسمی کشور مشخص شده چیست؟`	سوالی که می خواهید LLM به آن پاسخ دهد.
`فرانسه: یورو`	یک مثال.
`بریتانیا: GBP`	مثالی دیگر.
`هند:`	پرس و جو واقعی

درخواست‌های چند شات معمولاً نتایج مطلوب‌تری نسبت به درخواست‌های صفر و یک شات ایجاد می‌کنند. با این حال، درخواست چند شات به یک اعلان طولانی‌تر نیاز دارد.

درخواست چند شات شکلی از یادگیری چند شات است که برای یادگیری مبتنی بر سریع اعمال می شود.

کمانچه

#زبان

یک کتابخانه پیکربندی Python-first که مقادیر توابع و کلاس‌ها را بدون کد یا زیرساخت مهاجم تنظیم می‌کند. در مورد Pax - و سایر پایگاه‌های کد ML - این توابع و کلاس‌ها مدل‌ها و فراپارامترهای آموزشی را نشان می‌دهند.

Fiddle فرض می‌کند که پایگاه‌های کد یادگیری ماشین معمولاً به دو دسته تقسیم می‌شوند:

کد کتابخانه، که لایه ها و بهینه سازها را تعریف می کند.
کد "چسب" مجموعه داده، که کتابخانه ها را فراخوانی می کند و همه چیز را به هم متصل می کند.

Fiddle ساختار فراخوانی کد چسب را به شکلی ارزیابی نشده و قابل تغییر به تصویر می کشد.

تنظیم دقیق

#زبان

#تصویر

#تولید هوش مصنوعی

دومین پاس آموزشی ویژه کار بر روی یک مدل از پیش آموزش دیده انجام شد تا پارامترهای آن را برای یک مورد استفاده خاص اصلاح کند. به عنوان مثال، دنباله آموزش کامل برای برخی از مدل های زبان بزرگ به شرح زیر است:

قبل از آموزش: یک مدل زبان بزرگ را بر روی یک مجموعه داده کلی گسترده، مانند تمام صفحات ویکی پدیا به زبان انگلیسی، آموزش دهید.
تنظیم دقیق: مدل از پیش آموزش دیده را برای انجام یک کار خاص ، مانند پاسخ به سؤالات پزشکی، آموزش دهید. تنظیم دقیق معمولاً شامل صدها یا هزاران مثال متمرکز بر یک کار خاص است.

به عنوان مثال دیگر، دنباله آموزش کامل برای یک مدل تصویر بزرگ به شرح زیر است:

قبل از آموزش: یک مدل تصویر بزرگ را بر روی یک مجموعه داده کلی تصویری گسترده، مانند تمام تصاویر موجود در Wikimedia Commons آموزش دهید.
تنظیم دقیق: مدل از پیش آموزش دیده را برای انجام یک کار خاص ، مانند تولید تصاویر اورکا، آموزش دهید.

تنظیم دقیق می تواند شامل هر ترکیبی از استراتژی های زیر باشد:

اصلاح تمام پارامترهای موجود مدل از پیش آموزش دیده. گاهی اوقات به آن تنظیم دقیق کامل می گویند.
اصلاح تنها برخی از پارامترهای موجود مدل از قبل آموزش دیده (معمولاً، نزدیکترین لایه ها به لایه خروجی )، در حالی که سایر پارامترهای موجود را بدون تغییر نگه می دارد (معمولاً، لایه های نزدیک به لایه ورودی ). تنظیم کارآمد پارامتر را ببینید.
افزودن لایه‌های بیشتر، معمولاً در بالای لایه‌های موجود که نزدیک‌ترین لایه به لایه خروجی است.

تنظیم دقیق شکلی از یادگیری انتقالی است. به این ترتیب، تنظیم دقیق ممکن است از یک تابع تلفات متفاوت یا نوع مدل متفاوتی نسبت به مواردی که برای آموزش مدل از پیش آموزش دیده استفاده می‌شود، استفاده کند. به عنوان مثال، می‌توانید یک مدل تصویر بزرگ از قبل آموزش‌دیده را برای تولید یک مدل رگرسیونی تنظیم کنید که تعداد پرندگان در یک تصویر ورودی را برمی‌گرداند.

تنظیم دقیق را با عبارات زیر مقایسه و مقایسه کنید:

تقطیر
یادگیری مبتنی بر سریع

کتان

#زبان

یک کتابخانه منبع باز با کارایی بالا برای یادگیری عمیق که بر روی JAX ساخته شده است. Flax عملکردهایی را برای آموزش شبکه های عصبی و همچنین روش هایی برای ارزیابی عملکرد آنها ارائه می دهد.

کتان ساز

#زبان

یک کتابخانه Transformer منبع باز، ساخته شده بر روی Flax ، که عمدتا برای پردازش زبان طبیعی و تحقیقات چندوجهی طراحی شده است.

جی

هوش مصنوعی مولد

#زبان

#تصویر

#تولید هوش مصنوعی

یک میدان تحول‌آفرین در حال ظهور بدون تعریف رسمی. گفته می‌شود، اکثر کارشناسان موافق هستند که مدل‌های هوش مصنوعی تولیدی می‌توانند محتوایی را ایجاد کنند ("تولید") که همه موارد زیر باشد:

مجتمع
منسجم
اصلی

به عنوان مثال، یک مدل هوش مصنوعی مولد می تواند مقالات یا تصاویر پیچیده ای ایجاد کند.

برخی از فناوری‌های قبلی، از جمله LSTM و RNN ، می‌توانند محتوای اصلی و منسجم تولید کنند. برخی از کارشناسان این فناوری های قبلی را به عنوان هوش مصنوعی مولد می دانند، در حالی که برخی دیگر احساس می کنند که هوش مصنوعی مولد واقعی به خروجی پیچیده تری نسبت به فناوری های قبلی نیاز دارد.

در مقابل ML پیش بینی .

GPT (ترانسفورماتور از پیش آموزش دیده ژنراتور)

#زبان

خانواده ای از مدل های زبان بزرگ مبتنی بر Transformer که توسط OpenAI توسعه یافته است.

انواع GPT می توانند برای چندین روش اعمال شوند، از جمله:

تولید تصویر (مثلا ImageGPT)
تولید متن به تصویر (به عنوان مثال، DALL-E ).

اچ

توهم

#زبان

تولید خروجی به ظاهر قابل قبول اما از نظر واقعی نادرست توسط یک مدل هوش مصنوعی مولد که ادعا می کند در مورد دنیای واقعی ادعا می کند. به عنوان مثال، یک مدل هوش مصنوعی مولد که ادعا می کند باراک اوباما در سال 1865 درگذشت توهم آور است.

من

یادگیری درون متنی

#زبان

#تولید هوش مصنوعی

مترادف اعلان چند شات .

L

LaMDA (مدل زبانی برای برنامه‌های گفتگو)

#زبان

یک مدل زبان بزرگ مبتنی بر ترانسفورماتور که توسط Google ایجاد شده است که بر روی یک مجموعه داده گفتگوی بزرگ آموزش داده شده است که می تواند پاسخ های مکالمه واقعی ایجاد کند.

LaMDA: فناوری مکالمه پیشرفت ما یک نمای کلی ارائه می دهد.

مدل زبان

#زبان

مدلی که احتمال وقوع یک توکن یا دنباله ای از توکن ها را در یک دنباله طولانی تر از توکن ها تخمین می زند.

برای یادداشت های اضافی روی نماد کلیک کنید.

اگرچه غیرقابل تصور است، بسیاری از مدل‌هایی که متن را ارزیابی می‌کنند، مدل‌های زبان نیستند. برای مثال، مدل‌های طبقه‌بندی متن و مدل‌های تحلیل احساسات، مدل‌های زبانی نیستند.

مدل زبان بزرگ

#زبان

یک اصطلاح غیررسمی بدون تعریف دقیق که معمولاً به معنای مدل زبانی است که تعداد پارامترهای بالایی دارد. برخی از مدل های زبان بزرگ حاوی بیش از 100 میلیارد پارامتر هستند.

برای یادداشت های اضافی روی نماد کلیک کنید.

ممکن است تعجب کنید که چه زمانی یک مدل زبان به اندازه‌ای بزرگ می‌شود که بتوان آن را مدل زبان بزرگ نامید. در حال حاضر، هیچ خط تعریف توافق شده ای برای تعداد پارامترها وجود ندارد.

اکثر مدل های زبان بزرگ کنونی (به عنوان مثال، GPT ) بر اساس معماری Transformer هستند.

م

مدل زبان نقاب دار

#زبان

یک مدل زبان که احتمال توکن‌های کاندید را برای پر کردن جاهای خالی در یک دنباله پیش‌بینی می‌کند. به عنوان مثال، یک مدل زبان ماسک‌دار می‌تواند احتمالات کلمه(های) نامزد را برای جایگزینی خط زیر در جمله زیر محاسبه کند:

____ در کلاه برگشت.

ادبیات معمولاً از رشته "MASK" به جای زیر خط استفاده می کند. مثلا:

"ماسک" در کلاه برگشت.

بیشتر مدل‌های زبان نقاب‌دار مدرن دو جهته هستند.

فرا یادگیری

#زبان

زیر مجموعه ای از یادگیری ماشینی که الگوریتم یادگیری را کشف یا بهبود می بخشد. هدف یک سیستم فرا یادگیری می‌تواند آموزش مدلی برای یادگیری سریع یک کار جدید از روی مقدار کمی داده یا تجربیات به دست آمده در کارهای قبلی باشد. الگوریتم های فرا یادگیری به طور کلی سعی در دستیابی به موارد زیر دارند:

بهبود/یادگیری ویژگی های مهندسی شده با دست (مانند اولیه ساز یا بهینه ساز).
از نظر داده کارآمدتر و از نظر محاسباتی کارآمدتر باشید.
بهبود تعمیم.

فرایادگیری با یادگیری چند شات مرتبط است.

روش

#زبان

یک دسته داده سطح بالا. به عنوان مثال، اعداد، متن، تصاویر، ویدئو و صدا پنج حالت مختلف هستند.

موازی سازی مدل

#زبان

روشی برای مقیاس بندی آموزش یا استنباط که بخش های مختلف یک مدل را در دستگاه های مختلف قرار می دهد. موازی سازی مدل ها، مدل هایی را قادر می سازد که بیش از حد بزرگ هستند که روی یک دستگاه قرار بگیرند.

برای پیاده سازی موازی سازی مدل، یک سیستم معمولاً موارد زیر را انجام می دهد:

مدل را به قطعات کوچکتر تقسیم می کند.
آموزش آن قطعات کوچکتر را بین چندین پردازنده توزیع می کند. هر پردازنده بخشی از مدل خود را آموزش می دهد.
نتایج را برای ایجاد یک مدل واحد ترکیب می کند.

موازی سازی مدل آموزش را کند می کند.

همچنین به موازی سازی داده ها مراجعه کنید.

خود توجهی چند سر

#زبان

گسترش توجه به خود که مکانیسم توجه به خود را چندین بار برای هر موقعیت در دنباله ورودی اعمال می کند.

ترانسفورماتورها خود توجهی چند سر را معرفی کردند.

مدل چندوجهی

#زبان

مدلی که ورودی و/یا خروجی آن شامل بیش از یک مدالیته است. به عنوان مثال، مدلی را در نظر بگیرید که هم یک تصویر و هم یک عنوان متن (دو حالت) را به عنوان ویژگی می گیرد، و یک امتیاز به دست می دهد که نشان می دهد عنوان متن برای تصویر چقدر مناسب است. بنابراین ورودی های این مدل چند وجهی و خروجی تک وجهی است.

ن

درک زبان طبیعی

#زبان

تعیین مقاصد کاربر بر اساس آنچه کاربر تایپ کرده یا گفته است. به عنوان مثال، یک موتور جستجو از درک زبان طبیعی استفاده می کند تا مشخص کند کاربر چه چیزی را بر اساس آنچه کاربر تایپ کرده یا گفته است، جستجو می کند.

N-گرم

#دنباله

#زبان

دنباله ای منظم از N کلمه. به عنوان مثال، واقعا دیوانه وار یک 2 گرم است. از آنجا که نظم مرتبط است، madly true یک 2 گرم متفاوت از واقعا دیوانه است.

ن	نام(های) این نوع N-gram	مثال ها
2	بیگرم یا 2 گرم	رفتن، رفتن، ناهار خوردن، شام خوردن
3	سه گرم یا 3 گرم	زیاد خورد، سه موش کور، زنگ به صدا درآمد
4	4 گرم	قدم زدن در پارک، گرد و غبار در باد، پسر عدس خورد

بسیاری از مدل‌های درک زبان طبیعی برای پیش‌بینی کلمه بعدی که کاربر تایپ می‌کند یا می‌گوید، بر N-gram تکیه می‌کنند. برای مثال، فرض کنید کاربری سه blind را تایپ کرده است. یک مدل NLU بر اساس سه‌گرام‌ها احتمالاً پیش‌بینی می‌کند که کاربر بعدی موش‌ها را تایپ خواهد کرد.

N-gram ها را با کیسه کلمات ، که مجموعه های نامرتب از کلمات هستند، مقایسه کنید.

NLU

#زبان

مخفف درک زبان طبیعی .

O

درخواست تک شات

#زبان

#تولید هوش مصنوعی

درخواستی که حاوی یک مثال است که نشان می دهد مدل زبان بزرگ چگونه باید پاسخ دهد. برای مثال، دستور زیر حاوی یک مثال است که یک مدل زبان بزرگ را نشان می دهد که چگونه باید به یک پرس و جو پاسخ دهد.

بخش هایی از یک فرمان	یادداشت
`واحد پول رسمی کشور مشخص شده چیست؟`	سوالی که می خواهید LLM به آن پاسخ دهد.
`فرانسه: یورو`	یک مثال.
`هند:`	پرس و جو واقعی

اعلان یک شات را با عبارات زیر مقایسه و مقایسه کنید:

درخواست ضربه صفر
چند شات تحریک

پ

تنظیم کارآمد از نظر پارامتر

#زبان

#تولید هوش مصنوعی

مجموعه‌ای از تکنیک‌ها برای تنظیم دقیق یک مدل زبان بزرگ از پیش آموزش‌دیده (PLM) با کارآمدی بیشتر از تنظیم دقیق کامل. تنظیم کارآمد پارامتر معمولاً پارامترهای بسیار کمتری را نسبت به تنظیم دقیق کامل تنظیم می‌کند، اما به طور کلی یک مدل زبان بزرگ تولید می‌کند که به خوبی (یا تقریباً به همان اندازه) یک مدل زبان بزرگ ساخته شده از تنظیم دقیق کامل عمل می‌کند.

مقایسه و کنتراست تنظیم کارآمد پارامتر با:

تنظیم کارآمد پارامتر نیز به عنوان تنظیم دقیق پارامتر کارآمد شناخته می شود.

خط لوله

#زبان

شکلی از موازی سازی مدل که در آن پردازش مدل به مراحل متوالی تقسیم می شود و هر مرحله بر روی دستگاه متفاوتی اجرا می شود. در حالی که یک مرحله در حال پردازش یک دسته است، مرحله قبل می تواند روی دسته بعدی کار کند.

آموزش مرحله‌ای را نیز ببینید.

PLM

#زبان

#تولید هوش مصنوعی

مخفف مدل زبان از پیش آموزش دیده .

رمزگذاری موقعیتی

#زبان

تکنیکی برای افزودن اطلاعات در مورد موقعیت یک توکن در یک دنباله به جاسازی توکن. مدل‌های ترانسفورماتور از رمزگذاری موقعیتی برای درک بهتر رابطه بین بخش‌های مختلف دنباله استفاده می‌کنند.

اجرای رایج رمزگذاری موقعیتی از یک تابع سینوسی استفاده می کند. (به طور خاص، فرکانس و دامنه تابع سینوسی با موقعیت توکن در دنباله تعیین می شود.) این تکنیک یک مدل ترانسفورماتور را قادر می سازد تا یاد بگیرد که به قسمت های مختلف دنباله بر اساس موقعیت آنها توجه کند.

مدل از پیش آموزش دیده

#زبان

#تصویر

#تولید هوش مصنوعی

مدل‌ها یا اجزای مدل (مانند بردار تعبیه‌شده ) که قبلاً آموزش داده شده‌اند. گاهی اوقات، بردارهای تعبیه شده از قبل آموزش دیده را به یک شبکه عصبی وارد می کنید. مواقع دیگر، مدل شما به جای اینکه به جاسازی های از پیش آموزش داده شده تکیه کند، خود بردارهای جاسازی را آموزش می دهد.

اصطلاح مدل زبانی از پیش آموزش دیده به یک مدل زبان بزرگ اطلاق می شود که دوره های پیش آموزشی را پشت سر گذاشته است.

قبل از آموزش

#زبان

#تصویر

#تولید هوش مصنوعی

آموزش اولیه یک مدل بر روی یک مجموعه داده بزرگ. برخی از مدل های از پیش آموزش دیده غول های دست و پا چلفتی هستند و معمولاً باید از طریق آموزش های اضافی اصلاح شوند. به عنوان مثال، کارشناسان ML ممکن است یک مدل زبان بزرگ را در یک مجموعه داده متنی گسترده، مانند تمام صفحات انگلیسی در ویکی‌پدیا، از قبل آموزش دهند. پس از پیش آموزش، مدل به دست آمده ممکن است از طریق هر یک از تکنیک های زیر اصلاح شود:

تقطیر
تنظیم دقیق
تنظیم دستورالعمل
تنظیم کارآمد از نظر پارامتر
تنظیم سریع

سریع

#زبان

#تولید هوش مصنوعی

هر متنی که به عنوان ورودی به یک مدل زبان بزرگ وارد می شود تا مدل به روشی خاص رفتار کند. درخواست‌ها می‌توانند به کوتاهی یک عبارت یا دلخواه طولانی باشند (مثلاً کل متن یک رمان). درخواست‌ها به چند دسته تقسیم می‌شوند، از جمله مواردی که در جدول زیر نشان داده شده‌اند:

دسته بندی سریع	مثال	یادداشت
سوال	`یک کبوتر با چه سرعتی می تواند پرواز کند؟`
دستورالعمل	`یک شعر خنده دار در مورد آربیتراژ بنویسید.`	اعلانی که از مدل زبان بزرگ می خواهد کاری انجام دهد .
مثال	`کد Markdown را به HTML ترجمه کنید. مثلا: علامت گذاری: * آیتم لیست HTML: <ul> <li>مورد فهرست</li> </ul>`	اولین جمله در این اعلان مثال یک دستورالعمل است. باقیمانده اعلان مثال است.
نقش	`توضیح دهید که چرا از شیب نزول در آموزش یادگیری ماشین تا مقطع دکتری فیزیک استفاده می شود.`	قسمت اول جمله یک دستور است; عبارت "به یک دکترا در فیزیک" بخش نقش است.
ورودی جزئی برای تکمیل مدل	`نخست وزیر بریتانیا در`	یک اعلان ورودی جزئی می تواند یا به طور ناگهانی پایان یابد (همانطور که در این مثال انجام می شود) یا با یک خط زیر به پایان برسد.

یک مدل هوش مصنوعی مولد می‌تواند به یک درخواست با متن، کد، تصاویر، جاسازی‌ها ، ویدیوها و… تقریباً هر چیزی پاسخ دهد.

یادگیری مبتنی بر سریع

#زبان

#تولید هوش مصنوعی

قابلیتی از مدل‌های خاص که آن‌ها را قادر می‌سازد رفتار خود را در پاسخ به ورودی متن دلخواه ( اعلان‌ها ) تطبیق دهند. در یک الگوی یادگیری معمولی مبتنی بر سریع، یک مدل زبان بزرگ با تولید متن به یک درخواست پاسخ می دهد. به عنوان مثال، فرض کنید یک کاربر دستور زیر را وارد می کند:

قانون سوم حرکت نیوتن را خلاصه کنید.

مدلی که قادر به یادگیری مبتنی بر سریع باشد به طور خاص برای پاسخ دادن به درخواست قبلی آموزش داده نشده است. در عوض، مدل حقایق زیادی در مورد فیزیک، چیزهای زیادی در مورد قواعد عمومی زبان، و چیزهای زیادی در مورد آنچه پاسخ‌های به طور کلی مفید است، می‌داند. این دانش برای ارائه یک پاسخ مفید (امیدوارم) کافی است. بازخورد اضافی انسانی ("آن پاسخ خیلی پیچیده بود." یا "واکنش چیست؟") برخی از سیستم های یادگیری مبتنی بر فوری را قادر می سازد تا به تدریج سودمندی پاسخ های خود را بهبود بخشند.

طراحی سریع

#زبان

#تولید هوش مصنوعی

مترادف کلمه مهندسی سریع .

مهندسی سریع

#زبان

#تولید هوش مصنوعی

هنر ایجاد اعلان‌هایی که پاسخ‌های مورد نظر را از یک مدل زبان بزرگ استخراج می‌کنند. انسان ها مهندسی سریع انجام می دهند. نوشتن اعلان‌های با ساختار مناسب، بخش مهمی از حصول اطمینان از پاسخ‌های مفید از یک مدل زبان بزرگ است. مهندسی سریع به عوامل زیادی بستگی دارد، از جمله:

مجموعه داده برای پیش‌آموزش و احتمالاً تنظیم دقیق مدل زبان بزرگ استفاده می‌شود.
دما و سایر پارامترهای رمزگشایی که مدل برای تولید پاسخ استفاده می کند.

برای جزئیات بیشتر در مورد نوشتن اعلان های مفید به مقدمه طراحی اعلان مراجعه کنید.

طراحی سریع مترادف مهندسی سریع است.

تنظیم سریع

#زبان

#تولید هوش مصنوعی

یک مکانیسم تنظیم کارآمد پارامتری که یک "پیشوند" را می آموزد که سیستم آن را به اعلان واقعی نشان می دهد.

یکی از انواع تنظیم سریع - که گاهی اوقات تنظیم پیشوند نامیده می شود - این است که پیشوند را در هر لایه قرار دهید. در مقابل، بیشتر تنظیم سریع فقط یک پیشوند به لایه ورودی اضافه می کند.

برای اطلاعات بیشتر در مورد پیشوندها روی نماد کلیک کنید.

برای تنظیم سریع، «پیشوند» (همچنین به عنوان «اعلان نرم» نیز شناخته می‌شود) تعداد انگشت شماری از بردارهای یادگرفته‌شده و مختص کار است که از دستور واقعی به جاسازی‌های نشانه متنی تعبیه شده‌اند. سیستم با ثابت کردن تمام پارامترهای مدل دیگر و تنظیم دقیق در یک کار خاص، دستور نرم افزار را یاد می گیرد.

آر

تحریک نقش

#زبان

#تولید هوش مصنوعی

بخشی اختیاری از یک درخواست که مخاطب هدف را برای پاسخ یک مدل هوش مصنوعی مولد شناسایی می کند. Without a role prompt, a large language model provides an answer that may or may not be useful for the person asking the questions. With a role prompt, a large language model can answer in a way that's more appropriate and more helpful for a specific target audience. For example, the role prompt portion of the following prompts are in boldface:

Summarize this article for a PhD in economics .
Describe how tides work for a ten-year old .
Explain the 2008 financial crisis. Speak as you might to a young child, or a golden retriever.

اس

self-attention (also called self-attention layer)

#language

A neural network layer that transforms a sequence of embeddings (for instance, token embeddings) into another sequence of embeddings. Each embedding in the output sequence is constructed by integrating information from the elements of the input sequence through an attention mechanism.

The self part of self-attention refers to the sequence attending to itself rather than to some other context. Self-attention is one of the main building blocks for Transformers and uses dictionary lookup terminology, such as “query”, “key”, and “value”.

A self-attention layer starts with a sequence of input representations, one for each word. The input representation for a word can be a simple embedding. For each word in an input sequence, the network scores the relevance of the word to every element in the whole sequence of words. The relevance scores determine how much the word's final representation incorporates the representations of other words.

For example, consider the following sentence:

The animal didn't cross the street because it was too tired.

The following illustration (from Transformer: A Novel Neural Network Architecture for Language Understanding ) shows a self-attention layer's attention pattern for the pronoun it , with the darkness of each line indicating how much each word contributes to the representation:

The following sentence appears twice: 'The animal didn't cross the
street because it was too tired.' Lines connect the word 'it' in
one sentence to five tokens ('The', 'animal', 'street', 'it', and
the period) in the other sentence. The line between 'it' and
'animal' is strongest.

The self-attention layer highlights words that are relevant to "it". In this case, the attention layer has learned to highlight words that it might refer to, assigning the highest weight to animal .

For a sequence of n tokens , self-attention transforms a sequence of embeddings n separate times, once at each position in the sequence.

Refer also to attention and multi-head self-attention .

sentiment analysis

#language

Using statistical or machine learning algorithms to determine a group's overall attitude—positive or negative—toward a service, product, organization, or topic. For example, using natural language understanding , an algorithm could perform sentiment analysis on the textual feedback from a university course to determine the degree to which students generally liked or disliked the course.

sequence-to-sequence task

#language

A task that converts an input sequence of tokens to an output sequence of tokens. For example, two popular kinds of sequence-to-sequence tasks are:

Translators:
- Sample input sequence: "I love you."
- Sample output sequence: "Je t'aime."
Question answering:
- Sample input sequence: "Do I need my car in New York City?"
- Sample output sequence: "No. Please keep your car at home."

sparse feature

#language

#fundamentals

A feature whose values are predominately zero or empty. For example, a feature containing a single 1 value and a million 0 values is sparse. In contrast, a dense feature has values that are predominantly not zero or empty.

In machine learning, a surprising number of features are sparse features. Categorical features are usually sparse features. For example, of the 300 possible tree species in a forest, a single example might identify just a maple tree . Or, of the millions of possible videos in a video library, a single example might identify just "Casablanca."

In a model, you typically represent sparse features with one-hot encoding . If the one-hot encoding is big, you might put an embedding layer on top of the one-hot encoding for greater efficiency.

sparse representation

#language

#fundamentals

Storing only the position(s) of nonzero elements in a sparse feature.

For example, suppose a categorical feature named species identifies the 36 tree species in a particular forest. Further assume that each example identifies only a single species.

You could use a one-hot vector to represent the tree species in each example. A one-hot vector would contain a single 1 (to represent the particular tree species in that example) and 35 0 s (to represent the 35 tree species not in that example). So, the one-hot representation of maple might look something like the following:

A vector in which positions 0 through 23 hold the value 0, position
24 holds the value 1, and positions 25 through 35 hold the value 0.

Alternatively, sparse representation would simply identify the position of the particular species. If maple is at position 24, then the sparse representation of maple would simply be:

Notice that the sparse representation is much more compact than the one-hot representation.

Click the icon for a slightly more complex example.

Suppose each example in your model must represent the words—but not the order of those words—in an English sentence. English consists of about 170,000 words, so English is a categorical feature with about 170,000 elements. Most English sentences use an extremely tiny fraction of those 170,000 words, so the set of words in a single example is almost certainly going to be sparse data.

Consider the following sentence:

My dog is a great dog

You could use a variant of one-hot vector to represent the words in this sentence. In this variant, multiple cells in the vector can contain a nonzero value. Furthermore, in this variant, a cell can contain an integer other than one. Although the words "my", "is", "a", and "great" appear only once in the sentence, the word "dog" appears twice. Using this variant of one-hot vectors to represent the words in this sentence yields the following 170,000-element vector:

A sparse representation of the same sentence would simply be:

Click the icon if you are confused.

The term "sparse representation" confuses a lot of people because sparse representation is itself not a sparse vector . Rather, sparse representation is actually a dense representation of a sparse vector . The synonym index representation is a little clearer than "sparse representation."

staged training

#language

A tactic of training a model in a sequence of discrete stages. The goal can be either to speed up the training process, or to achieve better model quality.

An illustration of the progressive stacking approach is shown below:

Stage 1 contains 3 hidden layers, stage 2 contains 6 hidden layers, and stage 3 contains 12 hidden layers.
Stage 2 begins training with the weights learned in the 3 hidden layers of Stage 1. Stage 3 begins training with the weights learned in the 6 hidden layers of Stage 2.

Three stages, which are labeled 'Stage 1', 'Stage 2', and 'Stage 3'.
Each stage contains a different number of layers: Stage 1 contains
3 layers, Stage 2 contains 6 layers, and Stage 3 contains 12 layers.
The 3 layers from Stage 1 become the first 3 layers of Stage 2.
Similarly, the 6 layers from Stage 2 become the first 6 layers of
Stage 3.

تی

T5

#language

A text-to-text transfer learning model introduced by Google AI in 2020 . T5 is an encoder - decoder model, based on the Transformer architecture, trained on an extremely large dataset. It is effective at a variety of natural language processing tasks, such as generating text, translating languages, and answering questions in a conversational manner.

T5 gets its name from the five T's in "Text-to-Text Transfer Transformer."

T5X

#language

An open-source, machine learning framework designed to build and train large-scale natural language processing (NLP) models. T5 is implemented on the T5X codebase (which is built on JAX and Flax ).

temperature

#language

#image

#generativeAI

A hyperparameter that controls the degree of randomness of a model's output. Higher temperatures result in more random output, while lower temperatures result in less random output.

Choosing the best temperature depends on the specific application and the desired properties of the model's output. For example, you would probably raise the temperature when creating an application that generates creative output. Conversely, you would probably lower the temperature when building a model that classifies images or text in order to improve the model's accuracy and consistency.

Temperature is often used with softmax .

text span

#language

The array index span associated with a specific subsection of a text string. For example, the word good in the Python string s="Be good now" occupies the text span from 3 to 6.

token

#language

In a language model , the atomic unit that the model is training on and making predictions on. A token is typically one of the following:

a word—for example, the phrase "dogs like cats" consists of three word tokens: "dogs", "like", and "cats".
a character—for example, the phrase "bike fish" consists of nine character tokens. (Note that the blank space counts as one of the tokens.)
subwords—in which a single word can be a single token or multiple tokens. A subword consists of a root word, a prefix, or a suffix. For example, a language model that uses subwords as tokens might view the word "dogs" as two tokens (the root word "dog" and the plural suffix "s"). That same language model might view the single word "taller" as two subwords (the root word "tall" and the suffix "er").

In domains outside of language models, tokens can represent other kinds of atomic units. For example, in computer vision, a token might be a subset of an image.

تبدیل کننده

#language

A neural network architecture developed at Google that relies on self-attention mechanisms to transform a sequence of input embeddings into a sequence of output embeddings without relying on convolutions or recurrent neural networks . A Transformer can be viewed as a stack of self-attention layers.

A Transformer can include any of the following:

an encoder
a decoder
both an encoder and decoder

An encoder transforms a sequence of embeddings into a new sequence of the same length. An encoder includes N identical layers, each of which contains two sub-layers. These two sub-layers are applied at each position of the input embedding sequence, transforming each element of the sequence into a new embedding. The first encoder sub-layer aggregates information from across the input sequence. The second encoder sub-layer transforms the aggregated information into an output embedding.

A decoder transforms a sequence of input embeddings into a sequence of output embeddings, possibly with a different length. A decoder also includes N identical layers with three sub-layers, two of which are similar to the encoder sub-layers. The third decoder sub-layer takes the output of the encoder and applies the self-attention mechanism to gather information from it.

The blog post Transformer: A Novel Neural Network Architecture for Language Understanding provides a good introduction to Transformers.

trigram

#seq

#language

An N-gram in which N=3.

U

unidirectional

#language

A system that only evaluates the text that precedes a target section of text. In contrast, a bidirectional system evaluates both the text that precedes and follows a target section of text. See bidirectional for more details.

unidirectional language model

#language

A language model that bases its probabilities only on the tokens appearing before , not after , the target token(s). Contrast with bidirectional language model .

V

variational autoencoder (VAE)

#language

A type of autoencoder that leverages the discrepancy between inputs and outputs to generate modified versions of the inputs. Variational autoencoders are useful for generative AI .

VAEs are based on variational inference: a technique for estimating the parameters of a probability model.

دبلیو

word embedding

#language

Representing each word in a word set within an embedding vector ; that is, representing each word as a vector of floating-point values between 0.0 and 1.0. Words with similar meanings have more-similar representations than words with different meanings. For example, carrots , celery , and cucumbers would all have relatively similar representations, which would be very different from the representations of airplane , sunglasses , and toothpaste .

Z

zero-shot prompting

#language

#generativeAI

A prompt that does not provide an example of how you want the large language model to respond. مثلا:

Parts of one prompt	یادداشت
`What is the official currency of the specified country?`	The question you want the LLM to answer.
`India:`	The actual query.

The large language model might respond with any of the following:

Rupee
INR
₹
Indian rupee
The rupee
The Indian rupee

All of the answers are correct, though you might prefer a particular format.

Compare and contrast zero-shot prompting with the following terms:

one-shot prompting
few-shot prompting