הטמעות: תרגום למרחב תחתון בעל מאפיינים נמוכים יותר

כדי לפתור את הבעיות העיקריות של נתוני קלט מצומצמים, אפשר למפות את הנתונים בעלי המאפיינים הגבוהים ומרחבים קטנים.

כפי שראיתם בתרגילי הסרטים הקודמים, גם אם מדובר במרחב רב-מימדי קטן, אפשר לקבץ יחד פריטים דומים מבחינה סמנטית ולהפריד בין פריטים שונים. מיקום (מרחק וכיוון) במרחב הווקטורי יכול לקודד סמנטיקה בהטמעה טובה. לדוגמה, ברכיבים החזותיים הבאים של הטמעות אמיתיות מוצגים קשרים גיאומטריים שמתעדים קשרים סמנטיים, כמו הקשר בין מדינה לבירה:

שלוש דוגמאות להטמעות מילים שמייצגות קשרים גיאומטריים בצורה מגדרית: מגדר (גבר/אשה ומלך/מלכה), זמן בפעלים (הליכה/הליכה ושחייה/שחייה) וערי בירה (טורקיה/וייטנאם ווייטנאם/האנוי)

איור 4. הטמעות יכולות לייצר אנלוגיות מדהימות.

מרחב משמעותי כזה מאפשר למערכת הלמידה החישובית לזהות הזדמנויות שעשויות לעזור במשימת הלמידה.

כיווץ הרשת

אנחנו רוצים שמקודדים מספיק קשרים סמנטיים, אבל אנחנו רוצים גם שטח הטמעה קטן מספיק שיאפשר לנו לאמן את המערכת מהר יותר. הטמעה שימושית יכולה להיות בסדר גודל של מאות מאפיינים. סביר להניח שסדר גודל מסוים נמוך מהגודל של אוצר המילים שלכם למשימת שפה טבעית.