מהו מודל שפה?
מודל שפה הערכה של ההסתברות של אסימון או רצף של אסימונים שמתרחשים ברצף ארוך יותר של אסימונים. אסימון יכול להיות מילה, מילה משנה (קבוצת משנה של מילה) או אפילו תו יחיד.
נבחן את המשפט הבא ואת האסימונים שעשויים להשלים אותו:
When I hear rain on my roof, I _______ in my kitchen.
מודל שפה קובע את ההסתברויות של אסימונים שונים או של רצפי אסימונים שונים שיכולים להשלים את המקום הריק. לדוגמה, בטבלת ההסתברויות הבאה מפורטים כמה אסימונים אפשריים וההסתברויות שלהם:
Probability | טוקנים |
---|---|
9.4% | לבשל מרק |
5.2% | חימום קומקום |
3.6% | פחזנית |
2.5% | לנמנם |
2.2% | מנוחה |
במצבים מסוימים, רצף האסימונים יכול להיות משפט שלם, או אפילו מאמר שלם.
אפליקציה יכולה להשתמש בטבלת ההסתברות כדי ליצור תחזיות. החיזוי עשוי להיות בעל הסבירות הגבוהה ביותר (לדוגמה, 'בישול מרק') או בחירה אקראית מתוך אסימונים שיש להם הסתברות גדולה יותר מערך מסוים לסף מינימום.
הערכת ההסתברות למילוי החסר ברצף טקסט: לבצע משימות מורכבות יותר, כולל:
- יצירת טקסט.
- תרגום טקסט משפה אחת לשפה אחרת.
- סיכום מסמכים.
על ידי בניית מודלים של הדפוסים הסטטיסטיים של האסימונים, מודלים מודרניים של שפה מפתחים ייצוגים פנימיים חזקים מאוד של שפה, ויכולים ליצור שפה סבירה.
מודלים של שפה (N-gram)
N-grams הם רצפים מסודרים של מילים המשמשים ליצירת מודלים של שפה, כאשר N הוא מספר המילים ברצף. לדוגמה, כש-N הוא 2, ה-n-gram נקרא 2-gram (או bigram). כש-N הוא 5, ה-n-gram נקרא 5-gram. תוך התחשבות בביטוי הבא במסמך אימון:
you are very nice
2 הגרם שמתקבל הוא:
- את/ה
- מאוד
- נחמד מאוד
כשהערך של N הוא 3, ה-N-gram נקרא 3-gram trigram). בהינתן אותו ביטוי, כתוצאה מ-3 גרם:
- תודה רבה
- הם מאוד נחמדים
כשנותנים למודל שפה שני מילים כקלט, הוא יכול לחזות את הסבירות של המילה השלישית על סמך 3-grams. לדוגמה, בהתאם לשתי המילים הבאות:
orange is
מודל שפה בוחן את כל 3 הגרם שנגזר מהאימון שלו
קורפוס שמתחיל ב-orange is
כדי לקבוע את המילה השלישית בסבירות הגבוהה ביותר.
מאות 3 גרם יכולות להתחיל בשתי המילים orange is
, אבל אפשר
להתמקד אך ורק בשתי האפשרויות הבאות:
orange is ripe orange is cheerful
האפשרות הראשונה (orange is ripe
) מתייחסת לפרי תפוז, והאפשרות השנייה (orange is cheerful
) מתייחסת לצבע כתום.
הקשר
בני אדם יכולים לשמור הקשרים ארוכים יחסית. בזמן הצפייה במשחק השלישי בהצגה, אתם לשמור על ידע לגבי תווים שנוספו בחוק 1. באופן דומה, קטע מצחיק בבדיחה ארוכה כי אפשר לזכור את ההקשר מהבדיחה.
במודלים לזיהוי שפה, הקשר הוא מידע שימושי לפני או אחרי אסימון היעד. הקשר יכול לעזור למודל שפה לקבוע אם 'כתום' מתייחס לפרי הדר או לצבע.
ההקשר יכול לעזור למודל שפה לבצע חיזויים טובים יותר, אבל
3 גרם מספיק כדי לתת הקשר? למרבה הצער, ההקשר היחיד הוא 3 גרם
היא שתי המילים הראשונות. לדוגמה, שתי המילים orange is
לא מספקות מספיק הֶקשר למודל השפה כדי לחזות את המילה השלישית.
בגלל חוסר הקשר, מודלים של שפה שמבוססים על טריגרמות (3-grams) עושים הרבה שגיאות.
ודאי ש-n-grams ארוכים יותר מספקים יותר הקשר מאשר n-grams קצרים יותר. עם זאת, ככל ש-N גדול יותר, כך פוחת המופע היחסי של כל מכונה. כאשר N גדולה מאוד, למודל השפה בדרך כלל יש רק כל אירוע של N אסימונים, והוא לא מאוד מועיל חיזוי של אסימון היעד.
רשתות נוירונים חוזרות
נוירונים חוזרים רשתות מספקים יותר הקשר מאשר עם מספרי N-gram. רשת נוירונים חוזרת היא סוג של רשת נוירונים שמתאמן על רצף של אסימונים. לדוגמה, רשת נוירונים חוזרת יכולה לאט לאט ללמוד (וללמוד להתעלם) מהקשר שנבחר מכל מילה במשפט, בדומה לאופן שבו אתם עושים זאת כשאתם מקשיבים למישהו מדבר. רשת נוירונים חוזרת גדולה יכולה לקבל הקשר ממעבר של מספר משפטים.
רשתות נוירונים חוזרות לומדות יותר הקשר מאשר מודלים של n-grams, אבל עדיין יש מגבלה יחסית על כמות ההקשר השימושי שאפשר להסיק מהן. רשתות נוירונים חוזרות מעריכות מידע "אסימון אחרי אסימון". לעומת זאת, מודלים גדולים של שפה – הנושא - יכול להעריך את כל ההקשר בבת אחת.
שימו לב שאימון של רשתות נוירונים חוזרות בהקשרים ארוכים מוגבל על ידי ההדרגתיות הנעלמת ?
תרגיל: בדקו את ההבנה שלכם
- מודל שפה שמבוסס על 6-ג'רים
- מודל שפה שמבוסס על 5 גרם