דף זה תורגם על ידי Cloud Translation API.

מילון מונחים ללמידת מכונה: עקרונות בסיסיים של למידת מכונה

הדף הזה מכיל מונחים ממילון 'יסודות ה-ML'. כאן מפורטות כל ההגדרות במילון.

A

דיוק

#fundamentals

#Metric

מספר התחזיות של הסיווג הנכון חלקי מספר התחזיות הכולל. כלומר:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

לדוגמה, מודל שהניב 40 תחזיות נכונות ו-10 תחזיות שגויות יהיה בעל רמת דיוק של:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

סיווג בינארי מספק שמות ספציפיים לקטגוריות השונות של תחזיות נכונות ותחזיות שגויות. לכן, הנוסחה של הדיוק בסיווג בינארי היא:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

כאשר:

TP הוא מספר החיוביים האמיתיים (תחזיות נכונות).
TN הוא מספר החיזויים השליליים האמיתיים (חיזויים נכונים).
FP הוא מספר התוצאות החיוביות השגויות (תחזיות שגויות).
FN הוא מספר התוצאות השליליות השגויות (תחזיות שגויות).

השוו בין הדיוק לבין הדיוק והחזר.

לוחצים על הסמל כדי לקבל פרטים על הדיוק ועל מערכי נתונים עם אי-איזון בין הקטגוריות.

המדד הזה חשוב במצבים מסוימים, אבל הוא מטעה מאוד במצבים אחרים. חשוב לציין שהדיוק הוא בדרך כלל מדד לא טוב להערכת מודלים של סיווג שעומדים בפני מערכי נתונים עם חוסר איזון בין הקטגוריות.

לדוגמה, נניח שבעיר מסוימת באזור הסובטרופי יורד שלג רק 25 ימים במאה. מכיוון שמספר הימים ללא שלג (הקבוצה השלילית) גדול בהרבה ממספר הימים עם שלג (הקבוצה החיובית), מערך הנתונים של נתוני השלג בעיר הזו לא מאוזן מבחינת הקבוצות. נניח שיש לכם מודל סיווג בינארי שאמור לחזות אם ירד שלג או לא ירד שלג בכל יום, אבל הוא פשוט חוזה 'לא ירד שלג' בכל יום. המודל הזה מדויק מאוד, אבל אין לו יכולת חיזוי. בטבלה הבאה מפורט סיכום של התוצאות של מאה שנים של תחזיות:

קטגוריה	מספר
TP	0
TN	36499
FP	0
FN	25

לכן, רמת הדיוק של המודל הזה היא:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

למרות שדיוק של 99.93% נראה אחוז מרשים מאוד, למעשה אין למודל יכולת חיזוי.

בדרך כלל, המדדים דיוק והחזר שימושיים יותר מדיוק להערכת מודלים שהוכשרו על מערכי נתונים עם חוסר איזון בין הכיתות.

למידע נוסף, אפשר לעיין בקטע סיווג: דיוק, זיכרון, רמת דיוק ומדדים קשורים במדריך למתחילים בנושא למידת מכונה.

פונקציית הפעלה

#fundamentals

פונקציה שמאפשרת לרשתות נוירונים ללמוד יחסים לא ליניאריים (מורכבים) בין המאפיינים לבין התווית.

פונקציות הפעלה פופולריות כוללות:

ReLU
Sigmoid

התרשימים של פונקציות ההפעלה אף פעם לא הם קווים ישרים בודדים. לדוגמה, התרשים של פונקציית ההפעלה ReLU מורכב משני קווים ישרים:

תרשים קרטוזי של שתי שורות. לשורה הראשונה יש ערך y קבוע של 0, שפועל לאורך ציר ה-x מ--infinity,0 עד 0,-0.
השורה השנייה מתחילה ב-0,0. לשיפוע של הקו הזה יש ערך +1, ולכן הוא עובר מ-0,0 ל-+infinity,+infinity.

תרשים של פונקציית ההפעלה הסיגמואידית נראה כך:

תרשים עקומה דו-מימדי עם ערכי x שנעים בין אינסוף שלילי לבין חיובי, וערכי y שנעים בין כמעט 0 לבין כמעט 1. כש-x הוא 0, הערך של y הוא 0.5. השיפוע של העקומה הוא תמיד חיובי, עם השיפוע הגבוה ביותר ב-0,0.5 ושיפועים הולכים ופוחתים ככל שהערך המוחלט של x עולה.

לוחצים על הסמל כדי לראות דוגמה.

ברשתות נוירונים, פונקציות ההפעלה מבצעות מניפולציה על הסכום המשוקל של כל הקלט לנוירון. כדי לחשב סכום משוקלל, הנוירון מוסיף את המכפלות של הערכים והמשקלים הרלוונטיים. לדוגמה, נניח שהקלט הרלוונטי לנוירון מורכב מהפרטים הבאים:

ערך קלט	משקל הקלט
2	-1.3
-1	0.6
3	0.4

לכן, הסכום המשוקלל הוא:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

נניח שהמעצב של הרשת העצבית הזו בחר בפונקציית סיגמויד כפונקציית ההפעלה. במקרה כזה, הנוירון מחשב את הפונקציה הסיגמואידית של -2.0, שהיא בערך 0.12. לכן, הנוירון מעביר את הערך 0.12 (במקום -2.0) לשכבה הבאה ברשת העצבית. בתרשים הבא מוצג החלק הרלוונטי בתהליך:

מידע נוסף זמין בקטע Neural networks: Activation functions בקורס המזורז בנושא למידת מכונה.

לגבי בינה מלאכותית,

#fundamentals

תוכנית או מודל לא אנושיים שיכולים לפתור משימות מורכבות. לדוגמה, תוכנה או מודל שמתרגמים טקסט, או תוכנה או מודל שמזהים מחלות מתמונות רדיולוגיות, הם דוגמאות לשימוש בבינה מלאכותית.

באופן רשמי, למידת מכונה היא תחום משנה של בינה מלאכותית. עם זאת, בשנים האחרונות ארגונים מסוימים התחילו להשתמש במונחים בינה מלאכותית ולמידת מכונה באופן חלופי.

AUC (השטח מתחת לעקומת ROC)

#fundamentals

#Metric

מספר בין 0.0 ל-1.0 שמייצג את היכולת של מודל סיווג בינארי להפריד בין כיתות חיוביות לבין כיתות שליליות. ככל ש-AUC קרוב יותר ל-1.0, כך יכולת המודל להפריד בין הכיתות טובה יותר.

לדוגמה, באיור הבא מוצג מודל סיווג שמפריד בצורה מושלמת בין כיתות חיוביות (אליפסות ירוקות) לכיתות שליליות (ריבועים סגולים). המודל המושלם הלא ריאליסטי הזה כולל AUC של 1.0:

קו מספרים עם 8 דוגמאות חיוביות בצד אחד ו-9 דוגמאות שליליות בצד השני.

לעומת זאת, באיור הבא מוצגות התוצאות של מודל סיווג שיצר תוצאות אקראיות. ערך AUC של המודל הזה הוא 0.5:

קו מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
רצף הדוגמאות הוא חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי, שלילי.

כן, ערך AUC של המודל הקודם הוא 0.5 ולא 0.0.

רוב המודלים נמצאים במקום כלשהו בין שני הקצוות. לדוגמה, המודל הבא מפריד בין תוצאות חיוביות לשליליות באופן חלקי, ולכן ערך ה-AUC שלו הוא בין 0.5 ל-1.0:

קו מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
רצף הדוגמאות הוא שלילי, שלילי, שלילי, שלילי,
חיובי, שלילי, חיובי, חיובי, שלילי, חיובי, חיובי,
חיובי.

פונקציית AUC מתעלמת מכל ערך שתגדירו לסף הסיווג. במקום זאת, AUC מתייחס לכל ערכי הסף האפשריים לסיווג.

לוחצים על הסמל כדי לקרוא מידע על הקשר בין עקומות AUC ו-ROC.

AUC מייצג את השטח מתחת לעקומת ROC. לדוגמה, עקומת ROC של מודל שמפריד בצורה מושלמת בין תוצאות חיוביות לשליליות נראית כך:

AUC הוא האזור של האזור האפור באיור הקודם. במקרה החריג הזה, השטח הוא פשוט האורך של האזור האפור (1.0) כפול רוחב האזור האפור (1.0). לכן, המכפלה של 1.0 ב-1.0 מניבה AUC של 1.0 בדיוק, שהוא הציון הגבוה ביותר האפשרי של AUC.

לעומת זאת, עקומת ROC של מודל סיווג שלא יכול להפריד בין כיתות בכלל נראית כך. שטח האזור האפור הזה הוא 0.5.

עקומת ROC אופיינית יותר נראית בערך כך:

חישוב השטח מתחת לעקומה הזו באופן ידני הוא תהליך מייגע, ולכן בדרך כלל תוכנה מחשבת את רוב ערכי AUC.

לוחצים על הסמל כדי לקבל הגדרה רשמית יותר של AUC.

AUC הוא ההסתברות שמודל סיווג יהיה בטוח יותר שדוגמה חיובית שנבחרה באופן אקראי היא אכן חיובית, מאשר שדוגמה שלילית שנבחרה באופן אקראי היא חיובית.

למידע נוסף, ראו סיווג: ROC ו-AUC בקורס המקוצר בנושא למידת מכונה.

B

חזרה לאחור (backpropagation)

#fundamentals

האלגוריתם שמטמיע את ירידה בגרדינט ברשתות נוירונים.

אימון של רשת נוירונים כרוך בהרבה חזרות של המחזור הבא בשני שלבים:

במהלך העברה קדימה, המערכת מעבדת קבוצה של דוגמאות כדי להפיק חיזויים. המערכת משווה כל תחזית לכל ערך של תווית. ההפרש בין התחזית לערך התווית הוא האובדן לדוגמה הזו. המערכת אוספת את ההפסדים של כל הדוגמאות כדי לחשב את ההפסד הכולל של האצווה הנוכחית.
במהלך החזרה לאחור (backpropagation), המערכת מפחיתה את האובדן על ידי התאמת המשקלים של כל הנוירונים בכל השכבות המוסתרות.

רשתות נוירונים מכילות לעיתים קרובות הרבה נוירונים בשכבות רבות מוסתרות. כל אחד מהנוירונים האלה תורם להפסד הכולל בדרכים שונות. התפשטות לאחור קובעת אם להגדיל או להקטין את המשקלים שחלים על תאי עצב מסוימים.

שיעור הלמידה הוא מכפיל שקובע את מידת העלייה או הירידה של כל משקל בכל מעבר לאחור. שיעור למידה גבוה יגדיל או יקטין כל משקל יותר מאשר שיעור למידה נמוך.

במונחי חשבון, החזרה לאחור מיישמת את כלל השרשרת. כלומר, חזרה לאחור מחשבת את הנגזרת החלוקה של השגיאה בנוגע לכל פרמטר.

לפני שנים, מומחי למידת מכונה נאלצו לכתוב קוד כדי להטמיע חזרה לאחור. ממשקי API מודרניים של למידת מכונה כמו Keras מטמיעים עכשיו עבורכם חזרה לאחור (backpropagation). סוף סוף!

מידע נוסף זמין בקטע רשתות נוירונליות בקורס המקוצר על למידת מכונה.

אצווה

#fundamentals

קבוצת הדוגמאות שנעשה בהן שימוש במחזור אחד של אימון. גודל האצווה קובע את מספר הדוגמאות באצווה.

בקטע epoch מוסבר איך קבוצה קשורה ל-epoch.

מידע נוסף זמין בקטע רגרסיה לינארית: היפר-פרמטרים בקורס המקוצר בנושא למידת מכונה.

גודל אצווה

#fundamentals

מספר הדוגמאות בקבוצה. לדוגמה, אם גודל האצווה הוא 100, המערכת מעבדת 100 דוגמאות לכל מחזור.

אלה השיטות הפופולריות לבחירת גודל האצווה:

Stochastic Gradient Descent‏ (SGD), שבה גודל האצווה הוא 1.
קבוצה מלאה, שבה גודל הקבוצה הוא מספר הדוגמאות בכל קבוצת האימון. לדוגמה, אם קבוצת האימון מכילה מיליון דוגמאות, גודל האצווה יהיה מיליון דוגמאות. בדרך כלל, שיטת 'קבוצה מלאה' היא לא יעילה.
מיני-באצ', שבהם גודל הקבוצה הוא בדרך כלל בין 10 ל-1,000. בדרך כלל, שיטת ה-mini-batch היא היעילה ביותר.

מידע נוסף זמין במאמרים הבאים:

מערכות למידת מכונה בסביבת ייצור: יצירת מסקנות סטטיות לעומת דינמיות בקורס המקוצר על למידת מכונה.
Deep Learning Tuning Playbook

הטיה (אתיקה/הוגנות)

#responsible

#fundamentals

1. יצירת קלישאות, דעות קדומות או העדפה של דברים, אנשים או קבוצות מסוימים על פני אחרים. ההטיות האלה יכולות להשפיע על איסוף הנתונים ועל הפרשתם, על תכנון המערכת ועל האופן שבו המשתמשים מקיימים אינטראקציה עם המערכת. דוגמאות לסוג הזה של הטיה:

2. שגיאה שיטתית שנובעת מפרוצדורה של דגימה או דיווח. דוגמאות לסוג הזה של הטיה:

חשוב לא להתבלבל עם מונח ההטיה במודלים של למידת מכונה או עם הטיית החיזוי.

למידע נוסף, ראו צדק: סוגי הטיות במדריך למתחילים בנושא למידת מכונה.

הטיה (מתמטית) או מונח הטיה

#fundamentals

ציר או סטייה ממקור. הטיה היא פרמטר במודלים של למידת מכונה, שמסמלים אותו באחת מהאפשרויות הבאות:

b
w₀

לדוגמה, ההטיה היא הערך b בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

בקווים דו-ממדיים פשוטים, הטיה היא פשוט 'נקודת הצטלבות עם ציר y'. לדוגמה, ההטיה של הקו באיור הבא היא 2.

התרשים של קו עם שיפוע של 0.5 וסטייה (נקודת המפגש של הקו עם ציר y) של 2.

הטיה קיימת כי לא כל המודלים מתחילים בנקודת המוצא (0,0). לדוגמה, נניח שהכניסה לפארק שעשועים עולה 2 אירו ועוד 0.5 אירו לכל שעה שהלקוח שוהה בפארק. לכן, לדגם שממפה את העלות הכוללת יש הטיה של 2, כי העלות הנמוכה ביותר היא 2 אירו.

חשוב לא להתבלבל בין הטיה לבין הטיה מבחינה אתית והוגנת או הטיה בתחזית.

מידע נוסף זמין בקטע רגרסיה לינארית בקורס המקוצר על למידת מכונה.

סיווג בינארי

#fundamentals

סוג של משימה של סיווג שמטרתה לחזות אחת משתי קטגוריות בלתי ניתנות להפרדה:

הקלאס החיובי
הקלאס השלילי

לדוגמה, שני המודלים הבאים של למידת מכונה מבצעים כל אחד סיווג בינארי:

מודל שקובע אם הודעות אימייל הן ספאם (הקלאס החיובי) או לא ספאם (הקלאס השלילי).
מודל שמעריך סימפטומים רפואיים כדי לקבוע אם לאדם יש מחלה מסוימת (הסיווג החיובי) או שאין לו אותה מחלה (הסיווג השלילי).

בניגוד לסיווג של כמה מחלקות.

אפשר לעיין גם במאמרים רגרסיה לוגיסטית וסף סיווג.

למידע נוסף, אפשר לעיין בקטע סיווג בקורס המקוצר על למידת מכונה.

bucketing

#fundamentals

המרת מאפיין יחיד למספר מאפיינים בינאריים שנקראים קטגוריות או קטגוריות משנה, בדרך כלל על סמך טווח ערכים. התכונה החתוכה היא בדרך כלל תכונה רציפה.

לדוגמה, במקום לייצג את הטמפרטורה כמאפיין יחיד רצוף של נקודה צפה, אפשר לפצל טווחי טמפרטורות לקטגוריות נפרדות, כמו:

קטגוריית 'קר' תהיה קטגוריה עם הטמפרטורה<= 10 מעלות צלזיוס.
11 עד 24 מעלות צלזיוס ייכללו בקטגוריה 'מזג אוויר נוח'.
'חם': 25 מעלות צלזיוס ומעלה.

המודל יתייחס לכל ערך באותו קטגוריה באופן זהה. לדוגמה, הערכים 13 ו-22 נמצאים בקטגוריה 'אקלים ממוזג', ולכן המודל מתייחס לשני הערכים באופן זהה.

לוחצים על הסמל כדי להוסיף הערות.

אם מייצגים את הטמפרטורה כמאפיין רציף, המערכת מתייחסת לטמפרטורה כמאפיין יחיד. אם מייצגים את הטמפרטורה בתור שלושה קטגוריות, המודל מתייחס לכל קטגוריה כאל מאפיין נפרד. כלומר, מודל יכול ללמוד קשרים נפרדים של כל קטגוריה לתווית. לדוגמה, מודל רגרסיה לינארית יכול ללמוד משקלים נפרדים לכל קטגוריה.

הגדלת מספר הקטגוריות מסבכת את המודל כי היא מגדילה את מספר היחסים שהמודל צריך ללמוד. לדוגמה, הקטגוריות 'קר', 'חמים' ו'חמים מאוד' הן למעשה שלושה מאפיינים נפרדים לאימון המודל. אם תחליטו להוסיף עוד שני קטגוריות – למשל, 'הקפאה' ו'חם' – תצטרכו לאמן את המודל על חמישה מאפיינים נפרדים.

איך יודעים כמה קטגוריות צריך ליצור או מהם טווחי הערכים של כל קטגוריה? בדרך כלל, כדי למצוא את התשובות צריך לבצע ניסויים רבים.

למידע נוסף, ראו נתונים מספריים: חלוקה לקבוצות בקורס המקוצר בנושא למידת מכונה.

C

נתונים קטגוריאליים

#fundamentals

מאפיינים שיש להם קבוצה ספציפית של ערכים אפשריים. לדוגמה, נניח שיש מאפיין קטגוריאלי בשם traffic-light-state, שיכול לקבל רק אחד משלושת הערכים האפשריים הבאים:

red
yellow
green

כשמייצגים את המאפיין traffic-light-state כמאפיין קטגוריאלי, המודל יכול ללמוד את ההשפעות השונות של red,‏ green ו-yellow על התנהגות הנהגים.

לפעמים תכונות קטגוריות נקראות תכונות בדידות.

בניגוד לנתונים מספריים.

מידע נוסף זמין בקטע עבודה עם נתונים שמחולקים לקטגוריות בקורס המקוצר על למידת מכונה.

כיתה

#fundamentals

קטגוריה שתווית יכולה להשתייך אליה. לדוגמה:

במודל סיווג בינארי שמזהה ספאם, שתי הקטגוריות יכולות להיות ספאם ולא ספאם.
במודל של סיווג בכמה כיתות שמזהה גזעי כלבים, הכיתות יכולות להיות פודל, ביגל, מולוס וכו'.

מודל סיווג חוזה את הכיתה. לעומת זאת, מודל רגרסיה מנבא מספר ולא סיווג.

למידע נוסף, אפשר לעיין בקטע סיווג בקורס המקוצר על למידת מכונה.

מודל סיווג

#fundamentals

מודל שהחיזוי שלו הוא מחלקה. לדוגמה, אלה כולם מודלים של סיווג:

מודל לחיזוי השפה של משפט קלט (צרפתית? ספרדית? איטלקית?).
מודל לחיזוי של מיני עצים (אדר? אלון? באובב?).
מודל שמתאר את הסבירות לקבלת תוצאה חיובית או שלילית לגבי מצב רפואי מסוים.

לעומת זאת, מודלים של רגרסיה צופים מספרים ולא כיתות.

שני סוגים נפוצים של מודלים של סיווג הם:

סיווג בינארי
סיווג בכמה כיתות

סף סיווג (classification threshold)

#fundamentals

בסיווג בינארי, מספר בין 0 ל-1 שממיר את הפלט הגולמי של מודל רגרסיה לוגיסטית לחיזוי של הקבוצה החיובית או של הקבוצה השלילית. חשוב לזכור שסף הסיווג הוא ערך שבני אדם בוחרים, ולא ערך שנבחר על ידי אימון המודל.

מודל רגרסיה לוגיסטית מניב ערך גולמי בין 0 ל-1. לאחר מכן:

אם הערך הגולמי הזה גדול מסף הסיווג, המערכת תחזה את הכיתה החיובית.
אם הערך הגולמי הזה קטן מערך הסף לסיווג, תתבצע חיזוי של הכיתה השלילית.

לדוגמה, נניח שסף הסיווג הוא 0.8. אם הערך הגולמי הוא 0.9, המודל חוזה את הכיתה החיובית. אם הערך הגולמי הוא 0.7, המודל מנבא את הכיתה השלילית.

הבחירה של סף הסיווג משפיעה מאוד על מספר התוצאות החיוביות הכוזבות ועל מספר התוצאות השליליות הכוזבות.

לוחצים על הסמל כדי להוסיף הערות.

ככל שהמודלים או מערכי הנתונים מתפתחים, מהנדסים משנים לפעמים גם את ערך הסף לסיווג. כשסף הסיווג משתנה, תחזיות של כיתות חיוביות יכולות להפוך פתאום לכיתות שליליות ולהפך.

לדוגמה, מודל סיווג בינארי לחיזוי מחלות. נניח שבשנה הראשונה של הפעלת המערכת:

הערך הגולמי של חולה מסוים הוא 0.95.
סף הסיווג הוא 0.94.

לכן, המערכת מאבחנת את הכיתה החיובית. (המטופל נאנח, "אוי לא! I'm sick!")

שנה לאחר מכן, יכול להיות שהערכים ייראו כך:

הערך הגולמי של אותו חולה נשאר 0.95.
ערך הסף לסיווג משתנה ל-0.97.

לכן, המערכת מסווגת מחדש את המטופל הזה ככיתה השלילית. ("יום שמח! אני לא חולה"). אותו מטופל. אבחון שונה.

מידע נוסף זמין בקטע סף וערכי מטריצת הבלבול בקורס המקוצר בנושא למידת מכונה.

מסווג

#fundamentals

מונח לא רשמי למודל סיווג.

מערך נתונים עם אי-איזון בין הכיתות

#fundamentals

מערך נתונים לבעיית סיווג שבה המספר הכולל של תוויות בכל סיווג שונה באופן משמעותי. לדוגמה, נניח שיש מערך נתונים של סיווג בינארי, ושתי התוויות שלו מחולקות באופן הבא:

1,000,000 תוויות שליליות
10 תוויות חיוביות

היחס בין תוויות שליליות לתוויות חיוביות הוא 100,000 ל-1, כך שמדובר במערך נתונים עם חוסר איזון בין הכיתות.

לעומת זאת, מערך הנתונים הבא לא לא מאוזן מבחינת סיווג כי היחס בין תוויות שליליות לתוויות חיוביות קרוב ל-1:

517 תוויות שליליות
483 תוויות חיוביות

גם מערכי נתונים עם כמה סיווגים יכולים להיות לא מאוזנים מבחינת הסיווגים. לדוגמה, מערך הנתונים הבא של סיווג בכמה כיתות גם הוא לא מאוזן מבחינת הכיתות, כי לתוויות אחת יש הרבה יותר דוגמאות מאשר לשתי האחרות:

1,000,000 תוויות עם הכיתה 'ירוק'
200 תוויות עם הכיתה 'purple'
350 תוויות עם הכיתה 'כתום'

אפשר לעיין גם במאמרים בנושא אנטרופיה, הקבוצה הגדולה יותר והקבוצה הקטנה יותר.

חיתוך

#fundamentals

טכניקה לטיפול בחריגים באמצעות אחת מהפעולות הבאות או שתיהן:

הפחתת הערכים של המאפיין שגדולים מסף מקסימלי עד לסף המקסימלי.
הגדלת ערכי המאפיינים שקטנים מסף מינימלי עד לסף המינימלי הזה.

לדוגמה, נניח שפחות מ-0.5% מהערכים של מאפיין מסוים נמצאים מחוץ לטווח 40 עד 60. במקרה כזה, תוכלו לבצע את הפעולות הבאות:

חיסור של כל הערכים שמעל 60 (הסף המקסימלי) כך שהם יהיו בדיוק 60.
כל הערכים שקטנים מ-40 (הסף המינימלי) יקוצצו לערך 40.

ערכים חריגים עלולים לפגוע במודלים, ולפעמים לגרום למשקלים לחרוג מטווח הערכים שלהם במהלך האימון. ערכים חריגים מסוימים יכולים גם לפגוע באופן משמעותי במדדים כמו דיוק. חיתוך הוא שיטה נפוצה להגבלת הנזק.

חיתוך שיפועים מאלץ את הערכים של השיפוע להישאר בטווח שנקבע במהלך האימון.

מידע נוסף זמין בקטע נתונים מספריים: נורמליזציה במדריך למתחילים בנושא למידת מכונה.

מטריצת בלבול

#fundamentals

טבלה בגודל NxN שמסכמת את מספר התחזיות הנכונות והשגויות של מודל הסיווג. לדוגמה, שימו לב למטריית הבלבול הבאה של מודל סיווג בינארי:

	גידול (חזוי)	ללא גידול (חזוי)
גידול (ערכי סף)	18 (TP)	1 (FN)
ללא גידול (ערכי סף)	6 (FP)	452 (TN)

במטריית הבלבול שלמעלה מוצגים הנתונים הבאים:

מתוך 19 התחזיות שבהן העובדה המוכחת הייתה 'גידול', המודל סיווג בצורה נכונה 18 תחזיות וסיווג בצורה שגויה תחזית אחת.
מתוך 458 התחזיות שבהן האמת בפועל הייתה 'ללא גידול', המודל סיווג בצורה נכונה 452 תחזיות וסיווג בצורה שגויה 6 תחזיות.

מטריצת הבלבול של בעיית סיווג במספר מחלקות יכולה לעזור לכם לזהות דפוסים של שגיאות. לדוגמה, ניקח את מטריצת הבלבול הבאה של מודל סיווג בן 3 סיווגים שמסווג שלושה סוגים שונים של איריס (Virginica,‏ Versicolor ו-Setosa). כשהתשתית האמינה הייתה Virginica, מתוך מטריצת הבלבול עולה שהמודל היה צפוי יותר לחזות בטעות את Versicolor מאשר את Setosa:

	Setosa (חזוי)	Versicolor (חזוי)	Virginica (חזוי)
Setosa (ערכי סף)	88	12	0
Versicolor (ערכי סף)	6	141	7
Virginica (ערכי סף)	2	27	109

דוגמה נוספת: מטריצת בלבול עשויה לחשוף שמודל שהודרן לזיהוי ספרות בכתב יד נוטה לחזות בטעות את המספר 9 במקום 4, או בטעות את המספר 1 במקום 7.

מטריצות בלבול מכילות מספיק מידע כדי לחשב מגוון מדדי ביצועים, כולל רמת הדיוק ורמת החזרה.

תכונה רציפה

#fundamentals

תכונה של נקודה צפה עם טווח אינסופי של ערכים אפשריים, כמו טמפרטורה או משקל.

בניגוד לתכונה בדידה.

התכנסות

#fundamentals

מצב שמגיעים אליו כשהערכים של loss משתנים מעט מאוד או בכלל לא בכל חזרה. לדוגמה, עקומת האובדן הבאה מציעה שצבירת ההסכמה תתרחש אחרי כ-700 חזרות:

תרשים קרטוזי. ציר ה-X הוא אובדן. ציר ה-Y הוא מספר החזרות של האימון. האובדן גבוה מאוד במהלך החזרות הראשונות, אבל הוא יורד בצורה חדה. אחרי כ-100 חזרות, האובדן עדיין יורד, אבל באופן הדרגתי הרבה יותר. אחרי כ-700 חזרות, אובדן הלמידה נשאר יציב.

מודל מתכנס כשאימון נוסף לא משפר אותו.

בלמידת עומק, ערכי האובדן נשארים לפעמים קבועים או כמעט קבועים במשך הרבה חזרות לפני שהם יורדים. במהלך תקופה ארוכה של ערכי אובדן קבועים, יכול להיות שתקבלו תחושה מוטעית של התקרבות.

אפשר לעיין גם במאמר בנושא עצירה מוקדמת.

למידע נוסף, ראו התכנסות של מודלים ועקומות אובדן בקורס המקוצר על למידת מכונה.

D

DataFrame

#fundamentals

סוג נתונים פופולרי ב-pandas שמייצג מערכי נתונים בזיכרון.

DataFrame הוא מקביל לטבלה או לגיליון אלקטרוני. לכל עמודה של DataFrame יש שם (כותרת), וכל שורה מזוהה באמצעות מספר ייחודי.

כל עמודה ב-DataFrame מובנית כמו מערך דו-מימדי, אלא שאפשר להקצות לכל עמודה סוג נתונים משלה.

אפשר לעיין גם בדף העזרה הרשמי של pandas.DataFrame.

קבוצת נתונים

#fundamentals

אוסף של נתונים גולמיים, שמאורגנים בדרך כלל (אבל לא רק) באחד מהפורמטים הבאים:

גיליון אלקטרוני
קובץ בפורמט CSV (ערכים מופרדים בפסיקים)

מודל עמוק

#fundamentals

רשת נוירונים שמכילה יותר משכבה מוסתרת אחת.

מודל עמוק נקרא גם רשת עצבית עמוקה.

בניגוד למודל רחב.

תכונה צפופה

#fundamentals

מאפיין שבו רוב הערכים או כולם שונים מאפס, בדרך כלל Tensor של ערכים בספרות עשרוניות. לדוגמה, הטנזור הבא עם 10 רכיבים הוא צפוף כי 9 מהערכים שלו שונים מאפס:

בניגוד למאפיין דל.

עומק

#fundamentals

הסכום של הגורמים הבאים ברשת נוירונים:

מספר השכבות המוסתרות
מספר שכבות הפלט, בדרך כלל 1
מספר שכבות ההטמעה

לדוגמה, רשת עצבית עם חמש שכבות חבויות ושכבת פלט אחת היא עמוקה ב-6.

שימו לב ששכבת הקלט לא משפיעה על העומק.

תכונה בדידה

#fundamentals

תכונה עם קבוצה סופית של ערכים אפשריים. לדוגמה, מאפיין שערכיו יכולים להיות רק animal (חיה), vegetable (ירק) או mineral (מינרל) הוא מאפיין בדיד (או קטגורי).

בניגוד לתכונה רציפה.

דינמי

#fundamentals

משהו שנעשה לעיתים קרובות או באופן קבוע. המונחים דינמי ובאינטרנט הם מונחים נרדפים בלמידת מכונה. אלה שימושים נפוצים של דינמיות ואונליין בלמידת מכונה:

מודל דינמי (או מודל אונליין) הוא מודל שעובר אימון מחדש בתדירות גבוהה או באופן רציף.
אימון דינמי (או אימון אונליין) הוא תהליך אימון שמתבצע בתדירות גבוהה או באופן רציף.
הסקה דינמית (או הסקה אונליין) היא תהליך יצירת התחזיות על פי דרישה.

מודל דינמי

#fundamentals

מודל שעובר אימון מחדש לעיתים קרובות (ואולי אפילו באופן רציף). מודל דינמי הוא 'לומד לכל החיים' שמתאים את עצמו כל הזמן לנתונים המשתנים. מודל דינמי נקרא גם מודל אונליין.

בניגוד למודל סטטי.

E

הפסקה מוקדמת

#fundamentals

שיטה לסדרת שכוללת סיום של אימון לפני שהירידה בהפסד האימון מסתיימת. כשמשתמשים בעצירה מוקדמת, מפסיקים את אימון המודל בכוונה כשהאובדן במערך נתוני האימות מתחיל לעלות, כלומר כשהביצועים של הכללה נפגעים.

לוחצים על הסמל כדי להוסיף הערות.

עצירה מוקדמת עשויה להיראות לא הגיונית. אחרי הכל, אם תבקשו מהמודל להפסיק את האימון בזמן שהאובדן עדיין יורד, זה יהיה כמו לבקש מהשף להפסיק לבשל לפני שהקינוח מוכן. עם זאת, אימון מודל במשך זמן רב מדי עלול להוביל להתאמה יתר. כלומר, אם מארגנים אימון של מודל למשך זמן ארוך מדי, יכול להיות שהמודל יתאים לנתוני האימון בצורה כה הדוקה עד שהוא לא יבצע חיזויים טובים לגבי דוגמאות חדשות.

שכבת הטמעה

#language

#fundamentals

שכבה מוסתרת מיוחדת שמתאמנה על מאפיין קטגוריאלי בעל ממדים גבוהים, כדי ללמוד בהדרגה וקצב מהיר ווקטור הטמעה בעל ממדים נמוכים יותר. שכבת הטמעה מאפשרת לרשת נוירונים להתאמן בצורה יעילה הרבה יותר מאשר אימון רק על התכונה הקטגורית בעלת המאפיינים הרב-ממדיים.

לדוגמה, נכון לעכשיו יש ב-Earth תמיכה בכ-73,000 מינים של עצים. נניח שסוג העץ הוא מאפיין במודל, כך ששכבת הקלט של המודל כוללת וקטור one-hot באורך 73,000 רכיבים. לדוגמה, יכול להיות ש-baobab יוצג כך:

מערך של 73,000 רכיבים. ב-6,232 הרכיבים הראשונים מופיע הערך 0. הרכיב הבא מכיל את הערך 1. 66,767 האלמנטים האחרונים מכילים את הערך אפס.

מערך של 73,000 רכיבים הוא ארוך מאוד. אם לא מוסיפים שכבת הטמעה למודל, תהליך האימון יהיה מאוד ממושך בגלל הכפלת 72,999 אפסים. אולי תבחרו שכבת הטמעה שתכלול 12 מאפיינים. כתוצאה מכך, שכבת ההטמעה תלמד בהדרגה ווקטור הטמעה חדש לכל מין עץ.

במצבים מסוימים, גיבוב הוא חלופה סבירה לשכבת הטמעה.

מידע נוסף זמין בקטע הטמעות (Embeddings) בקורס המקוצר על למידת מכונה.

תקופה של זמן מערכת

#fundamentals

רצף אימון מלא על כל קבוצת האימון, כך שכל דוגמה עובדה פעם אחת.

תקופת אימון מייצגת חזרות של אימון N/גודל האצווה, כאשר N הוא המספר הכולל של הדוגמאות.

לדוגמה, נניח את הדברים הבאים:

מערך הנתונים מורכב מ-1,000 דוגמאות.
גודל האצווה הוא 50 דוגמאות.

לכן, כדי להשלים עידן אחד נדרשות 20 חזרות:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

מידע נוסף זמין בקטע רגרסיה לינארית: היפר-פרמטרים בקורס המקוצר בנושא למידת מכונה.

דוגמה

#fundamentals

הערכים של שורה אחת של מאפיינים, ואפשר גם של תווית. דוגמאות ללמידה מונחית מתחלקות לשתי קטגוריות כלליות:

דוגמה מתויגת מורכבת מתכונה אחת או יותר ומתווית. דוגמאות מתויגות משמשות במהלך האימון.
דוגמה ללא תווית מורכבת ממאפיין אחד או יותר, אבל ללא תווית. דוגמאות ללא תוויות משמשות במהלך ההסקה.

לדוגמה, נניח שאתם מארגנים אימון של מודל כדי לקבוע את ההשפעה של תנאי מזג האוויר על ציוני התלמידים במבחנים. לפניכם שלוש דוגמאות עם תוויות:

תכונות			תווית
טמפרטורה	לחות	לחץ	ציון הבדיקה
15	47	998	טוב
19	34	1020	מצוינת
18	92	1012	גרועה

לפניכם שלוש דוגמאות ללא תוויות:

טמפרטורה	לחות	לחץ
12	62	1014
21	47	1017
19	41	1021

השורה של מערך נתונים היא בדרך כלל המקור הגולמי לדוגמה. כלומר, דוגמה בדרך כלל מורכבת מקבוצת משנה של העמודות במערך הנתונים. בנוסף, המאפיינים בדוגמה יכולים לכלול גם מאפיינים סינתטיים, כמו מאפיינים משולבים.

מידע נוסף זמין בקטע למידת מכונה מפוקחת בקורס 'מבוא ללמידת מכונה'.

F

תוצאה שלילית שגויה (FN)

#fundamentals

#Metric

דוגמה שבה המודל חוזה בטעות את המחלקה השלילית. לדוגמה, המודל צופה שהודעת אימייל מסוימת לא ספאם (הקבוצה השלילית), אבל ההודעה הזו באמת ספאם.

תוצאה חיובית שגויה (FP)

#fundamentals

#Metric

דוגמה שבה המודל חוזה בטעות את המחלקה החיובית. לדוגמה, המודל צופה שהודעת אימייל מסוימת היא ספאם (הקלאס החיובי), אבל הודעת האימייל הזו בפועל לא ספאם.

מידע נוסף זמין בקטע סף וערכי מטריצת הבלבול בקורס המקוצר בנושא למידת מכונה.

שיעור תוצאות חיוביות שגויות (FPR)

#fundamentals

#Metric

היחס בין דוגמאות שליליות בפועל שהמודל ניבא בטעות את הכיתה החיובית. הנוסחה הבאה מחשבת את שיעור התוצאות החיוביות השגויות:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

שיעור החיובים השקריים הוא ציר ה-x בעקומת ROC.

למידע נוסף, ראו סיווג: ROC ו-AUC בקורס המקוצר בנושא למידת מכונה.

מאפיין

#fundamentals

משתנה קלט של מודל למידת מכונה. דוגמה מורכבת מתכונה אחת או יותר. לדוגמה, נניח שאתם מאומנים מודל כדי לקבוע את ההשפעה של תנאי מזג האוויר על ציוני התלמידים במבחנים. בטבלה הבאה מוצגות שלוש דוגמאות, כל אחת מהן מכילה שלושה מאפיינים ותווית אחת:

תכונות			תווית
טמפרטורה	לחות	לחץ	ציון הבדיקה
15	47	998	92
19	34	1020	84
18	92	1012	87

בניגוד ל-label.

מידע נוסף זמין בקטע למידת מכונה מפוקחת בקורס 'מבוא ללמידת מכונה'.

תכונה

#fundamentals

מאפיין סינתטי שנוצר על ידי 'מיזוג' של מאפיינים קטגוריאליים או מקובצים.

לדוגמה, נניח שיש מודל 'חיזוי מצב רוח' שמייצג את הטמפרטורה באחת מארבעת הקטגוריות הבאות:

freezing
chilly
temperate
warm

והוא מייצג את מהירות הרוח באחד משלושת הקטגוריות הבאות:

still
light
windy

ללא צירופי תכונות, המודל הליניארי לומד בנפרד בכל אחד משבעת הקטגוריות השונות שלמעלה. כך, המודל מתאמן על freezing למשל, בנפרד מהאימון על windy למשל.

לחלופין, אפשר ליצור שילוב של מאפיינים של טמפרטורה ומהירות רוח. למאפיין הסינתטי הזה יהיו 12 הערכים האפשריים הבאים:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

בעזרת צירופי תכונות, המודל יכול ללמוד את ההבדלים במצב הרוח בין יום freezing-windy לבין יום freezing-still.

אם יוצרים מאפיין סינתטי משני מאפיינים שיש לכל אחד מהם הרבה קטגוריות שונות, למאפיין המצטבר שייווצר יהיו מספר עצום של שילובים אפשריים. לדוגמה, אם למאפיין אחד יש 1,000 קטגוריות ולמאפיין השני יש 2,000 קטגוריות, למאפיין המצטבר יהיו 2,000,000 קטגוריות.

באופן רשמי, צלב הוא מכפלה קרטוזיאנית.

בדרך כלל משתמשים במאפיינים משולבים עם מודלים לינאריים, ולעיתים רחוקות משתמשים בהם עם רשתות עצביות.

מידע נוסף זמין בקטע נתונים קטגוריאליים: צירופי מאפיינים בקורס המקוצר בנושא למידת מכונה.

הנדסת פיצ'רים (feature engineering)

#fundamentals

#TensorFlow

תהליך שכולל את השלבים הבאים:

לקבוע אילו תכונות עשויות להיות שימושיות באימון מודל.
המרת נתונים גולמיים ממערך הנתונים לגרסאות יעילות של התכונות האלה.

לדוגמה, יכול להיות שתבחרו להשתמש בתכונה temperature. לאחר מכן, תוכלו להתנסות בחלוקה לקטגוריות כדי לבצע אופטימיזציה של מה שהמודל יכול ללמוד מטווחים שונים של temperature.

לפעמים ההנדסה של המאפיינים נקראת חילוץ מאפיינים או יצירת מאפיינים.

לוחצים על הסמל כדי לראות הערות נוספות על TensorFlow.

ב-TensorFlow, הנדסת תכונות היא לרוב המרה של רשומות בקבצים גולמיים של יומנים למאגרי פרוטוקול של tf.Example. מידע נוסף זמין במאמר tf.Transform.

למידע נוסף, אפשר לעיין בקטע נתונים מספריים: איך מודל מטמיע נתונים באמצעות וקטורים של מאפיינים במדריך למתחילים בנושא למידת מכונה.

קבוצת תכונות

#fundamentals

הקבוצה של המאפיינים שבהם מתבצע אימון של המודל של למידת המכונה. לדוגמה, קבוצת מאפיינים פשוטה של מודל לחיזוי מחירי דיור עשויה לכלול מיקוד, גודל הנכס ומצב הנכס.

וקטור מאפיינים

#fundamentals

המערך של ערכי feature שמרכיבים דוגמה. הווקטור המאפיין מוזן במהלך האימון ובמהלך ההסקה. לדוגמה, וקטור המאפיינים של מודל עם שני מאפיינים נפרדים יכול להיות:

[0.92, 0.56]

ארבע שכבות: שכבת קלט, שתי שכבות סמויות ושכבת פלט אחת.
שכבת הקלט מכילה שני צמתים, אחד מכיל את הערך
0.92 והשני מכיל את הערך 0.56.

כל דוגמה מספקת ערכים שונים לוקטור המאפיינים, כך שוקטור המאפיינים לדוגמה הבאה יכול להיראות כך:

[0.73, 0.49]

הנדסת מאפיינים קובעת איך לייצג את המאפיינים בוקטור המאפיינים. לדוגמה, מאפיין קטגוריאלי בינארי עם חמישה ערכים אפשריים יכול להיות מיוצג באמצעות קידוד one-hot. במקרה כזה, החלק של וקטור המאפיינים לדוגמה מסוימת יהיה מורכב מארבעה אפסים ומערך 1.0 יחיד במיקום השלישי, באופן הבא:

[0.0, 0.0, 1.0, 0.0, 0.0]

דוגמה נוספת: נניח שהמודל מורכב משלושה מאפיינים:

מאפיין קטגוריאלי בינארי עם חמישה ערכים אפשריים שמיוצגים בקידוד 'חם-יחיד' (one-hot). לדוגמה: [0.0, 1.0, 0.0, 0.0, 0.0]
מאפיין קטגורי בינארי נוסף עם שלושה ערכים אפשריים שמיוצגים בקידוד one-hot. לדוגמה: [0.0, 0.0, 1.0]
מאפיין של נקודה צפה (floating-point). לדוגמה: 8.3.

במקרה כזה, וקטור המאפיינים של כל דוגמה יהיה מיוצג על ידי תשעה ערכים. בהתאם לערכים לדוגמה ברשימה הקודמת, וקטור המאפיינים יהיה:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

לולאת משוב

#fundamentals

בלמידת מכונה, מצב שבו התחזיות של מודל משפיעות על נתוני האימון של אותו מודל או של מודל אחר. לדוגמה, מודל שממליץ על סרטים ישפיע על הסרטים שאנשים רואים, והם ישפיעו על מודלים עתידיים של המלצות לסרטים.

למידע נוסף, אפשר לעיין בקטע מערכות למידת מכונה בסביבת ייצור: שאלות שכדאי לשאול במדריך למתחילים בנושא למידת מכונה.

G

הכללה

#fundamentals

היכולת של המודל לבצע חיזויים מדויקים לגבי נתונים חדשים שלא נראו בעבר. מודל שיכול לבצע הכללה הוא ההפך ממודל שמוגדר לפי נתונים ספציפיים מדי.

לוחצים על הסמל כדי להוסיף הערות.

מארגנים את הדוגמאות בקבוצת האימון ומאמנים את המודל. כתוצאה מכך, המודל לומד את המאפיינים המיוחדים של הנתונים בקבוצת האימון. במסגרת הכלליות, השאלה היא אם המודל יכול להפיק תחזיות טובות לגבי דוגמאות שאינן בקבוצת האימון.

כדי לעודד הכללה, סדרת פעולות רגולריזציה עוזרת לאמן מודל בצורה פחות מדויקת בהתאם למאפיינים המיוחדים של הנתונים בקבוצת האימון.

למידע נוסף, אפשר לקרוא את הקטע הכללה בקורס המקוצר על למידת מכונה.

עקומת הכללה

#fundamentals

תרשים של אובדן האימון ושל אובדן האימות כפונקציה של מספר החזרות.

עקומת הכללה יכולה לעזור לכם לזהות התאמה יתר. לדוגמה, עקומת הגנרליזציה הבאה מצביעה על התאמה יתר, כי אובדן האימות הופך בסופו של דבר גבוה משמעותית מאובדן האימון.

תרשים קרטוזיאני שבו ציר ה-Y מסומן בתווית 'אובדן' וציר ה-X מסומן בתווית 'חזרות'. יופיעו שני תרשימים. בתרשים אחד מוצג אובדן האימון ובתרשים השני מוצג אובדן האימות.
שתי התרשימים מתחילים באופן דומה, אבל בסופו של דבר אובדן הלמידה יורד הרבה מתחת לאובדן האימות.

למידע נוסף, אפשר לקרוא את הקטע הכללה בקורס המקוצר על למידת מכונה.

ירידה בגרדינט

#fundamentals

שיטה מתמטית לצמצום הפסד. ירידה בגרדינט מתאימה באופן איטרטיבי את המשקלים ואת ההטיות, ומוצאת בהדרגה את השילוב הטוב ביותר לצמצום האובדן.

ירידה בגרדינט היא שיטה ישנה – הרבה יותר ישנה – מלמידת מכונה.

מידע נוסף זמין בקטע רגרסיה לינארית: ירידה בגרדינט במדריך למתחילים בנושא למידת מכונה.

ערכי סף (ground truth)

#fundamentals

מציאות.

מה שקרה בפועל.

לדוגמה, נניח שיש מודל סיווג בינארי שמנבא אם תלמיד בשנה הראשונה שלו באוניברסיטה יסיים את הלימודים תוך שש שנים. האמת בפועל של המודל הזה היא אם התלמיד או התלמידה סיימו את הלימודים תוך שש שנים.

לוחצים על הסמל כדי להוסיף הערות.

אנחנו בודקים את איכות המודל בהשוואה לעובדות. עם זאת, האמת לא תמיד מוצגת בצורה מלאה. לדוגמה, אלה דוגמאות לפגמים פוטנציאליים בעובדות:

בדוגמה של סיום הלימודים, האם אנחנו בטוחים שתמיד הנתונים על סיום הלימודים של כל תלמיד או תלמידה נכונים? האם רישום הנתונים באוניברסיטה מושלם?
נניח שהתווית היא ערך של נקודה צפה שנמדד באמצעות מכשירים (למשל, ברומטר). איך אפשר לוודא שכל מכשיר מכויל באופן זהה או שכל קריאה נלקחה באותו מצב?
אם התווית היא עניין של דעה אנושית, איך אפשר להיות בטוחים שכל מעריך אנושי מעריך את האירועים באותו אופן? כדי לשפר את העקביות, לפעמים מומחים אנושיים מעורבים בתהליך.

H

שכבה נסתרת

#fundamentals

שכבה ברשת עצבית בין שכבת הקלט (המאפיינים) לבין שכבת הפלט (החיזוי). כל שכבה מוסתרת מורכבת מנוירון אחד או יותר. לדוגמה, רשת העצבים הבאה מכילה שתי שכבות סמויות, הראשונה עם שלושה נוירונים והשנייה עם שני נוירונים:

רשת עצבית עמוקה מכילה יותר משכבה אחת מוסתרת. לדוגמה, האיור הקודם הוא רשת נוירונלית עמוקה כי המודל מכיל שתי שכבות חבויות.

מידע נוסף זמין בקטע רשתות נוירונליות: צמתים ושכבות מוסתרות במסגרת קורס ה-Crash Course בנושא למידת מכונה.

היפר-פרמטר

#fundamentals

המשתנים שאתם או שירות לכוונון היפר-פרמטרים משנים במהלך רצפים של אימון מודל. לדוגמה, שיעור הלמידה הוא היפר-פרמטר. אפשר להגדיר את קצב הלמידה ל-0.01 לפני סשן אימון אחד. אם 0.01 גבוה מדי, תוכלו להגדיר את קצב הלמידה ל-0.003 בסשן האימון הבא.

לעומת זאת, פרמטרים הם המשקלים וההטיות השונים שהמודל לומד במהלך האימון.

מידע נוסף זמין בקטע רגרסיה לינארית: היפר-פרמטרים בקורס המקוצר בנושא למידת מכונה.

I

נתונים בעלי התפלגות עצמאית זהה (i.i.d)

#fundamentals

נתונים שנשלפים מהתפלגות שלא משתנה, ושכל ערך שנשלף לא תלוי בערכים שנשלפו בעבר. נתונים בלתי תלויים זהים הם הגז האידיאלי של למידת המכונה – מבנה מתמטי שימושי, אבל כמעט אף פעם לא נמצא במדויק בעולם האמיתי. לדוגמה, חלוקת המבקרים בדף אינטרנט עשויה להיות בלתי תלויה בחלון זמן קצר. כלומר, החלוקה לא משתנה במהלך החלון הקצר הזה, ובדרך כלל הביקור של אדם אחד לא תלוי בביקורים של אנשים אחרים. עם זאת, אם תרחיבו את חלון הזמן הזה, יכול להיות שיופיעו הבדלים עונתיים במספר המבקרים בדף האינטרנט.

מידע נוסף זמין במאמר בנושא חוסר סטציונריות.

היקש

#fundamentals

בלמידת מכונה, תהליך יצירת חיזויים על ידי החלת מודל מאומן על דוגמאות ללא תוויות.

למושג 'הסקה' יש משמעות שונה במעט בסטטיסטיקה. פרטים נוספים זמינים במאמר בנושא הסקת מסקנות סטטיסטיות בוויקיפדיה.

במאמר למידה מפוקחת בקורס 'מבוא ל-ML' מוסבר מה תפקיד ההסקה במערכת למידה מפוקחת.

שכבת קלט

#fundamentals

השכבה של רשת נוירונים שמכילה את וקטור המאפיינים. כלומר, שכבת הקלט מספקת דוגמאות לאימון או להסקה. לדוגמה, שכבת הקלט ברשת העצבית הבאה מורכבת משתי תכונות:

ארבע שכבות: שכבת קלט, שתי שכבות סמויות ושכבת פלט.

יכולת הפרשנות

#fundamentals

היכולת להסביר או להציג את התובנות של מודל של למידת מכונה במונחים שאנשים יכולים להבין.

לדוגמה, רוב המודלים של רגרסיה לינארית ניתנים לניתוח בקלות רבה. (צריך רק לבדוק את המשקלים המאומנים של כל מאפיין). בנוסף, קל מאוד להבין את יערות ההחלטות. עם זאת, בחלק מהמודלים נדרשת תצוגה חזותית מתוחכמת כדי שאפשר יהיה להבין אותם.

אפשר להשתמש בכלי להסבר על למידת מכונה (LIT) כדי לפרש מודלים של למידת מכונה.

איטרציה

#fundamentals

עדכון יחיד של הפרמטרים של המודל – המשקולות וההטיות של המודל – במהלך האימון. גודל האצווה קובע כמה דוגמאות המודל מעבד בחזרה אחת. לדוגמה, אם גודל האצווה הוא 20, המודל מעבד 20 דוגמאות לפני שהוא משנה את הפרמטרים.

כשמאמנים רשת נוירונים, חזרה אחת כוללת את שני השלבים הבאים:

העברה קדימה (forward pass) כדי להעריך את האובדן בקבוצה אחת.
העברה לאחור (backpropagation) כדי לשנות את הפרמטרים של המודל על סמך האובדן וקצב הלמידה.

מידע נוסף זמין בקטע ירידה בגרדינט בקורס המקוצר על למידת מכונה.

L

רגולריזציה של L₀

#fundamentals

סוג של רגילור שמטיל קנס על המספר הכולל של משקלים שאינם אפס במודל. לדוגמה, מודל עם 11 משקלים שאינם אפס יקבל עונש גבוה יותר מאשר מודל דומה עם 10 משקלים שאינם אפס.

לפעמים קוראים לרגולריזציה מסוג L₀ רגולריזציה לפי נורמלי L0.

לוחצים על הסמל כדי להוסיף הערות.

בדרך כלל לא מעשי להשתמש ברגולריזציה של L₀ במודלים גדולים, כי רגולריזציה של L₀ הופכת את האימון לבעיית אופטימיזציה קונצ'ווקסית.

אובדן L₁

#fundamentals

#Metric

פונקציית אובדן שמחשבת את הערך המוחלט של ההפרש בין הערכים בפועל של התוויות לבין הערכים שהמודל צופה. לדוגמה, זהו החישוב של אובדן L₁ בקבוצה של חמש דוגמאות:

הערך בפועל של הדוגמה	הערך הצפוי של המודל	הערך המוחלט של הדלתה
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = אובדן L₁

אובדן L₁ פחות רגיש לחריגים מאשר אובדן L₂.

השגיאה הממוצעת המוחלטת היא אובדן L₁ הממוצע לכל דוגמה.

לוחצים על הסמל כדי לראות את הנוסחה המתמטית הרשמית.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

כאשר:

n הוא מספר הדוגמאות.
הערך בפועל של התווית הוא $y$.
הערך ש-$\hat{y}$ מנבא ל-y.

למידע נוסף, אפשר לעיין בקטע רגרסיה לינארית: אובדן (loss) במדריך למתחילים בנושא למידת מכונה.

רגולריזציה של L₁

#fundamentals

סוג של רגולריזציה שמטיל קנס על משקלים ביחס לסכום הערך המוחלט של המשקלים. רגולריזציה של L₁ עוזרת להקטין את המשקלים של מאפיינים לא רלוונטיים או כמעט לא רלוונטיים ל-0. תכונה עם משקל של 0 מוסרת בפועל מהמודל.

בניגוד לרגילור של L₂.

אובדן L₂

#fundamentals

#Metric

פונקציית אובדן שמחשבת את בריבוע ההפרש בין הערכים בפועל של התוויות לבין הערכים שהמודל צופה. לדוגמה, זהו החישוב של אובדן L₂ בקבוצה של חמש דוגמאות:

הערך בפועל של הדוגמה	הערך הצפוי של המודל	ריבוע הדלתא
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = הפסד ב-L₂

בגלל הריבועים, אובדן L₂ מגביר את ההשפעה של ערכים חריגים. כלומר, אובדן L₂ מגיב בצורה חזקה יותר לחיזויים גרועים מאשר אובדן L₁. לדוגמה, האובדן ב-L₁ של האצווה הקודמת יהיה 8 במקום 16. שימו לב שערכה חריגה אחת מהווה 9 מתוך 16 הערכים.

במודלים של רגרסיה נעשה בדרך כלל שימוש בפונקציית ההפסד L₂.

השגיאה הריבובית הממוצעת היא אובדן L₂ הממוצע לכל דוגמה. Squared loss הוא שם נוסף ל-L₂ loss.

לוחצים על הסמל כדי לראות את הנוסחה המתמטית הרשמית.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

כאשר:

n הוא מספר הדוגמאות.
הערך בפועל של התווית הוא $y$.
הערך ש-$\hat{y}$ מנבא ל-y.

מידע נוסף זמין בקטע Logistic regression: Loss and regulation במדריך למתחילים בנושא למידת מכונה.

רגולריזציה של L₂

#fundamentals

סוג של סדרה שמענישה את המשקלים ביחס לסכום של הריבועים של המשקלים. רגולריזציה של L₂ עוזרת להביא את המשקלים של ערכים חריגים (אלה עם ערכים חיוביים גבוהים או ערכים שליליים נמוכים) קרוב יותר ל-0, אבל לא ממש ל-0. מאפיינים עם ערכים שקרובים מאוד ל-0 נשארים במודל, אבל הם לא משפיעים הרבה על התחזית של המודל.

תמיד קל יותר להכליל מודלים לינאריים כשמשתמשים ברגולציה L₂.

בניגוד לרגילור L₁.

מידע נוסף זמין בקטע Overfitting: L2 regulation בקורס המקוצר על למידת מכונה.

תווית

#fundamentals

בלמידת מכונה מפוקחת, החלק 'תשובה' או 'תוצאה' בדוגמה.

כל דוגמה מתויגת מורכבת ממאפיין אחד או יותר ומתווית. לדוגמה, במערך נתונים לזיהוי ספאם, התווית תהיה כנראה 'ספאם' או 'לא ספאם'. במערך נתונים של כמות משקעים, התווית עשויה להיות כמות המשקעים שירדה בתקופה מסוימת.

למידע נוסף, אפשר לקרוא את הקטע למידה מפוקחת במאמר 'מבוא ללמידת מכונה'.

דוגמה עם תווית

#fundamentals

דוגמה שמכילה תכונה אחת או יותר ותווית. לדוגמה, בטבלה הבאה מוצגות שלוש דוגמאות עם תוויות ממודל להערכת ערך של בית, כל אחת עם שלוש תכונות ותווית אחת:

מספר חדרי שינה	מספר חדרי האמבטיה	גיל הבית	מחיר הבית (תווית)
3	2	15	345,000$
2	1	72	179,000$
4	2	34	392,000$

בלמידת מכונה בפיקוח, המודלים עוברים אימון על דוגמאות מתויגות ומבצעים חיזויים על דוגמאות לא מתויגות.

השוואה בין דוגמה עם תוויות לבין דוגמאות ללא תוויות.

למידע נוסף, אפשר לקרוא את הקטע למידה מפוקחת במאמר 'מבוא ללמידת מכונה'.

lambda

#fundamentals

שם נרדף ל-שיעור רגולריזציה.

Lambda הוא מונח עם עומס יתר. כאן אנחנו מתמקדים בהגדרת המונח ברגולריזציה.

שכבה

#fundamentals

קבוצה של נוירונים ברשת נוירונים. שלושה סוגים נפוצים של שכבות:

שכבת הקלט, שמספקת ערכים לכל המאפיינים.
שכבה מוסתרת אחת או יותר, שמוצאת יחסי לא לינאריים בין המאפיינים לבין התווית.
שכבת הפלט, שמספקת את החיזוי.

לדוגמה, באיור הבא מוצגת רשת עצבית עם שכבת קלט אחת, שתי שכבות חבויות ושכבת פלט אחת:

רשת עצבית עם שכבת קלט אחת, שתי שכבות סמויות ושכבת פלט אחת. שכבת הקלט מורכבת משתי תכונות. השכבה הראשונה של הנוירון מורכבת משלושה תאי עצב, והשכבה השנייה מורכבת משני תאי עצב. שכבת הפלט מורכבת מצומת יחיד.

ב-TensorFlow, שכבות הן גם פונקציות Python שמקבלות Tensors ואפשרויות הגדרה כקלט, ויוצרות אחרים כפלט.

קצב למידה

#fundamentals

מספר עם נקודה צפה שמציין לאלגוריתם gradient descent את מידת ההתאמה של המשקלים וההטיות בכל חזרה. לדוגמה, שיעור למידה של 0.3 יתאים את המשקלים וההטיות בעוצמה גבוהה פי שלושה מאשר שיעור למידה של 0.1.

קצב הלמידה הוא היפר-פרמטר מרכזי. אם תגדירו את קצב הלמידה נמוך מדי, תהליך האימון יימשך זמן רב מדי. אם מגדירים את קצב הלמידה גבוה מדי, לעיתים קרובות קשה להגיע להתכנסות בירידת המדרון.

לוחצים על הסמל כדי לקבל הסבר מתמטי יותר.

בכל חזרה (iteration), אלגוריתם gradient descent מכפיל את שיעור הלמידה בגרדינט. המוצר שנוצר נקרא שלב שיפוע.

מידע נוסף זמין בקטע רגרסיה לינארית: היפר-פרמטרים בקורס המקוצר בנושא למידת מכונה.

ליניארי

#fundamentals

קשר בין שני משתנים או יותר שאפשר לייצג רק באמצעות חיבור והכפלה.

הגרף של קשר לינארי הוא קו.

בניגוד לnonlinear.

מודל לינארי

#fundamentals

מודל שמקצה משקל אחד לכל מאפיין כדי לבצע חיזויים. (מודלים לינאריים כוללים גם הטיה). לעומת זאת, במודלים עמוקים, הקשר בין המאפיינים לתחזיות הוא בדרך כלל לא לינארי.

בדרך כלל קל יותר לאמן מודלים לינאריים, והם קלים יותר לפרש מאשר מודלים עמוקים. עם זאת, מודלים עמוקים יכולים ללמוד קשרים מורכבים בין תכונות.

רגרסיה לינארית ורגרסיה לוגיסטית הם שני סוגים של מודלים לינאריים.

לוחצים על הסמל כדי לראות את החישוב.

מודל לינארי פועל לפי הנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

כאשר:

y' הוא החיזוי הגולמי. (בסוגי מודלים לינאריים מסוימים, התחזית הגולמית הזו תשתנה עוד יותר. לדוגמה, רגרסיה לוגיסטית.)
b הוא ההטיה.
w הוא משקל, כך ש-w₁ הוא המשקל של המאפיין הראשון, w₂ הוא המשקל של המאפיין השני וכן הלאה.
x הוא מאפיין, כך ש-x₁ הוא הערך של המאפיין הראשון, x₂ הוא הערך של המאפיין השני וכן הלאה.

לדוגמה, נניח שמודל לינארי לשלושה מאפיינים לומד את הטיה ואת המשקלים הבאים:

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

לכן, בהינתן שלוש תכונות (x₁,‏ x₂ ו-x₃), המודל הליניארי משתמש במשוואה הבאה כדי ליצור כל תחזית:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

נניח שדוגמה מסוימת מכילה את הערכים הבאים:

x₁ = 4
x₂ = -10
x₃ = 5

הזנת הערכים האלה בנוסחה מניבה תחזית לדוגמה הזו:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

מודלים לינאריים כוללים לא רק מודלים שמשתמשים רק במשוואה לינארית כדי ליצור תחזיות, אלא גם קבוצה רחבה יותר של מודלים שמשתמשים במשוואה לינארית כרכיב אחד בלבד בנוסחה שמשמשת ליצירת תחזיות. לדוגמה, רגרסיה לוגיסטית מבצעת עיבוד נוסף של התחזית הגולמית (y') כדי ליצור ערך תחזית סופי בין 0 ל-1 בלבד.

רגרסיה לינארית

#fundamentals

סוג של מודל למידת מכונה שבו מתקיימים שני התנאים הבאים:

המודל הוא מודל לינארי.
החיזוי הוא ערך נקודה צפה (floating-point). (זהו החלק של הרגרסיה ברגרסיה לינארית).

השוואה בין רגרסיה לינארית לבין רגרסיה לוגיסטית. כמו כן, כדאי להבדיל בין רגרסיה לבין סיווג.

מידע נוסף זמין בקטע רגרסיה לינארית בקורס המקוצר על למידת מכונה.

רגרסיה לוגיסטית

#fundamentals

סוג של מודל רגרסיה שמנבא את הסבירות. למודלים של רגרסיה לוגיסטית יש את המאפיינים הבאים:

התווית היא קטגוריאלית. המונח רגרסיה לוגיסטית מתייחס בדרך כלל לרגרסיה לוגיסטית בינארית, כלומר למודל שמחשב הסתברויות לתוויות עם שני ערכים אפשריים. וריאנט פחות נפוץ, רגרסיה לוגיסטית פולינומית, מחשב את הסיכויים לתוויות עם יותר משני ערכים אפשריים.
פונקציית האובדן במהלך האימון היא Log Loss. (אפשר להציב כמה יחידות של Log Loss במקביל לתווית עם יותר משני ערכים אפשריים).
למודל יש ארכיטקטורה לינארית, ולא רשת עצבית עמוקה. עם זאת, שאר ההגדרה הזו חלה גם על מודלים עמוקים שמנבאים את ההסתברויות של תוויות קטגוריות.

לדוגמה, נניח שמודל רגרסיה לוגיסטית מחשב את הסבירות של כתובת אימייל להיחשב כספאם או לא כספאם. נניח שבמהלך ההסקה, המודל צופה ערך של 0.72. לכן המודל מעריך את הערכים הבאים:

יש 72% סיכוי שהאימייל הוא ספאם.
יש 28% סיכוי שהאימייל לא ספאם.

מודל רגרסיה לוגיסטית משתמש בארכיטקטורה של שני שלבים:

המודל יוצר חיזוי גולמי (y') על ידי החלת פונקציה לינארית של מאפייני הקלט.
המודל משתמש בחיזוי הגולמי הזה כקלט לפונקציית סיגמויד, שממירה את החיזוי הגולמי לערך בין 0 ל-1, לא כולל.

כמו כל מודל רגרסיה, מודל רגרסיה לוגיסטית מנבא מספר. עם זאת, המספר הזה בדרך כלל הופך לחלק ממודל סיווג בינארי באופן הבא:

אם המספר הצפוי גדול מסף הסיווג, מודל הסיווג הבינארי צופה את הכיתה החיובית.
אם המספר הצפוי קטן מסף הסיווג, מודל הסיווג הבינארי צופה את הכיתה השלילית.

מידע נוסף זמין בקטע רגרסיה לוגיסטית בקורס המקוצר על למידת מכונה.

אובדן נתונים ביומן

#fundamentals

פונקציית ההפסד שמשמשת ברגרסיה לוגיסטית בינארית.

לוחצים על הסמל כדי לראות את החישוב.

הנוסחה הבאה מחשבת את אובדן הנתונים ביומן:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

כאשר:

$(x,y)\in D$ היא מערך הנתונים שמכיל הרבה דוגמאות מתויגות, שהן $(x,y)$ זוגות.
$y$ היא התווית בדוגמה המתויגת. מכיוון שמדובר ברגרסיה לוגיסטית, כל ערך של $y$ חייב להיות 0 או 1.
$y'$ הוא הערך המשוער (בין 0 ל-1, לא כולל), בהתאם לקבוצת המאפיינים ב- $x$.

למידע נוסף, אפשר לקרוא את המאמר רגרסיה לוגיסטית: אובדן ורגולריזציה במסגרת קורס ה-Crash Course בנושא למידת מכונה.

log-odds

#fundamentals

הלוגריתם של ההסתברות של אירוע כלשהו.

לוחצים על הסמל כדי לראות את החישוב.

אם האירוע הוא הסתברות בינארית, הסיכויים מתייחסים ליחס בין ההסתברות להצלחה (p) להסתברות לכישלון (1-p). לדוגמה, נניח שלאירוע מסוים יש הסתברות של 90% להצלחה והסתברות של 10% לכישלון. במקרה כזה, יחס הסיכויים מחושב כך:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

הלוגריתם של השערות הוא פשוט הלוגריתם של השערות. לפי הסכמה, המונח 'לוגריתם' מתייחס ללוגריתם טבעי, אבל למעשה, הלוגריתם יכול להיות כל בסיס שהוא גדול מ-1. בהתאם למוסכמה, לכן ההסתברות הלוגרית לדוגמה שלנו היא:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

פונקציית הלוג-אופס היא הפונקציה ההפוכה של פונקציית הסיגמוייד.

ירידה

#fundamentals

#Metric

במהלך האימון של מודל בפיקוח, מדד למרחק בין התחזית של המודל לבין התווית שלו.

פונקציית אובדן מחשבת את האובדן.

מידע נוסף זמין בקטע רגרסיה לינארית: אובדן (loss) במדריך למתחילים בנושא למידת מכונה.

עקומת אובדן

#fundamentals

תרשים של הפסד כפונקציה של מספר החזרות של האימון. בתרשים הבא מוצגת פונקציית אובדן אופיינית:

תרשים קרטוזי של אובדן לעומת חזרות אימון, שבו מוצג ירידה מהירה באובדן בחזרות הראשונות, ואחריה ירידה הדרגתית ואז שיפוע שטוח במהלך החזרות האחרונות.

בעזרת עקומות אובדן אפשר לקבוע מתי המודל מתכנס או מתאים יותר מדי.

בעזרת עקומות אובדן אפשר להציג גרפית את כל סוגי ההפסדים הבאים:

הפסד באימון
אובדן אימות
אובדן בבדיקה

אפשר לעיין גם במאמר הקו של הגנרליזציה.

למידע נוסף, ראו Overfitting: Interpreting loss curves במדריך למתחילים בנושא למידת מכונה.

פונקציית אובדן

#fundamentals

#Metric

במהלך האימון או הבדיקה, פונקציה מתמטית שמחשבת את האובדן בקבוצה של דוגמאות. פונקציית אובדן מחזירה אובדן נמוך יותר במודלים שמפיקים תחזיות טובות, בהשוואה למודלים שמפיקים תחזיות גרועות.

מטרת האימון היא בדרך כלל למזער את האובדן שפונקציית האובדן מחזירה.

יש סוגים רבים של פונקציות אובדן. בוחרים את פונקציית האובדן המתאימה לסוג המודל שאתם יוצרים. לדוגמה:

אובדן L₂ (או שגיאה ריבועית ממוצעת) הוא פונקציית האובדן של רגרסיה ליניארית.
Log Loss היא פונקציית האובדן של רגרסיה לוגיסטית.

M

למידה חישובית

#fundamentals

תוכנה או מערכת שמאמנות מודל מנתוני קלט. המודל המאומן יכול לבצע חיזויים שימושיים מנתונים חדשים (שלא נראו בעבר) שנשלפו מאותה התפלגות שבה השתמשו לאימון המודל.

למידת מכונה מתייחסת גם לתחום המחקר שעוסק בתוכניות או במערכות האלה.

מידע נוסף זמין בקורס מבוא ללמידת מכונה.

מחלקת הרוב

#fundamentals

התווית הנפוצה יותר במערך נתונים עם חוסר איזון בין הקטגוריות. לדוגמה, אם נתונה קבוצת נתונים שמכילה 99% תוויות שליליות ו-1% תוויות חיוביות, התוויות השליליות הן הכיתה הגדולה ביותר.

בניגוד לכיתה של מיעוט.

למידע נוסף, ראו מערכי נתונים: מערכי נתונים לא מאוזנים במדריך למתחילים בנושא למידת מכונה.

קבוצה קטנה של מודלים

#fundamentals

קבוצת משנה קטנה שנבחרה באופן אקראי מתוך קבוצה שעברה עיבוד במחזור אחד. גודל האצווה של קבוצת משנה בדרך כלל נע בין 10 ל-1,000 דוגמאות.

לדוגמה, נניח שקבוצת האימון כולה (הקבוצה המלאה) מורכבת מ-1,000 דוגמאות. נניח גם שהגדרתם את גודל האצווה של כל אצווה משנה ל-20. לכן, בכל מחזור, המערכת קובעת את האובדן ב-20 דוגמאות אקראיות מתוך 1,000 הדוגמאות, ולאחר מכן משייכת מחדש את המשקלים ואת ההטיות בהתאם.

קל יותר לחשב את האובדן בקבוצת משנה מאשר את האובדן בכל הדוגמאות בקבוצה המלאה.

מידע נוסף זמין בקטע רגרסיה לינארית: היפר-פרמטרים בקורס המקוצר בנושא למידת מכונה.

קבוצת מיעוט

#fundamentals

התווית הפחות נפוצה במערך נתונים עם חוסר איזון בין הקטגוריות. לדוגמה, אם מערך נתונים מכיל 99% תוויות שליליות ו-1% תוויות חיוביות, התוויות החיוביות הן קבוצת המיעוט.

בניגוד למחלקת הרוב.

לוחצים על הסמל כדי להוסיף הערות.

קבוצת אימון עם מיליון דוגמאות נשמעת מרשימה. עם זאת, אם קבוצת המיעוט מיוצגת בצורה גרועה, יכול להיות שגם קבוצת אימון גדולה מאוד לא תספיק. כדאי להתמקד פחות במספר הכולל של הדוגמאות במערך הנתונים ויותר במספר הדוגמאות בקבוצת המיעוט.

אם מערך הנתונים לא מכיל מספיק דוגמאות של סיווג המיעוט, כדאי להשתמש בדגימה לאחור (ההגדרה מופיעה בפסקה השנייה) כדי להשלים את סיווג המיעוט.

למידע נוסף, ראו מערכי נתונים: מערכי נתונים לא מאוזנים במדריך למתחילים בנושא למידת מכונה.

מודל

#fundamentals

באופן כללי, כל מבנה מתמטי שמעבד נתוני קלט ומחזיר פלט. במילים אחרות, מודל הוא קבוצת הפרמטרים והמבנה שנדרשים למערכת כדי לבצע תחזיות. בלמידת מכונה מבוקרת, המודל מקבל דוגמה כקלט ומסיק חיזוי כפלט. בתוך למידת המכונה בפיקוח, יש הבדלים מסוימים בין המודלים. לדוגמה:

מודל רגרסיה לינארית מורכב מקבוצה של משקלים ושיפוע.
מודל של רשת נוירונים מורכב מ:
- קבוצה של שכבות מוסתרות, שכל אחת מהן מכילה נוירון אחד או יותר.
- המשקלים וההטיה המשויכים לכל נוירון.
מודל עץ החלטות מורכב מ:
- צורת העץ, כלומר התבנית שבה התנאים והעלים מחוברים.
- התנאים והעלים.

אפשר לשמור, לשחזר או ליצור עותקים של מודל.

למידת מכונה לא בפיקוח גם יוצרת מודלים, בדרך כלל פונקציה שיכולה למפות דוגמה של קלט לאשכול המתאים ביותר.

לוחצים על הסמל כדי להשוות בין פונקציות אלגבריות ופונקציות תכנות לבין מודלים של למידת מכונה.

פונקציה אלגברית כמו זו הבאה היא מודל:

  f(x, y) = 3x -5xy + y² + 17

הפונקציה הקודמת ממפה את ערכי הקלט (x ו-y) לתוצאה.

באופן דומה, גם פונקציית תכנות כמו זו הבאה היא מודל:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

מבצע הקריאה מעביר ארגומנטים לפונקציית Python הקודמת, ופונקציית Python יוצרת פלט (באמצעות משפט return).

למרות שלרשת נוירונים עמוקה יש מבנה מתמטי שונה מאוד מזה של פונקציה אלגברית או פונקציית תכנות, רשת נוירונים עמוקה עדיין מקבלת קלט (דוגמה) ומחזירה פלט (תחזית).

מתכנת אנושי כותב ידנית פונקציית תכנות. לעומת זאת, מודל למידת מכונה לומד בהדרגה את הפרמטרים האופטימליים במהלך אימון אוטומטי.

סיווג של כמה מחלקות

#fundamentals

בלמידה מבוקרת, בעיית סיווג שבה מערך הנתונים מכיל יותר משתי כיתות של תוויות. לדוגמה, התוויות בקבוצת הנתונים Iris צריכות להיות אחת משלוש הכיתות הבאות:

Iris setosa
Iris virginica
Iris versicolor

מודל שהודר על מערך הנתונים של Iris ומנבא את סוג Iris בדוגמאות חדשות מבצע סיווג בכמה כיתות.

לעומת זאת, בעיות סיווג שמבדילות בין שתי קטגוריות בדיוק הן מודלים של סיווג בינארי. לדוגמה, מודל אימייל שמתאים את האימייל לקטגוריה ספאם או לא ספאם הוא מודל סיווג בינארי.

בבעיות של קיבוץ לאשכולות, סיווג למספר סיווגים מתייחס ליותר משני אשכולות.

מידע נוסף זמין במאמר רשתות עצביות: סיווג מרובה-כיתות בקורס המקוצר על למידת מכונה.

לא

סיווג שלילי

#fundamentals

#Metric

בסיווג בינארי, סיווג אחד נקרא חיובי והסיווג השני נקרא שלילי. המחלקה החיובית היא הדבר או האירוע שהמודל בודק, והמחלקה השלילית היא האפשרות השנייה. לדוגמה:

הכיתה השלילית בבדיקות רפואיות עשויה להיות 'לא גידול'.
הכיתה השלילית במודל הסיווג של האימייל עשויה להיות 'לא ספאם'.

בניגוד לכיתה חיובית.

רשת הזרימה קדימה

#fundamentals

מודל שמכיל לפחות שכבה מוסתרת אחת. רשת נוירונים עמוקה היא סוג של רשת נוירונים שמכילה יותר משכבה אחת מוסתרת. לדוגמה, בתרשים הבא מוצגת רשת עצבית עמוקה שמכילה שתי שכבות חבויות.

רשת עצבית עם שכבת קלט, שתי שכבות גלויות ושכבת פלט.

כל נוירון ברשת נוירונים מחובר לכל הצמתים בשכבה הבאה. לדוגמה, בתרשים הקודם, שימו לב שכל אחד משלושת הנוירונים בשכבה החבויה הראשונה מחובר בנפרד לשני הנוירונים בשכבה החבויה השנייה.

רשתות נוירונים שמוטמעות במחשבים נקראות לפעמים רשתות נוירונים מלאכותיות כדי להבדיל אותן מרשתות נוירונים שנמצאות במוחים ובמערכות עצביות אחרות.

חלק מרשתות נוירונליות יכולות לחקות יחסי לא לינאריים מורכבים מאוד בין מאפיינים שונים לבין התווית.

אפשר לעיין גם במאמרים בנושא רשת נוירונים מלאכותית (CNN) ורשת נוירונים חוזרת (RNN).

מידע נוסף זמין בקטע רשתות נוירונליות בקורס המקוצר על למידת מכונה.

נוירון

#fundamentals

בלמידת מכונה, יחידה נפרדת בשכבה מוסתרת של רשת נוירונים. כל נוירון מבצע את הפעולה הבאה בשני שלבים:

הפונקציה מחשבת את הסכום המשוקלל של ערכי הקלט, כפול המשקלים התואמים שלהם.
מעביר את הסכום המשוקלל כקלט לפונקציית הפעלה.

נוירון בשכבה החבויה הראשונה מקבל קלט מערכי המאפיינים בשכבת הקלט. נוירון בכל שכבה מוסתרת אחרי השכבה הראשונה מקבל קלט מהנוירונים בשכבה המוסתרת הקודמת. לדוגמה, נוירון בשכבה הנסתרת השנייה מקבל קלט מהנוירונים בשכבה הנסתרת הראשונה.

באיור הבא מוצגים שני תאי עצב והקלט שלהם.

רשת עצבית עם שכבת קלט, שתי שכבות גלויות ושכבת פלט. שני נוירונים מודגשים: אחד בשכבה הנסתרת הראשונה ואחד בשכבה הנסתרת השנייה. הנוירון המודגש בשכבה הנסתרת הראשונה מקבל קלט משני המאפיינים בשכבת הקלט. הנוירון המודגש בשכבה הנסתרת השנייה מקבל קלט מכל אחד משלושת הנוירונים בשכבה הנסתרת הראשונה.

נוירון ברשת נוירונים מחקה את ההתנהגות של נוירונים במוח ובחלקים אחרים של מערכות העצבים.

צומת (רשת נוירונים)

#fundamentals

נוירון בשכבה נסתרת.

מידע נוסף זמין בקטע רשתות נוירונליות בקורס המקוצר על למידת מכונה.

nonlinear

#fundamentals

קשר בין שני משתנים או יותר, שלא ניתן לייצג רק באמצעות חיבור ותכונה. אפשר לייצג יחס לינארי כקו, אבל אי אפשר לייצג יחס לא לינארי כקו. לדוגמה, נניח שיש שני מודלים שכל אחד מהם משיייך תכונה אחת לתווית אחת. המודל בצד ימין הוא לינארי והמודל בצד שמאל הוא לא לינארי:

שני תרשימים. תרשים אחד הוא קו, כך שמדובר בקשר לינארי.
התרשים השני הוא עקומה, כך שמדובר בקשר לא לינארי.

בקטע רשתות נוירונליות: צמתים ושכבות מוסתרות בקורס המקוצר על למידת מכונה תוכלו להתנסות בסוגים שונים של פונקציות לא לינאריות.

אי-יציבות

#fundamentals

מאפיין שהערכים שלו משתנים במאפיין אחד או יותר, בדרך כלל זמן. לדוגמה, ריכזנו כאן כמה דוגמאות לתנודות לא יציבות:

מספר בגדי הים שנמכרים בחנות מסוימת משתנה בהתאם לעונה.
כמות הפרי מסוים שנקטף באזור מסוים היא אפס במשך רוב השנה, אבל גדולה מאוד לתקופה קצרה.
עקב שינויי האקלים, הטמפרטורות השנתיות הממוצעות משתנות.

בניגוד לסטציונריות.

נירמול

#fundamentals

באופן כללי, התהליך של המרת טווח הערכים בפועל של משתנה לטווח ערכים סטנדרטי, כמו:

-1 עד +1
0 עד 1
ציונים סטנדרטיים (בערך, -3 עד +3)

לדוגמה, נניח שהטווח בפועל של הערכים של מאפיין מסוים הוא בין 800 ל-2,400. כחלק מפיתוח מאפיינים, אפשר לנרמל את הערכים בפועל לטווח סטנדרטי, למשל -1 עד +1.

נורמליזציה היא משימה נפוצה בפיתוח מאפיינים. בדרך כלל, אימון המודלים מהיר יותר (והחיזויים שהם מניבים טובים יותר) כשלכל מאפיין מספרי בוקטור המאפיינים יש בערך אותו טווח.

אפשר לעיין גם במאמר נירמול לפי ציון תקן.

למידע נוסף, ראו נתונים מספריים: נורמליזציה במדריך למתחילים בנושא למידת מכונה.

נתונים מספריים

#fundamentals

מאפיינים שמיוצגים כמספרים שלמים או כמספרים בעלי ערך ממשי. לדוגמה, מודל להערכת ערך של בית ייצג את גודל הבית (במטרים רבועים או בפוט רבועים) כנתונים מספריים. ייצוג מאפיין כנתונים מספריים מציין שלערכים של המאפיין יש קשר מתמטי לתווית. כלומר, סביר להניח שלמספר המטרות הרבועות בבית יש קשר מתימטי כלשהו לערך הבית.

לא כל נתוני המספרים השלמים צריכים להיות מיוצגים כנתונים מספריים. לדוגמה, בחלקים מסוימים בעולם, מיקודים הם מספרים שלמים. עם זאת, לא צריך לייצג מיקודים שלמים כנתונים מספריים במודלים. הסיבה לכך היא שמיקוד 20000 לא חזק פי שניים (או חצי) ממיקוד 10000. בנוסף, למרות שמיקודים שונים כן משויכים לערכי נדל"ן שונים, אי אפשר להניח שערכי הנדל"ן במיקוד 20000 גבוהים פי שניים מערכי הנדל"ן במיקוד 10000. במקום זאת, צריך לייצג את המיקוד כנתונים קטגוריאליים.

לפעמים תכונות מספריות נקראות תכונות רציפות.

למידע נוסף, אפשר לקרוא את הקטע עבודה עם נתונים מספריים בקורס המקוצר בנושא למידת מכונה.

O

לא מקוון

#fundamentals

מילה נרדפת ל-static.

הסקת מסקנות אופליין

#fundamentals

התהליך שבו מודל יוצר קבוצה של תחזיות ואז שומר אותן במטמון. לאחר מכן, האפליקציות יכולות לגשת לחיזוי המשוער מהמטמון במקום להריץ מחדש את המודל.

לדוגמה, נניח שיש מודל שיוצר תחזיות מזג אוויר מקומיות (חיזויים) פעם בארבע שעות. אחרי כל הפעלה של המודל, המערכת שומרת במטמון את כל תחזיות מזג האוויר המקומיות. אפליקציות מזג האוויר מאחזרות את התחזיות מהמטמון.

הסקת מסקנות אופליין נקראת גם הסקה סטטית.

בניגוד להסקה אונליין.

למידע נוסף, ראו מערכות למידת מכונה בסביבת ייצור: הסקת מסקנות סטטית לעומת דינמית במדריך למתחילים בנושא למידת מכונה.

קידוד "חם-יחיד" (one-hot)

#fundamentals

ייצוג נתונים קטגוריים כוקטור שבו:

רכיב אחד מוגדר ל-1.
כל שאר הרכיבים מוגדרים ל-0.

בדרך כלל משתמשים בקידוד One-hot כדי לייצג מחרוזות או מזהים שיש להם קבוצה סופית של ערכים אפשריים. לדוגמה, נניח למאפיין קטגורי מסוים בשם Scandinavia יש חמישה ערכים אפשריים:

"Denmark"
"Sweden"
"Norway"
"Finland"
"Iceland"

קידוד One-hot יכול לייצג כל אחד מחמשת הערכים באופן הבא:

country	וקטור
"Denmark"	1	0	0	0	0
"Sweden"	0	1	0	0	0
"Norway"	0	0	1	0	0
"Finland"	0	0	0	1	0
"Iceland"	0	0	0	0	1

בעזרת קידוד one-hot, המודל יכול ללמוד קשרים שונים על סמך כל אחת מחמש המדינות.

ייצוג מאפיין כנתונים מספריים הוא חלופה לקידוד 'חם-יחיד'. לצערנו, הצגת המדינות הסקנדינביות באופן מספרי היא לא בחירה טובה. לדוגמה, נניח את הייצוג המספרי הבא:

הערך של 'דנמרק' הוא 0
הערך של 'שוודיה' הוא 1
הערך של 'נורווגיה' הוא 2
הערך של 'פינלנד' הוא 3
"Iceland" הוא 4

בקידוד מספרי, המודל יפרש את המספרים הגולמיים באופן מתמטי וינסה להתאמן על המספרים האלה. עם זאת, איסלנד לא גדולה פי שניים (או חצי) בנורווגיה, ולכן המודל יגיע למסקנות מוזרות.

מידע נוסף זמין בקטע נתונים קטגוריאליים: אוצר מילים וקידוד one-hot במדריך למתחילים בנושא למידת מכונה.

אחד מול כולם

#fundamentals

בהינתן בעיית סיווג עם N מחלקות, פתרון שמורכב מ-N סיווגים בינאריים נפרדים – סיווג בינארי אחד לכל תוצאה אפשרית. לדוגמה, אם יש מודל שמסווג דוגמאות כ'חי', 'צומח' או 'מינרל', פתרון של 'אחד מול כולם' יספק את שלושת הסיווגים הבינאריים הנפרדים הבאים:

בעל חיים לעומת לא בעל חיים
ירק לעומת לא ירק
מינרל לעומת לא מינרל

online

#fundamentals

שם נרדף ל-דינמי.

היסק אונליין

#fundamentals

יצירת תחזיות על פי דרישה. לדוגמה, נניח שאפליקציה מעבירה קלט למודל ומנפיקה בקשה לחיזוי. מערכת שמשתמשת בהסקה אונליין מגיבה לבקשה על ידי הפעלת המודל (והחזרת החיזוי לאפליקציה).

בניגוד להסקה אופליין.

שכבת הפלט

#fundamentals

השכבה 'האחרונה' של רשת נוירונים. שכבת הפלט מכילה את החיזוי.

באיור הבא מוצגת רשת עצבית עמוקה קטנה עם שכבת קלט, שתי שכבות חבויות ושכבת פלט:

התאמת יתר (overfitting)

#fundamentals

יצירת מודל שתואם לנתוני האימון בצורה כה הדוקה, עד שהמודל לא מצליח לבצע חיזויים נכונים על נתונים חדשים.

רגולריזציה יכולה לצמצם את ההתאמה היתרה. אימון על קבוצת אימון גדולה ומגוונת יכול גם לצמצם את ההתאמה היתרה.

לוחצים על הסמל כדי להוסיף הערות.

התאמה יתר היא כמו מעקב קפדני אחרי ההמלצות של המורה האהוב עליכם בלבד. סביר להניח שתצליחו בכיתה של המורה הזה, אבל יכול להיות שתתאימו יותר מדי לרעיונות של המורה הזה ולא תצליחו בכיתות אחרות. כדאי להיעזר בטיפים ממורים שונים כדי להתאים את עצמכם טוב יותר למצבים חדשים.

מידע נוסף זמין בקטע התאמה יתר בקורס המקוצר על למידת מכונה.

P

פנדות

#fundamentals

ממשק API לניתוח נתונים שמתמקד בעמודות, שנבנה על גבי numpy. הרבה מסגרות של למידת מכונה, כולל TensorFlow, תומכות במבני נתונים של pandas כקלט. פרטים נוספים זמינים במסמכי התיעוד של pandas.

פרמטר

#fundamentals

המשקולות וההטיות שהמודל לומד במהלך האימון. לדוגמה, במודל של רגרסיה לינארית, הפרמטרים מורכבים מההטיה (b) ומכל המשקלים (w₁,‏ w₂ וכן הלאה) בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

לעומת זאת, הפרמטרים העל-רמתיים הם הערכים שאתם (או שירות לכוונון הפרמטרים העל-רמתיים) מספקים למודל. לדוגמה, שיעור הלמידה הוא היפר-פרמטר.

מחלקה חיובית

#fundamentals

#Metric

הכיתה שאליה אתם בודקים את התאימות.

לדוגמה, הכיתה החיובית בדגם של סרטן עשויה להיות 'גידול'. הכיתה החיובית במודל הסיווג של אימייל עשויה להיות 'ספאם'.

בניגוד לכיתה שלילית.

לוחצים על הסמל כדי להוסיף הערות.

המונח כיתה חיובית עלול לבלבל, כי התוצאה 'חיובית' בבדיקות רבות היא בדרך כלל תוצאה לא רצויה. לדוגמה, הכיתה החיובית בבדיקות רפואיות רבות תואמת לגידולים או למחלות. באופן כללי, אתם רוצים שהרופא יגיד לכם: "מזל טוב! תוצאות הבדיקה שלך היו שליליות". עם זאת, הכיתה החיובית היא האירוע שהבדיקה מנסה למצוא.

אמנם, אתם בודקים בו-זמנית גם את הכיתות החיוביות וגם את הכיתות השליליות.

עיבוד תמונה (Post Processing)

#responsible

#fundamentals

שינוי הפלט של מודל אחרי ההרצה שלו. אפשר להשתמש בעיבוד נתונים לאחר האיסוף כדי לאכוף אילוצים של הוגנות בלי לשנות את המודלים עצמם.

לדוגמה, אפשר להחיל עיבוד נתונים לאחר העיבוד על סיווג בינארי על ידי הגדרת סף סיווג כך ששוויון ההזדמנויות יישמר למאפיין מסוים, על ידי בדיקה ששיעור החיובים הנכונים זהה לכל הערכים של המאפיין הזה.

חיזוי (prediction)

#fundamentals

הפלט של מודל. לדוגמה:

התחזית של מודל סיווג בינארי היא הכיתה החיובית או הכיתה השלילית.
התחזית של מודל סיווג עם כמה מחלקות היא מחלקה אחת.
התחזית של מודל רגרסיה ליניארית היא מספר.

תוויות proxy

#fundamentals

נתונים שמשמשים להערכת תוויות שלא זמינות באופן ישיר במערך נתונים.

לדוגמה, נניח שאתם צריכים לאמן מודל כדי לחזות את רמת הלחץ של העובדים. מערך הנתונים מכיל הרבה תכונות חיזוי, אבל לא מכיל תווית בשם רמת לחץ. לא מתייאשים ובוחרים ב'תאונות במקום העבודה' בתור תווית עקיפה לרמת הלחץ. אחרי הכל, עובדים שנמצאים במצב של לחץ גבוה מעורבים ביותר תאונות מאשר עובדים רגועים. או שכן? יכול להיות שמספר תאונות במקום העבודה עולה ויורד מכמה סיבות.

דוגמה שנייה: נניח שרוצים שהתוויות is it raining? יהיו תוויות בוליאניות למערך הנתונים, אבל מערך הנתונים לא מכיל נתוני גשם. אם יש לכם תמונות זמינות, תוכלו להגדיר תמונות של אנשים עם מטריות כתוויות חלופיות לשאלה is it raining? האם זו תווית proxy טובה? יכול להיות, אבל יכול להיות שאנשים בתרבויות מסוימות נוטים יותר לשאת מטרייה כדי להגן מפני השמש מאשר מפני הגשם.

לרוב, תוויות שרת proxy לא מושלמות. במידת האפשר, כדאי לבחור בתוויות אמיתיות במקום בתוויות proxy. עם זאת, אם אין תווית בפועל, צריך לבחור את תווית ה-proxy בתשומת לב רבה, ולבחור את תווית ה-proxy הכי פחות גרועה.

למידע נוסף, ראו מערכי נתונים: תוויות בקטע 'קורס מקוצר על למידת מכונה'.

R

RAG

#fundamentals

קיצור של יצירת מודלים שמבוססים על אחזור.

בודק/ת

#fundamentals

אדם שמספק תוויות לדוגמאות. 'מתעד' הוא שם נוסף למעריך.

למידע נוסף, אפשר לעיין בקטע נתונים קטגוריאליים: בעיות נפוצות במדריך למתחילים בלמידת מכונה.

יחידה לינארית מתוקנת (ReLU)

#fundamentals

פונקציית הפעלה עם ההתנהגות הבאה:

אם הקלט הוא שלילי או אפס, הפלט הוא 0.
אם הקלט חיובי, הפלט שווה לקלט.

לדוגמה:

אם הקלט הוא -3, הפלט הוא 0.
אם הקלט הוא +3, הפלט הוא 3.0.

לפניכם תרשים של ReLU:

ReLU היא פונקציית הפעלה פופולרית מאוד. למרות ההתנהגות הפשוטה שלו, ReLU עדיין מאפשר לרשת עצבית ללמוד על קשרים לא לינאריים בין המאפיינים לבין התוויות.

מודל רגרסיה

#fundamentals

באופן לא רשמי, מודל שיוצר חיזוי מספרי. (לעומת זאת, מודל סיווג יוצר חיזוי של סיווג). לדוגמה, אלה כל המודלים של הרגרסיה:

מודל שמתאר את הערך של בית מסוים באירו, למשל 423,000.
מודל לחיזוי תוחלת החיים של עץ מסוים בשנים, למשל 23.2.
מודל שחוזה את כמות הגשם בסנטימטרים שתרד בעיר מסוימת במהלך שש השעות הבאות, למשל 0.18.

שני סוגים נפוצים של מודלים של רגרסיה הם:

רגרסיה לינארית, שמוצאת את הקו שמתאים בצורה הטובה ביותר את ערכי התוויות למאפיינים.
רגרסיה לוגיסטית, שמפיקה סבירות בין 0.0 ל-1.0 שהמערכת ממפה בדרך כלל לחיזוי של סיווג.

לא כל מודל שמפיק תחזיות מספריות הוא מודל רגרסיה. במקרים מסוימים, תחזית מספרית היא למעשה רק מודל סיווג שבמקרה יש לו שמות של כיתות מספריות. לדוגמה, מודל שמתחזה מיקוד מספרי הוא מודל סיווג, ולא מודל רגרסיה.

רגולריזציה (regularization)

#fundamentals

כל מנגנון שמפחית את התאמה יתר. סוגי רגולריזציה פופולריים כוללים:

רגולריזציה של _L1
רגילור ₂
Dropout regularization
הפסקה מוקדמת (זו לא שיטת רגולריזציה רשמית, אבל היא יכולה להגביל ביעילות את ההתאמה היתירה)

אפשר גם להגדיר רגולריזציה כעונש על המורכבות של מודל.

לוחצים על הסמל כדי להוסיף הערות.

רגולריזציה היא מושג לא אינטואיטיבי. הגדלת הרגולריזציה בדרך כלל מגדילה את אובדן הביצועים באימון, וזה מבלבל כי המטרה היא למזער את אובדן הביצועים באימון.

לא. המטרה היא לא למזער את אובדן הביצועים באימון. המטרה היא לקבל תחזיות מצוינות על דוגמאות מהעולם האמיתי. באופן מפתיע, למרות שהגברת הרגולריזציה מגדילה את אובדן האימון, בדרך כלל היא עוזרת למודלים לבצע תחזיות טובות יותר על דוגמאות מהעולם האמיתי.

מידע נוסף זמין בקטע Overfitting: Model complexity (התאמה יתר: מורכבות המודל) בקורס המקוצר על למידת מכונה.

שיעור הרגולריזציה

#fundamentals

מספר שמציין את החשיבות היחסית של הסדרה במהלך האימון. העלאת שיעור הרגיליזציה מפחיתה את התאמה יתר, אבל עשויה לצמצם את יכולת החיזוי של המודל. לעומת זאת, הפחתה או השמטה של שיעור הרגיליזציה מגדילה את ההתאמה היתרה.

לוחצים על הסמל כדי לראות את החישוב.

שיעור הרגיליזציה מיוצג בדרך כלל באות היוונית lambda. המשוואה הפשוטה הבאה של האובדן מראה את ההשפעה של lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

כאשר סדרת נתונים היא כל מנגנון סדרת נתונים, כולל:

רגולריזציה של _L1
רגילור ₂

מידע נוסף זמין בקטע Overfitting: L2 regulation בקורס המקוצר על למידת מכונה.

ReLU

#fundamentals

קיצור של יחידה לינארית מתוקנת.

יצירת מודלים שמבוססים על שיפור התשובות בעזרת אחזור מידע (RAG)

#fundamentals

טכניקה לשיפור האיכות של הפלט של מודל שפה גדול (LLM) על ידי הביסוס שלו על מקורות ידע שאוחזרו אחרי שהמודל אומן. RAG משפר את הדיוק של התשובות של LLM על ידי מתן גישה למידע שאוחזרו ממסמכים או ממאגרי ידע מהימנים ל-LLM המאומן.

בין הסיבות הנפוצות לשימוש ביצירה עם שיפור אחזור:

הגדלת הדיוק העובדתי של התשובות שנוצרות על ידי מודל.
מתן גישה למודל לידע שלא אומן עליו.
שינוי הידע שבו המודל משתמש.
הפעלת האפשרות של המודל לצטט מקורות.

לדוגמה, נניח שאפליקציית כימיה משתמשת ב-PaLM API כדי ליצור סיכומים שקשורים לשאילתות של משתמשים. כשהקצה העורפי של האפליקציה מקבל שאילתה, הקצה העורפי:

חיפוש ('אחזור') של נתונים שרלוונטיים לשאילתה של המשתמש.
הוספה ('הרחבה') של נתוני הכימיה הרלוונטיים לשאילתה של המשתמש.
הפקודה מורה ל-LLM ליצור סיכום על סמך הנתונים שצורפו.

עקומת ROC (מאפיין הפעלה של מקלט)

#fundamentals

#Metric

תרשים של שיעור תוצאות חיוביות אמיתיות לעומת שיעור תוצאות חיוביות שקריות לסף סיווג שונה בסיווג בינארי.

הצורה של עקומת ROC מצביעה על היכולת של מודל סיווג בינארי להפריד בין כיתות חיוביות לכיתות שליליות. נניח, לדוגמה, שמודל סיווג בינארי מפריד בצורה מושלמת בין כל הכיתות השליליות לכל הכיתות החיוביות:

קו מספרים עם 8 דוגמאות חיוביות בצד שמאל ו-7 דוגמאות שליליות בצד ימין.

עקומת ROC של המודל הקודם נראית כך:

עקומת ROC. ציר ה-X מייצג את שיעור התוצאות החיוביות הכוזבות וציר ה-Y מייצג את שיעור התוצאות החיוביות האמיתיות. לקו העקומה יש צורה של L הפוך. העקומה מתחילה ב-(0.0,0.0) ועולה ישר ל-(0.0,1.0). לאחר מכן, העקומה עוברת מ-(0.0,1.0) ל-(1.0,1.0).

לעומת זאת, באיור הבא מוצגים בתרשים הערכים הגולמיים של הרגרסיה הלוגיסטית של מודל גרוע שלא מצליח להפריד בכלל בין כיתות שליליות לכיתות חיוביות:

קו מספרים עם דוגמאות חיוביות וקטגוריות שליליות שמעורבבות זו בזו.

עקומת ה-ROC של המודל הזה נראית כך:

עקומת ROC, שהיא למעשה קו ישר מ-(0.0,0.0)
עד (1.0,1.0).

בינתיים, בעולם האמיתי, רוב המודלים של סיווג בינארי מפרידים בין כיתות חיוביות ושליליות במידה מסוימת, אבל בדרך כלל לא באופן מושלם. לכן, עקומת ROC אופיינית נמצאת איפשהו בין שני הקצוות:

עקומת ROC. ציר ה-X מייצג את שיעור התוצאות החיוביות הכוזבות וציר ה-Y מייצג את שיעור התוצאות החיוביות האמיתיות. עקומת ROC היא מעין קשת רועדת שעוברת על נקודות המצפן ממערב לצפון.

הנקודה בגרף ROC הקרובה ביותר ל-(0.0,1.0) מזהה באופן תיאורטי את סף הסיווג האידיאלי. עם זאת, יש כמה בעיות אחרות בעולם האמיתי שמשפיעות על הבחירה של סף הסיווג האידיאלי. לדוגמה, יכול להיות שתוצאות שליליות כוזבות גורמות לנזק גדול יותר מתוצאות חיוביות כוזבות.

מדד מספרי שנקרא AUC מסכם את עקומת ROC בערך יחיד של נקודה צפה.

שורש טעות ריבועית ממוצעת (RMSE)

#fundamentals

#Metric

השורש הריבועי של השגיאה הריבובית הממוצעת.

S

פונקציית סיגמואיד

#fundamentals

פונקציה מתמטית שמצמצמת ערך קלט לטווח מוגבל, בדרך כלל מ-0 עד 1 או מ--1 עד 1. כלומר, אפשר להעביר לכל מספר (שניים, מיליון, מיליארד שלילי וכו') פונקציית סיגמואיד והפלט עדיין יהיה בטווח המוגבל. תרשים של פונקציית ההפעלה הסיגמואידית נראה כך:

לפונקציית הסיגמואיד יש כמה שימושים בלמידת מכונה, כולל:

המרת הפלט הגולמי של מודל רגרסיה לוגיסטית או של מודל רגרסיה פולינומית להסתברות.
משמשת כפונקציית הפעלה ברשתות עצביות מסוימות.

לוחצים על הסמל כדי לראות את החישוב.

הנוסחה של פונקציית הסיגמויד על מספר קלט x היא:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

בלמידת מכונה, x הוא בדרך כלל סכום משוקלל.

softmax

#fundamentals

פונקציה שקובעת את ההסתברויות לכל מחלקה אפשרית במודל סיווג מרובה-כיתות. הסיכויים צריכים להסתכם בדיוק ב-1.0. לדוגמה, בטבלה הבאה מוצגת חלוקת ההסתברויות השונות של softmax:

התמונה היא...	Probability
כלב	0.85
cat	0.13
סוס	0.02

Softmax נקרא גם full softmax.

בניגוד לדגימת מועמדים.

לוחצים על הסמל כדי לראות את החישוב.

המשוואה של softmax היא:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

כאשר:

‎$\sigma_i$ הוא וקטור הפלט. כל רכיב של וקטור הפלט מציין את ההסתברות של הרכיב הזה. הסכום של כל הרכיבים בוקטור הפלט הוא 1.0. וקטור הפלט מכיל את אותו מספר רכיבים כמו וקטור הקלט, $z$.
$z$ הוא וקטור הקלט. כל רכיב של וקטור הקלט מכיל ערך של נקודה צפה.
הערך K הוא מספר הרכיבים בווקטור הקלט (וגם בווקטור הפלט).

לדוגמה, נניח שוקטור הקלט הוא:

[1.2, 2.5, 1.8]

לכן, ב-softmax המכנה מחושב באופן הבא:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

לכן, ההסתברות של softmax לכל אלמנט היא:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

לכן, ווקטור הפלט הוא:

$$\sigma = [0.154, 0.565, 0.281]$$

הסכום של שלושת הרכיבים ב-$\sigma$ הוא 1.0. סוף סוף!

מידע נוסף זמין במאמר רשתות עצביות: סיווג מרובה-כיתות בקורס המקוצר על למידת מכונה.

תכונה דלילה

#language

#fundamentals

מאפיין שהערכים שלו הם בעיקר אפס או ריקים. לדוגמה, מאפיין שמכיל ערך 1 יחיד ומיליון ערכים של 0 הוא מאפיין דל. לעומת זאת, למאפיין צפוף יש ערכים שברובם לא אפס או ריקים.

בלמידת מכונה, מספר מפתיע של מאפיינים הם מאפיינים דלילים. תכונות קטגוריות הן בדרך כלל תכונות דלילות. לדוגמה, מתוך 300 מיני עצים אפשריים ביער, דוגמה אחת עשויה לזהות רק עץ מייפל. למשל, מתוך מיליוני הסרטונים האפשריים בספריית סרטונים, דוגמה אחת עשויה לזהות רק את 'קזבלנקה'.

במודל, בדרך כלל מייצגים מאפיינים דלילים באמצעות קידוד חם-יחיד (one-hot). אם הקידוד מסוג 'חם-יחיד' גדול, אפשר להוסיף שכבת הטמעה מעל הקידוד מסוג 'חם-יחיד' כדי לשפר את היעילות.

ייצוג דל

#language

#fundamentals

אחסון רק את המיקומים של רכיבים שאינם אפס בתכונה דלילה.

לדוגמה, נניח שתכונה קטגורית בשם species מזהה את 36 מיני העצים ביער מסוים. נניח גם שכל דוגמה מזהה רק מין אחד.

אפשר להשתמש בווקטור חם-יחיד כדי לייצג את מיני העצים בכל דוגמה. וקטור one-hot יכיל 1 יחיד (כדי לייצג את מין העץ הספציפי בדוגמה הזו) ו-35 ערכים של 0 (כדי לייצג את 35 מיני העצים שאינם בדוגמה הזו). לכן, הייצוג של maple במצב 'חם אחד' עשוי להיראות כך:

וקטור שבו המיקומים 0 עד 23 מכילים את הערך 0, המיקום 24 מכיל את הערך 1 והמיקומים 25 עד 35 מכילים את הערך 0.

לחלופין, ייצוג דליל פשוט יזהה את המיקום של המין הספציפי. אם maple נמצא במיקום 24, הייצוג הדליל של maple יהיה פשוט:

שימו לב שהייצוג הדליל קומפקטי הרבה יותר מהייצוג של ערכים חד-ממדיים.

לוחצים על הסמל כדי לראות דוגמה מורכבת יותר.

נניח שכל דוגמה במודל צריכה לייצג את המילים – אבל לא את הסדר שלהן – במשפט באנגלית. האנגלית מורכבת מכ-170,000 מילים, כך שהיא מאפיין קטגורי עם כ-170,000 רכיבים. ברוב המשפטים באנגלית נעשה שימוש בחלק זעיר מאוד מ-170,000 המילים האלה, כך שקבוצת המילים בדוגמה אחת תהיה כמעט בוודאות נתונים דלילים.

נבחן את המשפט הבא:

My dog is a great dog

אפשר להשתמש בגרסה של וקטור one-hot כדי לייצג את המילים במשפט הזה. בגרסה הזו, כמה תאים בוקטור יכולים להכיל ערך שאינו אפס. בנוסף, בגרסה הזו, תא יכול להכיל מספר שלם שאינו אחד. המילים 'ה', 'הוא', 'כלב' ו'גדול' מופיעות רק פעם אחת במשפט, אבל המילה 'כלב' מופיעה פעמיים. שימוש בגרסה הזו של וקטורים חד-חמים כדי לייצג את המילים במשפט הזה מניב את הווקטור הבא עם 170,000 רכיבים:

ייצוג דליל של אותו משפט יהיה פשוט:

אם אתם לא מבינים משהו, תוכלו ללחוץ על הסמל.

המונח 'ייצוג דל' מביא לבלבל אצל הרבה אנשים, כי ייצוג דל הוא לא וקטור דל. במקום זאת, ייצוג דל הוא למעשה ייצוג צפוף של וקטור דל. המונח ייצוג אינדקס ברור יותר מ'ייצוג דל'.

מידע נוסף זמין בקטע עבודה עם נתונים שמחולקים לקטגוריות במדריך למתחילים בנושא למידת מכונה.

וקטור דליל

#fundamentals

וקטור שהערכים שלו הם בעיקר אפס. אפשר לעיין גם במאמרים בנושא מאפיין דל ודלילות.

squared loss

#fundamentals

#Metric

מילה נרדפת ל-L₂ loss.

סטטי

#fundamentals

פעולה שמתבצעת פעם אחת ולא באופן קבוע. המונחים סטטי ואופליין הם מונחים נרדפים. אלה שימושים נפוצים של נתונים סטטיים ואופליין בלמידת מכונה:

מודל סטטי (או מודל אופליין) הוא מודל שמתאמן פעם אחת ואז משמש למשך זמן מה.
אימון סטטי (או אימון אופליין) הוא תהליך האימון של מודל סטטי.
היקש סטטי (או היקש אופליין) הוא תהליך שבו מודל יוצר קבוצה של תחזיות בכל פעם.

בניגוד לדינמי.

היקש סטטי

#fundamentals

מונח נרדף להסקה אופליין.

סטציונריות

#fundamentals

מאפיין שהערכים שלו לא משתנים במאפיין אחד או יותר, בדרך כלל זמן. לדוגמה, מאפיין שהערכים שלו נראים דומים בשנים 2021 ו-2023 הוא מאפיין יציב.

בעולם האמיתי, מעט מאוד מאפיינים מציגים סטציונריות. גם תכונות שמשויכות ליציבות (כמו גובה פני הים) משתנות עם הזמן.

בניגוד לסטטיות.

ירידה סטוכסטית בגרדינט (SGD)

#fundamentals

אלגוריתם ירידה בגרדינט שבו גודל האצווה הוא אחד. במילים אחרות, SGD מתאמן על דוגמה אחת שנבחרה באופן אקראי מתוך קבוצת אימון.

מידע נוסף זמין בקטע רגרסיה לינארית: היפר-פרמטרים במאמר קורס מקוצר על למידת מכונה.

למידת מכונה מפוקחת

#fundamentals

אימון מודל ממאפיינים ומהתוויות התואמות שלהם. למידת מכונה מפוקחת דומה ללמידת נושא על ידי לימוד של קבוצת שאלות והתשובות התואמות שלהן. אחרי שהתלמידים יבינו את המיפוי בין השאלות לתשובות, הם יוכלו לספק תשובות לשאלות חדשות (שלא נראו בעבר) באותו נושא.

בהשוואה ללמידת מכונה לא מפוקחת.

מידע נוסף זמין בקטע למידה בפיקוח בקורס 'מבוא ל-ML'.

מאפיין סינתטי

#fundamentals

מאפיין שלא נמצא בין מאפייני הקלט, אלא מורכב מאחד מהם או יותר. שיטות ליצירת תכונות סינתטיות כוללות את האפשרויות הבאות:

חלוקה לקטגוריות של מאפיין רציף לקטגוריות של טווחים.
יצירת משבצות של תכונות.
הכפלה (או חלוקה) של ערך מאפיין אחד בערכי מאפיינים אחרים או בעצמו. לדוגמה, אם a ו-b הם מאפייני קלט, אלה דוגמאות למאפיינים סינתטיים:
- ab
- a²
החלה של פונקציה טרנסצנדנטלית על ערך של מאפיין. לדוגמה, אם c הוא מאפיין קלט, אלה דוגמאות למאפיינים סינתטיים:
- sin(c)
- ln(c)

תכונות שנוצרות על ידי נורמליזציה או שינוי קנה מידה בלבד לא נחשבות לתכונות סינתטיות.

T

אובדן נתונים בבדיקה

#fundamentals

#Metric

מדד שמייצג את האובדן של מודל ביחס לקבוצת הבדיקות. כשיוצרים מודל, בדרך כלל מנסים למזער את אובדן הבדיקה. הסיבה לכך היא שאובדן נמוך בבדיקה הוא אות איכות חזק יותר מאשר אובדן נמוך באימון או אובדן נמוך באימות.

לפעמים, פער גדול בין אובדן הבדיקה לאובדן האימון או לאובדן האימות מציין שצריך להגדיל את שיעור הרגיליזציה.

הדרכה

#fundamentals

התהליך של קביעת הפרמטרים האידיאליים (משקלים ותכונות הטיה) שמרכיבים מודל. במהלך האימון, המערכת קוראת דוגמאות ומתאימה בהדרגה את הפרמטרים. בכל שלב של האימון, כל דוגמה משמשת כמה פעמים עד מיליארדי פעמים.

מידע נוסף זמין בקטע למידה בפיקוח בקורס 'מבוא ל-ML'.

אובדן אימון

#fundamentals

#Metric

מדד שמייצג את האובדן של מודל במהלך מחזור אימון מסוים. לדוגמה, נניח שפונקציית ההפסד היא Mean Squared Error. יכול להיות שההפסד של האימון (השגיאה הממוצעת הריבונית) עבור האיטרציה ה-10 הוא 2.2, וההפסד של האימון עבור האיטרציה ה-100 הוא 1.9.

עקומת אובדן מציגה את אובדן האימון לעומת מספר החזרות. עקומת אובדן מספקת את הטיפים הבאים לגבי אימון:

שיפוע כלפי מטה מרמז שהמודל משתפר.
שיפוע כלפי מעלה מציין שהמודל הולך ומשתפר.
שיפוע שטוח מרמז שהמודל הגיע לערך קבוע.

לדוגמה, בעקומת ההפסדים הזו, שמייצגת מצב אידיאלי למדי, מוצגים הפרטים הבאים:

שיפוע תלול כלפי מטה במהלך האיטרציות הראשוניות, שמצביע על שיפור מהיר של המודל.
שיפוע שמתיישר בהדרגה (אבל עדיין יורד) עד לקראת סוף האימון, מה שמצביע על שיפור מתמשך של המודל בקצב איטי יותר מאשר במחזורים הראשונים.
שיפוע שטוח לקראת סוף האימון, שמצביע על התקרבות.

התרשים של אובדן האימון לעומת איטרציות. עקומת ההפסד הזו מתחילה עם שיפוע תלול כלפי מטה. השיפוע נעשה שטוח יותר ויותר עד שהוא הופך לאפס.

אובדן האימון חשוב, אבל כדאי גם לעיין במאמר בנושא הכללה.

training-serving skew

#fundamentals

ההבדל בין הביצועים של מודל במהלך האימון לבין הביצועים של אותו מודל במהלך הצגת המודעות.

קבוצת נתונים לאימון

#fundamentals

קבוצת המשנה של מערך הנתונים ששימשה לאימון מודל.

באופן מסורתי, הדוגמאות בקבוצת הנתונים מחולקות לשלוש קבוצות משנה נפרדות:

באופן אידיאלי, כל דוגמה בקבוצת הנתונים צריכה להיות שייכת רק לאחת מקבוצות המשנה הקודמות. לדוגמה, דוגמה אחת לא יכולה להשתייך גם לקבוצת האימון וגם לקבוצת האימות.

למידע נוסף, אפשר לעיין בקטע מערכי נתונים: חלוקת מערך הנתונים המקורי בקורס המקוצר על למידת מכונה.

שלילי אמיתי (TN)

#fundamentals

#Metric

דוגמה שבה המודל חוזה מחלקה שלילית. לדוגמה, המודל מסיק שהודעת אימייל מסוימת היא לא ספאם, והודעת האימייל הזו אכן לא ספאם.

תוצאה חיובית נכונה (TP)

#fundamentals

#Metric

דוגמה שבה המודל חוזה מחלקה חיובית. לדוגמה, המודל מסיק שהודעת אימייל מסוימת היא ספאם, והודעת האימייל הזו אכן ספאם.

שיעור תוצאות חיוביות אמיתיות (TPR)

#fundamentals

#Metric

מילה נרדפת למשיכה. כלומר:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

שיעור החיוביות האמיתי הוא ציר ה-y בעקומת ROC.

U

התאמה לא מספקת (underfitting)

#fundamentals

יצירת מודל עם יכולת חיזוי נמוכה, כי המודל לא תפס במלואה את המורכבות של נתוני האימון. יש הרבה בעיות שעלולות לגרום לבעיות בהתאמה, כולל:

אימון על קבוצה שגויה של מאפיינים.
אימון במשך פחות מדי עידנים או בקצב למידה נמוך מדי.
אימון עם שיעור רגולריזציה גבוה מדי.
שימוש במספר קטן מדי של שכבות סמויות ברשת נוירונים עמוקה.

מידע נוסף זמין בקטע התאמה יתר בקורס המקוצר על למידת מכונה.

דוגמה ללא תווית

#fundamentals

דוגמה שמכילה תכונות אבל לא תווית. לדוגמה, בטבלה הבאה מוצגות שלוש דוגמאות ללא תוויות ממודל להערכת ערך של בית, כל אחת עם שלוש תכונות אבל ללא ערך של בית:

מספר חדרי שינה	מספר חדרי האמבטיה	גיל הבית
3	2	15
2	1	72
4	2	34

בלמידת מכונה בפיקוח, המודלים עוברים אימון על דוגמאות מתויגות ומבצעים חיזויים על דוגמאות לא מתויגות.

בלמידה מונחית למחצה ובלמידה לא מונחית, נעשה שימוש בדוגמאות ללא תוויות במהלך האימון.

השוואה בין דוגמה ללא תווית לבין דוגמה עם תווית.

למידת מכונה לא מפוקחת

#clustering

#fundamentals

אימון מודל כדי לזהות דפוסים במערך נתונים, בדרך כלל מערך נתונים ללא תוויות.

השימוש הנפוץ ביותר בלמידת מכונה בלתי מבוקרת הוא קיבוץ נתונים לקבוצות של דוגמאות דומות. לדוגמה, אלגוריתם של למידת מכונה ללא הדרכה יכול לקבץ שירים לפי מאפיינים שונים של המוזיקה. האשכולות שנוצרים יכולים להפוך לקלט של אלגוריתמים אחרים של למידת מכונה (למשל, לשירות המלצות למוזיקה). אפשר להיעזר בצבירה כשיש מעט תוויות שימושיות או שאין תוויות בכלל. לדוגמה, בתחומים כמו מניעת התנהלות פוגעת ומניעת הונאות, אשכולות יכולים לעזור לאנשים להבין טוב יותר את הנתונים.

בניגוד ללמידת מכונה בפיקוח.

לוחצים על הסמל כדי להוסיף הערות.

דוגמה נוספת ללמידת מכונה לא מפוקחת היא ניתוח רכיבים עיקריים (PCA). לדוגמה, החלת PCA על מערך נתונים שמכיל את התוכן של מיליוני עגלות קניות עשויה לחשוף שעגלות קניות שמכילות לימונים מכילות לעיתים קרובות גם תרופות נגד חומצה.

למידע נוסף, אפשר לקרוא את המאמר מהי למידת מכונה? במסגרת הקורס 'מבוא ללמידת מכונה'.

V

אימות

#fundamentals

ההערכה הראשונית של איכות המודל. בתהליך האימות בודקים את איכות התחזיות של המודל בהשוואה לקבוצת האימות.

מכיוון שקבוצת האימות שונה מקבוצת האימון, האימות עוזר למנוע התאמה יתר.

אפשר להתייחס להערכת המודל מול קבוצת האימות כאל סבב הבדיקה הראשון, ולהערכת המודל מול קבוצת הבדיקות כאל סבב הבדיקה השני.

אובדן אימות

#fundamentals

#Metric

מדד שמייצג את האובדן של מודל בקבוצת האימות במהלך חזרה מסוימת של האימון.

אפשר לעיין גם במאמר הקו של הגנרליזציה.

קבוצת נתונים לתיקוף

#fundamentals

קבוצת המשנה של מערך הנתונים שבה מתבצעת הערכה ראשונית מול מודל מאומן. בדרך כלל, בודקים את המודל המאומן בקבוצת האימות כמה פעמים לפני שבודקים אותו בקבוצת הבדיקה.

באופן מסורתי, מחלקים את הדוגמאות במערך הנתונים לשלוש קבוצות משנה נפרדות:

למידע נוסף, אפשר לעיין בקטע מערכי נתונים: חלוקת מערך הנתונים המקורי בקורס המקוצר על למידת מכונה.

W

משקל

#fundamentals

ערך שהמודל מכפיל בערך אחר. אימון הוא התהליך של קביעת המשקלים האידיאליים של מודל, והסקה הוא התהליך של שימוש במשקלים שנלמדו כדי לבצע תחזיות.

לוחצים על הסמל כדי לראות דוגמה למשקלים במודל לינארי.

נניח שיש מודל לינארי עם שתי תכונות. נניח שהאימון קובע את המשקלים הבאים (וגם את הטיה):

לשגיאת ההטיה, b, יש ערך של 2.2
המשקל, w₁ שמשויך לתכונה אחת הוא 1.5.
המשקל, w₂ שמשויך למאפיין השני הוא 0.4.

עכשיו נדמיין דוגמה עם ערכי המאפיינים הבאים:

הערך של מאפיין אחד, x₁, הוא 6.
הערך של המאפיין השני, x₂, הוא 10.

המודל הליניארי הזה משתמש בנוסחה הבאה כדי ליצור תחזית, y':

$$y' = b + w_1x_1 + w_2x_2$$

לכן, התחזית היא:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

אם המשקל הוא 0, התכונה המתאימה לא תורמת למודל. לדוגמה, אם w₁ הוא 0, הערך של x₁ לא רלוונטי.

מידע נוסף זמין בקטע רגרסיה לינארית בקורס המקוצר על למידת מכונה.

סכום משוקלל

#fundamentals

הסכום של כל ערכי הקלט הרלוונטיים כפול המשקלים התואמים שלהם. לדוגמה, נניח שהנתונים הרלוונטיים מורכבים מהנתונים הבאים:

ערך קלט	משקל הקלט
2	-1.3
-1	0.6
3	0.4

לכן, הסכום המשוקלל הוא:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

סכום משוקלל הוא ארגומנט הקלט של פונקציית ההפעלה.

Z

נורמליזציה לפי ציון תקן

#fundamentals

טכניקה של שינוי קנה מידה שמחליפה ערך גולמי של מאפיין בערך של נקודה צפה שמייצג את מספר סטיות התקן מהממוצע של המאפיין. לדוגמה, נניח שיש תכונה שהממוצע שלה הוא 800 והסטייה התקינה שלה היא 100. בטבלה הבאה מוסבר איך נורמליזציה לפי ציון Z ממפה את הערך הגולמי לציון Z שלו:

ערך גולמי	ציון תקן
800	0
950	‎+1.5
575	-2.25

לאחר מכן, מודל למידת המכונה מתאמן על ציוני ה-Z של המאפיין הזה במקום על הערכים הגולמיים.

למידע נוסף, ראו נתונים מספריים: נורמליזציה במדריך למתחילים בנושא למידת מכונה.

מילון מונחים ללמידת מכונה: עקרונות בסיסיים של למידת מכונה קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

A

דיוק

לוחצים על הסמל כדי לקבל פרטים על הדיוק ועל מערכי נתונים עם אי-איזון בין הקטגוריות.

פונקציית הפעלה

לוחצים על הסמל כדי לראות דוגמה.

לגבי בינה מלאכותית,

AUC (השטח מתחת לעקומת ROC)

לוחצים על הסמל כדי לקרוא מידע על הקשר בין עקומות AUC ו-ROC.

לוחצים על הסמל כדי לקבל הגדרה רשמית יותר של AUC.

B

חזרה לאחור (backpropagation)

אצווה

גודל אצווה

הטיה (אתיקה/הוגנות)

הטיה (מתמטית) או מונח הטיה

סיווג בינארי

bucketing

לוחצים על הסמל כדי להוסיף הערות.

C

נתונים קטגוריאליים

כיתה

מודל סיווג

סף סיווג (classification threshold)

לוחצים על הסמל כדי להוסיף הערות.

מסווג

מערך נתונים עם אי-איזון בין הכיתות

חיתוך

מטריצת בלבול

תכונה רציפה

התכנסות

D

DataFrame

קבוצת נתונים

מודל עמוק

תכונה צפופה

עומק

תכונה בדידה

דינמי

מודל דינמי

E

הפסקה מוקדמת

לוחצים על הסמל כדי להוסיף הערות.

שכבת הטמעה

תקופה של זמן מערכת

דוגמה

F

תוצאה שלילית שגויה (FN)

תוצאה חיובית שגויה (FP)

שיעור תוצאות חיוביות שגויות (FPR)

מאפיין

תכונה

הנדסת פיצ'רים (feature engineering)

לוחצים על הסמל כדי לראות הערות נוספות על TensorFlow.

קבוצת תכונות

וקטור מאפיינים

לולאת משוב

G

הכללה

לוחצים על הסמל כדי להוסיף הערות.

עקומת הכללה

ירידה בגרדינט

ערכי סף (ground truth)

לוחצים על הסמל כדי להוסיף הערות.

H

שכבה נסתרת

היפר-פרמטר

I

נתונים בעלי התפלגות עצמאית זהה (i.i.d)

היקש

שכבת קלט

יכולת הפרשנות

איטרציה

L

רגולריזציה של L0

לוחצים על הסמל כדי להוסיף הערות.

אובדן L1

לוחצים על הסמל כדי לראות את הנוסחה המתמטית הרשמית.

רגולריזציה של L1

אובדן L2

מילון מונחים ללמידת מכונה: עקרונות בסיסיים של למידת מכונה

רגולריזציה של L₀

אובדן L₁

רגולריזציה של L₁

אובדן L₂

רגולריזציה של L₂