Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

למידה בפיקוח

המשימות של למידת מכונה בפיקוח מוגדרות היטב וניתן להחיל אותן על מגוון תרחישים, כמו זיהוי ספאם או חיזוי משקעים.

מושגים בסיסיים של למידה מונחית

למידת מכונה מפוקחת מבוססת על המושגים הבאים:

נתונים
דגם
הדרכה
הערכה
הסקה

נתונים

נתונים הם המנוע של למידת המכונה. הנתונים מגיעים בצורה של מילים ומספרים שמאוחסנים בטבלאות, או כערכים של פיקסלים וצורות גל שמצולמים בתמונות ובקובצי אודיו. אנחנו מאחסנים נתונים קשורים במערכי נתונים. לדוגמה, יכול להיות שיש לנו מערך נתונים שכולל את הפרטים הבאים:

תמונות של חתולים
מחירי דיור
מידע על מזג האוויר

מערכי נתונים מורכבים מדוגמאות נפרדות שמכילות מאפיינים ותווית. אפשר להתייחס לדוגמה כאל שורה אחת בגיליון אלקטרוני. מאפיינים הם הערכים שבהם מודל בפיקוח משתמש כדי לחזות את התווית. התווית היא 'התשובה', או הערך שאנחנו רוצים למודל לחזות. במודל מזג אוויר שמתבסס על תחזית משקעים, המאפיינים יכולים להיות קו הרוחב, קו האורך, טמפרטורה, לחות, כיסוי עננים, כיוון הרוח ולחץ אטמוספרי. התווית תהיה rainfall amount.

דוגמאות שמכילות גם תכונות וגם תווית נקראות דוגמאות מתויגות.

שתי דוגמאות עם תוויות

תמונה למילוי מקום.

לעומת זאת, דוגמאות ללא תוויות מכילות תכונות אבל לא תווית. אחרי שיוצרים מודל, הוא מנבא את התווית מהמאפיינים.

שתי דוגמאות ללא תוויות

תמונה למילוי מקום.

מאפייני מערך הנתונים

מאפייני מערך הנתונים הם הגודל והמגוון שלו. הגודל מציין את מספר הדוגמאות. המדד 'מגוון' מציין את הטווח שהדוגמאות האלה מכסות. מערכי נתונים טובים הם גם גדולים וגם מגוונים מאוד.

מערכי נתונים יכולים להיות גדולים ומגוונים, גדולים אבל לא מגוונים, או קטנים אבל מגוונים מאוד. במילים אחרות, מערך נתונים גדול לא מבטיח מגוון מספיק, ומערך נתונים מגוון מאוד לא מבטיח מספיק דוגמאות.

לדוגמה, מערך נתונים יכול להכיל נתונים של 100 שנים, אבל רק לחודש יולי. שימוש במערך הנתונים הזה כדי לחזות את כמות המשקעים בינואר יניב תחזיות גרועות. לעומת זאת, מערך נתונים יכול לכלול רק כמה שנים אבל לכלול כל חודש. ייתכן שהתחזיות שיניב מערך הנתונים הזה יהיו גרועות כי הוא לא מכיל מספיק שנים כדי להביא בחשבון את השונות.

בדיקת ההבנה

אילו מאפיינים של מערך נתונים יהיו אידיאליים לשימוש ב-ML?

גודל גדול / מגוון גבוה

כדי שמערכת למידת המכונה תבין את הדפוסים הבסיסיים בנתונים, חיוני לספק לה מספר גדול של דוגמאות שמכסות מגוון תרחישים לדוגמה. מודל שאומן על מערך נתונים מהסוג הזה צפוי להפיק חיזויים טובים יותר לגבי נתונים חדשים.

גודל גדול / מגוון קטן

מודלים של למידת מכונה טובים רק כמו הדוגמאות ששימשו לאימון שלהם. מודל יניב חיזויים גרועים יותר לגבי נתונים חדשים שהוא אף פעם לא עבר אימון עליהם.

גודל קטן / מגוון גבוה

רוב המודלים לא יכולים למצוא דפוסים מהימנים במערך נתונים קטן. התחזיות לא יהיו מהימנות כמו התחזיות שמתקבלות ממערך נתונים גדול יותר.

גודל קטן / מגוון קטן

אם מערך הנתונים שלכם קטן ואין בו הרבה וריאציות, יכול להיות שלא תיהנו מהיתרונות של למידת המכונה.

מאגר נתונים יכול להיות מאופיין גם לפי מספר המאפיינים שלו. לדוגמה, מערכי נתונים מסוימים של מזג האוויר עשויים להכיל מאות תכונות, החל מתמונות לוויין ועד לערכים של כיסוי עננים. מערכי נתונים אחרים עשויים להכיל רק שלוש או ארבע תכונות, כמו לחות, לחץ אטמוספרי וטמפרטורה. מערכי נתונים עם יותר תכונות יכולים לעזור למודל לגלות דפוסים נוספים ולבצע תחזיות טובות יותר. עם זאת, מערכי נתונים עם יותר מאפיינים לא תמיד מניבים מודלים שמספקים חיזויים טובים יותר, כי יכול להיות שלמאפיינים מסוימים אין קשר סיבתי לתווית.

דגם

בלמידה בפיקוח, מודל הוא אוסף המספרים המורכב שמגדיר את הקשר המתמטי בין דפוסים ספציפיים של מאפייני קלט לבין ערכים ספציפיים של תוויות פלט. המודל מגלה את התבניות האלה במהלך האימון.

הדרכה

כדי שמודל בפיקוח יוכל לבצע תחזיות, צריך לאמן אותו. כדי לאמן מודל, אנחנו נותנים לו מערך נתונים עם דוגמאות מתויגות. מטרת המודל היא למצוא את הפתרון הטוב ביותר לחיזוי התוויות מהמאפיינים. המודל מוצא את הפתרון הטוב ביותר על ידי השוואה בין הערך החזוי שלו לערך בפועל של התווית. על סמך ההפרש בין הערכים הצפויים לבין הערכים בפועל – שמוגדר בתור האובדן – המודל מעדכן את הפתרון שלו באופן הדרגתי. במילים אחרות, המודל לומד את הקשר המתמטי בין המאפיינים לבין התווית כדי שיוכל לחזות בצורה הטובה ביותר נתונים שלא נראו.

לדוגמה, אם המודל צפה 1.15 inches שלג, אבל הערך בפועל היה .75 inches, המודל משנה את הפתרון שלו כך שהחיזוי יהיה קרוב יותר ל-.75 inches. אחרי שהמודל בודק כל דוגמה במערך הנתונים – במקרים מסוימים, כמה פעמים – הוא מגיע לפתרון שמספק את התחזיות הטובות ביותר, בממוצע, לכל אחת מהדוגמאות.

הדוגמה הבאה ממחישה אימון של מודל:

המודל מקבל דוגמה אחת עם תוויות ומספק חיזוי.

איור 1. מודל למידת מכונה שמבצע חיזוי מדוגמה מתויגת.
המודל משווה בין הערך החזוי שלו לבין הערך בפועל ומעדכן את הפתרון שלו.

איור 2. מודל למידת מכונה שמעדכן את הערך החזוי שלו.
המודל חוזר על התהליך הזה לכל דוגמה מתויגת במערך הנתונים.

איור 3. מודל למידת מכונה שמעדכן את התחזיות שלו לכל דוגמה מתויגת במערך הנתונים לאימון.

כך, המודל לומד בהדרגה את הקשר הנכון בין המאפיינים לבין התווית. ההבנה ההדרגתית הזו היא גם הסיבה לכך שמערכי נתונים גדולים ומגוונים יוצרים מודל טוב יותר. המודל ראה יותר נתונים עם טווח רחב יותר של ערכים, והוא שיפר את ההבנה שלו לגבי הקשר בין המאפיינים לבין התווית.

במהלך האימון, מומחי ה-ML יכולים לבצע התאמות עדינות בהגדרות ובתכונות שבהן המודל משתמש כדי לבצע חיזויים. לדוגמה, לתכונות מסוימות יש יכולת חיזוי גבוהה יותר מאשר לתכונות אחרות. לכן, מומחי ML יכולים לבחור באילו תכונות המודל ישתמש במהלך האימון. לדוגמה, נניח שמערך נתונים של מזג אוויר מכיל את time_of_day כתכונה. במקרה כזה, מומחה ל-ML יכול להוסיף או להסיר את time_of_day במהלך האימון כדי לראות אם המודלים מניבים תחזיות טובות יותר עם המאפיין או בלעדיו.

הערכה

אנחנו מעריכים מודל מאומן כדי לקבוע עד כמה הוא למד. כשאנחנו מעריכים מודל, אנחנו משתמשים במערך נתונים מתויג, אבל אנחנו נותנים למודל רק את המאפיינים של מערך הנתונים. לאחר מכן אנחנו משווים את התחזיות של המודל לערכים האמיתיים של התווית.

תמונה שמציגה מודל מאומן שבו התחזיות שלו משווים לערכים בפועל.

איור 4. הערכת מודל של למידת מכונה על ידי השוואה בין התחזיות שלו לבין הערכים בפועל.

בהתאם לחיזויים של המודל, יכול להיות שנבצע אימון והערכה נוספים לפני שנפרוס את המודל באפליקציה בעולם האמיתי.

בדיקת ההבנה

למה צריך לאמן מודל לפני שהוא יכול לבצע תחזיות?

צריך לאמן מודל כדי ללמוד את הקשר המתמטי בין המאפיינים לבין התווית במערך נתונים.

אין צורך לאמן מודל. המודלים זמינים ברוב המחשבים.

צריך לאמן מודל כדי שלא יהיה צורך בנתונים כדי לבצע חיזוי.

הסקה

אחרי שנהיה מרוצים מהתוצאות של הערכת המודל, נוכל להשתמש בו כדי ליצור תחזיות, שנקראות הסקות, על דוגמאות ללא תוויות. בדוגמה של אפליקציית מזג האוויר, אנחנו נותנים למודל את תנאי מזג האוויר הנוכחיים – כמו הטמפרטורה, לחץ האטמוספרה והלחות היחסית – והוא מנבא את כמות המשקעים.

מהי למידה חישובית?

בחינת ההבנה שלכם

למידה בפיקוח קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

מושגים בסיסיים של למידה מונחית

נתונים

מאפייני מערך הנתונים

בדיקת ההבנה

דגם

הדרכה

הערכה

בדיקת ההבנה

הסקה

למידה בפיקוח