מסגור: מונחי מפתח בלמידת מכונה

מהי למידה חישובית (בפיקוח)? בקצרה, כך:

  • מערכות למידת מכונה (ML) לומדות איך לשלב קלט כדי להפיק תחזיות מועילות בנוגע לנתונים שלא נראו בעבר.

נבחן את המונחים הבסיסיים של למידת מכונה.

תוויות

תווית היא הדבר שאנחנו צופים #-39; אנחנו צופים – המשתנה y ברגרסיה לינארית פשוטה. הלייבל יכול להיות מחיר עתידי של חיטה, סוג בעל החיים שמופיע בתמונה, משמעות של קטע אודיו או כמעט הכול.

תכונות

תכונה היא משתנה קלט – המשתנה x ברגרסיה לינארית פשוטה. פרויקט פשוט של למידה חישובית עשוי להשתמש בתכונה אחת, בעוד שפרויקט מתוחכם יותר ללמידה חישובית עשוי להשתמש במיליוני תכונות, המפורטות כאן:

\[\\{x_1, x_2, ... x_N\\}\]

בדוגמה של מזהה הספאם, התכונות יכולות לכלול את הדברים הבאים:

  • מילים בטקסט של האימייל
  • הכתובת של השולח
  • השעה ביום שבה האימייל נשלח
  • כתובת האימייל מכילה את הביטוי "רע אחד מוזר."

דוגמאות

example הוא מופע מסוים של נתונים, x. (הטקסט x מופיע בגופן מודגש כדי לציין שהוא וקטור). אנחנו מחלקים את הדוגמאות לשתי קטגוריות:

  • תוויות מסומנות
  • דוגמאות ללא תוויות

דוגמה לתווית כוללת גם את התכונות וגם את התווית. כלומר:

  labeled examples: {features, label}: (x, y)

אפשר להשתמש בדוגמאות של תוויות כדי לתרגל את המודל. בדוגמה שלנו לזיהוי ספאם, הדוגמאות הללו יהיו הודעות אימייל אישיות שהמשתמשים סימנו באופן מפורש כ-"ספאם" או &"לא ספאם."

לדוגמה, בטבלה הבאה מוצגות 5 דוגמאות עם תוויות ממערך נתונים שמכילות מידע על מחירי דיור בקליפורניה:

דיורMedianAge
(תכונה)
סה"כ חדרים
(תכונה)
סה"כ חדרים
(תכונה)
medianHouseValue
(label)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

דוגמה ללא תווית מכילה תכונות, אבל לא את התווית. כלומר:

  unlabeled examples: {features, ?}: (x, ?)

הנה 3 דוגמאות ללא תוויות מאותו מערך נתונים של דיור, שמחריגות את medianHouseValue:

דיורMedianAge
(תכונה)
סה"כ חדרים
(תכונה)
סה"כ חדרים
(תכונה)
42 1686 361
34 1226 180
33 1077 271

אחרי שאנחנו מאמנים את המודל באמצעות דוגמאות עם תוויות, אנחנו משתמשים במודל הזה כדי לחזות את התווית בדוגמאות ללא תווית. מזהה הספאם, דוגמאות ללא תווית, הן הודעות אימייל חדשות שהאנשים עדיין לא תייגו.

דגמים

מודל מגדיר את הקשר בין התכונות והתווית. לדוגמה, מודל לזיהוי ספאם עשוי לשייך תכונות מסוימות באופן חזק ל-"ספאם" נדגיש שני שלבים בחייו של מודל:

  • הדרכה פירושה יצירה או למידה של המודל. כלומר, אתם מציגים את המודל עם התוויות ומאפשרים למודל ללמוד בהדרגה את הקשרים בין התכונות והתווית.

  • הסקת מסקנות פירושה החלת המודל המיומן על דוגמאות ללא תווית. פירוש הדבר הוא שאתם משתמשים במודל שאימנתם כדי ליצור תחזיות מועילות (y'). לדוגמה, במהלך ההסקה תוכלו לחזות את medianHouseValue לדוגמאות חדשות ללא תוויות.

רגרסיה לעומת סיווג

מודל רגרסיה חוזה ערכים רציפים. לדוגמה, מודלים של רגרסיה מספקים חיזויים שעונים על שאלות כמו:

  • מה הערך של בית בקליפורניה?

  • מהי ההסתברות שמשתמש ילחץ על המודעה?

מודל סיווג חוזה ערכים נפרדים. לדוגמה, מודלים של סיווג יוצרים חיזויים שעונים על שאלות כמו:

  • האם הודעת אימייל מסוימת היא ספאם או שאינה ספאם?

  • האם זו תמונה של כלב, חתול או אוגר?