בחינת ההבנה שלכם
קל לארגן דפים בעזרת אוספים
אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.
השאלות הבאות יעזרו לכם לחדד את ההבנה שלכם לגבי מושגי הליבה של למידת המכונה.
יכולת חיזוי
מודלים של למידת מכונה (ML) בפיקוח עוברים אימון באמצעות מערכי נתונים עם דוגמאות מתויגות. המודל לומד לחזות את התווית מהמאפיינים. עם זאת, לא לכל מאפיין בקבוצת נתונים יש יכולת חיזוי. במקרים מסוימים, רק כמה תכונות משמשות כחזויות לתיוג. במערך הנתונים שבהמשך, משתמשים במחיר בתור התווית ובעמודות הנותרות בתור המאפיינים.
לדעתך, אילו שלוש תכונות הן הסבירות ביותר לחזות את מחיר הרכב?
Make_model, year, miles.
סביר להניח ששם היצרן, הדגם, שנת הייצור והקילומטראז' של הרכב הם בין הגורמים החזקים ביותר שמשפיעים על המחיר שלו.
Color, height, make_model.
הגובה והצבע של הרכב הם לא גורמים חזקים שמשפיעים על המחיר שלו.
Miles, gearbox, make_model.
תיבת ההילוכים היא לא גורם עיקרי שמשפיע על המחיר.
Tire_size, wheel_base, year.
גודל הצמיגים ובסיס הגלגלים הם לא גורמים חזקים שמשפיעים על מחיר הרכב.
למידה מונחית ולא מונחית
בהתאם לבעיה, תשתמשו בגישה בפיקוח או ללא פיקוח.
לדוגמה, אם אתם יודעים מראש את הערך או הקטגוריה שאתם רוצים לחזות, תוכלו להשתמש בלמידה בפיקוח. עם זאת, אם רוצים לדעת אם מערך הנתונים מכיל פילוח או קיבוץ של דוגמאות קשורות, צריך להשתמש בלמידה ללא הדרכה.
נניח שיש לכם מערך נתונים של משתמשים באתר של קניות אונליין, והוא מכיל את העמודות הבאות:
אם תרצו להבין את סוגי המשתמשים שמבקרים באתר, האם תשתמשו בלמידה בפיקוח או בלמידה ללא פיקוח?
למידה לא מפוקחת.
אנחנו רוצים שהמודל יקבץ קבוצות של לקוחות קשורים, ולכן נשתמש בלמידה ללא הדרכה. אחרי שהמודל יקיבוץ את המשתמשים, נגדיר שמות משותפים לכל אשכול, למשל 'מחפשי הנחות', 'ציידי מבצעים', 'גולשים', 'נאמנים' ו'נודדים'.
למידה בפיקוח, כי אני מנסה לחזות לאיזו כיתה משתייך המשתמש.
בלמידה מבוקרת, מערך הנתונים צריך לכלול את התווית שאתם מנסים לחזות. אין במערך הנתונים תווית שמפנה לקטגוריה של משתמש.
נניח שיש לכם מערך נתונים של שימוש באנרגיה בבתים עם העמודות הבאות:
באיזה סוג של למידת מכונה היית משתמש כדי לחזות את מספר שעות הקילוואט שנעשה בהן שימוש בשנה בבית שנבנה לאחרונה?
למידה מפוקחת.
למידה בפיקוח מתבצעת על דוגמאות מתויגות. במערך הנתונים הזה, התווית תהיה 'קילוואט-שעה בשימוש בשנה' כי זה הערך שרוצים שהמודל יחזה. התכונות יהיו: 'שטח בנוי', 'מיקום' ו'שנת בנייה'.
למידה לא מפוקחת.
בלמידה בלתי מונחית נעשה שימוש בדוגמאות לא מתויגות. בדוגמה הזו, התווית תהיה 'קילוואט-שעה בשנה' כי זה הערך שרוצים שהמודל יחזה.
נניח שיש לכם מערך נתונים של טיסות עם העמודות הבאות:
אם רוצים לחזות את העלות של כרטיס טיסה, משתמשים ברגרסיה או בסיווג?
רגרסיה
הפלט של מודל רגרסיה הוא ערך מספרי.
סיווג
הפלט של מודל סיווג הוא ערך בדיד, בדרך כלל מילה. במקרה הזה, העלות של כרטיס טיסה היא ערך מספרי.
על סמך מערך הנתונים, האם אפשר לאמן מודל סיווג כדי לסווג את העלות של כרטיס טיסה כ'גבוהה', 'ממוצעת' או 'נמוכה'?
כן, אבל קודם כול צריך להמיר את הערכים המספריים בעמודה airplane_ticket_cost
לערכים קטגוריאליים.
אפשר ליצור מודל סיווג ממערך הנתונים.
מבצעים את הפעולות הבאות:
- חיפוש העלות הממוצעת של כרטיס משדה התעופה של המוצא לשדה התעופה של היעד.
- קובעים את ערכי הסף שייחשבו כ'גבוה', 'ממוצע' ו'נמוך'.
- השוואת העלות הצפויה לערכי הסף והצגת הקטגוריה שבה נמצא הערך.
לא. אי אפשר ליצור מודל סיווג. הערכים של airplane_ticket_cost
הם מספריים ולא קטגוריים.
עם קצת עבודה, תוכלו ליצור מודל סיווג.
לא. מודלים של סיווג צופים רק שתי קטגוריות, כמו spam
או not_spam
. המודל הזה יצטרך לחזות שלוש קטגוריות.
מודלים של סיווג יכולים לחזות כמה קטגוריות. הם נקראים מודלים של סיווג רב-רמות.
אימון והערכה
אחרי שאנחנו מארגנים מודל, אנחנו מעריכים אותו באמצעות מערך נתונים עם דוגמאות מתויגות, ומשווים את הערך המשוער של המודל לערך בפועל של התווית.
בוחרים את שתי התשובות הטובות ביותר לשאלה.
אם התחזיות של המודל שגויות, מה אפשר לעשות כדי לשפר אותן?
מאומנים מחדש את המודל, אבל משתמשים רק בתכונות שלדעתכם יש להן את יכולת החיזוי החזקה ביותר של התווית.
אימון מחדש של המודל עם פחות תכונות, אבל עם יותר יכולת חיזוי, יכול להניב מודל שמבצע חיזויים טובים יותר.
אי אפשר לתקן מודל שהתחזיות שלו שגויות.
אפשר לתקן מודל שהתחזיות שלו שגויות. רוב המודלים דורשים כמה מחזורי אימון עד שהם מספקים תחזיות שימושיות.
מאומנים מחדש את המודל באמצעות מערך נתונים גדול ומגוון יותר.
מודלים שמותאמים על סמך מערכי נתונים עם יותר דוגמאות ומגוון רחב יותר של ערכים יכולים לספק תחזיות טובות יותר, כי למודל יש פתרון כללי טוב יותר לקשר בין המאפיינים לבין התווית.
נסו גישה אחרת לאימון. לדוגמה, אם השתמשתם בגישה בפיקוח, נסו גישה ללא פיקוח.
גישה שונה של אימון לא תניב תחזיות טובות יותר.
עכשיו אתם מוכנים לעבור לשלב הבא במסע שלכם ב-ML:
מדריך לאנשים ו-AI אם אתם מחפשים קבוצה של שיטות, שיטות מומלצות ודוגמאות לשימוש ב-ML, שמוצגות על ידי גוגלרים, מומחים בתעשייה ומחקרים אקדמיים.
מסגור הבעיה. אם אתם מחפשים גישה שנבדקה בשטח ליצירת מודלים של למידת מכונה ולהימנעות ממלכודות נפוצות.
קורס מקוצר על למידת מכונה אם אתם מוכנים ללמוד על למידת מכונה בצורה מעמיקה ומעשית.