נתונים קטגוריים: תרגולים שונים של תכונות

‫Playground הוא אפליקציה אינטראקטיבית שמאפשרת לכם לשנות היבטים שונים של אימון ובדיקה של מודל למידת מכונה. ב-Playground, אתם יכולים לבחור תכונות ולשנות היפרפרמטרים, ואז לראות איך הבחירות שלכם משפיעות על המודל.

בדף הזה יש שני תרגילים שבהם משתמשים בווידג'טים של Playground שמוטמעים מתחת להוראות.

תרגיל 1: צלב תכונות בסיסי

במסגרת התרגיל הזה, נתמקד בחלקים הבאים בממשק המשתמש של Playground:

  • מתחת ל-FEATURES, אפשר לראות את שלושת מאפייני המודל האפשריים:
    • x1
    • x2
    • x1x2
  • מתחת ל-OUTPUT, תופיע ריבוע עם נקודות כתומות וכחולות. תארו לעצמכם שאתם מסתכלים על יער בצורת ריבוע, שבו נקודות כתומות מסמנות את המיקום של עצים חולים ונקודות כחולות מסמנות את המיקום של עצים בריאים.
  • בין FEATURES ל-OUTPUT, אם תתבוננו מקרוב, תראו שלושה קווים מקווקווים חלשים שמקשרים כל תכונה לפלט. הרוחב של כל קו מקווקו מסמל את המשקל שמשויך כרגע לכל תכונה. הקווים האלה חלשים מאוד כי המשקל ההתחלתי של כל תכונה הוא 0. ככל שהמשקל גדל או קטן, כך גם עובי הקווים האלה.

משימה 1: כדי להכיר את Playground, מבצעים את הפעולות הבאות:

  1. לוחצים על הקו הדק שמחבר בין התכונה x1 לבין הפלט. יופיע חלון קופץ.
  2. בחלון הקופץ, מזינים את המשקל 1.0.
  3. מקישים על Enter.

כדאי לשים לב לנקודות הבאות:

  • הקו המקווקו של x1 הופך עבה יותר ככל שהמשקל עולה מ-0 ל-1.0.
  • עכשיו מופיע רקע כתום וכחול.
    • הרגע הכתום הוא הניחושים של המודל לגבי המיקום של העצים החולים.
    • הרשת הכחולה היא הניחושים של המודל לגבי המיקום של העצים הבריאים. המודל לא מבצע עבודה טובה, בערך מחצית מהניחושים של המודל שגויים.
  • המשקל של x1 הוא 1.0, והמשקל של התכונות האחרות הוא 0, ולכן המודל מתאים לערכים של x1 בדיוק.

משימה 2: משנים את המשקלים של אחת משלוש התכונות או של כולן, כך שהמודל (צבעי הרקע) ינבא בהצלחה את העצים החולים והבריאים. הפתרון יופיע מתחת ל-Playground.



תרגיל 2: שילוב תכונות מורכב יותר

בתרגיל השני, צריך להסתכל על הסידור של הנקודות הכתומות (עצים חולים) והנקודות הכחולות (עצים בריאים) במודל הפלט, ולשים לב לנקודות הבאות:

  • הנקודות יוצרות תבניות כדוריות בערך.
  • הסידור של הנקודות רועש. לדוגמה, אפשר לראות נקודות כחולות מדי פעם בחלק החיצוני של הנקודות הכתומות. לכן, גם מודל מצוין לא צפוי לחזות נכון כל נקודה.

משימה 1: כדי להכיר את ממשק המשתמש של Playground, מבצעים את הפעולות הבאות:

  1. לוחצים על לחצן ההפעלה או ההשהיה, שמוצג כמשולש לבן בתוך עיגול שחור. המודל יתחיל להתאמן ב-Playground. אפשר לראות את מונה האפוקים עולה.
  2. אחרי שהמערכת עברה לפחות 300 אימונים, לוחצים על אותו לחצן Run/Pause (הפעלה/השהיה) כדי להשהות את האימון.
  3. תסתכלו על המודל. האם המודל יוצר תחזיות טובות? במילים אחרות, האם הנקודות הכחולות מוקפות בדרך כלל ברקע כחול, והאם הנקודות הכתומות מוקפות בדרך כלל ברקע כתום?
  4. בודקים את הערך של Test loss (הפסד בבדיקה), שמופיע ממש מתחת ל-OUTPUT. האם הערך הזה קרוב יותר ל-1.0 (הפסד גבוה יותר) או קרוב יותר ל-0 (הפסד נמוך יותר)?
  5. כדי לאפס את Playground, לוחצים על החץ המעוקל שמשמאל לכפתור ההפעלה או ההשהיה.

משימה 2: כדי לשפר את המודל, צריך:

  1. בוחרים או מבטלים את הבחירה בכל שילוב של חמש התכונות האפשריות.
  2. משנים את קצב הלמידה.
  3. מאמנים את המערכת במשך 500 תקופות לפחות.
  4. בודקים את הערך של אובדן הבדיקה. האם אפשר לקבל הפסד בבדיקה של פחות מ-0.2?

הפתרונות מופיעים מתחת ל-Playground.