מערכות למידת מכונה בעולם האמיתי: ספרות

בשיעור הזה, ניפוי באגים בנושא בעיה של למידת מכונה בעולם האמיתי, שקשור לספרות מהמאה ה-18.

דוגמה מהעולם האמיתי: ספרות מהמאה ה-18

  • פרופסור לספרות מהמאה ה-18 רצה לחזות את ההשתייכות הפוליטית של המחברים רק על סמך &מירכאות;
ספרים ישנים
  • פרופסור לספרות מהמאה ה-18 רצה לחזות את ההשתייכות הפוליטית של המחברים רק על סמך &מירכאות;
  • צוות חוקרים יצר קבוצת נתונים גדולה עם תוויות, במספר רב של מחברים' עבודות, משפט לפי משפט ופיצול לקבוצות של רכבות/אימות/קבוצות בדיקה.
ספרים ישנים
  • פרופסור לספרות מהמאה ה-18 רצה לחזות את ההשתייכות הפוליטית של המחברים רק על סמך &מירכאות;
  • צוות חוקרים יצר קבוצת נתונים גדולה עם תוויות, במספר רב של מחברים' עבודות, משפט לפי משפט ופיצול לקבוצות של רכבות/אימות/קבוצות בדיקה.
  • מודל שהורכב כמעט באופן כמעט מושלם על נתוני בדיקה, אבל החוקרים הרגישו שהתוצאות היו חשודות באופן מדויק. מה השתבש?
ספרים ישנים

למה לדעתך רמת הדיוק של הבדיקה הייתה חשודה? בודקים אם אפשר לפתור את הבעיה ולוחצים על לחצן ההפעלה ▶ שלמטה כדי לבדוק אם הבעיה נכונה.

  • פיצול נתונים א': חוקרים מוסיפים כמה דוגמאות מכל מחבר וקבוצה לקבוצת הכשרה, חלקם בקבוצת אימות, חלקם בקבוצת בדיקה.
כל הדוגמאות של ריצ'רדון נמצאות בקבוצת האימון, וכל הדוגמאות של סוויפט יכולות להיות בקבוצת האימות.
תרשים שמוצג בו פירוט של דוגמאות לכותבים בהדרכות, באימות ובקבוצות בדיקה. דוגמאות מכל אחד משלושת המחברים מיוצגות בכל קבוצה.
  • פיצול נתונים ב': החוקרים מוסיפים את כל הדוגמאות של כל המחבר/ת לקבוצה אחת.
תרשים שמוצג בו פירוט של דוגמאות לכותבים בהדרכות, באימות ובקבוצות בדיקה. קבוצת האימון מכילה רק דוגמאות מ-Swift, קבוצת האימות מכילה רק דוגמאות מ-Bake, וקבוצת הבדיקה מכילה רק דוגמאות מ-Defoe.
  • פיצול נתונים א': חוקרים מוסיפים כמה דוגמאות מכל מחבר וקבוצה לקבוצת הכשרה, חלקם בקבוצת אימות, חלקם בקבוצת בדיקה.
  • פיצול נתונים ב': החוקרים מוסיפים את כל הדוגמאות של כל המחבר/ת לקבוצה אחת.
  • תוצאות: המודל שהוכשר בפיצול נתונים א' היה הרבה יותר מדויק מהמודל שהוכן בפיצול הנתונים ב'.

מוסרי: חשוב היטב איך לפצל את הדוגמאות.

חשוב לדעת מה הנתונים מייצגים.

* אנחנו מסתמכים על המודול הזה באופן חופשי (ביצוע שינויים מסוימים בדרך) "משמעות וכרייה: ההשפעה של ההנחות המשתמעות בכריית נתונים עבור האנושות" על ידי Sculley ו-Pasanek.