כדאי לעיין באפשרויות הבאות.
נניח שאתם רוצים לפתח מודל של למידה חישובית מבוקרת כדי לחזות
אם כתובת אימייל מסוימת היא "ספאם" או &"לא ספאם." אילו
מההצהרות הבאות נכונות?
אימיילים שאינם מסומנים כ-"ספאם" או &"לא ספאם" הם דוגמאות ללא תוויות.
מכיוון שהתווית מכילה את הערכים "ספאם" ו-"לא ספאם",
כל כתובת אימייל שעדיין לא סומנה כספאם או לא ספאם היא
דוגמה ללא תווית.
מילים בכותרת הנושא יהיו תוויות טובות.
מילים שמופיעות בכותרת של נושא עשויות להניב תכונות נהדרות, אבל הן לא
ייצרו תוויות טובות.
נשתמש בדוגמאות ללא תווית כדי לאמן את המודל.
נשתמש בדוגמאות תוויות כדי לאמן את המודל. לאחר מכן
נוכל להפעיל את המודל המיומן כנגד דוגמאות ללא תווית כדי להסיק
אם הודעות האימייל שלא מסומנות בתווית הן ספאם או לא.
התוויות שהוחלו על דוגמאות מסוימות עשויות להיות לא אמינות.
בהחלט. חשוב לבדוק את מידת האמינות של הנתונים שלך. יכול להיות שהתוויות למערך הנתונים הזה מגיעות
ממשתמשי אימייל שמסמנים הודעות אימייל מסוימות כספאם. מכיוון
שרוב המשתמשים לא מסמנים כל הודעת אימייל חשודה כספאם, יכול להיות
שנקשה לדעת אם הודעת אימייל היא ספאם. בנוסף,
שולחי ספאם עלולים הרעה מכוונת את המודל שלנו על ידי ציון תוויות
שגויות.