דגימה ופיצול של הנתונים

מבוא לדגימה

לעיתים קרובות המאמץ לאסוף מספיק נתונים לצורך פרויקט של למידת מכונה. עם זאת, לפעמים יש נתונים יותר מדי, ואתם צריכים לבחור קבוצת משנה של דוגמאות לאימון.

איך בוחרים את קבוצת המשנה הזו? לדוגמה, חיפוש Google. באיזו רמת פירוט נדגמו הכמויות העצומות של נתונים? האם תשתמשו בשאילתות אקראיות? יש סשן אקראי? משתמשים אקראיים?

בסופו של דבר, התשובה תלויה בבעיה: מה אנחנו רוצים לחזות ואילו תכונות אנחנו רוצים?

  • כדי להשתמש בתכונה שאילתה קודמת, אתם צריכים לדגום ברמת הביקור, כי סשנים מכילים רצף של שאילתות.
  • כדי להשתמש בתכונה התנהגות משתמשים מימים קודמים, אתם צריכים לדגום ברמת המשתמש.

סינון לפי פרטים אישיים מזהים (PII)

אם הנתונים שלכם כוללים פרטים אישיים מזהים (PII), ייתכן שתצטרכו לסנן אותם מהנתונים. לדוגמה, מדיניות עשויה לחייב הסרה של תכונות בתדירות נמוכה.

הסינון הזה יטות את ההפצה. מידע יאבד בזנב (חלק ההפצה עם ערכים נמוכים מאוד, רחוק מהממוצע).

המסנן הזה שימושי כי קשה מאוד ללמוד על תכונות. אבל חשוב להבין שמערך הנתונים שלכם יהיה מוטה בשאילתות. בזמן ההצגה, תוכלו לצפות בפרסום גרוע יותר של דוגמאות מהזנב, כי אלה היו הדוגמאות שסוננו מנתוני האימון. על אף שלא ניתן להימנע מהטיה זו, חשוב להיות מודעים לה במהלך הניתוח.