שלב 1: אוספים נתונים

איסוף הנתונים הוא השלב החשוב ביותר בפתרון כל בעיה בלמידה חישובית מבוקרת. סיווג הטקסט יכול להיות רק טוב כמו מערך הנתונים שממנו הוא מבוסס.

אם אין לכם בעיה ספציפית ואתם רוצים לחקור את סיווג הטקסט באופן כללי, יש מערכי נתונים רבים של קוד פתוח. תוכלו למצוא קישורים לחלק מהם ב-GitHub repo. מצד שני, אם אתם נתקלים בבעיה ספציפית, תצטרכו לאסוף את הנתונים הדרושים. ארגונים רבים מספקים ממשקי API ציבוריים לגישה לנתונים שלהם – לדוגמה, ה-API של Twitter או NY Times API. ייתכן שתוכלו להשתמש בהם לפתרון הבעיה שאתם מנסים לפתור.

הנה כמה דברים שחשוב לזכור במהלך איסוף הנתונים:

  • אם אתם משתמשים ב-API ציבורי, חשוב להבין את המגבלות של ה-API לפני השימוש בו. לדוגמה, ממשקי API מסוימים מגדירים הגבלה לקצב שבו ניתן ליצור שאילתות.
  • ככל שיש לכם יותר דוגמאות לאימון (שנקראות דוגמאות בהמשך המדריך), כך המודל יהיה טוב יותר.
  • ודאו שמספר הדגימות לכל סיווג או נושא הוא לא מאוזן מדי. כלומר, צריך להיות מספר מקביל של דגימות בכל כיתה.
  • חשוב לוודא שהדגימות מכסה בצורה נכונה את מרווח הקלט האפשריים, ולא רק את הסיבות הנפוצות.

במדריך הזה נשתמש במערך הנתונים של ביקורות הסרטים (IMDb) באינטרנט כדי להמחיש את תהליך העבודה. מערך הנתונים הזה כולל ביקורות על סרטים שפורסמו על ידי אנשים באתר IMDb, וכן את התוויות המתאימות ("חיובי" או "שלילי") שמציינת אם הכותב אהב את הסרט או לא. זוהי דוגמה קלאסית לבעיה של ניתוח סנטימנט.