שלב 1: אוספים נתונים
קל לארגן דפים בעזרת אוספים
אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.
איסוף נתונים הוא השלב החשוב ביותר בפתרון כל בעיה שקשורה ללמידה של מכונה בפיקוח. האיכות של מסַווג הטקסט (textסווג) יכולה להיות פחות טובה ממערך הנתונים שממנו הוא נוצר.
אם אין לכם בעיה ספציפית שאתם רוצים לפתור ואתם מעוניינים רק לבחון את סיווג הטקסט באופן כללי, יש מגוון מערכי נתונים בקוד פתוח. יש קישורים לחלק מהם במאגר GitHub שלנו.
לעומת זאת, אם מתמודדים עם בעיה ספציפית, צריך לאסוף את הנתונים הנדרשים. הרבה ארגונים מספקים ממשקי API ציבוריים כדי לגשת לנתונים שלהם, לדוגמה X API או NY Times API. ייתכן שתוכלו להשתמש בממשקי ה-API האלה לבעיה שאתם מנסים לפתור.
כמה דברים שחשוב לזכור כשאוספים נתונים:
- אם אתם משתמשים ב-API ציבורי, חשוב להבין את המגבלות של ה-API לפני שאתם משתמשים בהן. לדוגמה, חלק מממשקי ה-API מגבילים את הקצב שבו אפשר לשלוח שאילתות.
- כדאי לנסות כמה שיותר דוגמאות אימון (שנקראות דוגמאות בשאר המדריך). כך המודל שלכם יכלל טוב יותר.
- חשוב לוודא שמספר הדגימות בכל כיתה או נושא לא לא מאוזן מדי. כלומר, צריך להיות לכם מספר דומה של דגימות בכל מחלקה.
- חשוב לוודא שהדוגמאות מכסות כראוי את מרחב הקלט האפשרי, ולא רק את המקרים הנפוצים.
כדי להדגים את תהליך העבודה, לאורך המדריך הזה נשתמש במערך הנתונים של ביקורות הסרטים במסד הנתונים של סרטים באינטרנט (IMDb). מערך הנתונים הזה מכיל ביקורות על סרטים שאנשים פרסמו באתר IMDb, וגם את התוויות המתאימות (חיוביות או שליליות) שמציינות אם כותב הביקורת אהב את הסרט או לא. זוהי דוגמה קלאסית לבעיה בניתוח סנטימנטים.
אלא אם צוין אחרת, התוכן של דף זה הוא ברישיון Creative Commons Attribution 4.0 ודוגמאות הקוד הן ברישיון Apache 2.0. לפרטים, ניתן לעיין במדיניות האתר Google Developers. Java הוא סימן מסחרי רשום של חברת Oracle ו/או של השותפים העצמאיים שלה.
עדכון אחרון: 2024-06-25 (שעון UTC).
[[["התוכן קל להבנה","easyToUnderstand","thumb-up"],["התוכן עזר לי לפתור בעיה","solvedMyProblem","thumb-up"],["סיבה אחרת","otherUp","thumb-up"]],[["חסרים לי מידע או פרטים","missingTheInformationINeed","thumb-down"],["התוכן מורכב מדי או עם יותר מדי שלבים","tooComplicatedTooManySteps","thumb-down"],["התוכן לא עדכני","outOfDate","thumb-down"],["בעיה בתרגום","translationIssue","thumb-down"],["בעיה בדוגמאות/בקוד","samplesCodeIssue","thumb-down"],["סיבה אחרת","otherDown","thumb-down"]],["עדכון אחרון: 2024-06-25 (שעון UTC)."],[[["High-quality data is crucial for building effective supervised machine learning text classifiers, with more training samples generally leading to better performance."],["Public APIs and open-source datasets can be leveraged for data collection, but it's important to understand API limitations and ensure data balance across classes."],["Adequate data representation across all possible input variations is necessary, and the IMDb movie reviews dataset will be used to demonstrate text classification workflow for sentiment analysis."],["When collecting data, aim for a balanced dataset with a sufficient number of samples for each class to avoid imbalanced datasets and promote better model generalization."]]],[]]