קל לארגן דפים בעזרת אוספים
אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.
אפשר לאמן מודלים של למידת מכונה רק על ערכים של נקודה צפה.
עם זאת, תכונות רבות של מערכי נתונים לא הן ערכים של נקודות צפות באופן טבעי.
לכן, חלק חשוב בלמידת מכונה הוא טרנספורמציה של מאפיינים שאינם של נקודה צפה לייצוגים של נקודה צפה.
לדוגמה, נניח ש-street names היא תכונה. רוב שמות הרחובות הם מחרוזות, כמו 'Broadway' או 'Vilakazi'.
אי אפשר לאמן את המודל על 'Broadway', לכן צריך להפוך את 'Broadway' למספר עשרוני. במודול 'נתונים איכותיים' מוסבר איך עושים את זה.
בנוסף, כדאי לבצע טרנספורמציה גם לרוב המאפיינים של נקודות צפות.
תהליך הטרנספורמציה הזה, שנקרא נורמליזציה, ממיר מספרים בספרות עשרוניות מוצפות לטווח מוגבל שמשפר את אימון המודל.
במודול 'נתונים מספריים' מוסבר איך לעשות זאת.
דגימת נתונים כשיש יותר מדי מהם
יש ארגונים שיש להם שפע של נתונים.
כשמערך הנתונים מכיל יותר מדי דוגמאות, צריך לבחור קבוצת משנה של דוגמאות לאימון. כשהדבר אפשרי, כדאי לבחור את קבוצת המשנה שרלוונטית ביותר לחיזויים של המודל.
דוגמאות למסננים שמכילים פרטים אישיים מזהים (PII)
מערכי נתונים טובים לא כוללים דוגמאות שמכילות פרטים אישיים מזהים (PII). המדיניות הזו עוזרת להגן על הפרטיות, אבל היא עשויה להשפיע על המודל.
מידע נוסף על הנושאים האלה זמין במודול 'בטיחות ופרטיות' בהמשך הקורס.
[[["התוכן קל להבנה","easyToUnderstand","thumb-up"],["התוכן עזר לי לפתור בעיה","solvedMyProblem","thumb-up"],["סיבה אחרת","otherUp","thumb-up"]],[["חסרים לי מידע או פרטים","missingTheInformationINeed","thumb-down"],["התוכן מורכב מדי או עם יותר מדי שלבים","tooComplicatedTooManySteps","thumb-down"],["התוכן לא עדכני","outOfDate","thumb-down"],["בעיה בתרגום","translationIssue","thumb-down"],["בעיה בדוגמאות/בקוד","samplesCodeIssue","thumb-down"],["סיבה אחרת","otherDown","thumb-down"]],["עדכון אחרון: 2024-11-14 (שעון UTC)."],[[["Machine learning models require all data, including features like street names, to be transformed into numerical (floating-point) representations for training."],["Normalization is crucial for optimizing model training by converting existing floating-point features to a specific range."],["When dealing with large datasets, selecting a relevant subset of data for training is essential for model performance."],["Protecting user privacy by excluding Personally Identifiable Information (PII) from datasets is a critical consideration."]]],[]]