שליחת משוב
מערכי נתונים, הכללה והתאמה יתר
קל לארגן דפים בעזרת אוספים
אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.
אורך מודול משוער: 105 דקות
מטרות למידה
זיהוי ארבעה מאפיינים שונים של נתונים ומערכי נתונים.
נסו לזהות לפחות ארבע סיבות שונות לחוסר אמינות של נתונים.
להחליט מתי להוציא נתונים חסרים ומתי להוסיף אותם.
הבחנה בין תוויות ישירות לבין תוויות נגזרות.
פרטו שתי דרכים שונות לשיפור האיכות של דירוג אנושי
תוויות.
הסבירו למה לחלק מערך נתונים לקבוצת אימון, לקבוצת אימות
ואת קבוצת הבדיקה, לזהות בעיה פוטנציאלית בפיצולי נתונים.
הסבר על התאמת יתר וזיהוי שלוש סיבות אפשריות לכך.
הסבר על המושג 'רגולריזציה'. באופן ספציפי, עליך להסביר
הבאים:
הטיה לעומת שונות (התאמה לערכים חריגים…)
רגולריזציה מסוג L2 , כולל Lambda (שיעור רגולריזציה)
עצירה מוקדמת
פרשנות של סוגים שונים של עקומות אובדן, זיהוי של התכנסות ותאמה יתר בעקומות אובדן.
מבוא
יחידת הלימוד הזו מתחילה בשאלה מובילה.
בוחרים באחת מהתשובות הבאות:
אם הייתם צריכים לתת עדיפות לשיפור אחד מהתחומים הבאים בפרויקט למידת המכונה שלכם, איזה מהם ישפיע בצורה המשמעותית ביותר?
שיפור האיכות של מערך הנתונים
הנתונים גוברים על הכול.
לאיכות ולגודל של מערך הנתונים יש חשיבות רבה
ממש אלגוריתם חדש שבו משתמשים כדי לבנות את המודל.
החלת פונקציית הפסד חכמה יותר על אימון המודל
נכון, פונקציית הפסדים טובה יותר יכולה לעזור למודל לאמן מהר יותר, אבל
הוא עדיין רחוק לפני פריט אחר ברשימה הזו.
וזו שאלה מניחה עוד יותר:
נסו לנחש: כמה זמן בדרך כלל אתם משקיעים בהכנה ובטרנספורמציה של הנתונים בפרויקט למידת המכונה?
יותר ממחצית מזמן הפרויקט
כן, מומחי למידת מכונה מבלים את רוב הזמן שלהם ביצירת מערכי נתונים ובפיתוח מאפיינים.
פחות ממחצית משך הפרויקט
מתכננים דברים נוספים! בדרך כלל, 80% מהזמן בפרויקט של למידת מכונה מוקדש ליצירת מערכי נתונים ולטרנספורמציה של נתונים.
ביחידה הזו תלמדו על המאפיינים של מערכי נתונים ללמידת מכונה, ותקבלו מידע נוסף על הכנת הנתונים כדי להבטיח תוצאות באיכות גבוהה במהלך אימון המודל והערכתו.
שליחת משוב
אלא אם צוין אחרת, התוכן של דף זה הוא ברישיון Creative Commons Attribution 4.0 ודוגמאות הקוד הן ברישיון Apache 2.0 . לפרטים, ניתן לעיין במדיניות האתר Google Developers . Java הוא סימן מסחרי רשום של חברת Oracle ו/או של השותפים העצמאיים שלה.
עדכון אחרון: 2025-07-27 (שעון UTC).
רוצה לתת לנו משוב?
[[["התוכן קל להבנה","easyToUnderstand","thumb-up"],["התוכן עזר לי לפתור בעיה","solvedMyProblem","thumb-up"],["סיבה אחרת","otherUp","thumb-up"]],[["חסרים לי מידע או פרטים","missingTheInformationINeed","thumb-down"],["התוכן מורכב מדי או עם יותר מדי שלבים","tooComplicatedTooManySteps","thumb-down"],["התוכן לא עדכני","outOfDate","thumb-down"],["בעיה בתרגום","translationIssue","thumb-down"],["בעיה בדוגמאות/בקוד","samplesCodeIssue","thumb-down"],["סיבה אחרת","otherDown","thumb-down"]],["עדכון אחרון: 2025-07-27 (שעון UTC)."],[],[]]