התהליך של הכנת נתונים והנדסת תכונות

מהו תהליך העיבוד?

כפי שצוין קודם, קורס זה מתמקד בבניית קבוצת הנתונים שלכם ובשינוי הנתונים שלכם.

יצירת מערך הנתונים מורכבת מהמשימות הבאות: 1. איסוף נתונים גולמיים.  2. זיהוי מקורות של תכונות ותוויות. 3. יש לבחור אסטרטגיית דגימה.
4. לפצל את הנתונים. טרנספורמציית נתונים מורכבת מהמשימות הבאות:
1. לסקור ולנקות את הנתונים. 2. בצעו הנדסה של תכונות.

חשוב לזכור:

  • באיור מוצג תהליך רגיל, שיכול להיות לא אידיאלי לכל פרויקט. הקורס הזה רלוונטי בעיקר רגרסיה לינארית ורשתות נוירונים.
  • התהליך שמוצג לא תמיד רציף. לדוגמה, אפשר לפצל את הנתונים אחרי הטרנספורמציה שלהם. יכול להיות שתצטרכו לאסוף עוד נתונים. ייתכן שתצטרכו לשנות את קבוצת התכונות, גם אחרי שהאימון יתחיל, ברגע שתלמדו בצורה כנה מה עובד ומה לא.

כמה זמן נמשך התהליך?

ליד השאלה הבאה, לוחצים על החץ הרצוי כדי לבדוק את התשובה:

נחשו: בפרויקט הלמידה החישובית, כמה זמן אתם משקיעים בדרך כלל בהכנת הנתונים ובטרנספורמציה?
יותר ממחצית מזמן הפרויקט
נכון: אתה מבלה את רוב הזמן בפרויקט של למידה חישובית לבניית נתונים וטרנספורמציה של נתונים.
פחות ממחצית מזמן הפרויקט
כדאי לתכנן עוד! לרוב, 80% מהזמן בפרויקט של למידה חישובית משקיעים בבניית קבוצות נתונים ובטרנספורמציה של נתונים.