डेटासेट, सामान्यीकरण, और ओवरफ़िटिंग

परिचय

यह मॉड्यूल एक लीडिंग सवाल से शुरू होता है. इनमें से कोई एक जवाब चुनें:

अगर आपको इनमें से किसी एक क्षेत्र को बेहतर बनाना हो, तो आपके प्रोजेक्ट में सबसे ज़्यादा क्या असर पड़ेगा?
अपने डेटासेट की क्वालिटी को बेहतर बनाना
डेटा सबसे ऊपर है. डेटासेट की क्वालिटी और साइज़, प्रॉडक्ट की क्वालिटी और साइज़ से कहीं ज़्यादा मायने रखता है शानदार एल्गोरिदम का इस्तेमाल कैसे किया जाता है.
अपने मॉडल को ट्रेनिंग देने के लिए, बेहतर लॉस फ़ंक्शन का इस्तेमाल करना
यह सच है कि बेहतर लॉस फ़ंक्शन से मॉडल को तेज़ी से ट्रेन करने में मदद मिल सकती है, लेकिन यह इस सूची में मौजूद किसी दूसरे आइटम से काफ़ी पीछे है.

और यहां एक और भी अहम सवाल दिया गया है:

अनुमान लगाएं: अपने मशीन लर्निंग प्रोजेक्ट में, डेटा तैयार करने और उसे बदलने में आम तौर पर आपका कितना समय लगता है?
प्रोजेक्ट के आधे से ज़्यादा समय के लिए
हां, मशीन लर्निंग का इस्तेमाल करने वाले पेशेवर अपना ज़्यादातर समय बिताते हैं डेटासेट बनाना और फ़ीचर इंजीनियरिंग करना.
प्रोजेक्ट में आधे से कम समय लगता है
ज़्यादा वीडियो बनाने का प्लान बनाएं! आम तौर पर, मशीन लर्निंग प्रोजेक्ट पर 80% समय, डेटासेट बनाने और डेटा को बदलने में बीतता है.

इस मॉड्यूल में, आपको मशीन लर्निंग की विशेषताओं के बारे में ज़्यादा जानकारी मिलेगी डेटासेट शामिल करने के बारे में जानकारी दी जाती है. साथ ही, जब अच्छी क्वालिटी के नतीजे पाने के लिए अपने डेटा को ट्रेनिंग और आकलन की सुविधा उपलब्ध है.