संख्या वाले डेटा के साथ काम करना

मशीन लर्निंग का इस्तेमाल करने वाले पेशेवर, इन लोगों के काम का आकलन करने, साफ़-सफ़ाई, और बदलाव को पूरा करने में ज़्यादा समय बिताते हैं मॉडल बनाने की तुलना में ज़्यादा डेटा है. डेटा इतना अहम है कि यह कोर्स, विषय के लिए तीन पूरी यूनिट ही देता है:

यह यूनिट इस पर फ़ोकस करती है संख्या वाला डेटा, पूर्णांक या फ़्लोटिंग-पॉइंट वैल्यू जो संख्याओं की तरह व्यवहार करते हैं. इसका मतलब है कि उन्हें जोड़ा जा सकता है, उनकी गिनती की जा सकती है, उनका क्रम तय किया जा सकता है वगैरह. अगली यूनिट इस पर फ़ोकस करती है कैटगरिकल डेटा का इस्तेमाल करता है. संख्याओं की तरह व्यवहार करने वाली संख्याएं शामिल करें. तीसरी यूनिट का फ़ोकस इस बात पर है कि ट्रेनिंग और आकलन करते समय अच्छी क्वालिटी के नतीजे पाने के लिए, अपना डेटा तैयार करें आपका मॉडल.

संख्या वाले डेटा के उदाहरणों में ये शामिल हैं:

  • तापमान
  • वज़न
  • संरक्षित क्षेत्र में ठिकाने वाले हिरन की संख्या

इसके उलट, अमेरिका के पिन कोड पांच या नौ अंकों के होते हैं. हालांकि, ये संख्याओं की तरह काम नहीं करते या गणितीय संबंधों को दिखाते नहीं हैं. पिन कोड 40004 (नेल्सन काउंटी, केंटकी में) है डाक कोड 20002 की मात्रा का दोगुना नहीं होना चाहिए (वॉशिंगटन, डी.सी. में). ये नंबर खास तौर पर भौगोलिक क्षेत्रों की कैटगरी को दिखाते हैं और उन्हें कैटगरी से जुड़ा डेटा होता है.