बकेटिंग

आइए, मशीन लर्निंग क्रैश कोर्स के एक अहम आइडिया की तुरंत समीक्षा करें. नीचे दिए गए चार्ट में डिस्ट्रिब्यूशन देखें.

हर अक्षांश पर मौजूद घरों वाला प्लॉट. यह प्लॉट बहुत ज़्यादा अनियमित है, जिसमें अक्षांश 36 के आस-पास के मंडप और अक्षांश 34 और 38 के आस-पास बहुत बड़े दायरे शामिल हैं. पहली इमेज: घर की कीमतें बनाम अक्षांश.

 

नीचे दिए गए सवाल के लिए, अपने जवाब की जांच करने के लिए, अपनी पसंद के ऐरो पर क्लिक करें:

इमेज 1 पर विचार करें. अगर आपको लगता है कि अक्षांश, हाउसिंग वैल्यू के लिए अच्छा अनुमान लगाने वाला हो सकता है, तो क्या आपको अक्षांश को फ़्लोटिंग-पॉइंट वैल्यू के तौर पर छोड़ना चाहिए? ऐसा क्यों या क्यों नहीं? (मान लें कि यह एक लीनियर मॉडल है.)
हां — अगर डेटासेट में अक्षांश और वैल्यू फ़्लोटिंग-पॉइंट हैं, तो आपको इसे नहीं बदलना चाहिए.
अगर आप अपने नेटवर्क में फ़्लोटिंग-पॉइंट वैल्यू को फ़ीड करते हैं, तो यह सुविधा और लेबल के बीच एक लीनियर संबंध जानने की कोशिश करेगा. हालांकि, अक्षांश के लिए लीनियर रिलेशनशिप सही नहीं है. अक्षांश (एक से 34 से 35 डिग्री) में एक डिग्री की बढ़ोतरी से, मॉडल के आउटपुट में कुछ बदलाव हो सकता है. हालांकि, एक डिग्री बढ़ाने से (जैसे कि 35 से 36 डिग्री) अलग तरह का बदलाव हो सकता है. यह गैर-लीनियर व्यवहार है.
नहीं — अक्षांश और 'हाउसिंग वैल्यू' के बीच कोई संबंध नहीं है.
आपको शक है कि अक्षांश और घर की अलग-अलग वैल्यू आपस में जुड़ी हुई हैं. हालांकि, दोनों के बीच का संबंध ज़्यादा मायने नहीं रखता.

अक्षांश के उदाहरण जैसे मामलों में, आपको हर बकेट के लिए हाउसिंग वैल्यू से अलग कुछ सीखने के लिए अक्षांशों को बकेट में बांटना होगा. थ्रेशोल्ड के सेट का इस्तेमाल करके, अंकों में मिलने वाली सुविधाओं को कैटगरी की सुविधाओं में बदलने को बकेटिंग (या बाइंडिंग) कहा जाता है. इस बकेटिंग उदाहरण में, सीमाओं को बराबर दूरी पर रखा गया है.

अक्षांश बनाम हाउसिंग प्राइस का वही प्लॉट, जो पिछली इमेज में दिया गया है. हालांकि, इस समय
प्लॉट को 11 "amp;quot; में पूरे नंबर के अक्षांश के बीच बांटा जाता है.

 

दूसरी इमेज: घर की कीमतें बनाम अक्षांश, जिन्हें अब बकेट में बांटा गया है.

क्वांटाइल बकेटिंग

चलिए, बकेट की सुविधा वाले कार किराये की जानकारी वाले डेटासेट पर फिर से नज़र डालें. हर बकेट की एक सुविधा के साथ, मॉडल में >45000 की रेंज में एक उदाहरण के लिए, 5000-10000 की रेंज में सभी उदाहरणों के लिए ज़्यादा क्षमता का इस्तेमाल किया जाता है. यह बेकार लगता है. हम इस स्थिति में क्या सुधार कर सकते हैं?

इस कीमत पर बेची जाने वाली कारों की संख्या के हिसाब से, कार की कीमत का प्लॉट. प्लॉट को 5000 (कार की कीमत) की सीमा वाले 10 साइज़ के बकेट में बांटा गया है. पहले तीन बकेट में कई उदाहरण हैं, लेकिन आखिरी सात बकेट में बहुत कम उदाहरण हैं.

तीसरा डायग्राम: अलग-अलग कीमतों पर बेची गई कारों की संख्या.

 

समस्या यह है कि समान दूरी वाले बकेट इस वितरण को अच्छी तरह से कैप्चर नहीं कर पाते हैं. समाधान ऐसे बकेट बनाने में है जिनमें हर एक के पास पॉइंट की संख्या समान हो. इस तकनीक को क्वांटाइल बकेटिंग कहते हैं. उदाहरण के लिए, नीचे दी गई इमेज से कार की कीमतों को क्वानटाइल बकेट में बांटा जा सकता है. हर बकेट में उदाहरण की एक जैसी संख्या पाने के लिए, कुछ बकेट में सीमित समय के लिए कीमत होती है, जबकि दूसरे बकेट में किराये की अवधि बहुत ज़्यादा होती है.

क्वानटाइल बकेट के अलावा, इमेज 3 के जैसा ही है. इसका मतलब है कि
बकेट के अलग-अलग साइज़ होते हैं. सबसे छोटी बकेट की सीमा करीब 1000 डॉलर होती है और सबसे बड़ी बकेट की रेंज करीब 25000 डॉलर होती है.
हर बकेट में कारों की संख्या अब
एक जैसी ही है.

चौथी इमेज: क्वांटाइल बकेटिंग में हर बकेट को उतनी ही कार मिलती है जितनी संख्या में होती है.

बकेटिंग सारांश

अगर आप अंकों वाली सुविधा को बकेट में रखना चाहते हैं, तो साफ़ तौर पर बताएं कि आप सीमाएं कैसे सेट कर रहे हैं और किस तरह की बकेट लागू कर रहे हैं:

  • एक जैसी दूरी वाली बकेट: सीमाएं तय होती हैं और एक जैसी रेंज शामिल होती हैं (उदाहरण के लिए, 0-4 डिग्री, 5-9 डिग्री, और 10-14 डिग्री या 5,000-$9,999, 10,000-$14,999, और 15,000-$19,99). कुछ बकेट में कई पॉइंट हो सकते हैं, जबकि कुछ बकेट में बहुत कम पॉइंट हो सकते हैं या कोई भी नहीं हो सकता.
  • क्वांटाइल सीमाओं वाले बकेट: हर बकेट में एक जैसे अंक होते हैं. सीमाएं तय नहीं की गई हैं और इनमें वैल्यू का एक छोटा या चौड़ा दायरा शामिल हो सकता है.