लीनियर रिग्रेशन

इस मॉड्यूल में, लीनियर रिग्रेशन के कॉन्सेप्ट के बारे में बताया गया है.

लीनियर रिग्रेशन एक सांख्यिकीय तकनीक है. इसका इस्तेमाल, वैरिएबल के बीच का संबंध ढूंढने के लिए किया जाता है. एमएल के संदर्भ में, लीनियर रिग्रेशन से सुविधाओं और लेबल के बीच का संबंध पता चलता है.

उदाहरण के लिए, मान लें कि हमें कार के वज़न के आधार पर, मील प्रति गैलन में कार की ईंधन की खपत का अनुमान लगाना है. साथ ही, हमारे पास यह डेटासेट है:

हज़ारों पाउंड (सुविधा) मील प्रति गैलन (लेबल)
3.5 18
3.69 15
3.44 18
3.43 16
4.34 15
4.42 14
2.37 24

इन पॉइंट को प्लॉट करने पर, हमें यह ग्राफ़ दिखेगा:

इमेज 1. बाईं से दाईं ओर, नीचे की ओर गिरते हुए रुझान को दिखाने वाले डेटा पॉइंट.

पहली इमेज. कार का वज़न (पाउंड में) बनाम मील प्रति गैलन रेटिंग. कार के भारी होने पर, आम तौर पर उसकी माइलेज रेटिंग कम हो जाती है.

हम पॉइंट के बीच सबसे सही फ़िट लाइन खींचकर, अपना मॉडल बना सकते हैं:

इमेज 2. मॉडल को दिखाने वाले डेटा पॉइंट, जिनमें सबसे सही फ़िट लाइन खींची गई है.

दूसरी इमेज. पिछले आंकड़े के डेटा से खींची गई सबसे सही फ़िट लाइन.

लीनियर रिग्रेशन का समीकरण

बीजगणित के हिसाब से, मॉडल को $ y = mx + b $ के तौर पर दिखाया जा सकता है, जहां

  • $ y $, एक गैलन में मील की संख्या है. यह वह वैल्यू है जिसका हमें अनुमान लगाना है.
  • $ m $, लाइन का स्लोप है.
  • $ x $ पाउंड है—यह हमारी इनपुट वैल्यू है.
  • $ b $, y-इंटरसेप्ट है.

एमएल में, हम लीनियर रिग्रेशन मॉडल का समीकरण इस तरह लिखते हैं:

$$ y' = b + w_1x_1 $$

कहां:

  • $ y' $, अनुमानित लेबल यानी आउटपुट है.
  • $ b $, मॉडल का बायस है. बायस का वही कॉन्सेप्ट है जो किसी रेखा के लिए बीजगणितीय समीकरण में y-इंटरसेप्ट होता है. मशीन लर्निंग में, बायस को कभी-कभी $ w_0 $ कहा जाता है. बायस, मॉडल का एक पैरामीटर होता है और इसका हिसाब ट्रेनिंग के दौरान लगाया जाता है.
  • $ w_1 $, फ़ीचर का वज़न है. अहमियत का वही कॉन्सेप्ट है जो किसी लाइन के लिए, ऐल्जेब्रिक के समीकरण में ढलान $ m $ होता है. वज़न, मॉडल का एक पैरामीटर होता है. इसका हिसाब, ट्रेनिंग के दौरान लगाया जाता है.
  • $ x_1 $ एक फ़ीचर है—वह वैल्यू जिसे डाला गया है.

ट्रेनिंग के दौरान, मॉडल उस वज़न और बायस का हिसाब लगाता है जिससे सबसे अच्छा मॉडल बनता है.

इमेज 3. समीकरण y' = b + w1x1, जिसमें हर कॉम्पोनेंट के मकसद के बारे में एनोटेट किया गया है.

तीसरी इमेज. लीनियर मॉडल का गणितीय रूप से दिखाया गया डेटा.

हमारे उदाहरण में, हमने जो लाइन खींची है उससे वज़न और बायस का हिसाब लगाया जाएगा. यहां बायस 34 है (जहां लाइन y-ऐक्सिस को काटती है) और वेट –4.6 है (लाइन का स्लोप). मॉडल को इस तरह से परिभाषित किया जाएगा: $ y' = 34 + (-4.6)(x_1) $. साथ ही, इसका इस्तेमाल अनुमान लगाने के लिए किया जा सकता है. उदाहरण के लिए, इस मॉडल का इस्तेमाल करके, 4,000 पाउंड की कार के लिए ईंधन की खपत का अनुमान 15.6 मील प्रति गैलन होगा.

इमेज 4. यह वही ग्राफ़ है जो दूसरे चित्र में दिखाया गया है. इसमें पॉइंट (4, 15.6) को हाइलाइट किया गया है.

चौथी इमेज. मॉडल का इस्तेमाल करके, 4,000 पाउंड की कार के लिए, ईंधन की खपत का अनुमानित अनुपात 15.6 माइल प्रति गैलन है.

एक से ज़्यादा सुविधाओं वाले मॉडल

इस सेक्शन में दिए गए उदाहरण में, कार के वजन की सिर्फ़ एक सुविधा का इस्तेमाल किया गया है. हालांकि, ज़्यादा बेहतर मॉडल में कई सुविधाओं का इस्तेमाल किया जा सकता है. साथ ही, हर सुविधा का अलग वज़न ($ w_1 $, $ w_2 $ वगैरह) हो सकता है. उदाहरण के लिए, पांच सुविधाओं पर आधारित मॉडल को इस तरह लिखा जाएगा:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

उदाहरण के लिए, माइलेज का अनुमान लगाने वाला मॉडल, इन सुविधाओं का भी इस्तेमाल कर सकता है:

  • इंजन का डिसप्लेसमेंट
  • माउस को तेज़ी से चलाने की सुविधा
  • सिलिंडर की संख्या
  • हॉर्सपावर

इस मॉडल को इस तरह लिखा जाएगा:

इमेज 5. पांच फ़ीचर वाला लीनियर रिग्रेशन समीकरण.

पांचवीं इमेज. कार के माइलेज की रेटिंग का अनुमान लगाने के लिए, पांच सुविधाओं वाला मॉडल.

इनमें से कुछ अतिरिक्त सुविधाओं को ग्राफ़ में दिखाकर, हम यह देख सकते हैं कि इनका भी, लेबल के साथ लीनियर संबंध है. जैसे, माइल प्रति गैलन:

इमेज 6. क्यूबिक सेंटीमीटर में डिसप्लेसमेंट को मील प्रति गैलन के हिसाब से ग्राफ़ में दिखाया गया है. इससे नेगेटिव लीनियर रिलेशनशिप दिखता है.

छठी इमेज. क्यूबिक सेंटीमीटर में कार का डिसप्लेसमेंट और माइल प्रति गैलन रेटिंग. कार का इंजन जितना बड़ा होता है, उसकी माइलेज उतनी ही कम होती है.

इमेज 7. शून्य से 60 मील प्रति घंटे की रफ़्तार तक पहुंचने में लगने वाले समय को मील प्रति गैलन के साथ ग्राफ़ में दिखाया गया है. इससे पॉज़िटिव लीनियर रिलेशनशिप का पता चलता है.

सातवीं इमेज. कार की रफ़्तार और मील प्रति गैलन रेटिंग. कार को तेज़ी से चलाने में ज़्यादा समय लगने पर, आम तौर पर माइलेज की रेटिंग बढ़ जाती है.

आठवीं इमेज. माइल प्रति गैलन के हिसाब से हॉर्स पावर का ग्राफ़, जिसमें नेगेटिव लीनियर रिलेशनशिप दिख रहा है.

आठवीं इमेज. कार का हॉर्सपावर और मील प्रति गैलन रेटिंग. कार की हॉर्स पावर बढ़ने पर, आम तौर पर माइलेज में कमी आती है.

एक्सरसाइज़: देखें कि आपको क्या समझ आया

ट्रेनिंग के दौरान, लीनियर रिग्रेशन समीकरण के कौनसे हिस्से अपडेट किए जाते हैं?
बायस और वेट
ट्रेनिंग के दौरान, मॉडल बायस और वेट को अपडेट करता है.
अनुमान
ट्रेनिंग के दौरान, अनुमान अपडेट नहीं किए जाते.
सुविधा की वैल्यू
फ़ीचर वैल्यू, डेटासेट का हिस्सा होती हैं. इसलिए, ट्रेनिंग के दौरान इन्हें अपडेट नहीं किया जाता.