मशीन लर्निंग (निगरानी में रखा गया) क्या है? कम शब्दों में कहें, तो यह:
- एमएल सिस्टम, इनपुट का इस्तेमाल करके, पहले से मौजूद डेटा के बारे में ऐसे सुझाव देते हैं जो काम के होते हैं.
आइए, बुनियादी मशीन लर्निंग के शब्दों को एक्सप्लोर करें.
लेबल
लेबल वह चीज़ है जिसका हम अनुमान लगाते हैं—आसान लीनियर रिग्रेशन में
y
वैरिएबल. लेबल, आने वाले समय में गेहूं की कीमत, तस्वीर में दिखाए गए जानवर की तरह, ऑडियो क्लिप
का मतलब या किसी भी चीज़ के बारे में हो सकता है.
सुविधाएं
सुविधा एक इनपुट वैरिएबल होता है—आसान लीनियर रिग्रेशन में x
वैरिएबल. एक सामान्य मशीन लर्निंग प्रोजेक्ट में एक ही सुविधा का इस्तेमाल किया जा सकता है. वहीं, ज़्यादा बेहतर मशीन लर्निंग प्रोजेक्ट में लाखों सुविधाओं का इस्तेमाल किया जा सकता है, जैसे:
\[\\{x_1, x_2, ... x_N\\}\]
स्पैम का पता लगाने वाले उदाहरण में, सुविधाओं में ये शामिल हो सकते हैं:
- ईमेल के टेक्स्ट में मौजूद शब्द
- भेजने वाले का पता
- ईमेल भेजने का दिन
- ईमेल में एक वाक्यांश और कोटेशन है."
उदाहरण
उदाहरण डेटा का एक खास इंस्टेंस है, x. (हम x को बोल्डफ़ेस में बताते हैं कि वह वेक्टर है.) हम उदाहरणों को दो कैटगरी में बांटते हैं:
- लेबल किए गए उदाहरण
- बिना लेबल वाले उदाहरण
लेबल किए गए उदाहरण में सुविधा(सुविधाओं) और लेबल, दोनों शामिल होते हैं. यानी:
labeled examples: {features, label}: (x, y)
मॉडल को प्रशिक्षित करने के लिए लेबल किए हुए उदाहरणों का इस्तेमाल करें. स्पैम का पता लगाने वाले हमारे उदाहरण में, लेबल किए गए उदाहरण वे निजी ईमेल होंगे जिन्हें उपयोगकर्ताओं ने साफ़ तौर पर "स्पैम"या "न कि स्पैम." के तौर पर मार्क किया है.
उदाहरण के लिए, नीचे दी गई टेबल में डेटा सेट के ऐसे पांच लेबल के उदाहरण दिए गए हैं जिनमें कैलिफ़ोर्निया में मौजूद किराये की जानकारी शामिल है:
हाउसिंग MedianAge (सुविधा) |
कुल रूम (सुविधा) |
totalBedrooms (सुविधा) |
medianHouseValue (लेबल) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
बिना लेबल वाले उदाहरण में सुविधाएं होती हैं, लेकिन लेबल नहीं. यानी:
unlabeled examples: {features, ?}: (x, ?)
यहां एक ही हाउसिंग डेटासेट से, लेबल नहीं किए गए तीन ऐसे उदाहरण दिए गए हैं जो medianHouseValue
को शामिल नहीं करते हैं:
हाउसिंग MedianAge (सुविधा) |
कुल रूम (सुविधा) |
totalBedrooms (सुविधा) |
---|---|---|
42 | 1686 | 361 |
34 | 1226 | 180 |
33 | 1077 | 271 |
जब हम अपने मॉडल को लेबल किए गए उदाहरणों से प्रशिक्षित कर लेते हैं, तब हम बिना लेबल वाले उदाहरणों पर लेबल का अनुमान लगाने के लिए उस मॉडल का इस्तेमाल करते हैं. स्पैम डिटेक्टर में, बिना लेबल वाले उदाहरण ऐसे नए ईमेल होते हैं जिन्हें इंसानों ने अभी तक लेबल नहीं किया है.
मॉडल
मॉडल, सुविधाओं और लेबल के बीच संबंध को परिभाषित करता है. उदाहरण के लिए, हो सकता है कि स्पैम की पहचान करने वाला मॉडल, कुछ सुविधाओं को ज़्यादा अच्छे से "स्पैम" के साथ जोड़ दे. मॉडल और ज़िंदगी के दो चरणों को हाइलाइट करें:
ट्रेनिंग का मतलब है, मॉडल बनाना या लर्निंग. इसका मतलब है कि मॉडल के लेबल किए गए उदाहरण दिखाए जाते हैं. साथ ही, मॉडल को सुविधाओं और लेबल के बीच के संबंधों को धीरे-धीरे समझने में मदद की जाती है.
अनुमान का मतलब है, बिना लेबल वाले उदाहरणों पर प्रशिक्षित मॉडल को लागू करना. इसका मतलब है कि आप प्रशिक्षित मॉडल का इस्तेमाल करके उपयोगी सुझाव (
y'
) दें. उदाहरण के लिए, अनुमान के दौरान, आप बिना लेबल वाले नए उदाहरणों के लिएmedianHouseValue
का अनुमान लगा सकते हैं.
रिग्रेशन बनाम कैटगरी
रिग्रेशन मॉडल में लगातार वैल्यू का अनुमान लगाया जाता है. उदाहरण के लिए, रिग्रेशन मॉडल इस तरह के सवालों के अनुमान लगाते हैं:
कैलिफ़ोर्निया में किसी घर की क्या अहमियत है?
इस बात की संभावना कितनी है कि उपयोगकर्ता इस विज्ञापन पर क्लिक करेगा?
क्लासिफ़िकेशन मॉडल, डिस्क्रीट वैल्यू का अनुमान लगाता है. उदाहरण के लिए, डेटा की कैटगरी तय करने वाले मॉडल, ऐसे सुझाव देते हैं जो इन सवालों के जवाब देते हैं:
क्या दिया गया कोई ईमेल स्पैम है या स्पैम नहीं?
क्या यह किसी कुत्ते, बिल्ली या हैमस्टर की इमेज है?