फ़्रेमिंग: मुख्य एमएल शब्दावली

मशीन लर्निंग (निगरानी में रखा गया) क्या है? कम शब्दों में कहें, तो यह:

  • एमएल सिस्टम, इनपुट का इस्तेमाल करके, पहले से मौजूद डेटा के बारे में ऐसे सुझाव देते हैं जो काम के होते हैं.

आइए, बुनियादी मशीन लर्निंग के शब्दों को एक्सप्लोर करें.

लेबल

लेबल वह चीज़ है जिसका हम अनुमान लगाते हैं—आसान लीनियर रिग्रेशन में y वैरिएबल. लेबल, आने वाले समय में गेहूं की कीमत, तस्वीर में दिखाए गए जानवर की तरह, ऑडियो क्लिप का मतलब या किसी भी चीज़ के बारे में हो सकता है.

सुविधाएं

सुविधा एक इनपुट वैरिएबल होता है—आसान लीनियर रिग्रेशन में x वैरिएबल. एक सामान्य मशीन लर्निंग प्रोजेक्ट में एक ही सुविधा का इस्तेमाल किया जा सकता है. वहीं, ज़्यादा बेहतर मशीन लर्निंग प्रोजेक्ट में लाखों सुविधाओं का इस्तेमाल किया जा सकता है, जैसे:

\[\\{x_1, x_2, ... x_N\\}\]

स्पैम का पता लगाने वाले उदाहरण में, सुविधाओं में ये शामिल हो सकते हैं:

  • ईमेल के टेक्स्ट में मौजूद शब्द
  • भेजने वाले का पता
  • ईमेल भेजने का दिन
  • ईमेल में एक वाक्यांश और कोटेशन है."

उदाहरण

उदाहरण डेटा का एक खास इंस्टेंस है, x. (हम x को बोल्डफ़ेस में बताते हैं कि वह वेक्टर है.) हम उदाहरणों को दो कैटगरी में बांटते हैं:

  • लेबल किए गए उदाहरण
  • बिना लेबल वाले उदाहरण

लेबल किए गए उदाहरण में सुविधा(सुविधाओं) और लेबल, दोनों शामिल होते हैं. यानी:

  labeled examples: {features, label}: (x, y)

मॉडल को प्रशिक्षित करने के लिए लेबल किए हुए उदाहरणों का इस्तेमाल करें. स्पैम का पता लगाने वाले हमारे उदाहरण में, लेबल किए गए उदाहरण वे निजी ईमेल होंगे जिन्हें उपयोगकर्ताओं ने साफ़ तौर पर "स्पैम"या "न कि स्पैम.&quot के तौर पर मार्क किया है.

उदाहरण के लिए, नीचे दी गई टेबल में डेटा सेट के ऐसे पांच लेबल के उदाहरण दिए गए हैं जिनमें कैलिफ़ोर्निया में मौजूद किराये की जानकारी शामिल है:

हाउसिंग MedianAge
(सुविधा)
कुल रूम
(सुविधा)
totalBedrooms
(सुविधा)
medianHouseValue
(लेबल)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

बिना लेबल वाले उदाहरण में सुविधाएं होती हैं, लेकिन लेबल नहीं. यानी:

  unlabeled examples: {features, ?}: (x, ?)

यहां एक ही हाउसिंग डेटासेट से, लेबल नहीं किए गए तीन ऐसे उदाहरण दिए गए हैं जो medianHouseValue को शामिल नहीं करते हैं:

हाउसिंग MedianAge
(सुविधा)
कुल रूम
(सुविधा)
totalBedrooms
(सुविधा)
42 1686 361
34 1226 180
33 1077 271

जब हम अपने मॉडल को लेबल किए गए उदाहरणों से प्रशिक्षित कर लेते हैं, तब हम बिना लेबल वाले उदाहरणों पर लेबल का अनुमान लगाने के लिए उस मॉडल का इस्तेमाल करते हैं. स्पैम डिटेक्टर में, बिना लेबल वाले उदाहरण ऐसे नए ईमेल होते हैं जिन्हें इंसानों ने अभी तक लेबल नहीं किया है.

मॉडल

मॉडल, सुविधाओं और लेबल के बीच संबंध को परिभाषित करता है. उदाहरण के लिए, हो सकता है कि स्पैम की पहचान करने वाला मॉडल, कुछ सुविधाओं को ज़्यादा अच्छे से "स्पैम" के साथ जोड़ दे. मॉडल और ज़िंदगी के दो चरणों को हाइलाइट करें:

  • ट्रेनिंग का मतलब है, मॉडल बनाना या लर्निंग. इसका मतलब है कि मॉडल के लेबल किए गए उदाहरण दिखाए जाते हैं. साथ ही, मॉडल को सुविधाओं और लेबल के बीच के संबंधों को धीरे-धीरे समझने में मदद की जाती है.

  • अनुमान का मतलब है, बिना लेबल वाले उदाहरणों पर प्रशिक्षित मॉडल को लागू करना. इसका मतलब है कि आप प्रशिक्षित मॉडल का इस्तेमाल करके उपयोगी सुझाव (y') दें. उदाहरण के लिए, अनुमान के दौरान, आप बिना लेबल वाले नए उदाहरणों के लिए medianHouseValue का अनुमान लगा सकते हैं.

रिग्रेशन बनाम कैटगरी

रिग्रेशन मॉडल में लगातार वैल्यू का अनुमान लगाया जाता है. उदाहरण के लिए, रिग्रेशन मॉडल इस तरह के सवालों के अनुमान लगाते हैं:

  • कैलिफ़ोर्निया में किसी घर की क्या अहमियत है?

  • इस बात की संभावना कितनी है कि उपयोगकर्ता इस विज्ञापन पर क्लिक करेगा?

क्लासिफ़िकेशन मॉडल, डिस्क्रीट वैल्यू का अनुमान लगाता है. उदाहरण के लिए, डेटा की कैटगरी तय करने वाले मॉडल, ऐसे सुझाव देते हैं जो इन सवालों के जवाब देते हैं:

  • क्या दिया गया कोई ईमेल स्पैम है या स्पैम नहीं?

  • क्या यह किसी कुत्ते, बिल्ली या हैमस्टर की इमेज है?