एमएल में घटते क्रम में: ट्रेनिंग और हार

मॉडल को प्रशिक्षण देने का मतलब सिर्फ़ महत्व वाले लेबल से मिली वैल्यू और भेदभाव को सीखने (समझने) और तय करने का है. सुपरवाइज़्ड लर्निंग में, मशीन लर्निंग एल्गोरिदम कई उदाहरणों की जांच करके और कम करने वाले मॉडल को खोजने की कोशिश करके एक मॉडल बनाता है. इस प्रोसेस को अनुभव के जोखिम को कम करना कहते हैं.

नुकसान, खराब अनुमान के लिए लगने वाला जुर्माना है. इसका मतलब है कि लॉस एक संख्या है, जो यह बताती है कि मॉडल का अनुमान एक उदाहरण पर कितना खराब था. अगर मॉडल' का अनुमान सटीक होता है, तो नुकसान शून्य होता है; नहीं तो, नुकसान ज़्यादा होता है. मॉडल का मकसद, सभी उदाहरणों में, वज़न और पक्षपात के ऐसे सेट को ढूंढना है जिसकी औसतन कम कमी हो. उदाहरण के लिए, फ़िगर 3 बाईं ओर ज़्यादा नुकसान वाला मॉडल और दाईं ओर कम नुकसान वाला मॉडल दिखाता है. आंकड़े के बारे में नीचे दी गई बातों पर ध्यान दें:

  • ऐरो से नुकसान का पता चलता है.
  • नीली लाइनें अनुमानों को दिखाती हैं.

दो कार्टेशियन प्लॉट, जिनमें से हर एक पर लाइन और कुछ डेटा पॉइंट दिख रहे हैं. पहले प्लॉट में, लाइन डेटा के लिए बहुत ही मुश्किल होती है, इसलिए नुकसान बहुत ज़्यादा होता है. दूसरे प्लॉट में, लाइन डेटा के लिए बेहतर ढंग से फ़िट हो जाती है, इसलिए नुकसान कम होता है.

तीसरा डायग्राम. बाएं मॉडल में ज़्यादा नुकसान; दाएं मॉडल में कम नुकसान.

 

ध्यान दें कि बाएं प्लॉट के ऐरो, दाएँ प्लॉट में मौजूद उनके ऐरो के मुकाबले काफ़ी ज़्यादा लंबे हैं. साफ़ तौर पर, दाएं प्लॉट की लाइन बाएं प्लॉट की लाइन से काफ़ी बेहतर अनुमान वाला मॉडल है.

शायद आप यह सोच रहे होंगे कि आप गणित का ऐसा फ़ंक्शन बना सकते हैं या नहीं—जो एक लॉस फ़ंक्शन है—जो अलग-अलग नुकसानों को एक अर्थपूर्ण तरीके से इकट्ठा करेगा.

लीनियर रिग्रेशन मॉडल की मदद से, हम यहां मिलने वाले नुकसान के फ़ंक्शन का इस्तेमाल करते हैं. इसे स्क्वेयर लॉस कहते हैं. इसे L2 लॉस भी कहा जाता है. किसी एक उदाहरण के लिए स्क्वेयर लॉस इस तरह है:

  = the square of the difference between the label and the prediction
  = (observation - prediction(x))2
  = (y - y')2

औसतन स्क्वेयर साइज़ की गड़बड़ी (MSE) में पूरे डेटासेट की तुलना में, हर उदाहरण के हिसाब से स्क्वेयर लॉस का औसत दिखाया जाता है. MSE का हिसाब लगाने के लिए, निजी उदाहरणों के तौर पर संख्या में हुए सभी नुकसानों को जोड़ कर दिए गए उदाहरणों से भाग दें:

$$ MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2 $$

कहां:

  • \((x, y)\) इसका एक उदाहरण है, जिसमें
    • \(x\) सुविधाओं का सेट (उदाहरण के लिए, चिर्क्स/मिनट, उम्र, लिंग) जो मॉडल अनुमान लगाने के लिए इस्तेमाल करता है.
    • \(y\) , उदाहरण के तौर पर दिया गया लेबल (जैसे, तापमान) है.
  • \(prediction(x)\) सुविधाओं के सेट के साथ वेट और झुकाव का एक फ़ंक्शन है \(x\).
  • \(D\) एक डेटा सेट है, जिसमें लेबल किए गए कई उदाहरण मौजूद हैं, जो \((x, y)\) जुड़े हुए हैं.
  • \(N\) \(D\)में उदाहरणों की संख्या है.

आम तौर पर, मशीन लर्निंग में एमएसई का इस्तेमाल होता है, लेकिन किसी भी स्थिति में इससे होने वाले नुकसान का सिर्फ़ एक ही तरीका है और न ही इसका सबसे अच्छा नुकसान होता है.