वर्गीकरण: अपनी समझ की जांच करें (सटीकता, सटीकता, और कॉल)

शुद्धता

नीचे दिए गए विकल्प देखें.

इनमें से किस स्थिति में ज़्यादा सटीक वैल्यू से यह पता चलेगा कि एमएल मॉडल अच्छा काम कर रहा है?
जानलेवा, लेकिन इलाज के लिए बनाई गई बीमारी, .01% लोगों पर असर डालती है. ML मॉडल, सुविधाओं के तौर पर लक्षणों का इस्तेमाल करता है और 99.99% सटीक होने के साथ इस परेशानियों का अनुमान लगाता है.
यहां सटीक मेट्रिक खराब है. आखिरकार, यहां तक कि "dumb" मॉडल भी जो हमेशा यह अनुमान लगाता है कि किसी बीमारी का डर नहीं है, भले ही वह 99.99% सटीक हो. गलती से बीमार और कोट हो जाने पर गलत अनुमान लगाना और COVID-19 से संक्रमित होने का डर पैदा करना नहीं.
एक रोबोट की मदद से, हर रोज़ हज़ारों बार बहुत व्यस्त सड़क को पार किया जाता है. एमएल मॉडल, ट्रैफ़िक पैटर्न का आकलन करता है और यह अनुमान लगाता है कि यह चिकन 99.99% सटीक के साथ सड़क को सुरक्षित रूप से कब पार कर सकता है.
बहुत ज़्यादा व्यस्त सड़क पर 99.99% सही होने की जानकारी से पता चलता है कि एमएल मॉडल, अवसर से कहीं बेहतर है. हालांकि, कुछ सेटिंग में, कम गलतियां करने की लागत अब भी बहुत ज़्यादा होती है. 99.99% सटीक होने का मतलब है कि महंगे चिकन को हर 10 दिन में औसतन बदलना होगा. (चिकन की वजह से कारों को बहुत ज़्यादा नुकसान पहुंच सकता है.)
रूलेट के खेल में, एक बॉल को स्पिनिंग व्हील पर ड्रॉप किया जाता है और आखिर में वह 38 स्लॉट में से एक में खुलती है. विज़ुअल सुविधाओं का इस्तेमाल करके, {0}बॉल को घुमाना, पहिए को फेंकने की स्थिति) और व्हील पर बॉल की ऊंचाई एमएल मॉडल, उस स्लॉट का अनुमान लगा सकता है जिसमें बॉल 4% सटीक होगी.
यह एमएल मॉडल, अनुमानों से कहीं बेहतर अनुमान लगा रहा है. किसी भी क्रम में, 1/38 अनुमान का अनुमान लगाया जा सकता है, जो 2.6% तक सही है. हालांकि, मॉडल कितना सटीक है, यह सिर्फ़ "4% है, सफलता के फ़ायदे, असफलता के नुकसान से ज़्यादा हैं.

सटीक

नीचे दिए गए विकल्प देखें.

कैटगरी तय करने के ऐसे मॉडल पर विचार करें जो ईमेल को दो कैटगरी में बांटता है: और कोटेशन;स्पैम"या कोटेशन;स्पैम नहीं." अगर आप क्लासिफ़िकेशन थ्रेशोल्ड को बढ़ाते हैं, तो सटीक होने का क्या होगा?
बिल्कुल बढ़नी चाहिए.
आम तौर पर, डेटा की कैटगरी तय करने के लिए थ्रेशोल्ड को बढ़ाने से सटीक जानकारी मिलती है. हालांकि, इस सीमा को बढ़ाने से इस बात की गारंटी नहीं मिलती कि यह रेंज एक जैसी रहेगी.
तो शायद बढ़ जाए.
आम तौर पर, कैटगरी तय करने की सीमा बढ़ाने से गलत चीज़ें कम होती हैं. इससे सटीक जानकारी मिलती है.
शायद कम हो जाए.
आम तौर पर, कैटगरी तय करने की सीमा बढ़ाने से गलत चीज़ें कम होती हैं. इससे सटीक जानकारी मिलती है.
बिल्कुल कम.
आम तौर पर, कैटगरी तय करने की सीमा बढ़ाने से गलत चीज़ें कम होती हैं. इससे सटीक जानकारी मिलती है.

रीकॉल

नीचे दिए गए विकल्प देखें.

कैटगरी तय करने के ऐसे मॉडल पर विचार करें जो ईमेल को दो कैटगरी में बांटता है: और कोटेशन;स्पैम"या कोटेशन;स्पैम नहीं." अगर आप क्लासिफ़िकेशन की सीमा बढ़ाते हैं, तो क्या होगा?
हमेशा बढ़ाएं.
डेटा को अलग-अलग कैटगरी में बांटने पर, ये दोनों बातें लागू होंगी:
  • ट्रू पॉज़िटिव की संख्या कम हो जाएगी या पहले जैसी ही रहेगी.
  • फ़ॉल्स नेगेटिव की संख्या बढ़ती रहेगी या वैसी ही बनी रहेगी.
इसलिए, प्रॉडक्ट को बाज़ार से हटाना कभी नहीं बढ़ता.
हमेशा समान रहें या पहले के बराबर रहें.
कैटगरी तय करने की अपनी सीमा बढ़ाने से, पॉज़िटिव पॉज़िटिव वैल्यू की संख्या कम हो जाएगी या वैसी ही बनी रहेगी. साथ ही, गलत आंकड़े बढ़ जाएंगी या उतनी ही बनी रहेंगी. इसलिए, प्रॉडक्ट को बाज़ार से हटाने के बाद, उसमें बदलाव नहीं किया जा सकता या उसे कम किया जा सकता है.
हमेशा स्थिर रहें.
कैटगरी तय करने की अपनी सीमा बढ़ाने से, पॉज़िटिव पॉज़िटिव वैल्यू की संख्या कम हो जाएगी या वैसी ही बनी रहेगी. साथ ही, गलत आंकड़े बढ़ जाएंगी या उतनी ही बनी रहेंगी. इसलिए, प्रॉडक्ट को बाज़ार से हटाने के बाद, उसमें बदलाव नहीं किया जा सकता या उसे कम किया जा सकता है.

सटीक जानकारी और कॉल

नीचे दिए गए विकल्प देखें.

दो मॉडल पर विचार करें—A और B—जो हर मॉडल का एक ही डेटासेट का मूल्यांकन करता है. इनमें से कौनसी बातें सही हैं?
अगर मॉडल A की तुलना मॉडल B से बेहतर है, तो मॉडल A बेहतर है.
वहीं, अगर सटीक जानकारी दी जाती है, तो हो सकता है कि प्रॉडक्ट को बाज़ार से हटाने के बाद, इसे कम करना पड़े. आम तौर पर, हमें एक साथ बहुत सटीक और याद रखने या AUC जैसी खास जानकारी वाली मेट्रिक को देखने की ज़रूरत होती है. इनके बारे में हम आगे बात करेंगे.
अगर मॉडल A को मॉडल B से बेहतर याद है, तो मॉडल A बेहतर है.
हालांकि, प्रॉडक्ट को बाज़ार से हटाना बेहतर है, लेकिन हो सकता है कि इसे सटीक तरीके से कम किया जाए. आम तौर पर, हमें सटीक और याद रखने लायक, या AUC जैसी खास जानकारी वाली मेट्रिक को देखना होता है. इनके बारे में हम आगे बात करेंगे.
अगर मॉडल A को मॉडल B की तुलना में बेहतर सटीक और बेहतर याद है, तो शायद मॉडल A बेहतर है.
आम तौर पर, सटीक और याद रखे जाने वाले, दोनों मॉडल से बेहतर काम करने वाला मॉडल, बेहतर मॉडल हो सकता है. बेशक, हमें यह पक्का करना होगा कि तुलना सटीक या याद रखने के लिए की जा रही है जो मददगार हो. उदाहरण के लिए, मान लीजिए कि हमारे स्पैम का पता लगाने वाले मॉडल में कम से कम 90% सटीक होना चाहिए, ताकि वह काम के बने रहे और गलत झूठे अलार्म से दूर रहे. इस उदाहरण में, एक मॉडल की तुलना {20% सटीक, 99% याद} से दूसरे मॉडल में की गई है. खास तौर पर, इसे {15% सटीक, 98% याद} रखा गया है, क्योंकि इनमें से कोई भी मॉडल 90% सटीक जानकारी नहीं देता है. हालांकि, इस बात को ध्यान में रखते हुए, सटीक और याद रखने की सुविधा का इस्तेमाल करते समय, मॉडल की तुलना करने के बारे में सोचें.