सोचते हुए जाल

इंसान होने की वजह से, लोग अपने नज़रिए के हिसाब से तथ्यों को देखते हैं. इसमें, तर्क और पुष्टि करने के लिए गलत नज़रिए से तथ्यों को देखना शामिल है. अल्बर्टो काहिरा ने लिखा, "रिरेशनलाइज़ेशन इंसान के दिमाग का डिफ़ॉल्ट मोड होता है."1 लोग अक्सर तो उस नतीजे को साबित करने के लिए डेटा या सबूत खोजें.

डेटा और मॉडल के साथ काम करते समय या उनका आकलन करते समय, जो कई सोर्स से लिए जा सकते हैं अलग-अलग सोर्स से, पक्षपात के संभावित सोर्स के बारे में पूछें. उदाहरण के लिए:

  • इस मॉडल या स्टडी के लिए फ़ंड किसे मिल रहा है? मार्केट या कमर्शियल क्या है का इस्तेमाल करें?
  • डेटा इकट्ठा करने वाले लोगों को किस तरह के इंसेंटिव दिए जा सकते हैं?
  • मॉडल को ट्रेन करने या रिसर्च करने वाले शोधकर्ताओं को किस तरह के इंसेंटिव मिलते हैं? इनमें पब्लिकेशन और टेंचर भी शामिल है?
  • इस स्टडी को पब्लिश करने के लिए, मॉडल का लाइसेंस कौन ले रहा है या कौन बन रहा है और उनकी क्या पहचान है इंसेंटिव?

डिस्क्रिप्टिव स्टैटिस्टिक्स

मीन (वैल्यू का कुल योग, संख्या से भाग देकर मिलने वाली संख्या), मीडियन (बीच की वैल्यू, जब वैल्यू क्रम से लगाई जाती हैं और mode (सबसे ज़्यादा इस्तेमाल होने वाली वैल्यू) अक्सर इन कामों में मददगार होती हैं डेटासेट के आकार को समझना. अगर माध्यिका और माध्य दूर हैं उदाहरण के लिए, दो अलग-अलग स्थितियों में काफ़ी अंतर दिख सकता है. सेट.

range, जिसमें सबसे बड़ी और सबसे कम वैल्यू के बीच का अंतर होता है. और वैरियंस, जो कि मीन स्क्वेयर डिफ़रेंस है और सेट के माध्य के बीच में अंतर के साथ-साथ, डेटासेट का प्रसार और आकार.

अपने डेटा पर मॉडल को ट्रेनिंग देने से पहले, यह भी पूछें कि क्या डेटासेट असंतुलित और अगर हां, तो क्या उस असंतुलन को दूर किया जाना चाहिए.

संभावित इंप्रेशन और p-वैल्यू

पर्याप्त समय और पर्याप्त मौके दिए जाने पर, अजीब घटना की संभावना बहुत ज़्यादा होती है. सैद्धांतिक देखें बाल्टमोर स्टॉकब्रोकर से जुड़ी धोखाधड़ी का एक संभावित उदाहरण देखें.

वैज्ञानिक सहमति से, किसी नतीजे को आंकड़ों के हिसाब से अहम माना जाता है (और इसलिए, पब्लिश किए जा सकते हैं) जब p-वैल्यू .05 से कम होगी. इसका मतलब यह है कि <5% संभावना है कि समान परिणाम या एक और चरम, शून्य अनुमान—जो संभावना की वजह से होता है. ज़्यादा बोलचाल में, शोधकर्ता सिर्फ़ तब पब्लिश कर सकते हैं, जब 20 में से 1 या इससे कम संभावना हो उनके परिणाम यादृच्छिकता का परिणाम होते हैं. इसके अलावा, चिंता की बात है कि बीस में से एक बार प्रयोग करने पर, एक नकली नतीजा महत्वपूर्ण, हालांकि यह नहीं है और अन्य उन्नीस परिणाम के लिए पब्लिश किया गया है. साल 2005 के एक पेपर में, "ज़्यादातर शोध के नतीजे गलत क्यों हैं" में, जॉन आयोनिडिस ने आंकड़ों से लेकर, जिसमें फ़र्ज़ी नतीजों को पब्लिश करने में योगदान दिया जाता हो.

उदाहरण के लिए, कॉन्टेंट पब्लिश करने का बढ़ावा मिलने की वजह से, कभी-कभी शोधकर्ता परेशान हो जाते हैं उस सीमा से कम होने के लिए .05 के आस-पास p-मान. अन्य समय, पब्लिश की गई स्टडी परिणाम, जो स्वाभाविक रूप से अनपेक्षित और असामान्य परिणामों के लिए चयन करते हैं, उसे दोहराया नहीं जा सकता (और इसलिए संभावित रूप से किसी अवसर के परिणाम के रूप में) ताकि आत्मविश्वास के साथ डालने की ज़रूरत नहीं है. इसकी मदद से, यह भी बनाया गया है कि फिर से बनाने की क्षमता की जांच करने के लिए काम करने वाले संगठन.

एमएल (मशीन लर्निंग) के क्षेत्र में, मॉडल को सबसे नया तब माना जाता है, जब वे मिलते-जुलते हों या अन्य प्रतिस्पर्धी मॉडल के मूल्यांकन के बेंचमार्क को पार कर जाता है. यह समय है हो सकता है कि मॉडल के इवैलुएशन स्कोर के आस-पास एक जैसा दबाव महसूस हो. बेंचमार्क लीक होने की वजह से, इसे आर्टिफ़िशियल तरीके से बढ़ाया जा सकता है.2

रिग्रेशन मॉडल के लिए सुविधा चुनते समय P-वैल्यू मददगार हो सकती है. ANOVA (वैरिएंस का विश्लेषण) आंकड़ों का एक ऐसा तरीका है जिससे ग्रुप में होने वाले फ़र्क़ से, ग्रुप के बीच के फ़र्क़ को दिखाता है हर सुविधा के लिए F-आंकड़े और p-वैल्यू. सबसे कम p-वैल्यू वाली सबसे अहम सुविधाओं को चुनने पर, सुविधाओं की वह संख्या जिनका अनुमान लगाने में मॉडल को कोई फ़र्क़ नहीं पड़ता. पावर. इससे, कंप्यूट की बचत होती है और कई सुविधाओं की समस्या से बचा जा सकता है, जिनकी चर्चा बाद के सेक्शन में की गई है. scikits देखें ज़्यादा जानकारी के लिए, सुविधा चुनने की गाइड.

एक से ज़्यादा तुलनाओं से जुड़ी समस्या

गंभीर समस्या उन स्थितियों में और गंभीर हो जाती है जहां शून्य हाइपोथीसिस की कई तुलनाओं समय. यह एफ़एमआरआई स्टडी में खास तौर पर होने वाली समस्या है.

एफ़एमआरआई में, हर वॉक्सेल आंकड़ों के हिसाब से अहम आकलन के लिए, दिमाग की (वॉल्यूम यूनिट) की स्वतंत्र जांच की जाती है और अगर ऐसा है, तो हाइलाइट किया गया है. इससे कुछ ऐसी चीज़ होती है जो 1,00,000 स्वतंत्र महत्व वाले टेस्ट एक साथ किए जा रहे हैं. p=.05 की दर पर महत्व के थ्रेशोल्ड को ध्यान में रखते हुए, स्टैटिस्टिकल थ्योरी में करीब 5,000 गलत एक एफ़एमआरआई में पॉज़िटिव रिस्पॉन्स.3

इस समस्या को शायद 2009 बेनेट और अन्य ने सबसे अच्छे से समझा हो. पोस्टर, "पोस्ट-मॉर्टम अटलांटिक सैमन को लेते हुए इंटरसेप्सी के नज़रिए का न्यूरल रिलेशन," इस गेम में, आईजी नोबेल इनाम. शोधकर्ताओं ने एक एफ़एमआरआई मशीन में मरे हुए सैमन के साथ बहुत भावनात्मक स्थिति में फंसे इंसान, मरे हुए सैमन (सेमन) को यह पता लगाने के लिए कहना कि वीडियो में दिखाई गई इंसान में कैसी भावनाएं हैं अनुभव कर रहे थे. उन्होंने आंकड़ों के हिसाब से अहम क्लस्टर का इस्तेमाल किया सैमन के मस्तिष्क गुहा में सक्रिय वॉक्सल और गाल में जीभ निकालकर निष्कर्ष पर यह कि मरा हुआ सैमन असल में नज़रिए को देखने की कोशिश कर रहा था. ज़्यादा गंभीरता से, रिसर्च करने वाले लोग, कई तुलनाओं से जुड़ी समस्याओं पर ध्यान दे रहे थे. एफ़एमआरआई और इससे मिलती-जुलती इमेजिंग की स्थितियां और उनके असर को कम करने की ज़रूरत.

एक साफ़ तौर पर और ज़्यादा मुश्किल समाधान महत्व को दिखाने वाले थ्रेशोल्ड p-मान को कम करना है. द इनहेरेंट संवेदनशीलता (सभी पॉज़िटिव पॉज़िटिव कैप्चर करना) और खासियत के बीच तालमेल रहता है (सभी सही नेगेटिव की पहचान करना). संवेदनशीलता पर चर्चा, जिसे ट्रू पॉज़िटिव रेट, क्लासिफ़िकेशन मॉड्यूल में देखा जा सकता है मशीन लर्निंग क्रैश कोर्स के बारे में बताया गया है.

किसी और समस्या को कम करने के लिए, परिवार के हिसाब से गड़बड़ी की दर (एफ़डब्ल्यूईआर) को कंट्रोल किया जा रहा है, यह कम से कम एक फ़ॉल्स पॉज़िटिव होने की संभावना है. कोई दूसरा कंट्रोल कर रहा है फ़ॉल्स डिस्कवरी रेट (एफ़डीआर) या गलत के अनुमानित अनुपात के लिए पॉज़िटिव से सभी पॉज़िटिव रखें. 'गवर्नेंस ऐंड पॉलिटिक्स' में सबूत देखें' कई तुलनाओं की समस्या से जुड़ी गाइड, साथ ही, लिंडक्विस्ट और मेजिया "ज़ेन ऐंड द आर्ट ऑफ़ मल्टीपल कमीज़," यहाँ इन तरीकों को अच्छे से समझा जा सकता है. स्थिति में मरे हुए सैमन के साथ, एफ़डीआर और एफ़डब्ल्यूईआर को कंट्रोल करने से पता चला कि कोई वॉक्सल नहीं था, यह आंकड़ों के हिसाब से अहम है.

एफ़एमआरआई और इमेजिंग के अन्य तरीकों से स्कैन पर एमएल मॉडल को ट्रेनिंग देने की संख्या लगातार बढ़ रही है यह मेडिकल डायग्नोसिस4 और दोबारा बनाने वाली इमेज, दोनों में लोकप्रिय है ब्रेन ऐक्टिविटी से जुड़े डेटा का इस्तेमाल किया जाता है.5 अगर इन मॉडल को ट्रेनिंग देने के लिए, ट्रेनिंग डेटासेट, इससे समस्याओं की संभावना हो सकती है तुलनाएं समस्या. हालांकि, खास तौर पर, डायग्नोसिस के क्षेत्र में, यह मॉडल अगर 20% "ऐक्टिव" है, तो नए अलग-अलग स्कैन से गलत अनुमान लगाया जा सकता है वॉक्सल सच तो यह है कि यह ग़लत है. ध्यान दें कि डाइग्नोस्टिक एफ़एमआरआई क्लासिफ़िकेशन ली और ज़ाओ में बताए गए मॉडल ~70-85% सटीक हैं.

रिग्रेशन विश्लेषण में बहुत ज़्यादा वैरिएबल

एक से ज़्यादा तुलनाओं की समस्या, एक से ज़्यादा रिग्रेशन विश्लेषण पर लागू होती है. रिग्रेशन का विश्लेषण या लीनियर रिग्रेशन, कई न्यूमेरिक प्रेडिक्टिव मॉडल का आधार है. रिग्रेशन का विश्लेषण करने के लिए, कई तरीकों में से किसी एक का इस्तेमाल किया जाता है. जैसे, सामान्य सबसे कम स्क्वेयर रिग्रेशन गुणांक पता करना है, जो सबसे अच्छी तरह से बताता है कि एक वैरिएबल का असर पड़ता है. कोई दूसरा. रिसर्चर यह पूछ सकते हैं कि उम्र और धूम्रपान से फेफड़ों के कैंसर के रेट पर कैसे असर पड़ता है कैंसर के रिग्रेशन विश्लेषण में, हर फ़ैक्टर को वैरिएबल के तौर पर दिखाना अलग-अलग उम्र के लोगों और धूम्रपान करने वालों में COVID-19 की घटनाओं के बारे में जानकारी. लीनियर रिग्रेशन मॉडल समान तरीके से काम करता है. इसलिए, यह काफ़ी समझा जा सकता है अन्य एमएल मॉडल की तुलना में. रिग्रेशन का पता लगाना उन वैरिएबल के गुणांक, दोनों के बीच रैखिक संबंधों की इन वैरिएबल और फेफड़े के कैंसर की दरों के बारे में ज़्यादा जानकारी मिलती है.

रिग्रेशन विश्लेषण में सभी संभावित वैरिएबल को शामिल करने से आपको फ़ायदा हो सकता है, कम से कम इसलिए, क्योंकि किसी महत्वपूर्ण कारक को शामिल नहीं करने पर भी इसके योगदान का कारण हो सकता है नज़रअंदाज़ किया जा रहा है. हालांकि, किसी रिग्रेशन विश्लेषण में बहुत ज़्यादा वैरिएबल जोड़ने से बिना काम के वैरिएबल के आंकड़ों के दिखने की संभावना को बढ़ाती है अहम. अगर हम अपने विश्लेषण में अठारह ज़्यादा बिना काम के वैरिएबल जोड़ दें, जैसे "देखी गई फ़िल्में" और "कुत्तों के मालिक हैं" तो हो सकता है कि इनमें से कोई एक अवसर के हिसाब से, बिना काम के वैरिएबल, फेफड़े के कैंसर की दर ज़्यादा होना.6

एमएल के बारे में देखें, लेकिन समान स्थिति में मशीन लर्निंग में काफ़ी ज़्यादा सुविधाएं मॉडल का इस्तेमाल कर सकते हैं, जिसकी वजह से ओवरफ़िटिंग, और समस्याएं हल करने में मदद करते हैं.

अनुमान और फ़ैसले लेना

सोच के इन ट्रैप से बचने का एक तरीका है, आंकड़ों और मशीन लर्निंग का इस्तेमाल करना आंकड़ों से तैयार किए गए मॉडल, जो फ़ैसला लेने में मदद करने वाले टूल के तौर पर काम करते हैं. जवाब देने की ज़रूरत नहीं है. यह था पोज़िशन जो जेरज़ी नेमैन और इगॉन शार्प पियर्सन ने ली.7

इस फ़्रेमवर्क में, एमएल मॉडल समेत डेटा, डेटा के आंकड़े, और डेरिवेटिव अनुमान लगाने के लिए, सबसे सही माने जाते हैं. दुनिया भर के बयानों को गलत बनाना, अपनी रणनीति को बेहतर बनाना, और और फ़ैसला लेने में मदद करना शामिल है. वे सही नहीं हैं सच के बारे में सही दावे करने के लिए.

डेविड रिटर के अनुसार, विशाल डेटा दो बातों पर आधारित होना चाहिए:

  • "यह भरोसा कि आने वाले समय में सहसंबंध की समस्या बार-बार दोहराई जाएगी," कौनसा यह इस बात पर आधारित होना चाहिए कि यह समझने की कोशिश करें कि आपके बीच संबंध क्यों पैदा हो रहा है.
  • अभिनय करने के जोखिम और इनाम.8

इसी तरह, यह भी हो सकता है कि रिसर्च से जुड़े सभी सवाल, एआई के लिए सही न हों. अनस्टेसिया एआई के इस्तेमाल से जुड़ी समस्या के लिए, Fedyk दो शर्तें देती है:

  • समस्या के लिए पूर्वानुमान की ज़रूरत है, न कि साधारण संबंधों को समझने की.
  • एआई को फ़ीड किए जा रहे डेटा में वह सब कुछ शामिल है जो समस्या; इसका मतलब है कि समस्या अपने-आप पूरी हो.9

रेफ़रंस

बेनेट, क्रेग एम॰, अबीगैल ए॰ बेयर्ड, माइकल बी॰ मिलर और जॉर्ज एल॰ वूल्फ़र्ड. "पोस्ट-मॉर्टम में लिए जाने वाले इंटरसेप्सी के नज़रिए का न्यूरल रिलेशन अटलांटिक सैमन: कई तुलनाओं में सुधार करने का तर्क." न्यूरोइमेज (2009).

काहिरा, अल्बर्टो. चार्ट का क्या असर होता है: विज़ुअल की जानकारी को लेकर ज़्यादा स्मार्ट बनें. न्यूयॉर्क: W.W. नॉर्टन, 2019.

डैवनपोर्ट, थॉमस एच॰ "अनुमानित Analytics प्राइमर." HBR गाइड टू डेटा में मैनेजर के लिए Analytics से जुड़ी बुनियादी बातें (Boston: HBR Press, 2018) 81-86.

एलेनबर्ग, जॉर्डन. हाउ नॉट बी गलत: द पावर ऑफ़ मैथमैटिकल थिंकिंग. न्यूयॉर्क: पेंग्विन, 2014.

फ़ेडिक, अनस्तेसिया. "क्या मशीन लर्निंग से आपके कारोबार की समस्या हल हो सकती है?" HBR में मैनेजरों के लिए डेटा Analytics से जुड़ी बुनियादी बातों की गाइड (Boston: HBR Press, 2018) 111-119.

गैलो, एमी. "आंकड़ों के हिसाब से अहम जानकारी देना." HBR गाइड टू डेटा में मैनेजर के लिए Analytics से जुड़ी बुनियादी बातें (Boston: HBR Press, 2018) 121-129.

हफ़, डैरेल. आंकड़ों के साथ झूठ बोलने का तरीका. न्यूयॉर्क: डब्ल्यू॰डब्ल्यू॰ नॉर्टन, 1954.

आयोनिडिस, जॉन पी॰ ए॰ "बहुत से पब्लिश की गई रिसर्च के नतीजे गलत क्यों हैं.". PLoS Med में 2 नं. 8: e124.

जोन्स, बेन. डेटा में होने वाली समस्याओं से बचना. होबोकेन, न्यूजर्सी: वाइली, 2020.

ली, जियांगशुए, और पीज़ ज़ाओ. "एफ़एमआरआई में डीप लर्निंग ऐप्लिकेशन – समीक्षा से जुड़ा काम" आईसीबीबीबी 2023 (टोक्यो, जापान, 13 से 16 जनवरी, 2023): 75-80. https://doi.org/10.1145/3586139.3586150

लिंडक्विस्ट, मार्टिन ए॰, और अमैंडा मेजिया. "ज़ेन और कई तुलनाओं की कला." साइकोसोमैटिक मेडिसिन 77 नं. 2 (फ़रवरी से मार्च 2015): 114–125. डीओआई: 10.1097/PSY.0000000000000148.

रिटर, डेविड. "कोरिलेशन कब करें और कब नहीं." HBR गाइड में मैनेजरों के लिए डेटा के आंकड़ों से जुड़ी बुनियादी बातें (Boston: HBR Press, 2018) 103-109.

तगाकी, यू, और शिंजी निशिमोतो. "मानव दिमाग की गतिविधि से मिले लेटेंट डिफ़्यूज़न मॉडल की मदद से हाई-रिज़ॉल्यूशन वाली इमेज रीकंस्ट्रक्शन." आईईईई/सीवीएफ़ कॉन्फ़्रेंस 2023 कंप्यूटर विज़न और पैटर्न रिकग्निशन (वैंकूवर, बीसी, कनाडा, 2023): 14453-14463 है. डीओआई: 10.1109/CVPR52729.2023.01389.

व्हीलन, चार्ल्स. छिपे हुए आंकड़े: डेटा से डर को दूर करना. न्यूयॉर्क: W.W. नॉर्टन, 2013

चोउ, कुन, यूताओ ज़ू, झिपेंग चेन, वेंटॉन्ग चेन, वेन शिन ज़ाओ, शु चेन, यंकाई लिन, जी-रोंग वेन, और जियावे हान. "एलएलएम को इवैलुएशन बेंचमार्क चीटर न बनाएं." arXiv:2311.01964 cs.CL.


  1. कैरो 182.

  2. ज़ो और अन्य

  3. लिंडक्विस्ट और मेजिया.

  4. ली और ज़ाओ 77-78.

  5. टगाकी और निशिमोटो.

  6. व्हीलन 221.

  7. एलेनबर्ग 159.

  8. रिटर 104. 

  9. फ़ेडीक 113.