रीयल टाइम में एमएल सिस्टम: साहित्य

इस लेसन में, आप एमएल की समस्याओं को डीबग करेंगे, जो 18वीं सदी के साहित्य से जुड़ी हैं.

असली दुनिया का उदाहरण: 18वीं सदी का साहित्य

  • 18वीं सदी के साहित्य की प्रोफे़सर हैं. वे सिर्फ़ उन लेखकों के राजनैतिक जुड़ाव का अनुमान लगाना चाहते थे जो "माइंड मेटाफ़ॉर्स" लेखक का इस्तेमाल करते हैं.
पुरानी किताबें
  • 18वीं सदी के साहित्य की प्रोफे़सर हैं. वे सिर्फ़ उन लेखकों के राजनैतिक जुड़ाव का अनुमान लगाना चाहते थे जो "माइंड मेटाफ़ॉर्स" लेखक का इस्तेमाल करते हैं.
  • रिसर्च करने वालों की टीम ने कई लेबल वाले डेटा सेट को लेबल करके बड़ा किया है. इसमें कई लेखक और वाक्य इस्तेमाल किए गए हैं. साथ ही, इन्हें वाक्य के हिसाब से, ट्रेन/मान्यता/टेस्ट सेट में बांटा गया है.
पुरानी किताबें
  • 18वीं सदी के साहित्य की प्रोफे़सर हैं. वे सिर्फ़ उन लेखकों के राजनैतिक जुड़ाव का अनुमान लगाना चाहते थे जो "माइंड मेटाफ़ॉर्स" लेखक का इस्तेमाल करते हैं.
  • रिसर्च करने वालों की टीम ने कई लेबल वाले डेटा सेट को लेबल करके बड़ा किया है. इसमें कई लेखक और वाक्य इस्तेमाल किए गए हैं. साथ ही, इन्हें वाक्य के हिसाब से, ट्रेन/मान्यता/टेस्ट सेट में बांटा गया है.
  • प्रशिक्षित मॉडल ने टेस्ट डेटा की क़ीमत भी पूरी की, लेकिन रिसर्च करने वाले लोगों को लगा कि नतीजे संदिग्ध हैं. क्या गड़बड़ी हुई?
पुरानी किताबें

आपके हिसाब से, जांच को सही क्यों माना जा सकता है? देखें कि क्या आपको इस समस्या का पता चला है. इसके बाद, नीचे दिए 'चलाएं' बटन पर क्लिक करें ▶ यह पता लगाने के लिए कि आप सही हैं या नहीं.

  • डेटा विभाजन A: शोधकर्ता, हर सेट के कुछ लेखकों को ट्रेनिंग सेट में रखते हैं, कुछ पुष्टि करने वाले सेट में, और कुछ को टेस्ट सेट में लागू करते हैं.
रिचर्डसन के सभी उदाहरण ट्रेनिंग सेट में शामिल हो सकते हैं, जबकि Swift के सभी उदाहरण, पुष्टि के लिए सेट किए गए सेट में हो सकते हैं.
ट्रेनिंग, पुष्टि, और टेस्ट सेट में लेखक के उदाहरणों का ब्रेकडाउन दिखाने वाला डायग्राम. हर सेट में, तीनों में से हर एक के उदाहरण दिखाए गए हैं.
  • डेटा स्प्लिट B: रिसर्च करने वाले, सभी लेखकों के उदाहरण एक ही सेट में रखते हैं.
ट्रेनिंग, पुष्टि, और टेस्ट सेट में लेखक के उदाहरणों का ब्रेकडाउन दिखाने वाला डायग्राम. ट्रेनिंग सेट में Swift के सिर्फ़ उदाहरण हैं, पुष्टि सेट में सिर्फ़ Bele के उदाहरण हैं और टेस्ट सेट में सिर्फ़ Defoe के उदाहरण हैं.
  • डेटा विभाजन A: शोधकर्ता, हर सेट के कुछ लेखकों को ट्रेनिंग सेट में रखते हैं, कुछ पुष्टि करने वाले सेट में, और कुछ को टेस्ट सेट में लागू करते हैं.
  • डेटा स्प्लिट B: रिसर्च करने वाले, सभी लेखकों के उदाहरण एक ही सेट में रखते हैं.
  • नतीजे: डेटा स्प्लिट A पर प्रशिक्षित मॉडल की डेटा स्प्लिट B में प्रशिक्षित मॉडल की तुलना में काफ़ी ज़्यादा सही थी.

नैतिक: इस बात पर ध्यान से विचार करें कि आप किस तरह उदाहरणों को बांटते हैं.

जानें कि डेटा क्या दिखाता है.

* हमने इस मॉड्यूल को काफ़ी हद तक और कोट; में माइनर और माइनिंग के साथ शामिल किया: ह्यूमैनिटीज़ और कोट के डेटा पर इंप्लिसिट असेप्शन का असर; Sculley ने किया.