डिसिज़न फ़ॉरेस्ट के लिए सही डेटा

जब आपके पास टेबल के तौर पर डेटासेट (डेटा है, जिसे आप स्प्रेडशीट, CSV फ़ाइल या डेटाबेस टेबल में दिखा सकते हैं) हैं, तो फ़ैसला लेने वाले जंगल सबसे ज़्यादा असरदार होते हैं. टेबल फ़ॉर्मैट में डेटा बनाना, सबसे ज़्यादा इस्तेमाल होने वाले डेटा फ़ॉर्मैट में से एक है. ऐसे में, डेटा का विश्लेषण करने के लिए, फ़ैसला लेने में आपकी मदद करनी चाहिए.

टेबल 1. टेबल फ़ॉर्मैट में दिए गए डेटासेट का उदाहरण.

पैरों की संख्या आंखों की संख्या वज़न (पाउंड में) प्रजाति (लेबल)
2 2 12 पेंगुइन
8 6 0.1 मकड़ी
4 2 44 कुत्ता

न्यूरल नेटवर्क से अलग, फ़ैसला लेने वाले जंगल मॉडल मॉडल टेबल वाले डेटा का इस्तेमाल करते हैं. फ़ैसला लेने वाले जंगलों को बनाते समय, आपको ये काम नहीं करने होंगे:

  • पहले से प्रोसेस करने की प्रक्रिया पूरी करें, जैसे कि सुविधा नॉर्मलाइज़ेशन या एक-हॉट एन्कोडिंग.
  • अनुमान लगाएं (उदाहरण के लिए, किसी ऐसी वैल्यू को बदलना जो मौजूद नहीं है -1).

हालांकि, फ़ैसला लेने वाले जंगल, बिना इमेज वाले डेटा (जिसे स्ट्रक्चर्ड डेटा भी कहा जाता है) का इस्तेमाल करने के लिए सही नहीं हैं. जैसे, इमेज या टेक्स्ट. हां, इस सीमा के लिए समाधान मौजूद हैं, लेकिन न्यूरल नेटवर्क आम तौर पर अनस्ट्रक्चर्ड डेटा को बेहतर तरीके से हैंडल करते हैं.

परफ़ॉर्मेंस

फ़ैसला लेने के लिए जंगल बेहतरीन हैं. इसका मतलब है कि छोटे-छोटे डेटासेट की ट्रेनिंग के लिए या ऐसे डेटासेट के लिए ट्रेनिंग के जंगल सही हैं जहां सुविधाओं की संख्या / उदाहरणों की संख्या ज़्यादा है (जो शायद 1 से ज़्यादा हो). हालांकि, फ़ैसला लेने के लिए इस्तेमाल होने वाले जंगल के नमूने असरदार होते हैं, जैसे कि मशीन लर्निंग के सभी मॉडल, जब बहुत सारे डेटा उपलब्ध होते हैं, तो डिसिज़न फ़ॉरेस्ट सबसे अच्छा परफ़ॉर्म करते हैं.

फ़ैसला लेने वाले जंगल, आम तौर पर तुलना किए जाने वाले न्यूरल नेटवर्क से ज़्यादा तेज़ी से अनुमानित होते हैं. उदाहरण के लिए, एक मीडियम साइज़ का फ़ैसला लेने वाले जंगल में, एक आधुनिक सीपीयू पर कुछ सेकंड में अनुमान लगाया जाता है.