जब आपके पास टेबल के तौर पर डेटासेट (डेटा है, जिसे आप स्प्रेडशीट, CSV फ़ाइल या डेटाबेस टेबल में दिखा सकते हैं) हैं, तो फ़ैसला लेने वाले जंगल सबसे ज़्यादा असरदार होते हैं. टेबल फ़ॉर्मैट में डेटा बनाना, सबसे ज़्यादा इस्तेमाल होने वाले डेटा फ़ॉर्मैट में से एक है. ऐसे में, डेटा का विश्लेषण करने के लिए, फ़ैसला लेने में आपकी मदद करनी चाहिए.
टेबल 1. टेबल फ़ॉर्मैट में दिए गए डेटासेट का उदाहरण.
पैरों की संख्या | आंखों की संख्या | वज़न (पाउंड में) | प्रजाति (लेबल) |
---|---|---|---|
2 | 2 | 12 | पेंगुइन |
8 | 6 | 0.1 | मकड़ी |
4 | 2 | 44 | कुत्ता |
… | … | … | … |
न्यूरल नेटवर्क से अलग, फ़ैसला लेने वाले जंगल मॉडल मॉडल टेबल वाले डेटा का इस्तेमाल करते हैं. फ़ैसला लेने वाले जंगलों को बनाते समय, आपको ये काम नहीं करने होंगे:
- पहले से प्रोसेस करने की प्रक्रिया पूरी करें, जैसे कि सुविधा नॉर्मलाइज़ेशन या एक-हॉट एन्कोडिंग.
- अनुमान लगाएं (उदाहरण के लिए, किसी ऐसी वैल्यू को बदलना जो मौजूद नहीं है
-1
).
हालांकि, फ़ैसला लेने वाले जंगल, बिना इमेज वाले डेटा (जिसे स्ट्रक्चर्ड डेटा भी कहा जाता है) का इस्तेमाल करने के लिए सही नहीं हैं. जैसे, इमेज या टेक्स्ट. हां, इस सीमा के लिए समाधान मौजूद हैं, लेकिन न्यूरल नेटवर्क आम तौर पर अनस्ट्रक्चर्ड डेटा को बेहतर तरीके से हैंडल करते हैं.
परफ़ॉर्मेंस
फ़ैसला लेने के लिए जंगल बेहतरीन हैं. इसका मतलब है कि छोटे-छोटे डेटासेट की ट्रेनिंग के लिए या ऐसे डेटासेट के लिए ट्रेनिंग के जंगल सही हैं जहां सुविधाओं की संख्या / उदाहरणों की संख्या ज़्यादा है (जो शायद 1 से ज़्यादा हो). हालांकि, फ़ैसला लेने के लिए इस्तेमाल होने वाले जंगल के नमूने असरदार होते हैं, जैसे कि मशीन लर्निंग के सभी मॉडल, जब बहुत सारे डेटा उपलब्ध होते हैं, तो डिसिज़न फ़ॉरेस्ट सबसे अच्छा परफ़ॉर्म करते हैं.
फ़ैसला लेने वाले जंगल, आम तौर पर तुलना किए जाने वाले न्यूरल नेटवर्क से ज़्यादा तेज़ी से अनुमानित होते हैं. उदाहरण के लिए, एक मीडियम साइज़ का फ़ैसला लेने वाले जंगल में, एक आधुनिक सीपीयू पर कुछ सेकंड में अनुमान लगाया जाता है.