फ़ीचर क्रॉस: एक-हॉट वेक्टर पार करना

अब तक, हमने दो अलग-अलग फ़्लोटिंग-पॉइंट सुविधाओं को फ़ीचर-क्रॉस करने पर फ़ोकस किया है. व्यावहारिक तौर पर, मशीन लर्निंग मॉडल का इस्तेमाल कभी-कभी ही किया जा सकता है. हालांकि, मशीन लर्निंग मॉडल अक्सर एक-हॉट सुविधा वाले वेक्टर को पार करते हैं. एक-हॉट सुविधा वाले वेक्टर के क्रॉस को लॉजिकल कॉम्बिनेशन के तौर पर देखें. उदाहरण के लिए, मान लें कि हमारे पास दो सुविधाएं हैं: देश और भाषा. हर प्रॉडक्ट की एक-हॉट एन्कोडिंग, ऐसे वेक्टर जनरेट करती है जिन्हें country=USA, country=France या language=English, language=Spanish के तौर पर समझा जा सकता है. फिर, अगर आप इन एक-हॉट एन्कोडिंग की कोई सुविधा क्रॉस करते हैं, तो आपको बाइनरी सुविधाएं मिलती हैं जिन्हें लॉजिकल संयोजन के रूप में समझा जा सकता है, जैसे:

  country:usa AND language:spanish

दूसरे उदाहरण के तौर पर, मान लें कि आप अक्षांश और देशांतर को बिन बनाते हैं, तो एक-पांच हॉट एलिमेंट के वेक्टर अलग-अलग होते हैं. उदाहरण के लिए, दिए गए अक्षांश और देशांतर को इस तरह दिखाया जा सकता है:

  binned_latitude = [0, 0, 0, 1, 0]
  binned_longitude = [0, 1, 0, 0, 0]

मान लें कि आप इन दो सुविधा वेक्टर का एक फ़ीचर क्रॉस बनाते हैं:

  binned_latitude X binned_longitude

यह फ़ीचर क्रॉस एक 25 एलिमेंट वाला एक हॉट वेक्टर है (24 ज़ीरो और एक 1). क्रॉस में मौजूद सिंगल 1, अक्षांश और देशांतर की जानकारी देता है. इसके बाद, आपका मॉडल उस कॉम्बिनेशन के बारे में खास असोसिएशन सीख सकता है.

मान लें कि हम अक्षांश और देशांतर के डेटा को ठीक से समझ लेते हैं, जैसे कि:

binned_latitude(lat) = [
  0  < lat <= 10
  10 < lat <= 20
  20 < lat <= 30
]

binned_longitude(lon) = [
  0  < lon <= 15
  15 < lon <= 30
]

उन खराब बिन का फ़ीचर क्रॉस बनाने से सिंथेटिक विशेषता पर असर पड़ता है इसका मतलब यह है:

binned_latitude_X_longitude(lat, lon) = [
  0  < lat <= 10 AND 0  < lon <= 15
  0  < lat <= 10 AND 15 < lon <= 30
  10 < lat <= 20 AND 0  < lon <= 15
  10 < lat <= 20 AND 15 < lon <= 30
  20 < lat <= 30 AND 0  < lon <= 15
  20 < lat <= 30 AND 15 < lon <= 30
]

अब मान लें कि हमारे मॉडल को यह अनुमान लगाना है कि कुत्तों के मालिक दो सुविधाओं के आधार पर कुत्तों के साथ कितने संतुष्ट होंगे:

  • व्यवहार का प्रकार (भौंकना, रोना, झांकना, वगैरह)
  • उस दिन का समय

अगर हम इनमें से किसी भी सुविधा के लिए कोई सुविधा बनाते हैं, तो:

  [behavior type X time of day]

तो हम किसी भी सुविधा की तुलना में बहुत ज़्यादा अनुमानित क्षमता का इस्तेमाल कर पाएंगे. उदाहरण के लिए, अगर कोई कुत्ता (शाम 5 बजे) अच्छी तरह से रोता है, तो यह ज़रूरी है कि मालिक, काम से वापस लौट आए. शायद 3:00 बजे, जब कोई मालिक अच्छी तरह से नहीं सो रहा होता, तो रोने के बाद, डोमेन के मालिक को सबसे ज़्यादा परेशानी होती है.

लीनियर लर्नर बड़े डेटा के लिए अच्छा काम करते हैं. बड़े पैमाने पर डेटा सेट का इस्तेमाल करके, क्रॉस का इस्तेमाल करना एक बेहतरीन तरीका है. न्यूरल नेटवर्क एक और रणनीति मुहैया कराते हैं.