यह विजेट TensorFlow के Embedding Project पर आधारित है. यह 3D स्पेस में 10,000 word2vec
स्टैटिक वेक्टर फ़्लैट करके दिखाता है. इस तरह डाइमेंशन छोटे करके देखने पर, आपको जानकारी में गड़बड़ी दिख सकती है. ऐसा इसलिए है, क्योंकि ओरिजनल हाई-डाइमेंशन स्पेस में जो पॉइंट एक-दूसरे के नज़दीक हैं वे 3D प्रोजेक्शन में एक-दूसरे से काफ़ी दूर दिख सकते हैं. सबसे नज़दीकी n पॉइंट बैंगनी रंग से हाइलाइट किए गए हैं, जिसमें n को Isolate _ points में उपयोगकर्ता ने चुना है. दाईं ओर मौजूद साइडबार से सबसे नज़दीक मौजूद उन पॉइंट का पता चलता है.
इन एक्सपेरिमेंट में, आपको ऊपर दिए गए विजेट में एंबेड किए जा रहे word2vec
पर कार्रवाई करने की सुविधा मिलेगी.
टास्क 1
इन आइटम के सबसे नज़दीक मौजूद 20 आइटम ढूंढने की कोशिश करें और देखें कि क्लाउड में ग्रुप कहां हैं.
iii
,third
, औरthree
tao
औरway
orange
,yellow
, औरjuice
इन नतीजों से आपको क्या देखने को मिला?
हमारे जवाब देखने के लिए क्लिक करें
भले ही, iii
, third
, और three
सिमैंटिक रूप से एक-दूसरे से मिलते-जुलते हैं, टेक्स्ट में ये तीनों अलग-अलग कॉन्टेक्स्ट में दिख रहे हैं. साथ ही, एंबेड किए जा रहे इस स्पेस में एक-दूसरे के नज़दीक मौजूद नहीं है. word2vec
में iii
, third
के मुकाबले iv
से ज़्यादा नज़दीक है.
इसी तरह, way
का अनुवाद tao
है, फिर भी इस्तेमाल किए गए डेटासेट में ये शब्द अक्सर शब्दों के बिलकुल अलग ग्रुप के साथ इस्तेमाल किए गए हैं. इसलिए, दोनों पॉइंट एक-दूसरे से काफ़ी दूर हैं.
orange
के सबसे नज़दीक कुछ पॉइंट रंग हैं, लेकिन juice
और peel
का मतलब orange
से जुड़ा है, जो कि एक फल हैं. यह नज़दीकी 14वें और 18वें पॉइंट के तौर पर दिखता है. हालांकि, prince
की पोज़िशन 17वीं हैं जो कि प्रिंस ऑफ़ ऑरेंज हैं. इस प्रोजेक्शन में, orange
के सबसे नज़दीक शब्द yellow
और अन्य रंग हैं, जबकि juice
के सबसे नज़दीक शब्द में orange
शामिल नहीं है.
टास्क 2
ट्रेनिंग डेटा की कुछ विशेषताएं ढूंढने की कोशिश करें. उदाहरण के लिए, नीचे दिए गए पॉइंट के सबसे नज़दीक मौजूद 100 पॉइंट ढूंढने की कोशिश करें और देखें कि ग्रुप, क्लाउड में कहां मौजूद हैं:
boston
,paris
,tokyo
,delhi
,moscow
, औरseoul
(यह एक मज़ेदार सवाल है)jane
,sarah
,john
,peter
,rosa
, औरjuan
हमारे जवाब देखने के लिए क्लिक करें
boston
के सबसे नज़दीक कई पॉइंट अमेरिका के अन्य शहर हैं. paris
के सबसे नज़दीक कई पॉइंट यूरोप के अन्य शहर हैं. ऐसा हो सकता है कि tokyo
और delhi
के लिए एक जैसे नतीजे न मिलते हों: एक पॉइंट दुनिया भर में मौजूद ऐसे शहरों से जुड़ा है जहां लोग सबसे ज़्यादा जाना पसंद करते हैं, जबकि दूसरा पॉइंट india
और इससे मिलते-जुलते शब्द से जुड़ा है. seoul
, शब्द से जुड़े पॉइंट के काट-छांट करके बनाए गए सेट में बिलकुल नहीं दिखता.
ऐसा लगता है कि इस डेटासेट में अमेरिका के भूगोल से जुड़े कई दस्तावेज़ और यूरोप के क्षेत्रीय भूगोल से जुड़े दस्तावेज़ शामिल हैं. साथ ही, इसमें अन्य देशों या इलाकों की ऐसी जानकारी शामिल है जिसे अच्छी तरह से व्यवस्थित नहीं किया गया है.
इसी तरह, इस डेटासेट में पुरुषों के अंग्रेज़ी नाम, महिलाओं के अंग्रेज़ी नाम, और अन्य भाषाओं से लिए गए नाम शामिल हैं. ध्यान दें कि डॉन रोज़ा ने Disney के लिए स्क्रूज मैकडक कॉमिक लिखी और उसका इलस्ट्रेशन तैयार किया. इसी वजह से, 'स्क्रूज' और 'मैकडक', 'रोज़ा' के सबसे नज़दीकी पॉइंट में से एक हैं.
word2vec
के उपलब्ध कराए गए, शब्द से जुड़े पहले से ट्रेन किए गए वेक्टर को Google News पर मौजूद साल 2013 तक के लेखों पर ट्रेन किया गया था.
टास्क 3
एंबेड करने की प्रोसेस शब्दों तक सीमित नहीं है. इमेज, ऑडियो, और अन्य डेटा को भी एंबेड किया जा सकता है. इस टास्क के लिए:
- TensorFlow का एंबेडिंग प्रोजेक्टर खोलें.
- बाईं ओर मौजूद डेटा टाइटल वाले साइडबार में, इमेज वाला Mnist को चुनें. इससे हाथ से लिखे गए अंकों के MNIST डेटाबेस के एंबेड किए गए डेटा की प्रोजेक्शन दिखने लगेगी.
- घूमते हुए प्रोजेक्शन को रोकने के लिए क्लिक करें और कोई इमेज चुनें. ज़रूरत के मुताबिक, ज़ूम इन और ज़ूम आउट करें.
- सबसे नज़दीकी पॉइंट को ढूंढने के लिए दाईं ओर मौजूद साइडबार में देखें. क्या आपको कुछ मज़ेदार दिखा?
7
के कुछ पॉइंट1
के पॉइंट के नज़दीक मौजूद क्यों हैं?9
,8
के कुछ पॉइंट के नज़दीकी पॉइंट क्यों हैं?- प्रोजेक्शन स्पेस के किनारे पर मौजूद इमेज में क्या ऐसा कुछ है जो स्पेस के बीचों-बीच मौजूद इमेज से अलग लगता है?
ध्यान रखें कि इन इमेज को एंबेड करने वाले मॉडल को इमेज मिल रही हैं. इन इमेज को पिक्सल कहा जा सकता है. यह मॉडल हर इमेज के लिए नंबर वाला एक वेक्टर चुन रहा है. यह मॉडल हाथ से लिखे गए अंक की इमेज और उस नंबर के बीच अपने-आप कोई संबंध नहीं बनाता है.
हमारे जवाब देखने के लिए क्लिक करें
मिलते-जुलते आकार की वजह से, पतले, संकरे 7
के कुछ वेक्टर, हाथ से लिखे गए 1
के वेक्टर के नज़दीक मौजूद हैं. ऐसा ही 8
और 9
के कुछ वेक्टर और यहां तक कि 5
और 3
के कुछ वेक्टर से होता है.
प्रोजेक्शन स्पेस के बाहर की ओर मौजूद, हाथ से लिखे गए अंकों को ज़्यादा बेहतर तरीके से नौ अंकों में से एक समझा जा सकता है और इनमें और अन्य अंकों में बेहतर तरीके से अंतर किया जा सकता है.