एंबेड करने की प्रोसेस: इंटरैक्टिव एक्सरसाइज़

यह विजेट TensorFlow के Embedding Project पर आधारित है. यह 3D स्पेस में 10,000 word2vec स्टैटिक वेक्टर फ़्लैट करके दिखाता है. इस तरह डाइमेंशन छोटे करके देखने पर, आपको जानकारी में गड़बड़ी दिख सकती है. ऐसा इसलिए है, क्योंकि ओरिजनल हाई-डाइमेंशन स्पेस में जो पॉइंट एक-दूसरे के नज़दीक हैं वे 3D प्रोजेक्शन में एक-दूसरे से काफ़ी दूर दिख सकते हैं. सबसे नज़दीकी n पॉइंट बैंगनी रंग से हाइलाइट किए गए हैं, जिसमें n को Isolate _ points में उपयोगकर्ता ने चुना है. दाईं ओर मौजूद साइडबार से सबसे नज़दीक मौजूद उन पॉइंट का पता चलता है.

इन एक्सपेरिमेंट में, आपको ऊपर दिए गए विजेट में एंबेड किए जा रहे word2vec पर कार्रवाई करने की सुविधा मिलेगी.

टास्क 1

इन आइटम के सबसे नज़दीक मौजूद 20 आइटम ढूंढने की कोशिश करें और देखें कि क्लाउड में ग्रुप कहां हैं.

  • iii, third, और three
  • tao और way
  • orange, yellow, और juice

इन नतीजों से आपको क्या देखने को मिला?

हमारे जवाब देखने के लिए क्लिक करें

भले ही, iii, third, और three सिमैंटिक रूप से एक-दूसरे से मिलते-जुलते हैं, टेक्स्ट में ये तीनों अलग-अलग कॉन्टेक्स्ट में दिख रहे हैं. साथ ही, एंबेड किए जा रहे इस स्पेस में एक-दूसरे के नज़दीक मौजूद नहीं है. word2vec में iii, third के मुकाबले iv से ज़्यादा नज़दीक है.

इसी तरह, way का अनुवाद tao है, फिर भी इस्तेमाल किए गए डेटासेट में ये शब्द अक्सर शब्दों के बिलकुल अलग ग्रुप के साथ इस्तेमाल किए गए हैं. इसलिए, दोनों पॉइंट एक-दूसरे से काफ़ी दूर हैं.

orange के सबसे नज़दीक कुछ पॉइंट रंग हैं, लेकिन juice और peel का मतलब orange से जुड़ा है, जो कि एक फल हैं. यह नज़दीकी 14वें और 18वें पॉइंट के तौर पर दिखता है. हालांकि, prince की पोज़िशन 17वीं हैं जो कि प्रिंस ऑफ़ ऑरेंज हैं. इस प्रोजेक्शन में, orange के सबसे नज़दीक शब्द yellow और अन्य रंग हैं, जबकि juice के सबसे नज़दीक शब्द में orange शामिल नहीं है.

टास्क 2

ट्रेनिंग डेटा की कुछ विशेषताएं ढूंढने की कोशिश करें. उदाहरण के लिए, नीचे दिए गए पॉइंट के सबसे नज़दीक मौजूद 100 पॉइंट ढूंढने की कोशिश करें और देखें कि ग्रुप, क्लाउड में कहां मौजूद हैं:

  • boston, paris, tokyo, delhi, moscow, और seoul (यह एक मज़ेदार सवाल है)
  • jane, sarah, john, peter, rosa, और juan

हमारे जवाब देखने के लिए क्लिक करें

boston के सबसे नज़दीक कई पॉइंट अमेरिका के अन्य शहर हैं. paris के सबसे नज़दीक कई पॉइंट यूरोप के अन्य शहर हैं. ऐसा हो सकता है कि tokyo और delhi के लिए एक जैसे नतीजे न मिलते हों: एक पॉइंट दुनिया भर में मौजूद ऐसे शहरों से जुड़ा है जहां लोग सबसे ज़्यादा जाना पसंद करते हैं, जबकि दूसरा पॉइंट india और इससे मिलते-जुलते शब्द से जुड़ा है. seoul, शब्द से जुड़े पॉइंट के काट-छांट करके बनाए गए सेट में बिलकुल नहीं दिखता.

ऐसा लगता है कि इस डेटासेट में अमेरिका के भूगोल से जुड़े कई दस्तावेज़ और यूरोप के क्षेत्रीय भूगोल से जुड़े दस्तावेज़ शामिल हैं. साथ ही, इसमें अन्य देशों या इलाकों की ऐसी जानकारी शामिल है जिसे अच्छी तरह से व्यवस्थित नहीं किया गया है.

इसी तरह, इस डेटासेट में पुरुषों के अंग्रेज़ी नाम, महिलाओं के अंग्रेज़ी नाम, और अन्य भाषाओं से लिए गए नाम शामिल हैं. ध्यान दें कि डॉन रोज़ा ने Disney के लिए स्क्रूज मैकडक कॉमिक लिखी और उसका इलस्ट्रेशन तैयार किया. इसी वजह से, 'स्क्रूज' और 'मैकडक', 'रोज़ा' के सबसे नज़दीकी पॉइंट में से एक हैं.

word2vec के उपलब्ध कराए गए, शब्द से जुड़े पहले से ट्रेन किए गए वेक्टर को Google News पर मौजूद साल 2013 तक के लेखों पर ट्रेन किया गया था.

टास्क 3

एंबेड करने की प्रोसेस शब्दों तक सीमित नहीं है. इमेज, ऑडियो, और अन्य डेटा को भी एंबेड किया जा सकता है. इस टास्क के लिए:

  1. TensorFlow का एंबेडिंग प्रोजेक्टर खोलें.
  2. बाईं ओर मौजूद डेटा टाइटल वाले साइडबार में, इमेज वाला Mnist को चुनें. इससे हाथ से लिखे गए अंकों के MNIST डेटाबेस के एंबेड किए गए डेटा की प्रोजेक्शन दिखने लगेगी.
  3. घूमते हुए प्रोजेक्शन को रोकने के लिए क्लिक करें और कोई इमेज चुनें. ज़रूरत के मुताबिक, ज़ूम इन और ज़ूम आउट करें.
  4. सबसे नज़दीकी पॉइंट को ढूंढने के लिए दाईं ओर मौजूद साइडबार में देखें. क्या आपको कुछ मज़ेदार दिखा?
  • 7 के कुछ पॉइंट 1 के पॉइंट के नज़दीक मौजूद क्यों हैं? 9, 8 के कुछ पॉइंट के नज़दीकी पॉइंट क्यों हैं?
  • प्रोजेक्शन स्पेस के किनारे पर मौजूद इमेज में क्या ऐसा कुछ है जो स्पेस के बीचों-बीच मौजूद इमेज से अलग लगता है?

ध्यान रखें कि इन इमेज को एंबेड करने वाले मॉडल को इमेज मिल रही हैं. इन इमेज को पिक्सल कहा जा सकता है. यह मॉडल हर इमेज के लिए नंबर वाला एक वेक्टर चुन रहा है. यह मॉडल हाथ से लिखे गए अंक की इमेज और उस नंबर के बीच अपने-आप कोई संबंध नहीं बनाता है.

हमारे जवाब देखने के लिए क्लिक करें

मिलते-जुलते आकार की वजह से, पतले, संकरे 7 के कुछ वेक्टर, हाथ से लिखे गए 1 के वेक्टर के नज़दीक मौजूद हैं. ऐसा ही 8 और 9 के कुछ वेक्टर और यहां तक कि 5 और 3 के कुछ वेक्टर से होता है.

प्रोजेक्शन स्पेस के बाहर की ओर मौजूद, हाथ से लिखे गए अंकों को ज़्यादा बेहतर तरीके से नौ अंकों में से एक समझा जा सकता है और इनमें और अन्य अंकों में बेहतर तरीके से अंतर किया जा सकता है.