Yerleştirmeler: Etkileşimli alıştırmalar

TensorFlow'un Embedding Projector'ını temel alan widget, 10.000 word2vec statik vektörünü üç boyutlu uzaya indirger. Yüksek boyutlu uzayda birbirine en yakın olan noktalar, bu üç boyutlu projeksiyonda daha uzak görünebileceğinden bu boyut indirgeme işlemi yanıltıcı olabilir. En yakın n nokta mor renkle vurgulanır ve n nokta kullanıcı tarafından Isolate __ points ile seçilir. Sağ taraftaki kenar çubuğu, en yakın komşuları gösterir.

Bu deneysel çalışmalarda, yukarıdaki widget'ta word2vec yerleştirmeleriyle denemeler yapacaksınız.

1. görev

Aşağıdakiler için en yakın 20 komşuyu bulmaya çalışın ve grupların bulut içinde nasıl dağıldığını inceleyin.

  • iii, third ve three
  • tao ve way
  • orange, yellow ve juice

Bu sonuçlarda neler dikkatinizi çekti?

Yanıtımız için burayı tıklayın.

Her ne kadar iii, third ve three semantik açıdan benzer olsa da metinde farklı bağlamlarda kullanıldıkları için bu yerleştirme uzayında birbirlerine yakın görünmezler. word2vec içinde iii, third ifadesine değil, iv ifadesine daha yakındır.

Benzer şekilde way, tao kelimesinin doğrudan çevirisi olsa da bu iki kelime veri kümesinde çok farklı kelime gruplarıyla birlikte geçtiğinden, bu iki vektör yerleştirme uzayında birbirinden oldukça uzaktır.

orange kelimesine en yakın ilk birkaç komşu renklerdir ancak orange kelimesinin meyve anlamıyla ilgili olan juice ve peel gibi kelimeler ancak 14. ve 18. sırada yer alır. Öte yandan Prince of Orange kelimesinde geçen prince kelimesi 17. sıradadır. Bu projeksiyonda orange, kelimesine en yakın olanlar yellow ve diğer renklerken juice kelimesine en yakın olanlar arasında orange yer almaz.

2. görev

Eğitim verisindeki bazı özelliklerini keşfetmeye çalışın. Örneğin, aşağıdaki kelimeler için en yakın 100 komşuyu bulun ve bu grupların bulut içindeki konumlarına bakın.

  • boston, paris, tokyo, delhi, moscow ve seoul (Bu, tuzak bir soru.)
  • jane, sarah, john, peter, rosa ve juan

Yanıtımız için burayı tıklayın.

boston kelimesine en yakın komşuların çoğu, ABD'deki diğer şehirlerdir. paris için en yakın komşular ise çoğunlukla Avrupa'daki diğer şehirlerdir. tokyo ve delhi benzer sonuçlar vermez: Bunlardan biri, dünya genelindeki seyahat merkezleriyle ilişkilendirilirken diğeri india ve ilgili terimlerle bağlantılıdır. seoul ise bu sadeleştirilmiş kelime vektörü kümesinde hiç yer almaz.

Bu durum, kullanılan veri kümesinin çoğunlukla ABD ulusal coğrafyasıyla ilgili belgeleri içerdiğini, belgelerin bir kısmının Avrupa bölgesel coğrafyasıyla ilgili olduğunu ancak diğer ülke ve bölgelere dair ayrıntılara çok fazla yer verilmediğini gösterir.

Benzer şekilde, bu veri kümesi birçok İngilizce erkek ismi, birkaç İngilizce kadın ismi içermektedir ve diğer dillerden isimler oldukça azdır. Örneğin, Don Rosa'nın Disney için Scrooge McDuck çizgi romanlarını yazıp çizmiş olması, "rosa" kelimesine en yakın komşular arasında "scrooge" ve "mcduck" kelimelerinin yer almasının en olası nedenidir.

Gerçekten de word2vec tarafından sunulan bu önceden eğitilmiş kelime vektörleri, 2013 yılına kadar yayınlanan Google Haberler makaleleriyle eğitilmiştir.

3. görev

Yerleştirmeler yalnızca kelimelerle sınırlı değildir. Görseller, sesler ve başka veri türleri de yerleştirilebilir. Bu görevde şunları yapın:

  1. TensorFlow'un Embedding Projector'ını açın.
  2. Data başlıklı sol kenar çubuğunda Mnist with images'ı seçin. El yazısı rakamların bulunduğu MNIST veritabanı yerleştirmelerini içeren bir projeksiyon açılır.
  3. Dönmeyi durdurmak için tıklayın ve tek bir resim seçin. Gerekirse yakınlaştırıp uzaklaştırın.
  4. Sağ kenar çubuğundan en yakın komşulara bakın. Şaşırtıcı bir şey fark ettiniz mi?
  • Neden bazı 7 rakamlarının en yakın komşusu 1? Neden bazı 8 rakamlarının en yakın komşusu 9?
  • Projeksiyon uzayının uç kısımlarında yer alan resimlerde, projeksiyon uzayının merkezindeki resimlere göre farklılıklar var mı?

Bu yerleştirmeleri oluşturan model, resim verileri (pikseller) alır ve her resim için sayısal bir vektör temsili seçer. Model, el yazısıyla oluşturulan rakam resmini otomatik olarak sayısal anlamıyla ilişkilendirmez.

Yanıtımız için burayı tıklayın.

Şekil benzerlikleri nedeniyle, bazı daha ince ve dar 7 rakamlarının vektör temsilleri el yazısıyla yazılmış 1 rakamlarının vektörlerine daha yakın yerleştirilmiştir. Aynı durum bazı 8 ve 9 rakamları için de geçerlidir. Hatta 5 ve 3 rakamlarının bir kısmı da birbirlerine yakın yerleştirilmiştir.

Projeksiyon uzayının dış bölgelerinde yer alan el yazısı rakamlar, belirli bir rakamı daha net şekilde temsil eder ve diğer rakamlardan daha belirgin biçimde ayrılır.