Розміщений нижче віджет, який працює на основі Проєктора векторних представлень TensorFlow, проєктує 10 000 статичних векторів word2vec
у тривимірний простір. Таке зменшення розмірності може бути неточним, оскільки точки, розташовані найближче одна до одної в оригінальному високовимірному просторі, можуть опинитися далі в тривимірній проєкції. Найближчі n точок позначено фіолетовим кольором; значення n вибирає користувач у полі Isolate __ points (Ізолювати стільки точок: __). Ці найближчі слова перераховано на бічній панелі праворуч.
Далі в експериментах ви попрацюєте з векторними представленнями word2vec
у віджеті вище.
Завдання 1
Спробуйте знайти 20 найближчих сусідів для слів нижче й подивіться, де ці групи розташовані в хмарі.
iii
,third
іthree
tao
іway
orange
,yellow
іjuice
Що ви помітили в цих результатах?
Натисніть тут, щоб побачити нашу відповідь
Хоча слова iii
, third
і three
семантично схожі, у тексті вони з’являються в різних контекстах і не є близькими в цьому просторі векторних представлень. У векторному представленні word2vec
слово iii
розташоване ближче до слова iv
, ніж до слова third
.
Хоча слово way
є прямим перекладом слова tao
, вони найчастіше зустрічаються в різних групах слів поточного набору даних. Тому ці два вектори розташовані далеко один від одного.
Кілька перших найближчих сусідів слова orange
пов’язані з кольорами, проте слова juice
і peel
, близькі до слова orange
за значенням "фрукт", відображаються на 14-му й 18-му місцях серед найближчих сусідів. Водночас слово prince
, що зустрічається у фразі "Prince of Orange", має 17-те місце. У цій проєкції слова, ближчі до слова orange
, – це yellow
й інші кольори, а слова, найближчі до слова juice
, не включають orange
.
Завдання 2
Спробуйте визначити характеристики навчальних даних. Наприклад, спробуйте знайти 100 найближчих сусідів для перелічених нижче слів і подивіться, де ці групи розташовані в хмарі.
boston
,paris
,tokyo
,delhi
,moscow
йseoul
(це непросте завдання)jane
,sarah
,john
,peter
,rosa
йjuan
Натисніть тут, щоб побачити нашу відповідь
Багато найближчих сусідів слова boston
є містами США, а слова, розташовані поряд зі словом paris
, – міста Європи. Для слів tokyo
і delhi
модель дає різні результати: перше асоціюється з містами світу, які є туристичними центрами, а друге – зі словом india
і пов’язаними з ним. seoul
узагалі не з’являється в спрощеному наборі векторів слів.
Схоже, що цей набір даних містить багато матеріалів, пов’язаних із національною географією США, кілька документів на тему європейської регіональної географії, а інші країни чи регіони детально не охоплено.
Крім того, у цьому наборі, схоже, багато чоловічих англійських імен, деякі жіночі англійські імена, а також невелика кількість імен іншими мовами. Зверніть увагу, що найближчими сусідами слова "роза" є "скрудж" і "макдак", вірогідно, через те, що ілюстратор Дон Роса (Don Rosa) працював над коміксом про Скруджа Макдака для Disney.
Готові набори векторів слів, які пропонує word2vec
, насправді були отримані в результаті навчання моделі на статтях Google Новин, виданих до 2013 року.
Завдання 3
Векторні представлення не обмежуються лише словами. Вони також можуть охоплювати зображення, аудіо й інші дані. Щоб виконати це завдання:
- Відкрийте Проєктор векторних представлень TensorFlow.
- Ліворуч на бічній панелі Data (Дані) виберіть MNIST with images (MNIST із зображеннями). Відкриється проєкція векторних представлень із бази даних рукописних цифр MNIST.
- Натисніть, щоб зупинити обертання, і виберіть одне зображення. Якщо потрібно, наблизьте або віддаліть його.
- На бічній панелі праворуч ви побачите найближчих сусідів. Результати вас можуть здивувати.
- Чому найближчими сусідами деяких цифр
7
є цифри1
, а8
розташовано найближче до цифри9
? - Чим відрізняються зображення на краях проєкційного простору від зображень у його центрі?
Важливо. Модель, яка створила ці векторні представлення, отримує дані зображення, тобто пікселі, і вибирає числове векторне представлення для кожного зображення. Ця модель не може автоматично асоціювати рукописне зображення цифри й саму цифру.
Натисніть тут, щоб побачити нашу відповідь
Через схожість форми векторні представлення деяких
тонших, вужчих цифр 7
розташовані ближче до векторів
рукописних цифр 1
. Те саме стосується написання деяких цифр 8
і 9
, а також деяких 5
та 3
.
Модель краще розпізнає рукописні цифри за межами проєкційного простору як одну з дев’яти цифр і чітко відрізняє їх від інших можливих цифр.