Embeddings : exercices interactifs

Le widget suivant, basé sur le projecteur d'embedding de TensorFlow, aplatit 10 000 vecteurs statiques word2vec dans un espace 3D. Ce regroupement des dimensions peut être trompeur, car les points les plus proches les uns des autres dans l'espace d'origine de grande dimension pourront apparaître plus éloignés dans la projection 3D. Les n points les plus proches sont surlignés en violet (n est choisi par l'utilisateur dans Isoler __ points). La barre latérale de droite identifie ces voisins les plus proches.

Dans ces tests, vous jouerez avec les embeddings word2vec dans le widget ci-dessus.

Tâche 1

Essayez de trouver les 20 voisins les plus proches pour les éléments suivants et regardez où les groupes se situent dans le nuage.

  • iii, third et three
  • tao et way
  • orange, yellow et juice

Que remarquez-vous à propos de ces résultats ?

Cliquez ici pour notre réponse

Même si iii, third et three sont sémantiquement similaires, ils apparaissent dans des contextes différents dans le texte et ne semblent pas proches les uns des autres dans cet espace d'embedding. Dans word2vec, iii est plus proche de iv que de third.

De même, bien que way soit une traduction directe de tao, ces mots apparaissent le plus souvent avec des groupes de mots complètement différents dans l'ensemble de données utilisé, et les deux vecteurs sont donc très éloignés.

Les premiers voisins les plus proches de orange sont des couleurs, mais juice and peel, liés à la signification de orange en tant que fruit, apparaissent comme les 14ème et 18ème voisins les plus proches. prince (comme pour le Prince d'Orange) est, quant à lui, 17ème. Dans la projection, les mots les plus proches de orange sont yellow et d'autres couleurs, tandis que les mots les plus proches de juice n'incluent pas orange.

Tâche 2

Essayez de comprendre certaines caractéristiques des données d'entraînement. Par exemple, essayez de trouver les 100 voisins les plus proches pour les éléments suivants et regardez où se trouvent les groupes dans le nuage :

  • boston, paris, tokyo, delhi, moscow et seoul (c'est une question piège)
  • jane, sarah, john, peter, rosa et juan

Cliquez ici pour notre réponse

La plupart des voisins les plus proches de boston sont d'autres villes des États-Unis et la plupart des voisins les plus proches de paris sont d'autres villes d'Europe. tokyo et delhi ne semblent pas avoir de résultats similaires : l'une est associée à des villes à travers le monde qui sont des lieux de transit pour les voyageurs, tandis que l'autre est associée à india et aux mots apparentés. seoul n'apparaît pas du tout dans cet ensemble réduit de vecteurs de mots.

Il semble que cet ensemble de données contient de nombreux documents liés à la géographie régionale américaine, quelques documents liés à la géographie régionale européenne et peu de données détaillées sur d'autres pays ou régions.

De même, cet ensemble de données semble contenir de nombreux prénoms anglais masculins, quelques prénoms anglais féminins et beaucoup moins de prénoms d'autres langues. Notez que Don Rosa a écrit et illustré les bandes dessinées Balthazar Picsou pour Disney, ce qui explique probablement pourquoi "balthazar" et "picsou" sont parmi les voisins les plus proches de "rosa".

Les vecteurs de mots pré-entraînés proposés par word2vec étaient en fait entraînés sur des articles Google Actualités jusqu'en 2013.

Tâche 3

Les embeddings ne se limitent pas aux mots, et peuvent aussi inclure des images, de l'audio et d'autres données. Pour cette tâche :

  1. Ouvrez le projecteur d'embedding de TensorFlow.
  2. Dans la barre latérale gauche intitulée Data (Données), sélectionnez Mnist with images (MNIST avec images). Une projection des embeddings de la base de données de chiffres manuscrits MNIST s'affiche.
  3. Cliquez pour arrêter la rotation et choisir une seule image. Faites un zoom avant ou arrière si nécessaire.
  4. Recherchez les voisins les plus proches dans la barre latérale droite. Y a-t-il des surprises ?
  • Pourquoi certains 7 ont-ils 1 comme voisin le plus proche ? Pourquoi certains 8 ont-ils 9 comme voisin le plus proche ?
  • Y a-t-il quoi que ce soit dans les images sur les bords de l'espace de projection qui semble différent de celles au centre de cet espace ?

Gardez à l'esprit que le modèle qui a créé ces embeddings reçoit des données d'image (c'est-à-dire des pixels) et choisit une représentation vectorielle numérique pour chaque image. Le modèle n'établit pas d'association mentale automatique entre l'image du chiffre manuscrit et le chiffre numérique lui-même.

Cliquez ici pour notre réponse

En raison de leurs formes similaires, les représentations vectorielles de certains 7 plus fins et plus étroits sont placés plus près des vecteurs pour les 1 manuscrits. Il en va de même pour certains 8 et 9, et même pour certains 5 et 3.

Les chiffres manuscrits situés à l'extérieur de l'espace de projection semblent plus fortement définissables comme l'un des neufs chiffres et fortement différenciés des autres chiffres possibles.