Représentations vectorielles continues

Une représentation vectorielle continue est un espace de relativement faible dimension dans lequel vous pouvez projeter des vecteurs de grande dimension. Les représentations vectorielles continues facilitent le Machine Learning sur de grandes entrées telles que les vecteurs creux représentant des mots. Dans l'idéal, une représentation vectorielle continue retranscrit une partie de la sémantique de l'entrée en rapprochant les entrées sémantiquement similaires les unes des autres dans son espace. Une représentation vectorielle continue peut être apprise et réutilisée avec plusieurs modèles.

Représentations vectorielles continues

  • Entrée : 500 000 utilisateurs et les films qu'ils ont choisi de regarder parmi les 1 000 000 disponibles
  • Objectif : recommander des films aux utilisateurs

Pour ce faire, il faut procéder avec méthode et déterminer quels films sont similaires.

Une liste de films sur une seule ligne avec, de gauche à droite, "Shrek", "Les Indestructibles", "Les Triplettes de Belleville", "Harry Potter", "Star Wars", "Bleu", "The Dark Knight Rises" et "Memento".

La même liste de films que sur la diapositive précédente, mais organisée en deux dimensions. Par exemple,
"Shrek" est en haut à gauche de "Les Indestructibles".

Comme le diagramme précédent, mais avec un axe et des étiquettes pour chaque quadrant. La disposition des films est la suivante : le premier quadrant, en haut à droite, correspond aux blockbusters pour adultes. Il comprend "Star Wars" et "The Dark Knight Rises". Les films "Hero" et "Tigre et Dragon" ont été ajoutés à ce quadrant. Le deuxième quadrant, en bas à droite, correspond au cinéma d'art et d'essai pour adultes et comprend les films "Bleu" et "Memento". "Waking Life" a été ajouté à ce quadrant. Le troisième quadrant, en bas à gauche, correspond au cinéma d'art et d'essai pour enfants. Il comprend le film "Les Triplettes de Belleville". "Wallace et Gromit" a été ajouté à ce quadrant. Le quatrième et dernier quadrant, en haut à gauche, correspond aux blockbusters pour enfants. Il comprend "Shrek", "Les Indestructibles" et "Harry Potter". Le film "Rock Academy" a été ajouté à ce quadrant.

La même disposition que sur la dernière diapositive. Les coordonnées de "Shrek" et "Bleu" sont mises en évidence en exemple dans le deuxième plan de représentations vectorielles continues.

  • A priori, l'intérêt de l'utilisateur pour un film peut généralement s'expliquer par les aspects d.
  • Chaque film devient un point à d dimensions, où la valeur de la dimension d représente le degré de correspondance du film avec cet aspect.
  • Les représentations vectorielles continues peuvent être déduites à partir des données.
  • Aucun processus d'apprentissage distinct n'est nécessaire. La couche de représentations vectorielles continues n'est qu'une couche cachée avec une unité par dimension.
  • Les informations supervisées (par exemple, les utilisateurs ont regardé les deux mêmes films) ajustent les représentations vectorielles continues formées pour la tâche souhaitée.
  • Intuitivement, les unités cachées découvrent comment classer les éléments dans l'espace à d dimensions, de sorte à optimiser au mieux l'objectif final.
  • Chaque exemple (une ligne de cette matrice) consiste en un vecteur creux de caractéristiques (les films) qui ont été regardées par l'utilisateur.
  • Représentation dense de cet exemple en tant que : (0, 1, 0, 1, 0, 0, 0, 1)

Cela n'est pas efficace en termes d'espace et de temps.

Un tableau où chaque en-tête de colonne correspond à un film et chaque ligne représente un utilisateur et les films qu'il a regardés.
  • Créez un dictionnaire associant chaque caractéristique à un entier compris entre 0, ..., et le nombre de films - 1.
  • Représentez efficacement le vecteur creux en intégrant seulement les films que l'utilisateur a regardés. Cela peut être représenté par : En fonction de la position de la colonne des films dans le vecteur creux situé à droite, les films "Les Triplettes de Belleville", "Wallace et Gromit" et "Memento" peuvent être représentés par (0,1, 999999).
Un vecteur creux représenté en tant que tableau, chaque colonne représentant un film, et chaque ligne représentant un utilisateur. Le tableau comprend les films des diagrammes précédents, et il est numéroté de 1 à 999999. Lorsqu'un utilisateur a regardé un film, la cellule correspondante est cochée dans le tableau.

Problème de régression pour prédire les prix de vente des logements :

Le diagramme d'un réseau neuronal profond utilisé pour prédire les prix de vente des logements

Problème de régression pour prédire les prix de vente des logements :

Le diagramme d'un réseau neuronal profond utilisé pour prédire les prix de vente des logements

Problème de régression pour prédire les prix de vente des logements :

Le diagramme d'un réseau neuronal profond utilisé pour prédire les prix de vente des logements

Problème de régression pour prédire les prix de vente des logements :

Le diagramme d'un réseau neuronal profond utilisé pour prédire les prix de vente des logements

Problème de régression pour prédire les prix de vente des logements :

Le diagramme d'un réseau neuronal profond utilisé pour prédire les prix de vente des logements

Problème de régression pour prédire les prix de vente des logements :

Le diagramme d'un réseau neuronal profond utilisé pour prédire les prix de vente des logements

Classification à classes multiples pour prédire un chiffre écrit à la main :

Un nouveau diagramme de réseau neuronal profond utilisé pour prédire les chiffres écrits à la main.

Classification à classes multiples pour prédire un chiffre écrit à la main :

Un nouveau diagramme de réseau neuronal profond utilisé pour prédire les chiffres écrits à la main.

Classification à classes multiples pour prédire un chiffre écrit à la main :

Un nouveau diagramme de réseau neuronal profond utilisé pour prédire les chiffres écrits à la main.

Classification à classes multiples pour prédire un chiffre écrit à la main :

Un nouveau diagramme de réseau neuronal profond utilisé pour prédire les chiffres écrits à la main.

Classification à classes multiples pour prédire un chiffre écrit à la main :

Un nouveau diagramme de réseau neuronal profond utilisé pour prédire les chiffres écrits à la main.

Classification à classes multiples pour prédire un chiffre écrit à la main :

Un nouveau diagramme de réseau neuronal profond utilisé pour prédire les chiffres écrits à la main.

Classification à classes multiples pour prédire un chiffre écrit à la main :

Un nouveau diagramme de réseau neuronal profond utilisé pour prédire les chiffres écrits à la main.

Filtrage collaboratif pour prédire les films à recommander :

Un nouveau diagramme d'un réseau neuronal profond utilisé pour prédire les films à recommander

Filtrage collaboratif pour prédire les films à recommander :

Un nouveau diagramme d'un réseau neuronal profond utilisé pour prédire les films à recommander

Filtrage collaboratif pour prédire les films à recommander :

Un nouveau diagramme d'un réseau neuronal profond utilisé pour prédire les films à recommander

Filtrage collaboratif pour prédire les films à recommander :

Un nouveau diagramme d'un réseau neuronal profond utilisé pour prédire les films à recommander

Filtrage collaboratif pour prédire les films à recommander :

Un nouveau diagramme d'un réseau neuronal profond utilisé pour prédire les films à recommander

Filtrage collaboratif pour prédire les films à recommander :

Un nouveau diagramme d'un réseau neuronal profond utilisé pour prédire les films à recommander

Filtrage collaboratif pour prédire les films à recommander :

Un nouveau diagramme d'un réseau neuronal profond utilisé pour prédire les films à recommander

Réseau profond

  • Chacune des unités cachées correspond à une dimension (caractéristique latente).
  • La pondération des arêtes entre un film et une couche cachée correspond aux valeurs des coordonnées.
  • Une arborescence d'un réseau de neurones profond avec un nœud dans la couche la plus basse connecté à trois points dans la couche du dessus

Vue géométrique de la représentation vectorielle continue d'un film

Un point dans un espace en 3 dimensions, correspondant au nœud de la couche la plus basse dans le diagramme du réseau de neurones profond.
  • Les représentations vectorielles continues de plus grande dimension peuvent représenter plus exactement les relations entre les valeurs d'entrée.
  • Cependant, un nombre plus élevé de dimensions augmente le risque de surapprentissage et entraîne un apprentissage plus lent.
  • Règle empirique (bon point de départ, mais doit être adaptée à l'aide des données de validation) :
  • $$ dimensions \approx \sqrt[4]{valeurs\;possibles} $$
  • Les représentations vectorielles continues permettent de mettre en correspondance des éléments (films, texte, etc.) avec des vecteurs réels de faible dimension, de sorte que les éléments similaires soient proches les uns des autres.
  • Les représentations vectorielles continues peuvent également être appliquées à des données denses (une piste audio, par exemple) pour créer une statistique de similarité intéressante.
  • La représentation vectorielle continue conjointe de plusieurs types de données (par exemple, du texte, des images et des contenus audio) permet de définir une similarité entre eux.