Une représentation vectorielle continue est un espace de relativement faible dimension dans lequel vous pouvez projeter des vecteurs de grande dimension. Les représentations vectorielles continues facilitent le Machine Learning sur de grandes entrées telles que les vecteurs creux représentant des mots. Dans l'idéal, une représentation vectorielle continue retranscrit une partie de la sémantique de l'entrée en rapprochant les entrées sémantiquement similaires les unes des autres dans son espace. Une représentation vectorielle continue peut être apprise et réutilisée avec plusieurs modèles.
Représentations vectorielles continues
Principe du filtrage collaboratif
- Entrée : 500 000 utilisateurs et les films qu'ils ont choisi de regarder parmi les 1 000 000 disponibles
- Objectif : recommander des films aux utilisateurs
Pour ce faire, il faut procéder avec méthode et déterminer quels films sont similaires.
Classer les films par similarité (1 d)
Classer les films par similarité (2 d)
Représentation vectorielle continue à deux dimensions
Représentation vectorielle continue à deux dimensions
Représentation vectorielle continue à d dimensions
- A priori, l'intérêt de l'utilisateur pour un film peut généralement s'expliquer par les aspects d.
- Chaque film devient un point à d dimensions, où la valeur de la dimension d représente le degré de correspondance du film avec cet aspect.
- Les représentations vectorielles continues peuvent être déduites à partir des données.
Apprentissage des représentations vectorielles continues dans un réseau profond
- Aucun processus d'apprentissage distinct n'est nécessaire. La couche de représentations vectorielles continues n'est qu'une couche cachée avec une unité par dimension.
- Les informations supervisées (par exemple, les utilisateurs ont regardé les deux mêmes films) ajustent les représentations vectorielles continues formées pour la tâche souhaitée.
- Intuitivement, les unités cachées découvrent comment classer les éléments dans l'espace à d dimensions, de sorte à optimiser au mieux l'objectif final.
Représentation de l'entrée
- Chaque exemple (une ligne de cette matrice) consiste en un vecteur creux de caractéristiques (les films) qui ont été regardées par l'utilisateur.
- Représentation dense de cet exemple en tant que : (0, 1, 0, 1, 0, 0, 0, 1)
Cela n'est pas efficace en termes d'espace et de temps.

Représentation de l'entrée
- Créez un dictionnaire associant chaque caractéristique à un entier compris entre 0, ..., et le nombre de films - 1.
- Représentez efficacement le vecteur creux en intégrant seulement les films que l'utilisateur a regardés. Cela peut être représenté par :

Une couche de représentations vectorielles continues dans un réseau profond
Problème de régression pour prédire les prix de vente des logements :
Une couche de représentations vectorielles continues dans un réseau profond
Problème de régression pour prédire les prix de vente des logements :
Une couche de représentations vectorielles continues dans un réseau profond
Problème de régression pour prédire les prix de vente des logements :
Une couche de représentations vectorielles continues dans un réseau profond
Problème de régression pour prédire les prix de vente des logements :
Une couche de représentations vectorielles continues dans un réseau profond
Problème de régression pour prédire les prix de vente des logements :
Une couche de représentations vectorielles continues dans un réseau profond
Problème de régression pour prédire les prix de vente des logements :
Une couche de représentations vectorielles continues dans un réseau profond
Classification à classes multiples pour prédire un chiffre écrit à la main :
Une couche de représentations vectorielles continues dans un réseau profond
Classification à classes multiples pour prédire un chiffre écrit à la main :
Une couche de représentations vectorielles continues dans un réseau profond
Classification à classes multiples pour prédire un chiffre écrit à la main :
Une couche de représentations vectorielles continues dans un réseau profond
Classification à classes multiples pour prédire un chiffre écrit à la main :
Une couche de représentations vectorielles continues dans un réseau profond
Classification à classes multiples pour prédire un chiffre écrit à la main :
Une couche de représentations vectorielles continues dans un réseau profond
Classification à classes multiples pour prédire un chiffre écrit à la main :
Une couche de représentations vectorielles continues dans un réseau profond
Classification à classes multiples pour prédire un chiffre écrit à la main :
Une couche de représentations vectorielles continues dans un réseau profond
Filtrage collaboratif pour prédire les films à recommander :
Une couche de représentations vectorielles continues dans un réseau profond
Filtrage collaboratif pour prédire les films à recommander :
Une couche de représentations vectorielles continues dans un réseau profond
Filtrage collaboratif pour prédire les films à recommander :
Une couche de représentations vectorielles continues dans un réseau profond
Filtrage collaboratif pour prédire les films à recommander :
Une couche de représentations vectorielles continues dans un réseau profond
Filtrage collaboratif pour prédire les films à recommander :
Une couche de représentations vectorielles continues dans un réseau profond
Filtrage collaboratif pour prédire les films à recommander :
Une couche de représentations vectorielles continues dans un réseau profond
Filtrage collaboratif pour prédire les films à recommander :
Correspondance avec la vue géométrique
Réseau profond
- Chacune des unités cachées correspond à une dimension (caractéristique latente).
- La pondération des arêtes entre un film et une couche cachée correspond aux valeurs des coordonnées.
Vue géométrique de la représentation vectorielle continue d'un film
Sélectionner le bon nombre de dimensions pour les représentations vectorielles continues
- Les représentations vectorielles continues de plus grande dimension peuvent représenter plus exactement les relations entre les valeurs d'entrée.
- Cependant, un nombre plus élevé de dimensions augmente le risque de surapprentissage et entraîne un apprentissage plus lent.
- Règle empirique (bon point de départ, mais doit être adaptée à l'aide des données de validation) : $$ dimensions \approx \sqrt[4]{valeurs\;possibles} $$
Les représentations vectorielles continues en tant qu'outil
- Les représentations vectorielles continues permettent de mettre en correspondance des éléments (films, texte, etc.) avec des vecteurs réels de faible dimension, de sorte que les éléments similaires soient proches les uns des autres.
- Les représentations vectorielles continues peuvent également être appliquées à des données denses (une piste audio, par exemple) pour créer une statistique de similarité intéressante.
- La représentation vectorielle continue conjointe de plusieurs types de données (par exemple, du texte, des images et des contenus audio) permet de définir une similarité entre eux.