Représentation

Un modèle de Machine Learning ne peut pas directement voir, entendre ou sentir les exemples d'entrée. Vous devez donc créer une représentation des données pour fournir au modèle un angle de vue utile sur les qualités clés des données. Autrement dit, pour entraîner un modèle, vous devez choisir l'ensemble de caractéristiques qui représentent le mieux les données.

Représentation

L'idée est de mettre en correspondance chaque partie du vecteur à gauche avec un ou plusieurs champs du vecteur de caractéristiques à droite.

Les données brutes sont mises en correspondances avec un vecteur de caractéristique grâce à un processus appelé "extraction de caractéristiques".
Mise en correspondance d'un entier brut (6) avec une caractéristique en virgule flottante (6,0).
Mise en correspondance d'une valeur de chaîne grâce à l'encodage one-hot
  • Le dictionnaire met en correspondance chaque nom de rue avec un entier dans {0, …,V-1}.
  • Il s'agit désormais d'un vecteur one-hot, représenté ci-dessus sous la forme <i>.

Les valeurs des caractéristiques doivent figurer plusieurs fois avec une valeur non nulle dans l'ensemble de données.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

La signification des caractéristiques doit être claire.

user_age:23

user_age:123456789

Les caractéristiques ne doivent pas contenir de valeurs "magiques".

Utilisez plutôt une caractéristique booléenne supplémentaire comme is_watch_time_defined.

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

La définition d'une caractéristique ne doit pas changer au fil du temps.

Attention à la dépendance envers d'autres systèmes de Machine Learning.

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

La distribution ne doit pas contenir de valeurs aberrantes.

Idéalement, toutes les caractéristiques sont transformées dans une plage similaire, par exemple (-1, 1) ou (0, 5).

Distribution avec des valeurs aberrantes et distribution avec une limite
Représentation graphique d'une distribution avec une courbe d'ajustement basée sur le lieu
Représentation graphique d'une distribution avec une courbe d'ajustement basée sur le lieu
  • Créez plusieurs classes booléennes, chacune correspondant à une nouvelle caractéristique unique.
  • Autorisez le modèle à utiliser une valeur différente pour chaque classe.

CONNAÎTRE SES DONNÉES

  • Visualiser : tracez des histogrammes, classez les valeurs de la plus fréquente à la moins fréquente.
  • Déboguer : identifiez des exemples en double, des valeurs manquantes, des valeurs aberrantes, des données en adéquation avec les tableaux de bord, des données d'apprentissage et de validation similaires, etc.
  • Surveiller : examinez les quantiles des caractéristiques, le nombre d'exemples au fil du temps, etc.