Representation

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Un modèle de machine learning ne peut pas directement voir, entendre ou détecter des exemples d'entrées. À la place, vous devez créer une représentation des données pour fournir au modèle un point de vue utile sur les qualités clés des données. Autrement dit, pour entraîner un modèle, vous devez choisir l'ensemble de caractéristiques qui représente le mieux les données.

Représentation

L'idée est de mapper chaque partie du vecteur de gauche dans un ou plusieurs champs dans le vecteur de caractéristiques de droite.

Les données brutes sont mappées à un vecteur de caractéristiques via un processus appelé extraction de caractéristiques.
Exemple de caractéristique pouvant être copiée directement à partir des données brutes
Exemple de caractéristique de chaîne (nom de rue) qui ne peut pas être copiée directement à partir des données brutes
Mise en correspondance d'une valeur de chaîne (
  • Le dictionnaire mappe chaque nom de rue sur un entier dans {0, ...,V-1}
  • Représentez maintenant le vecteur one-hot ci-dessus comme <i>.

Les valeurs des caractéristiques doivent apparaître plusieurs fois avec une valeur non nulle dans l'ensemble de données.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Les caractéristiques doivent avoir une signification claire et évidente.

user_age:23

user_age:123456789

Les caractéristiques ne doivent pas accepter les valeurs "magiques"

(utilisez plutôt une caractéristique booléenne supplémentaire, telle que is_watch_time_defined).

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

La définition d'un élément géographique ne doit pas changer au fil du temps.

(Méfiez-vous des autres systèmes de ML !)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

La distribution ne doit pas présenter de valeurs extrêmes.

Idéalement, toutes les caractéristiques sont transformées dans une plage similaire, telle que (-1, 1) ou (0, 5).

Distribution avec des anomalies et distribution avec limite
Graphique représentant une distribution avec une courbe d&#39;ajustement basée sur la position
Graphique représentant une distribution avec une courbe d&#39;ajustement basée sur la position
  • Créer plusieurs bins booléens, chacun mappant sur une nouvelle caractéristique unique
  • Permet au modèle d'ajuster une valeur différente pour chaque bac

CONNAISSEZ VOS DONNÉES

  • Visualiser : tracez des histogrammes, classez les valeurs de la plus fréquente à la moins fréquente.
  • Débogage : Exemples en double ? Valeurs manquantes ? Des anomalies ? Les données sont-elles en accord avec celles des tableaux de bord ? Des données d'entraînement et de validation similaires ?
  • Surveiller: les quantiles de caractéristiques, le nombre d'exemples au fil du temps ?