Travailler avec des données numériques

Les professionnels du ML passent beaucoup plus de temps à évaluer, nettoyer et transformer les données qu'à créer des modèles. Les données sont si importantes que ce cours leur consacre trois unités complètes :

Ce module est consacré aux données numériques c'est-à-dire des entiers ou des valeurs à virgule flottante qui se comportent comme des chiffres. C'est-à-dire qu'ils sont additifs, dénombrables, ordonnés, et ainsi de suite. Le module suivant porte sur données catégorielles, qui peuvent incluent des nombres qui se comportent comme des catégories. Le troisième module explique comment Préparer les données pour garantir des résultats de haute qualité lors de l'entraînement et de l'évaluation votre modèle.

Voici quelques exemples de données numériques :

  • Température
  • Poids
  • Nombre de cerfs hivernant dans une réserve naturelle

En revanche, les codes postaux américains, étant des nombres à cinq ou neuf chiffres, ne se comportent pas comme des nombres ou représentent des relations mathématiques. Le code postal 40004 (dans le comté de Nelson, Kentucky) est et non le double du code postal 20002 (à Washington, D.C.). Ces chiffres représentent des catégories, en particulier des zones géographiques, et sont considérés comme des données catégorielles.