Formulation : principaux termes du Machine Learning

Qu'est-ce que le Machine Learning (supervisé) ? Voici une description claire et concise :

  • Les systèmes de ML apprennent comment combiner des entrées pour formuler des prédictions efficaces sur des données qui n'ont encore jamais été observées.

Passons en revue la terminologie de base en matière de Machine Learning.

Étiquettes

Une étiquette est le résultat de la prédiction ; la variable y dans une régression linéaire simple. Il peut s'agir du cours à venir du blé, de l'espèce animale représentée sur une photo, de la signification d'un extrait audio ou de toute autre chose.

Caractéristiques

Une caractéristique est une variable d'entrée ; la variable x dans une régression linéaire simple. Un projet de Machine Learning simple peut utiliser une seule caractéristique, tandis qu'un projet plus sophistiqué en utilisera plusieurs millions, spécifiées sous la forme :

\[\\{x_1, x_2, ... x_N\\}\]

Dans l'exemple du détecteur de spam, les caractéristiques peuvent inclure les éléments suivants :

  • les mots dans le corps de l'e-mail ;
  • l'adresse de l'expéditeur ;
  • l'heure à laquelle l'e-mail a été envoyé ;
  • l'e-mail contient l'expression "Une astuce étrange".

Exemples

Un exemple est une instance de donnée particulière, x. (x est mis en gras pour indiquer qu'il s'agit d'un vecteur.) Les exemples se répartissent dans deux catégories :

  • Exemples étiquetés
  • Exemples sans étiquette

Un exemple étiqueté comprend une ou plusieurs caractéristiques et l'étiquette. Par exemple :

  labeled examples: {features, label}: (x, y)

On utilise des exemples étiquetés pour entraîner le modèle. Dans l'exemple du détecteur de spam, les exemples étiquetés désignent les e-mails que les utilisateurs ont explicitement marqués comme "spam" ou "non-spam".

Par exemple, le tableau ci-dessous présente cinq exemples étiquetés issus d'un ensemble de données contenant des informations sur le prix des logements en Californie :

housingMedianAge
(caractéristique)
totalRooms
(caractéristique)
totalBedrooms
(caractéristique)
medianHouseValue
(étiquette)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

Un exemple sans étiquette contient des caractéristiques, mais pas d'étiquette. Par exemple :

  unlabeled examples: {features, ?}: (x, ?)

Voici trois exemples sans étiquette issus du même ensemble de données sur l'immobilier, qui excluent medianHouseValue :

housingMedianAge
(caractéristique)
totalRooms
(caractéristique)
totalBedrooms
(caractéristique)
42 1686 361
34 1226 180
33 1077 271

Une fois le modèle entraîné avec des exemples étiquetés, on l'utilise pour prédire l'étiquette sur des exemples qui en sont dépourvus. Dans l'exemple du détecteur de spam, les exemples sans étiquette sont des nouveaux e-mails qui n'ont pas encore été étiquetés manuellement.

Modèles

Un modèle définit la relation entre les caractéristiques et l'étiquette. Par exemple, un modèle de détection de spam peut associer étroitement certaines caractéristiques à du "spam". Penchons-nous à présent sur deux phases de la durée de vie d'un modèle :

  • L'apprentissage consiste à créer ou à entraîner le modèle. En d'autres termes, vous présentez au modèle des exemples étiquetés, et vous lui permettez d'apprendre progressivement les relations entre les caractéristiques et l'étiquette.

  • L'inférence consiste à appliquer le modèle entraîné à des exemples sans étiquette. En d'autres termes, vous utilisez le modèle entraîné pour faire des prédictions efficaces (y'). Par exemple, pendant l'inférence, vous pouvez prédire medianHouseValue pour les nouveaux exemples sans étiquette.

Différence entre régression et classification

Les modèles de régression prédisent des valeurs continues. Ils formulent, par exemple, des prédictions qui répondent à des questions telles que :

  • Quelle est la valeur d'un logement en Californie ?

  • Quelle est la probabilité qu'un utilisateur clique sur cette annonce ?

Les modèles de classification prédisent des valeurs discrètes. Ils formulent, par exemple, des prédictions qui répondent à des questions telles que les suivantes :

  • Un e-mail donné est-il considéré comme du spam ou non ?

  • Cette image représente-t-elle un chien, un chat ou un hamster ?