Cette page a été traduite par l'API Cloud Translation.

Glossaire du machine learning: Bases du ML

Cette page contient des termes du glossaire des principes de base du ML. Pour consulter tous les termes du glossaire, cliquez ici.

A

accuracy

#fundamentals

Nombre de prédictions de classification correctes divisé par le nombre total de prédictions. Par exemple :

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Par exemple, un modèle qui a effectué 40 prédictions correctes et 10 prédictions incorrectes aurait une justesse de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classification binaire fournit des noms spécifiques aux différentes catégories de prédictions correctes et de prédictions incorrectes. La formule de justesse pour la classification binaire est donc la suivante:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

où :

"VP" correspond au nombre de vrais positifs (prédictions correctes).
"VN" correspond au nombre de vrais négatifs (prédictions correctes).
"FP" correspond au nombre de faux positifs (prédictions incorrectes).
"FN" correspond au nombre de faux négatifs (prédictions incorrectes).

Indiquer les points communs et les différences entre la justesse, la précision et le rappel.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Même s'il s'agit d'une métrique précieuse dans certaines situations, la précision peut induire en erreur d'autres. En particulier, la justesse n'est généralement pas une bonne métrique pour évaluer les modèles de classification qui traitent les ensembles de données avec déséquilibre des classes.

Par exemple, supposons que la neige ne tombe que 25 jours par siècle dans une certaine ville subtropicale. Étant donné que le nombre de jours sans neige (classe négative) est largement supérieur au nombre de jours avec neige (classe positive), l'ensemble de données relatif à l'enneigement pour cette ville présente un déséquilibre des classes. Imaginez un modèle de classification binaire censé prédire l'absence de neige ou de neige chaque jour, mais qui prédit simplement "pas de neige" tous les jours. Ce modèle est très précis, mais n'a pas de performances prédictives. Le tableau suivant résume les résultats pour un siècle de prédictions:

Catégorie	Nombre
VP	0
VN	36500
FP	25
FN	0

La justesse de ce modèle est donc:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Bien que la précision de 99,93% semble être un pourcentage impressionnant, le modèle n'a en réalité aucun pouvoir de prédiction.

La précision et le rappel sont généralement plus utiles que la précision pour évaluer les modèles entraînés sur des ensembles de données avec déséquilibre des classes.

fonction d'activation

#fundamentals

Fonction qui permet aux réseaux de neurones d'apprendre les relations non linéaires (complexes) entre les caractéristiques et l'étiquette.

Les fonctions d'activation les plus courantes sont les suivantes:

ReLU
Sigmoïde

Les tracés des fonctions d'activation ne sont jamais représentés par des lignes droites simples. Par exemple, le tracé de la fonction d'activation ReLU est composé de deux lignes droites:

Graphique cartésien composé de deux lignes. La première ligne a une valeur y constante de 0 et court le long de l'axe des abscisses de -infini,0 à 0,-0.
La deuxième ligne commence à 0,0. Cette ligne a une pente de +1, elle va donc de 0,0 à +infini,+infini.

Le tracé de la fonction d'activation sigmoïde se présente comme suit:

Un graphique incurvé bidimensionnel avec des valeurs x couvrant le domaine -infini à +positif, tandis que les valeurs y s'étendent entre presque 0 et presque 1. Lorsque x est égal à 0, y est égal à 0,5. La pente de la courbe est toujours positive, avec la pente la plus élevée à 0,0,5.La pente diminue progressivement à mesure que la valeur absolue de x augmente.

Cliquez sur l'icône pour voir un exemple.

Dans un réseau de neurones, les fonctions d'activation manipulent la somme pondérée de toutes les entrées d'un neurone. Pour calculer une somme pondérée, le neurone additionne les produits des valeurs et pondérations pertinentes. Par exemple, supposons que l'entrée correspondant à un neurone se compose des éléments suivants:

valeur d'entrée	poids d'entrée
2	-1,3
-1	0,6
3	0,4

La somme pondérée est donc la suivante :

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Supposons que le concepteur de ce réseau de neurones choisisse la fonction sigmoïde comme fonction d'activation. Dans ce cas, le neurone calcule la valeur sigmoïde de -2,0, soit approximativement 0,12. Par conséquent, le neurone transmet 0,12 (au lieu de -2,0) à la couche suivante du réseau de neurones. La figure suivante illustre la partie pertinente du processus:

l'intelligence artificielle

#fundamentals

Programme ou model non humain capable d'exécuter des tâches complexes. Par exemple, un programme ou un modèle qui traduit du texte, ou un programme ou un modèle qui identifie des maladies à partir d'images radiologiques, exploitent tous deux l'intelligence artificielle.

Officiellement, le machine learning est un sous-domaine de l'intelligence artificielle. Toutefois, ces dernières années, certaines organisations ont commencé à utiliser les termes intelligence artificielle et machine learning de manière interchangeable.

AUC (aire sous la courbe ROC)

#fundamentals

Nombre compris entre 0,0 et 1,0 représentant la capacité d'un modèle de classification binaire à séparer des classes positives des classes négatives. Plus l'AUC est proche de 1, plus le modèle sera à même de séparer les classes les unes des autres.

Par exemple, l'illustration suivante montre un modèle de classificateur qui sépare parfaitement les classes positives (ovales vertes) des classes négatives (rectangles violets). L'AUC de ce modèle, irréaliste, parfait est de 1,0:

Un axe gradué avec 8 exemples positifs d'un côté et 9 exemples négatifs de l'autre.

À l'inverse, l'illustration suivante montre les résultats d'un modèle de classificateur qui a généré des résultats aléatoires. L'AUC de ce modèle est de 0,5:

Un axe gradué avec six exemples positifs et six exemples négatifs
La séquence d'exemples est positive, négative, positive, négative, positive, négative, positive, négative, positive, négative, positive, négative.

Oui, l'AUC du modèle précédent est de 0,5, et non de 0,0.

La plupart des modèles se situent entre les deux extrêmes. Par exemple, le modèle suivant distingue quelque peu les positifs des négatifs et présente donc un AUC compris entre 0,5 et 1,0:

Un axe gradué avec six exemples positifs et six exemples négatifs
La séquence d'exemples est négative, négative, négative, négative, positive, négative, positive, positive, négative, positive, positive, positive.

L'AUC ignore toute valeur définie pour le seuil de classification. L'AUC prend en compte tous les seuils de classification possibles.

Cliquez sur l'icône pour en savoir plus sur la relation entre les courbes AUC et ROC.

L'AUC représente l'aire située sous une courbe ROC. Par exemple, la courbe ROC d'un modèle qui sépare parfaitement les positifs des négatifs se présente comme suit:

L'AUC est la superficie de la région grise de l'illustration précédente. Dans ce cas inhabituel, l'aire correspond simplement à la longueur de la zone grise (1,0) multipliée par la largeur de la zone grise (1,0). Ainsi, le produit de 1,0 et 1,0 donne un AUC d'exactement 1,0, ce qui correspond au score AUC le plus élevé possible.

À l'inverse, la courbe ROC d'un classificateur qui ne peut pas du tout séparer les classes est la suivante. L'aire de cette zone grise est de 0,5.

Une courbe ROC plus typique ressemble approximativement à ce qui suit:

Il serait difficile de calculer manuellement l'aire sous cette courbe, c'est pourquoi un programme calcule généralement la plupart des valeurs AUC.

Cliquez sur l'icône pour obtenir une définition plus formelle de l'AUC.

L'AUC correspond à la probabilité que le niveau de confiance d'un classificateur soit plus élevé pour qu'un exemple positif choisi aléatoirement soit réellement positif qu'avec un exemple négatif choisi aléatoirement.

B

rétropropagation

#fundamentals

L'algorithme qui met en œuvre la descente de gradient dans les réseaux de neurones.

L'entraînement d'un réseau de neurones implique de nombreuses itérations du cycle en deux temps suivant:

Lors de la passe avant, le système traite un lot d'exemples pour produire une ou plusieurs prédictions. Le système compare chaque prédiction à chaque valeur d'étiquette. Pour cet exemple, la différence entre la prédiction et la valeur de l'étiquette est la perte. Le système agrège les pertes pour tous les exemples afin de calculer la perte totale pour le lot en cours.
Lors du passage rétrospectif (rétropropagation), le système réduit la perte en ajustant les pondérations de tous les neurones de l'ensemble des couches cachées.

Les réseaux de neurones contiennent souvent de nombreux neurones sur de nombreuses couches cachées. Chacun de ces neurones contribue à la perte globale de différentes manières. La rétropropagation détermine s'il faut augmenter ou diminuer les pondérations appliquées à des neurones spécifiques.

Le taux d'apprentissage est un multiplicateur qui contrôle le degré d'augmentation ou de diminution de chaque pondération. Un taux d'apprentissage élevé augmente ou diminue chaque pondération plus qu'un faible taux d'apprentissage.

En termes de calcul, la rétropropagation implémente la règle de chaîne à partir du calcul. En d'autres termes, la rétropropagation calcule la dérivée partielle de l'erreur par rapport à chaque paramètre.

Il y a plusieurs années, les professionnels du ML devaient écrire du code pour implémenter la rétropropagation. Les API de ML modernes telles que TensorFlow implémentent désormais la rétropropagation à votre place. Ouf !

lot

#fundamentals

Ensemble d'exemples utilisés dans une itération d'entraînement. La taille de lot détermine le nombre d'exemples dans un lot.

Pour plus d'informations sur la relation entre un lot et une époque, consultez la section epoch.

taille de lot

#fundamentals

Nombre d'exemples dans un lot. Par exemple, si la taille de lot est de 100, le modèle traite 100 exemples par itération.

Voici quelques stratégies populaires de taille de lot:

Stochastic Gradient Descent (SGD) : la taille de lot est de 1.
Lot complet, dans lequel la taille de lot correspond au nombre d'exemples dans l'ensemble de l'ensemble d'entraînement. Par exemple, si l'ensemble d'entraînement contient un million d'exemples, la taille de lot est égale à un million d'exemples. Le traitement par lot complet n'est généralement pas une stratégie efficace.
mini-lot dont la taille de lot est généralement comprise entre 10 et 1 000. Le mini-lot est généralement la stratégie la plus efficace.

biais (éthique/impartialité)

#fairness

#fundamentals

1. Stéréotypes, préjugés ou favoritisme envers certaines choses, certaines personnes ou certains groupes par rapport à d'autres. Ces biais peuvent affecter la collecte et l'interprétation des données, la conception d'un système et la façon dont les utilisateurs interagissent avec celui-ci. Les formes de ce type de préjugé sont les suivantes:

2. Erreur systématique introduite par une procédure d'échantillonnage ou de création de rapports Les formes de ce type de préjugé sont les suivantes:

À ne pas confondre avec le biais des modèles de machine learning ou le biais de prédiction.

biais (mathématiques) ou terme de biais

#fundamentals

Ordonnée à l'origine ou décalage par rapport à une origine. Le biais est un paramètre des modèles de machine learning, symbolisé par l'un des éléments suivants:

b
s₀

Par exemple, b représente le biais dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dans une simple ligne à deux dimensions, biais signifie simplement "ordonnée à l'origine". Par exemple, dans l'illustration suivante, le biais de la ligne est de 2.

Tracé d'une droite avec une pente de 0,5 et un biais (ordonné à l'origine) de 2.

Il existe un biais, car tous les modèles ne partent pas de l'origine (0,0). Par exemple, supposons que l'entrée d'un parc d'attractions coûte 2 euros et que le coût d'entrée d'un client soit de 0,5 euro supplémentaire par heure de séjour. Par conséquent, un modèle mappant le coût total présente un biais de 2, car le coût le plus faible est de 2 euros.

Les biais ne doivent pas être confondus avec les biais d'éthique et d'impartialité ni avec le biais de prédiction.

classification binaire

#fundamentals

Type de tâche de classification qui prédit l'une des deux classes mutuellement exclusives:

la classe positive
la classe négative.

Par exemple, les deux modèles de machine learning suivants effectuent chacun une classification binaire:

Modèle qui détermine si les e-mails sont du spam (la classe positive) ou non spam (la classe négative).
Un modèle qui évalue les symptômes médicaux pour déterminer si une personne a une maladie particulière (classe positive) ou n'en a pas (la classe négative).

À comparer à la classification à classes multiples.

Voir aussi Régression logistique et Seuil de classification.

binning

#fundamentals

Conversion d'une seule caractéristique en plusieurs caractéristiques binaires appelées buckets ou classes, généralement en fonction d'une plage de valeurs. La caractéristique coupée est généralement une caractéristique continue.

Par exemple, au lieu de représenter la température comme une seule caractéristique continue à virgule flottante, vous pouvez découper des plages de températures en buckets distincts, tels que:

<= 10 degrés Celsius correspond à la tranche "froid".
11 à 24 degrés Celsius correspond à l'intervalle "tempéré".
>= 25 degrés Celsius serait le bucket "chaud".

Le modèle traitera chaque valeur d'un même bucket de manière identique. Par exemple, les valeurs 13 et 22 se trouvent toutes deux dans le bucket "tempéré". Le modèle traite donc les deux valeurs de manière identique.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Si vous représentez la température comme une caractéristique continue, le modèle traite la température comme une seule caractéristique. Si vous représentez une température sous forme de trois buckets, le modèle traite chaque bucket comme une caractéristique distincte. Autrement dit, un modèle peut apprendre les relations distinctes de chaque bucket avec l'étiquette. Par exemple, un modèle de régression linéaire peut apprendre des pondérations distinctes pour chaque bucket.

L'augmentation du nombre de buckets complique votre modèle en augmentant le nombre de relations qu'il doit apprendre. Par exemple, les buckets froid, tempéré et chaud sont essentiellement trois caractéristiques distinctes pour l'entraînement de votre modèle. Si vous décidez d'ajouter deux buckets supplémentaires (par exemple, un bucket gelé et un autre à chaud), votre modèle devra maintenant s'entraîner sur cinq caractéristiques distinctes.

Comment savoir combien de buckets créer ou quelles doivent être les plages de chaque bucket ? Les réponses nécessitent généralement un certain nombre d'expérimentations.

C

données catégorielles

#fundamentals

Des caractéristiques ayant un ensemble spécifique de valeurs possibles. Prenons l'exemple d'une caractéristique catégorielle nommée traffic-light-state, qui ne peut avoir que l'une des trois valeurs possibles suivantes:

red
yellow
green

En représentant traffic-light-state comme une caractéristique catégorielle, un modèle peut apprendre les impacts différents de red, green et yellow sur le comportement du conducteur.

Les caractéristiques catégorielles sont parfois appelées caractéristiques discrètes.

À comparer aux données numériques.

classe

#fundamentals

Catégorie à laquelle un libellé peut appartenir. Exemple :

Dans un modèle de classification binaire qui détecte le spam, les deux classes peuvent être spam et non spam.
Dans un modèle de classification à classes multiples qui identifie les races de chiens, les classes peuvent être caniche, beagle, carlin, et ainsi de suite.

Un modèle de classification prédit une classe. En revanche, un modèle de régression prédit un nombre plutôt qu'une classe.

modèle de classification

#fundamentals

Un model dont la prédiction est une model. Par exemple, les modèles suivants sont tous des modèles de classification:

Un modèle qui prédit la langue d'une phrase en entrée (le français De l'espagnol ? italien ?).
Un modèle qui prédit des espèces d'arbres (érable ? Oak? Baobab?).
Modèle qui prédit la classe positive ou négative d'un problème médical particulier.

En revanche, les modèles de régression prédisent des nombres plutôt que des classes.

Deux types courants de modèles de classification sont les suivants:

classification binaire
classification à classes multiples

seuil de classification

#fundamentals

Dans une classification binaire, il s'agit d'un nombre compris entre 0 et 1 qui convertit la sortie brute d'un modèle de régression logistique en prédiction de la classe positive ou de la classe négative. Notez que le seuil de classification est une valeur choisie par un humain, et non une valeur choisie par l'entraînement du modèle.

Un modèle de régression logistique génère une valeur brute comprise entre 0 et 1. Alors :

Si cette valeur brute est supérieure au seuil de classification, la classe positive est prédite.
Si cette valeur brute est inférieure au seuil de classification, la classe négative est prédite.

Par exemple, supposons que le seuil de classification soit de 0,8. Si la valeur brute est de 0,9, le modèle prédit la classe positive. Si la valeur brute est 0,7, le modèle prédit la classe négative.

Le choix du seuil de classification influence fortement le nombre de faux positifs et de faux négatifs.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

À mesure que les modèles ou les ensembles de données évoluent, les ingénieurs modifient parfois le seuil de classification. Lorsque le seuil de classification change, les prédictions de classes positives peuvent soudainement devenir des classes négatives, et inversement.

Prenons l'exemple d'un modèle de prédiction d'une maladie de classification binaire. Supposons que, lorsque le système s'exécute la première année:

La valeur brute d'un patient particulier est 0,95.
Le seuil de classification est de 0,94.

Par conséquent, le système diagnostique la classe positive. (Le patient halète : "Oh non ! Je suis malade !")

Un an plus tard, les valeurs devraient maintenant se présenter comme suit:

La valeur brute pour le même patient reste à 0,95.
Le seuil de classification passe à 0,97.

Par conséquent, le système reclassifie ce patient en tant que classe négative. ("Bonne journée ! je ne suis pas malade.") Même patient. Diagnostic différent.

ensemble de données avec déséquilibre des classes

#fundamentals

Ensemble de données pour un problème de classification dans lequel le nombre total d'étiquettes de chaque classe diffère considérablement. Prenons l'exemple d'un ensemble de données de classification binaire dont les deux étiquettes sont divisées comme suit:

1 000 000 étiquettes négatives
10 étiquettes positives

Le ratio entre les étiquettes négatives et positives est de 100 000 pour 1. Il s'agit donc d'un ensemble de données avec déséquilibre des classes.

En revanche, l'ensemble de données suivant n'est pas déséquilibré, car le ratio entre les étiquettes négatives et les étiquettes positives est relativement proche de 1:

517 libellés négatifs
483 étiquettes positives

Les ensembles de données à classes multiples peuvent également présenter un déséquilibre des classes. Par exemple, l'ensemble de données de classification à classes multiples suivant présente également un déséquilibre des classes, car une étiquette contient beaucoup plus d'exemples que les deux autres:

1 000 000 étiquettes avec la classe "green"
200 étiquettes avec une classe "violet"
350 libellés de classe "orange"

Voir aussi entropie, classe majoritaire et classe minoritaire.

bornement

#fundamentals

Technique de gestion des anomalies en effectuant l'une des opérations suivantes, ou les deux:

Réduire les valeurs de feature qui sont supérieures à un seuil maximal jusqu'à ce seuil maximal
Augmenter les valeurs des caractéristiques qui sont inférieures à un seuil minimal jusqu'à ce seuil minimal.

Par exemple, supposons que moins de 0,5% des valeurs d'une caractéristique particulière se situent en dehors de la plage 40-60. Dans ce cas, vous pouvez procéder comme suit:

Permet de rogner toutes les valeurs supérieures à 60 (le seuil maximal) pour qu'elles soient exactement égales à 60.
Recadrez toutes les valeurs inférieures à 40 (le seuil minimal) pour qu'elles soient exactement égales à 40.

Les anomalies peuvent endommager les modèles, et entraîner parfois un dépassement des pondérations pendant l'entraînement. Certaines anomalies peuvent également gâcher considérablement des métriques telles que la précision. Le rognage est une technique courante pour limiter les dommages.

Le bornement du gradient force les valeurs de gradient dans une plage désignée pendant l'entraînement.

Matrice de confusion

#fundamentals

Une table NxN qui résume le nombre de prédictions correctes et incorrectes effectuées par un modèle de classification. Prenons l'exemple de la matrice de confusion suivante pour un modèle de classification binaire:

	Tumeur (prédiction)	Pas de tumeur (prédiction)
Tumeur (vérité terrain)	18 (VP)	1 (FN)
Pas de tumeur (vérité terrain)	6 (FP)	452 (VN)

La matrice de confusion précédente montre les éléments suivants:

Sur les 19 prédictions pour lesquelles la vérité terrain était Tumor, le modèle en a correctement classé 18 et en a mal classé 1.
Sur les 458 prédictions pour lesquelles la vérité terrain était "Non-Tumor", le modèle en a correctement classé 452 et en a incorrectement classé 6.

La matrice de confusion pour un problème de classification à classes multiples peut vous aider à identifier des modèles d'erreurs. Prenons l'exemple de la matrice de confusion suivante pour un modèle de classification à classes multiples à trois classes qui classe trois types d'iris différents (Virginica, Versicolor et Setosa). Lorsque la vérité terrain était Virginica, la matrice de confusion montre que le modèle était beaucoup plus susceptible de prédire à tort Versicolor que Setosa:

	Setosa (prédiction)	Versicolor (prédiction)	Virginica (prédiction)
Setosa (vérité terrain)	88	12	0
Versicolor (vérité terrain)	6	141	7
Virginica (vérité terrain)	2	27	109

Autre exemple, une matrice de confusion pourrait révéler qu'un modèle entraîné à reconnaître des chiffres manuscrits tend à prédire à tort 9 au lieu de 4, ou 1 au lieu de 7.

Les matrices de confusion contiennent suffisamment d'informations pour calculer diverses métriques de performances, y compris la précision et le rappel.

caractéristique continue

#fundamentals

Caractéristique à virgule flottante avec une plage infinie de valeurs possibles, telles que la température ou le poids.

À comparer à la caractéristique discrète.

convergence

#fundamentals

État atteint lorsque les valeurs de perte changent très peu, voire pas du tout à chaque itération. Par exemple, la courbe de perte suivante suggère une convergence à environ 700 itérations:

Graphique cartésien. l'axe des X représente la perte. L'axe Y correspond au nombre d'itérations d'entraînement. La perte est très élevée lors des premières itérations, mais chute fortement. Après environ 100 itérations, la perte est toujours décroissante, mais beaucoup plus progressivement. Après environ 700 itérations, la perte reste plate.

Un modèle converge lorsqu'un entraînement supplémentaire ne l'améliorera pas.

Dans le deep learning, les valeurs de perte restent parfois constantes ou presque pendant de nombreuses itérations avant de finir par décroissant. Au cours d'une longue période de valeurs de perte constantes, vous pouvez temporairement obtenir un faux sentiment de convergence.

Voir aussi arrêt prématuré.

D

DataFrame

#fundamentals

Type de données pandas populaire pour représenter des ensembles de données en mémoire.

Un DataFrame est analogue à un tableau ou à une feuille de calcul. Chaque colonne d'un DataFrame porte un nom (un en-tête) et chaque ligne est identifiée par un numéro unique.

Chaque colonne d'un DataFrame est structurée comme un tableau bidimensionnel, à la différence que chaque colonne peut se voir attribuer son propre type de données.

Consultez également la page de référence officielle de pandas.DataFrame.

ensemble de données

#fundamentals

Ensemble de données brutes, généralement (mais pas exclusivement) organisés dans l'un des formats suivants:

une feuille de calcul
Un fichier au format CSV (valeurs séparées par des virgules)

modèle deep learning

#fundamentals

Un réseau de neurones contenant plusieurs couches cachées.

Un modèle profond est également appelé réseau de neurones profond.

À comparer au modèle large.

caractéristique dense

#fundamentals

Caractéristique dans laquelle la plupart ou la totalité des valeurs sont non nulles, généralement un Tensor de valeurs à virgule flottante. Par exemple, le Tensor à 10 éléments suivant est dense, car neuf de ses valeurs sont différentes de zéro:

À comparer à la caractéristique creuse.

profondeur

#fundamentals

La somme des éléments suivants dans un réseau de neurones:

le nombre de couches cachées ;
Nombre de couches de sortie, qui est généralement 1
le nombre de couches de représentations vectorielles continues

Par exemple, un réseau de neurones avec cinq couches cachées et une couche de sortie a une profondeur de 6.

Notez que la couche d'entrée n'a aucune incidence sur la profondeur.

caractéristique discrète

#fundamentals

Caractéristique avec un ensemble fini de valeurs possibles. Par exemple, une caractéristique dont les valeurs ne peuvent être que animal, végétal ou minéral est une caractéristique discrète (ou catégorielle).

À comparer à la caractéristique continue.

dynamic

#fundamentals

quelque chose fait fréquemment ou en continu. Les termes dynamique et en ligne sont des synonymes en machine learning. Vous trouverez ci-dessous des utilisations courantes des classes dynamique et en ligne en machine learning:

Un modèle dynamique (ou modèle en ligne) est un modèle qui est réentraîné fréquemment ou en continu.
L'entraînement dynamique (ou entraînement en ligne) est le processus d'entraînement fréquemment ou continu.
L'inférence dynamique (ou inférence en ligne) est le processus de génération de prédictions à la demande.

modèle dynamique

#fundamentals

Un model qui est fréquemment (peut-être même en continu) réentraîné. Un modèle dynamique est un "apprentissage continu" qui s'adapte en permanence à l'évolution des données. Un modèle dynamique est également appelé modèle en ligne.

À comparer au modèle statique.

E

arrêt prématuré

#fundamentals

Méthode de régularisation qui consiste à mettre fin à l'entraînement avant la diminution de la perte d'entraînement. Lors d'un arrêt prématuré, vous arrêtez intentionnellement l'entraînement du modèle lorsque la perte sur un ensemble de données de validation commence à augmenter, c'est-à-dire lorsque les performances de la généralisation s'aggravent.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

L'arrêt prématuré peut sembler contre-intuitif. Après tout, demander à un modèle d'arrêter l'entraînement alors que la perte diminue peut ressembler à demander à un chef d'arrêter la cuisson avant que le dessert ne soit entièrement cuit. Cependant, entraîner un modèle trop longtemps peut entraîner un surapprentissage. Autrement dit, si vous entraînez un modèle trop longtemps, il se peut que les données d'entraînement soient si proches que le modèle ne fera pas de bonnes prédictions sur les nouveaux exemples.

couche de représentation vectorielle continue

#language

#fundamentals

Une couche cachée spéciale qui s'entraîne sur une caractéristique catégorielle de grande dimension pour apprendre progressivement un vecteur de représentation vectorielle continue de dimension inférieure. Une couche d'intégration permet à un réseau de neurones d'effectuer un entraînement beaucoup plus efficace que sur la simple caractéristique catégorielle de grande dimension.

Par exemple, la Terre recense actuellement environ 73 000 espèces d'arbres. Supposons qu'une espèce d'arbre soit une caractéristique de votre modèle. La couche d'entrée de votre modèle inclut donc un vecteur one-hot d'une longueur de 73 000 éléments. Par exemple, baobab peut être représenté comme ceci:

Tableau de 73 000 éléments. Les 6 232 premiers éléments contiennent la valeur 0. L'élément suivant contient la valeur 1. Les 66 767 derniers éléments contiennent la valeur zéro.

Un tableau de 73 000 éléments est très long. Si vous n'ajoutez pas de couche de représentation vectorielle continue au modèle, l'entraînement va prendre beaucoup de temps,car vous multiplierez par 72 999 zéros. Vous pouvez choisir que la couche de représentation vectorielle continue soit composée de 12 dimensions. Par conséquent, la couche de représentation vectorielle continue apprend progressivement un nouveau vecteur de représentation vectorielle continue pour chaque espèce d'arbre.

Dans certains cas, le hachage est une alternative raisonnable à une couche de représentation vectorielle continue.

epoch

#fundamentals

Passage d'entraînement complet sur la totalité de l'ensemble d'entraînement de sorte que chaque exemple ait été traité une fois.

Une époque représente les itérations d'entraînement N/taille de lot, où N correspond au nombre total d'exemples.

Par exemple, supposons que:

L'ensemble de données comprend 1 000 exemples.
La taille de lot est de 50 exemples.

Par conséquent, une seule époque nécessite 20 itérations:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

pour décrire cela.

#fundamentals

Les valeurs d'une ligne de caractéristiques et éventuellement d'un libellé. Les exemples d'apprentissage supervisé appartiennent à deux catégories générales:

Un exemple étiqueté se compose d'une ou de plusieurs caractéristiques et d'une étiquette. Les exemples étiquetés sont utilisés pendant l'entraînement.
Un exemple sans étiquette se compose d'une ou de plusieurs caractéristiques, mais sans étiquette. Les exemples sans étiquette sont utilisés lors de l'inférence.

Par exemple, supposons que vous entraîniez un modèle pour déterminer l'influence des conditions météorologiques sur les résultats des élèves aux tests. Voici trois exemples étiquetés:

Caractéristiques			Étiquette
Température	Humidité	Pression	Résultat du test
15	47	998	Bonne
19	34	1020	Excellente
18	92	1012	Médiocre

Voici trois exemples sans étiquette:

Température	Humidité	Pression
12	62	1014
21	47	1017
19	41	1021

La ligne d'un ensemble de données est généralement la source brute d'un exemple. Autrement dit, un exemple consiste généralement en un sous-ensemble des colonnes de l'ensemble de données. De plus, les caractéristiques d'un exemple peuvent également inclure des caractéristiques synthétiques, telles que les croisements de caractéristiques.

F

faux négatif (FN)

#fundamentals

Exemple dans lequel le modèle prédit à tort la classe négative. Par exemple, le modèle prédit qu'un e-mail particulier n'est pas du spam (la classe négative), mais en réalité, ce n'est pas du spam.

faux positif (FP)

#fundamentals

Exemple dans lequel le modèle prédit à tort la classe positive. Par exemple, le modèle prédit qu'un e-mail particulier est du spam (classe positive), alors que cet e-mail n'est en réalité pas du spam.

taux de faux positifs (TFP)

#fundamentals

Proportion d'exemples négatifs réels pour lesquels le modèle a prédit à tort la classe positive. La formule suivante calcule le taux de faux positifs:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Le taux de faux positifs correspond à l'axe des abscisses d'une courbe ROC.

fonctionnalité

#fundamentals

Variable d'entrée d'un modèle de machine learning. Un exemple est constitué d'une ou de plusieurs caractéristiques. Par exemple, supposons que vous entraîniez un modèle pour déterminer l'influence des conditions météorologiques sur les résultats des élèves aux tests. Le tableau suivant présente trois exemples, chacun contenant trois caractéristiques et une étiquette:

Caractéristiques			Étiquette
Température	Humidité	Pression	Résultat du test
15	47	998	92
19	34	1020	84
18	92	1012	87

À comparer à l'étiquette.

croisement de caractéristiques

#fundamentals

Caractéristique synthétique formée par le "croisement" de caractéristiques catégorielles ou réparties

Prenons l'exemple d'un modèle de "prévision de l'humeur" qui représente la température dans l'un des quatre buckets suivants:

freezing
chilly
temperate
warm

Elle représente la vitesse du vent dans l'un des trois segments suivants:

still
light
windy

Sans croisement de caractéristiques, le modèle linéaire s'entraîne indépendamment sur chacun des sept buckets précédents. Ainsi, le modèle est entraîné avec, par exemple, freezing indépendamment de l'entraînement effectué sur windy, par exemple.

Vous pouvez également créer un croisement de caractéristiques entre la température et la vitesse du vent. Cette caractéristique synthétique peut présenter les 12 valeurs suivantes:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Grâce aux croisements de caractéristiques, le modèle peut apprendre les différences d'humeur entre un jour freezing-windy et un jour freezing-still.

Si vous créez une caractéristique synthétique à partir de deux caractéristiques ayant chacune de nombreux buckets différents, le croisement de caractéristiques résultant aura un grand nombre de combinaisons possibles. Par exemple, si une caractéristique comporte 1 000 buckets et que l'autre en compte 2 000, le croisement de caractéristiques résultant comporte 2 000 000 de buckets.

Officiellement, une croix est un produit cartésien.

Les croisements de caractéristiques sont principalement utilisés avec des modèles linéaires et rarement avec les réseaux de neurones.

l'ingénierie des caractéristiques.

#fundamentals

#TensorFlow

Un processus comprenant les étapes suivantes:

Déterminer les caractéristiques qui pourraient s'avérer utiles pour entraîner un modèle
Convertir les données brutes de l'ensemble de données en versions efficaces de ces caractéristiques

Par exemple, vous pouvez déterminer que temperature peut être une fonctionnalité utile. Vous pouvez ensuite expérimenter le binning pour optimiser ce que le modèle peut apprendre à partir de différentes plages temperature.

L'extraction de caractéristiques est parfois appelée extraction de caractéristiques ou fonctionnalité.

Cliquez sur l'icône pour afficher des remarques supplémentaires concernant TensorFlow.

Dans TensorFlow, l'extraction de caractéristiques implique souvent de convertir les entrées des fichiers journaux bruts en tampons de protocole tf.Example. Consultez également tf.Transform.

ensemble de caractéristiques

#fundamentals

Groupe des caractéristiques utilisées pour l'entraînement de votre modèle de machine learning. Par exemple, le code postal, la taille et l'état du bien peuvent consister en un ensemble de caractéristiques simple pour un modèle qui prédit le prix des logements.

vecteur de caractéristiques

#fundamentals

Tableau de valeurs de feature comprenant un exemple. Le vecteur de caractéristiques est saisi pendant l'entraînement et l'inférence. Par exemple, le vecteur de caractéristiques d'un modèle comportant deux caractéristiques distinctes pourrait être:

[0.92, 0.56]

Quatre couches: une couche d'entrée, deux couches cachées et une couche de sortie.
La couche d'entrée contient deux nœuds, l'un contenant la valeur 0.92 et l'autre la valeur 0.56.

Chaque exemple fournit des valeurs différentes pour le vecteur de caractéristiques. Le vecteur de caractéristiques utilisé dans l'exemple suivant pourrait donc se présenter comme suit:

[0.73, 0.49]

L'extraction de caractéristiques détermine comment représenter les caractéristiques dans le vecteur. Par exemple, une caractéristique catégorielle binaire avec cinq valeurs possibles peut être représentée avec l'encodage one-hot. Dans ce cas, la partie du vecteur de caractéristiques d'un exemple particulier serait composée de quatre zéros et d'un seul "1,0" en troisième position, comme suit:

[0.0, 0.0, 1.0, 0.0, 0.0]

Prenons un autre exemple et supposons que votre modèle comporte trois caractéristiques:

une caractéristique catégorielle binaire avec cinq valeurs possibles représentées avec l'encodage one-hot ; par exemple: [0.0, 1.0, 0.0, 0.0, 0.0]
une autre caractéristique catégorielle binaire avec trois valeurs possibles représentées avec l'encodage one-hot ; par exemple: [0.0, 0.0, 1.0]
une caractéristique à virgule flottante, par exemple: 8.3.

Dans ce cas, le vecteur de caractéristiques pour chaque exemple est représenté par neuf valeurs. Compte tenu des exemples de valeurs de la liste précédente, le vecteur de caractéristiques serait:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

boucle de rétroaction

#fundamentals

En machine learning, situation dans laquelle les prédictions d'un modèle influencent les données d'entraînement du même modèle ou d'un autre modèle. Par exemple, un modèle qui recommande des films aura une incidence sur ceux que les utilisateurs verront, ce qui aura une incidence sur les modèles de recommandation de films suivants.

G

généralisation

#fundamentals

Capacité d'un modèle à effectuer des prédictions correctes sur de nouvelles données qui n'étaient pas visibles auparavant. Un modèle capable de généraliser est l'opposé d'un modèle qui est en surapprentissage.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Vous entraînez un modèle sur les exemples de l'ensemble d'entraînement. Par conséquent, il apprend les particularités des données de l'ensemble d'entraînement. La généralisation demande essentiellement si votre modèle est capable d'effectuer des prédictions correctes sur des exemples qui ne figurent pas dans l'ensemble d'entraînement.

Pour encourager la généralisation, la régularisation permet à un modèle de ne pas s'entraîner exactement selon les particularités des données de l'ensemble d'entraînement.

courbe de généralisation

#fundamentals

Représentation graphique de la perte d'entraînement et de la perte de validation en tant que fonction du nombre d'itérations.

Une courbe de généralisation peut vous aider à détecter un éventuel surapprentissage. Par exemple, la courbe de généralisation suivante suggère un surapprentissage, car la perte de validation devient en fin de compte nettement plus élevée que la perte d'entraînement.

Graphique cartésien dans lequel l'axe des y est étiqueté "perte" et l'axe des x est étiqueté "itérations". Deux tracés apparaissent. L'un représente la perte d'entraînement et l'autre la perte de validation.
Les deux tracés commencent de la même manière, mais la perte d'entraînement finit par chuter
bien plus bas que la perte de validation.

descente de gradient

#fundamentals

Technique mathématique permettant de minimiser la perte. La descente de gradient ajuste de manière itérative les pondérations et les biais, afin de trouver progressivement la meilleure combinaison pour minimiser la perte.

La descente de gradient est plus ancienne (beaucoup plus ancienne) que le machine learning.

vérité terrain

#fundamentals

La réalité.

Ce qui s'est réellement produit.

Prenons l'exemple d'un modèle de classification binaire qui prédit si un étudiant en première année d'université obtiendra un diplôme dans les six ans. La vérité terrain de ce modèle est de savoir si cet étudiant a obtenu ou non son diplôme dans les six ans.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Nous évaluons la qualité du modèle par rapport à la vérité terrain. Cependant, la vérité terrain n'est pas toujours complètement, eh bien, véridique. Prenons l'exemple des exemples suivants d'imperfections potentielles de la vérité terrain:

Dans l'exemple de remise de diplôme, sommes-nous certain que les dossiers de remise de diplôme de chaque élève sont toujours corrects ? La tenue des dossiers de l'université est-elle irréprochable ?
Supposons que l'étiquette soit une valeur à virgule flottante mesurée par des instruments (des baromètres, par exemple). Comment être sûr que chaque instrument est calibré de manière identique ou que chaque mesure a été effectuée dans les mêmes circonstances ?
Si l'étiquette est une question d'opinion humaine, comment être sûr que chaque évaluateur humain évalue les événements de la même manière ? Pour améliorer la cohérence, des évaluateurs manuels experts interviennent parfois.

H

couche cachée

#fundamentals

Une couche d'un réseau de neurones entre la couche d'entrée (les caractéristiques) et la couche de sortie (la prédiction). Chaque couche cachée est composée d'un ou de plusieurs neurones. Par exemple, le réseau de neurones suivant contient deux couches cachées, la première avec trois neurones et la seconde avec deux neurones:

Un réseau de neurones profond contient plusieurs couches cachées. Par exemple, l'illustration précédente représente un réseau de neurones profond, car le modèle contient deux couches cachées.

hyperparamètre

#fundamentals

Les variables que vous ou un service de réglage d'hyperparamètresajustez lors d'exécutions successives d'entraînement d'un modèle. Par exemple, le taux d'apprentissage est un hyperparamètre. Vous pouvez définir le taux d'apprentissage sur 0,01 avant une session de formation. Si vous déterminez que 0,01 est trop élevé, vous pouvez peut-être définir le taux d'apprentissage sur 0,003 pour la prochaine session d'entraînement.

En revanche, les paramètres représentent les différentes pondérations et biais que le modèle apprend pendant l'entraînement.

I

indépendamment et de manière identique (i.i.d)

#fundamentals

Données tirées d'une distribution qui ne change pas et où chaque valeur dessinée ne dépend pas des valeurs précédemment dessinées. Une iid est le gaz idéal du machine learning : c'est une construction mathématique utile qui n'est quasiment jamais exacte dans le monde réel. Par exemple, la répartition des visiteurs d'une page Web peut être basée sur des variables i.id.sur une courte période. Cela signifie que la répartition ne change pas pendant cette courte période, et que la visite d'une personne est généralement indépendante de celle d'une autre. Toutefois, si vous allongez cette période, des différences saisonnières au niveau des visiteurs de la page Web peuvent apparaître.

Voir aussi nonstationarité.

inférence

#fundamentals

En machine learning, processus de prédiction en appliquant un modèle entraîné à des exemples sans étiquette.

L'inférence a une signification quelque peu différente en termes de statistiques. Pour plus de détails, consultez l' article Wikipédia sur l'inférence statistique.

couche d'entrée

#fundamentals

Couche d'un réseau de neurones contenant le vecteur de caractéristiques. Autrement dit, la couche d'entrée fournit des exemples pour l'entraînement ou l'inférence. Par exemple, la couche d'entrée du réseau de neurones suivant comporte deux caractéristiques:

Quatre couches: une couche d'entrée, deux couches cachées et une couche de sortie.

interprétabilité

#fundamentals

Capacité à expliquer ou à présenter le raisonnement d'un modèle de ML en termes compréhensibles à un humain.

La plupart des modèles de régression linéaire, par exemple, sont hautement interprétables. (Il vous suffit d'examiner les pondérations entraînées pour chaque caractéristique.) Les forêts de décision sont également hautement interprétables. Certains modèles, cependant, nécessitent une visualisation sophistiquée pour devenir interprétables.

Vous pouvez utiliser l'outil d'interprétation d'apprentissage (LIT) pour interpréter des modèles de ML.

itération

#fundamentals

Mise à jour unique des paramètres d'un modèle (pondérations et biais du modèle) pendant l'entraînement. La taille de lot détermine le nombre d'exemples traités par le modèle en une seule itération. Par exemple, si la taille de lot est de 20, le modèle traite 20 exemples avant d'ajuster les paramètres.

Lors de l'entraînement d'un réseau de neurones, une seule itération implique les deux passes suivantes:

Transmission avant pour évaluer la perte sur un seul lot.
Une rétropropagation (rétropropagation) pour ajuster les paramètres du modèle en fonction de la perte et du taux d'apprentissage

L

régularisation L₀

#fundamentals

Type de régularisation qui pénalise le nombre total de pondérations non nulles dans un modèle. Par exemple, un modèle ayant 11 pondérations non nulles serait plus pénalisé qu'un modèle similaire ayant 10 pondérations non nulles.

La régularisation L₀ est parfois appelée régularisation de norme L0.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

La régularisation L₀ n'est généralement pas pratique dans les grands modèles, car la régularisation L₀ transforme l'entraînement en un problème d'optimisation convexe.

perte L₁

#fundamentals

Une fonction de perte qui calcule la valeur absolue de la différence entre les valeurs réelles d'étiquette et les valeurs prédites par un modèle. Voici par exemple le calcul de la perte L₁ pour un lot de cinq exemples:

Valeur réelle de l'exemple	Valeur prédite du modèle	Valeur absolue du delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perte L₁

La perte L₁ est moins sensible aux anomalies que la perte L₂.

L'erreur absolue moyenne correspond à la perte L₁ moyenne par exemple.

Cliquez sur l'icône pour afficher le calcul formel.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

où :

$n$ est le nombre d'exemples.
$y$ est la valeur réelle de l'étiquette.
$\hat{y}$ est la valeur que le modèle prédit pour $y$.

régularisation L₁

#fundamentals

Type de régularisation qui pénalise les pondérations proportionnellement à la somme de la valeur absolue des pondérations. La régularisation L₁ aide à définir les pondérations des caractéristiques non pertinentes ou à peine pertinentes sur exactement 0. Une caractéristique ayant une pondération de 0 est effectivement supprimée du modèle.

À comparer à la régularisation L₂.

perte L₂

#fundamentals

Une fonction de perte qui calcule le carré de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Voici par exemple le calcul de la perte L₂ pour un lot de cinq exemples:

Valeur réelle de l'exemple	Valeur prédite du modèle	Carré du delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = perte L₂

En raison de la mise au carré, la perte L₂ amplifie l'influence des anomalies. En d'autres termes, la perte L₂ réagit plus fortement aux mauvaises prédictions que la perte L₁. Par exemple, la perte L₁ du lot précédent serait de 8 au lieu de 16. Notez qu'une seule valeur aberrante représente 9 des 16.

Les modèles de régression utilisent généralement la perte L₂ comme fonction de perte.

L'erreur quadratique moyenne correspond à la perte L₂ moyenne par exemple. La perte carrée est l'autre nom de la perte L₂.

Cliquez sur l'icône pour afficher le calcul formel.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

où :

$n$ est le nombre d'exemples.
$y$ est la valeur réelle de l'étiquette.
$\hat{y}$ est la valeur que le modèle prédit pour $y$.

régularisation L₂

#fundamentals

Type de régularisation qui pénalise les pondérations proportionnellement à la somme des carrés des pondérations. La régularisation L₂ permet de rapprocher les pondérations des anomalies (celles dont les valeurs positives ou négatives sont élevées) de 0, mais pas tout à fait de 0. Les caractéristiques dont les valeurs sont très proches de 0 restent dans le modèle, mais n'influencent pas beaucoup la prédiction du modèle.

La régularisation L₂ améliore toujours la généralisation dans les modèles linéaires.

À comparer à la régularisation L₁.

étiquette

#fundamentals

En machine learning supervisé, il s'agit de la partie "réponse" ou "résultat" d'un exemple.

Chaque exemple étiqueté se compose d'une ou de plusieurs caractéristiques et d'une étiquette. Par exemple, dans un ensemble de données de détection de spam, l'étiquette serait probablement "spam" ou "non-spam". Dans un ensemble de données de précipitations, l'étiquette peut indiquer la quantité de précipitations au cours d'une certaine période.

exemple étiqueté

#fundamentals

Exemple contenant une ou plusieurs caractéristiques et une étiquette. Par exemple, le tableau suivant présente trois exemples étiquetés d'un modèle d'évaluation de biens immobiliers, chacun présentant trois caractéristiques et une étiquette:

Nombre de chambres	Nombre de salles de bain	Âge de la maison	Prix de l'auto-promotion (étiquette)
3	2	15	345 000 $
2	1	72	179 000 $
4	2	34	392 000 $

Dans le machine learning supervisé, les modèles sont entraînés sur des exemples étiquetés et effectuent des prédictions sur des exemples non étiquetés.

Comparer l'exemple étiqueté avec des exemples non étiquetés

lambda

#fundamentals

Synonyme de taux de régularisation.

Le lambda est un terme complexe. Ici, nous nous concentrons sur la définition de ce terme dans le cadre de la régularisation.

cachée)

#fundamentals

Ensemble de neurones dans un réseau de neurones. Voici trois types de couches courants:

La couche d'entrée, qui fournit des valeurs pour toutes les caractéristiques
Une ou plusieurs couches cachées, qui détectent les relations non linéaires entre les caractéristiques et l'étiquette.
La couche de sortie, qui fournit la prédiction.

Par exemple, l'illustration suivante montre un réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie:

Réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie. La couche d'entrée se compose de deux caractéristiques. La première couche cachée est composée de trois neurones et la deuxième couche cachée de deux neurones. La couche de sortie se compose d'un seul nœud.

Dans TensorFlow, les couches sont également des fonctions Python qui prennent en entrée des Tensors et des options de configuration pour produire d'autres Tensors en sortie.

taux d'apprentissage

#fundamentals

Nombre à virgule flottante qui indique à l'algorithme de descente de gradient la force d'ajustement des pondérations et des biais à chaque itération. Par exemple, un taux d'apprentissage de 0,3 ajusterait les pondérations et les biais trois fois plus efficacement qu'un taux d'apprentissage de 0,1.

Le taux d'apprentissage est un hyperparamètre clé. Si vous définissez le taux d'apprentissage trop bas, l'entraînement prendra trop de temps. Si le taux d'apprentissage est trop élevé, la descente de gradient a souvent du mal à atteindre la convergence.

Cliquez sur l'icône pour obtenir une explication mathématique.

À chaque itération, l'algorithme de descente de gradient multiplie le taux d'apprentissage par le gradient. Le produit résultant est appelé pas de gradient.

linear

#fundamentals

Relation entre deux variables ou plus qui peut être représentée uniquement par l'addition et la multiplication.

Le tracé d'une relation linéaire est une ligne.

À comparer à l'approche non linéaire.

modèle linéaire

#fundamentals

Un model qui attribue une model par model pour effectuer des model (Les modèles linéaires intègrent également un biais.) En revanche, la relation entre les caractéristiques et les prédictions dans les modèles profonds est généralement non linéaire.

Les modèles linéaires sont généralement plus faciles à entraîner et plus interprétables que les modèles profonds. Toutefois, les modèles profonds peuvent apprendre des relations complexes entre les caractéristiques.

La régression linéaire et la régression logistique sont deux types de modèles linéaires.

Cliquez sur l'icône pour afficher le calcul.

Un modèle linéaire suit la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

où :

y' correspond à la prédiction brute. (Dans certains types de modèles linéaires, cette prédiction brute sera davantage modifiée. Par exemple, consultez la section sur la régression logistique.)
b est le biais.
w est une pondération, donc w₁ est la pondération de la première caractéristique, w₂ est la pondération de la deuxième caractéristique, et ainsi de suite.
x est une caractéristique. Ainsi, x₁ est la valeur de la première caractéristique, x₂ est la valeur de la deuxième caractéristique, et ainsi de suite.

Par exemple, supposons qu'un modèle linéaire pour trois caractéristiques apprend les biais et pondérations suivants :

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Par conséquent, avec trois caractéristiques (x₁, x₂ et x₃), le modèle linéaire génère chaque prédiction à l'aide de l'équation suivante :

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Supposons qu'un exemple particulier contienne les valeurs suivantes:

x₁ = 4
x₂ = -10
x₃ = 5

L'insertion de ces valeurs dans la formule génère une prédiction pour cet exemple :

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Les modèles linéaires incluent non seulement les modèles qui utilisent uniquement une équation linéaire pour effectuer des prédictions, mais aussi un ensemble plus large de modèles qui utilisent une équation linéaire comme une seule composante de la formule permettant de réaliser des prédictions. Par exemple, la régression logistique post-traite la prédiction brute (y') pour produire une valeur de prédiction finale comprise entre 0 et 1 exclusivement.

régression linéaire

#fundamentals

Type de modèle de machine learning dans lequel les deux conditions suivantes sont remplies:

Le modèle est un modèle linéaire.
La prédiction est une valeur à virgule flottante. (Il s'agit de la partie régression de la régression linéaire.)

Comparer la régression linéaire à la régression logistique. Comparez également la régression avec la classification.

régression logistique

#fundamentals

Type de modèle de régression qui prédit une probabilité. Les modèles de régression logistique présentent les caractéristiques suivantes:

Le libellé est catégorielle. Le terme de régression logistique fait généralement référence à une régression logistique binaire, c'est-à-dire à un modèle qui calcule des probabilités pour des étiquettes à deux valeurs possibles. Une variante moins courante, la régression logistique multinomiale, calcule des probabilités pour les étiquettes ayant plus de deux valeurs possibles.
La fonction de perte pendant l'entraînement est la perte logistique. (Plusieurs unités de perte logistique peuvent être placées en parallèle pour les étiquettes ayant plus de deux valeurs possibles.)
Le modèle utilise une architecture linéaire et non un réseau de neurones profond. Cependant, le reste de cette définition s'applique également aux modèles profonds qui prédisent les probabilités pour les étiquettes catégorielles.

Prenons l'exemple d'un modèle de régression logistique qui calcule la probabilité qu'un e-mail d'entrée soit indésirable ou non. Lors de l'inférence, supposons que le modèle prédit 0,72. Par conséquent, le modèle estime:

La probabilité que l'e-mail soit du spam est de 72 %.
28% de chances que l'e-mail ne soit pas un spam.

Un modèle de régression logistique utilise l'architecture en deux étapes suivante:

Le modèle génère une prédiction brute (y') en appliquant une fonction linéaire des caractéristiques d'entrée.
Le modèle utilise cette prédiction brute comme entrée d'une fonction sigmoïde, qui convertit la prédiction brute en une valeur comprise entre 0 et 1 exclus.

Comme tout modèle de régression, un modèle de régression logistique prédit un nombre. Cependant, ce nombre fait généralement partie d'un modèle de classification binaire comme suit:

Si le nombre prédit est supérieur au seuil de classification, le modèle de classification binaire prédit la classe positive.
Si le nombre prédit est inférieur au seuil de classification, le modèle de classification binaire prédit la classe négative.

Perte logistique

#fundamentals

La fonction de perte utilisée dans la régression logistique binaire.

Cliquez sur l'icône pour afficher le calcul.

La formule suivante calcule la perte logistique:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

où :

$(x,y)\in D$ est l'ensemble de données contenant de nombreux exemples étiquetés, qui sont des $(x,y)$ paires.
$y$ est l'étiquette dans un exemple étiqueté. Puisqu'il s'agit d'une régression logistique, chaque valeur de $y$ doit être 0 ou 1.
$y'$ est la valeur prédite (comprise entre 0 et 1, exclusive), compte tenu de l'ensemble des caractéristiques dans $x$.

logarithme des cotes

#fundamentals

Logarithme des cotes d'un événement.

Cliquez sur l'icône pour afficher le calcul.

Si l'événement est une probabilité binaire, alors la cote fait référence au ratio entre la probabilité de réussite (p) et la probabilité d'échec (1-p). Par exemple, supposons qu'un événement donné ait une probabilité de réussite de 90 % et une probabilité d'échec de 10 %. Dans ce cas, la cote est calculée comme suit:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Le logarithme des cotes est simplement le logarithme des cotes. Par convention, "logarithme" fait référence à un logarithme naturel, mais peut en réalité être n'importe quelle base supérieure à 1. En ce qui concerne la convention, le logarithme des cotes de notre exemple est donc:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

La fonction log-odds est l'inverse de la fonction sigmoïde.

perte

#fundamentals

Pendant l'entraînement d'un modèle supervisé, mesure de l'écart entre la prédiction d'un modèle et son étiquette.

Une fonction de perte calcule la perte.

courbe de fonction de perte

#fundamentals

Graphique de la perte en fonction du nombre d'itérations d'entraînement. Le graphique suivant montre une courbe de fonction de perte typique:

Un graphique cartésien de la perte par rapport aux itérations d'entraînement, montrant une baisse rapide de la perte pour les itérations initiales, suivie d'une baisse progressive, puis d'une pente plate pendant les itérations finales.

Les courbes de fonction de perte peuvent vous aider à déterminer quand votre modèle est convergent ou en surapprentissage.

Les courbes de fonction de perte permettent de représenter tous les types de perte suivants:

perte d'entraînement
perte de validation
perte de test

Consultez également la courbe de généralisation.

fonction de perte

#fundamentals

Pendant l'entraînement ou les tests, fonction mathématique qui calcule la perte sur un lot d'exemples. Une fonction de perte renvoie une perte plus faible pour les modèles qui donnent de bonnes prédictions que pour les modèles qui produisent des prédictions incorrectes.

L'objectif de l'entraînement est généralement de minimiser la perte renvoyée par une fonction de perte.

Il existe de nombreux types de fonctions de perte. Choisissez la fonction de perte appropriée pour le type de modèle que vous créez. Exemple :

La perte L₂ (ou erreur quadratique moyenne) est la fonction de perte pour la régression linéaire.
La perte logistique est la fonction de perte pour la régression logistique.

Lu

machine learning

#fundamentals

Programme ou système qui entraîne un modèle à partir de données d'entrée. Le modèle entraîné peut effectuer des prédictions utiles à partir de nouvelles données (jamais vues auparavant) issues de la même distribution que celle utilisée pour entraîner le modèle.

Le machine learning désigne également le domaine d'études concernant ces programmes ou systèmes.

classe majoritaire

#fundamentals

Étiquette la plus courante dans un ensemble de données avec déséquilibre des classes. Par exemple, pour un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, les étiquettes négatives constituent la classe majoritaire.

À comparer à la classe minoritaire.

mini-lot

#fundamentals

Petit sous-ensemble sélectionné aléatoirement d'un lot traité en une itération. La taille de lot d'un mini-lot est généralement comprise entre 10 et 1 000 exemples.

Par exemple, supposons que l'ensemble d'entraînement (le lot complet) comporte 1 000 exemples. Supposons également que vous définissiez la taille de lot de chaque mini-lot sur 20. Par conséquent, chaque itération détermine la perte sur 20 exemples aléatoires sur 1 000,puis ajuste les pondérations et les biais en conséquence.

Il est beaucoup plus efficace de calculer la perte sur un mini-lot que la perte sur tous les exemples du lot complet.

classe minoritaire

#fundamentals

Étiquette la moins courante dans un ensemble de données avec déséquilibre des classes. Par exemple, pour un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, les étiquettes positives représentent la classe minoritaire.

À comparer à la classe majoritaire.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Un ensemble d'entraînement avec un million d'exemples semble impressionnant. Toutefois, si la classe minoritaire est mal représentée, même un très grand ensemble d'entraînement peut s'avérer insuffisant. Concentrez-vous moins sur le nombre total d'exemples dans l'ensemble de données et davantage sur le nombre d'exemples dans la classe minoritaire.

Si votre ensemble de données ne contient pas suffisamment d'exemples de classes minoritaires, envisagez d'utiliser le réduction d'échantillonnage (définition du deuxième point) pour compléter la classe minoritaire.

model

#fundamentals

En général, toute construction mathématique qui traite des données d'entrée et renvoie une sortie. En l'occurrence, un modèle est l'ensemble des paramètres et de la structure nécessaires à un système pour effectuer des prédictions. En machine learning supervisé, un modèle prend un exemple en entrée et déduit une prédiction en sortie. En machine learning supervisé, les modèles diffèrent quelque peu. Exemple :

Un modèle de régression linéaire est constitué d'un ensemble de pondérations et d'un biais.
Un modèle de réseau de neurones comprend les éléments suivants :
- Un ensemble de couches cachées, chacune contenant un ou plusieurs neurones
- Pondérations et biais associés à chaque neurone
Un modèle d'arbre de décision comprend les éléments suivants :
- Forme de l'arbre, c'est-à-dire le motif dans lequel les conditions et les feuilles sont liées.
- Les conditions et les départs.

Vous pouvez enregistrer, restaurer ou créer des copies d'un modèle.

Le machine learning non supervisé génère également des modèles, généralement une fonction capable de mapper un exemple d'entrée au cluster le plus approprié.

Cliquez sur l'icône pour comparer les fonctions algébriques et de programmation aux modèles de ML.

Une fonction algébrique comme celle-ci est un modèle:

  f(x, y) = 3x -5xy + y² + 17

La fonction précédente mappe les valeurs d'entrée (x et y) à la sortie.

De même, une fonction de programmation comme la suivante est également un modèle:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Un appelant transmet des arguments à la fonction Python précédente, qui génère un résultat (via l'instruction return).

Bien qu'un réseau de neurones profond ait une structure mathématique très différente de celle d'une fonction algébrique ou de programmation, un réseau de neurones profond reçoit toujours des entrées (un exemple) et renvoie une sortie (une prédiction).

Un programmeur humain code une fonction de programmation manuellement. En revanche, un modèle de machine learning apprend progressivement les paramètres optimaux lors de l'entraînement automatisé.

classification à classes multiples

#fundamentals

Dans l'apprentissage supervisé, il s'agit d'un problème de classification dans lequel l'ensemble de données contient plus de deux classes d'étiquettes. Par exemple, les étiquettes de l'ensemble de données Iris doivent appartenir à l'une des trois classes suivantes:

Iris Setosa
Iris virginica
Iris versicolor

Un modèle entraîné sur l'ensemble de données Iris qui prédit le type d'Iris sur de nouveaux exemples effectue une classification à classes multiples.

En revanche, les problèmes de classification qui distinguent exactement deux classes sont les modèles de classification binaire. Par exemple, un modèle d'e-mail qui prédit spam ou non-spam est un modèle de classification binaire.

Dans les problèmes de clustering, la classification à classes multiples fait référence à plus de deux clusters.

N

classe négative

#fundamentals

Dans la classification binaire, une classe est dite positive et l'autre négative. La classe positive est l'élément ou l'événement testé par le modèle, et la classe négative l'autre possibilité. Exemple :

La classe négative d'un test médical pourrait n'être qu'une tumeur.
La classe négative d'un classificateur d'e-mail pourrait être "non-spam".

À comparer à la classe positive.

neurones feedforward

#fundamentals

Un model contenant au moins une model. Un réseau de neurones profond est un type de réseau de neurones contenant plusieurs couches cachées. Par exemple, le schéma suivant montre un réseau de neurones profond contenant deux couches cachées.

Réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie.

Chaque neurone d'un réseau de neurones se connecte à tous les nœuds de la couche suivante. Par exemple, dans le schéma précédent, notez que chacun des trois neurones de la première couche cachée est relié séparément aux deux neurones de la deuxième couche cachée.

Les réseaux de neurones mis en œuvre sur des ordinateurs sont parfois appelés réseaux de neurones artificiels, pour les différencier des réseaux de neurones présents dans le cerveau et d'autres systèmes nerveux.

Certains réseaux de neurones peuvent imiter des relations non linéaires extrêmement complexes entre différentes caractéristiques et l'étiquette.

Voir aussi réseau de neurones convolutif et réseau de neurones récurrent.

neurone

#fundamentals

En machine learning, une unité distincte dans une couche cachée d'un réseau de neurones. Chaque neurone effectue l'action en deux étapes suivante:

Calcule la somme pondérée des valeurs d'entrée multipliées par les pondérations correspondantes.
Il transmet la somme pondérée en tant qu'entrée à une fonction d'activation.

Un neurone de la première couche cachée accepte les entrées des valeurs de caractéristiques dans la couche d'entrée. Un neurone de n'importe quelle couche cachée au-delà de la première accepte les entrées des neurones de la couche cachée précédente. Par exemple, un neurone de la deuxième couche cachée accepte les entrées des neurones de la première couche cachée.

L'illustration suivante met en évidence deux neurones et leurs entrées.

Un neurone d'un réseau de neurones imite le comportement des neurones dans le cerveau et d'autres parties des systèmes nerveux.

nœud (réseau de neurones)

#fundamentals

Un neurone dans une couche cachée.

non linéaire

#fundamentals

Relation entre deux variables ou plus qui ne peut pas être représentée uniquement par l'addition et la multiplication. Une relation linéaire peut être représentée par une ligne, tandis qu'une relation non linéaire ne peut pas être représentée par une ligne. Prenons l'exemple de deux modèles qui associent chacun une caractéristique unique à une seule étiquette. Le modèle de gauche est linéaire et celui de droite l'est non linéaire:

Deux tracés. Un tracé est une ligne, donc il s'agit d'une relation linéaire.
L'autre tracé est une courbe, il s'agit donc d'une relation non linéaire.

nonstationnarité

#fundamentals

Caractéristique dont les valeurs changent selon une ou plusieurs dimensions, généralement dans le temps. Prenons l'exemple des nonstationnaires suivantes:

Le nombre de maillots de bain vendus dans un magasin donné varie selon la saison.
La quantité d'un fruit particulier récolté dans une région donnée est nulle pendant une grande partie de l'année, mais élevée pendant une courte période.
En raison du changement climatique, les températures moyennes annuelles évoluent.

À comparer à la stationarité.

normalisation

#fundamentals

De manière générale, il s'agit du processus de conversion de la plage de valeurs réelle d'une variable en une plage de valeurs standard, telle que:

-1 à +1
Entre 0 et 1
la distribution normale

Par exemple, supposons que la plage de valeurs réelle d'une certaine caractéristique soit comprise entre 800 et 2 400. Dans le cadre de l'extraction de caractéristiques, vous pouvez normaliser les valeurs réelles jusqu'à une plage standard, par exemple de -1 à +1.

La normalisation est une tâche courante dans l'extraction de caractéristiques. Les modèles s'entraînent généralement plus rapidement (et produisent de meilleures prédictions) lorsque chaque caractéristique numérique du vecteur de caractéristiques a à peu près la même plage.

données numériques

#fundamentals

Caractéristiques représentées sous forme d'entiers ou de nombres réels. Par exemple, un modèle d'évaluation d'un logement représenterait probablement la taille d'un logement (en mètres carrés) sous forme de données numériques. La représentation d'une caractéristique sous forme de données numériques indique que les valeurs de la caractéristique présentent une relation mathématique avec l'étiquette. En d'autres termes, le nombre de mètres carrés dans une maison est probablement lié à la valeur de la maison mathématique.

Les données entières ne doivent pas toutes être représentées par des données numériques. Par exemple, dans certaines parties du monde, les codes postaux sont des entiers. Toutefois, ils ne doivent pas être représentés sous forme de données numériques dans les modèles. En effet, le code postal 20000 n'est pas deux fois (ou la moitié) plus puissant que le code postal 10 000. En outre, bien que les différents codes postaux soient corrélés à différentes valeurs immobilières, nous ne pouvons pas supposer que les valeurs des logements dont le code postal est 20000 sont deux fois plus intéressantes que celles dont le code postal est 10000. Les codes postaux doivent être représentés par des données catégorielles.

Les caractéristiques numériques sont parfois appelées caractéristiques continues.

O

offline

#fundamentals

Synonyme de statique.

inférence hors ligne

#fundamentals

Processus par lequel un modèle génère un lot de prédictions, puis met en cache (enregistre) ces prédictions. Les applications peuvent ensuite accéder à la prédiction inférée à partir du cache au lieu de réexécuter le modèle.

Prenons l'exemple d'un modèle qui génère des prévisions météorologiques locales (prédictions) toutes les quatre heures. Après chaque exécution du modèle, le système met en cache toutes les prévisions météorologiques locales. Les applications météo récupèrent les prévisions dans le cache.

L'inférence hors ligne est également appelée inférence statique.

À comparer à l'inférence en ligne.

Encodage one-hot

#fundamentals

Représenter des données catégorielles sous la forme d'un vecteur dans lequel:

Un élément est défini sur 1.
Tous les autres éléments ont la valeur 0.

L'encodage one-hot est couramment utilisé pour représenter des chaînes ou des identifiants ayant un ensemble fini de valeurs possibles. Par exemple, supposons qu'une certaine caractéristique catégorielle nommée Scandinavia possède cinq valeurs possibles:

"Danemark"
"Suède"
"Norvège"
"Finlande"
"Islande"

L'encodage one-hot peut représenter chacune des cinq valeurs comme suit:

country	Vecteur
"Danemark"	1	0	0	0	0
"Suède"	0	1	0	0	0
"Norvège"	0	0	1	0	0
"Finlande"	0	0	0	1	0
"Islande"	0	0	0	0	1

Grâce à l'encodage one-hot, un modèle peut apprendre différentes connexions en fonction de chacun des cinq pays.

La représentation d'une caractéristique sous forme de données numériques est une alternative à l'encodage one-hot. Malheureusement, représenter numériquement les pays scandinaves n'est pas un bon choix. Prenons l'exemple de la représentation numérique suivante:

Le Danemark est 0
"Suède" est 1
La "Norvège" a 2 ans.
La "Finlande" a 3 ans.
"Islande" a 4 ans

Avec l'encodage numérique, un modèle peut interpréter les nombres bruts mathématiquement et s'entraîner à partir de ces nombres. Cependant, l'Islande n'est pas deux fois moins (ou la moitié) que la Norvège, de sorte que le modèle aboutira à des conclusions étranges.

un contre tous

#fundamentals

Compte tenu d'un problème de classification avec N classes, une solution composée de N classificateurs binaires distincts (un classificateur binaire pour chaque résultat possible) Par exemple, dans le cas d'un modèle qui classe les exemples en tant qu'animaux, légumes ou minéraux, une solution un contre tous fournirait les trois classificateurs binaires distincts suivants:

animal et non animal
Légume et non végétal
"minéral" et "pas minéral"

online

#fundamentals

Synonyme de dynamique.

inférence en ligne

#fundamentals

Création de prédictions à la demande Par exemple, supposons qu'une application transmette des entrées à un modèle et envoie une requête de prédiction. Un système utilisant l'inférence en ligne répond à la requête en exécutant le modèle (et en renvoyant la prédiction à l'application).

À comparer à l'inférence hors ligne.

couche de sortie

#fundamentals

Couche "finale" d'un réseau de neurones. La couche de sortie contient la prédiction.

L'illustration suivante montre un petit réseau de neurones profond avec une couche d'entrée, deux couches cachées et une couche de sortie:

surapprentissage

#fundamentals

Créer un model qui correspond aux model de manière si précise qu'il ne parvient pas à effectuer des prédictions correctes sur les nouvelles données

La régularisation peut réduire le surapprentissage. L'entraînement sur un ensemble d'entraînement vaste et varié peut également réduire le surapprentissage.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Le surapprentissage revient à suivre scrupuleusement les conseils de votre professeur préféré. Vous réussirez probablement dans le cours de cet enseignant, mais vous risquez de "surapprentissage" par rapport aux idées de cet enseignant et de ne pas réussir dans les autres cours. En suivant les conseils de plusieurs enseignants, vous pourrez mieux vous adapter à de nouvelles situations.

P

pandas

#fundamentals

API d'analyse de données orientée colonnes basée sur numpy. De nombreux frameworks de machine learning, y compris TensorFlow, acceptent les structures de données pandas en tant qu'entrées. Pour en savoir plus, consultez la documentation de Pandas.

paramètre

#fundamentals

Pondérations et biais qu'un modèle apprend pendant l'entraînement. Par exemple, dans un modèle de régression linéaire, les paramètres sont constitués du biais (b) et de toutes les pondérations (w₁, w₂, etc.) figurant dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En revanche, les hyperparamètres sont les valeurs que vous (ou un service d'activation d'hyperparamètres) fournissez au modèle. Par exemple, le taux d'apprentissage est un hyperparamètre.

classe positive

#fundamentals

Classe que vous testez.

Par exemple, la classe positive d'un modèle de cancer pourrait être "tumeur". La classe positive d'un classificateur d'e-mail pourrait être "spam".

À comparer à la classe négative.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Le terme classe positive peut prêter à confusion, car le résultat "positif" de nombreux tests est souvent un résultat indésirable. Par exemple, la classe positive de nombreux tests médicaux correspond à des tumeurs ou à des maladies. En général, vous voulez qu'un médecin vous dise : « Félicitations ! Vos résultats de test étaient négatifs." Quoi qu'il en soit, la classe positive est l'événement que le test cherche à trouver.

Certes, vous testez simultanément les classes positives et négatives.

post-traitement

#fairness

#fundamentals

Ajuster la sortie d'un modèle après son exécution. Le post-traitement peut être utilisé pour appliquer des contraintes d'équité sans modifier les modèles eux-mêmes.

Par exemple, vous pouvez appliquer le post-traitement à un classificateur binaire en définissant un seuil de classification de sorte que l'égalité des chances soit maintenue pour un attribut donné en vérifiant que le taux de vrais positifs est le même pour toutes les valeurs de cet attribut.

prédiction

#fundamentals

Sortie d'un modèle. Exemple :

La prédiction d'un modèle de classification binaire est soit la classe positive, soit la classe négative.
La prédiction d'un modèle de classification à classes multiples correspond à une classe.
La prédiction d'un modèle de régression linéaire est un nombre.

étiquettes de substitution

#fundamentals

Données utilisées pour estimer des étiquettes qui ne sont pas directement disponibles dans un ensemble de données.

Par exemple, supposons que vous deviez entraîner un modèle pour prédire le niveau de stress des employés. Votre ensemble de données contient de nombreuses caractéristiques prédictives, mais ne comporte pas d'étiquette nommée niveau de stress. Vous choisissez "accidents du travail" comme étiquette de proxy pour le niveau de stress, sans craindre. Après tout, les employés soumis à un stress élevé subissent plus d’accidents que les employés calmes. Ou bien ? Peut-être que les accidents du travail augmentent et diminuent pour plusieurs raisons.

Voici un deuxième exemple : supposons que vous souhaitiez utiliser is it raining? comme étiquette booléenne pour votre ensemble de données, mais que celui-ci ne contient pas de données sur la pluie. Si des photos sont disponibles, vous pouvez créer des images de personnes portant des parapluies comme étiquette de substitution pour la phrase is it raining? Est-ce une bonne étiquette de proxy ? Peut-être, mais dans certaines cultures, les personnes sont plus susceptibles de porter des parapluies pour se protéger du soleil que de la pluie.

Les étiquettes intermédiaires sont souvent imparfaites. Dans la mesure du possible, privilégiez les étiquettes réelles aux étiquettes proxy. Cela dit, lorsqu'une étiquette réelle est absente, choisissez très soigneusement l'étiquette de proxy, en choisissant la moins horrible étiquette de proxy candidate.

R

RAG

#fundamentals

Abréviation de récupération-augmentée.

évaluateur

#fundamentals

Un humain qui fournit des étiquettes pour les exemples. « Annotator » est l'autre nom de l'évaluateur.

Unité de rectification linéaire (ReLU)

#fundamentals

Une fonction d'activation ayant le comportement suivant:

Si l'entrée est négative ou nulle, alors la sortie est 0.
Si l'entrée est positive, la sortie est égale à l'entrée.

Exemple :

Si l'entrée est -3, alors la sortie est 0.
Si l'entrée est +3, alors la sortie est 3,0.

Voici un graphique de ReLU:

La fonction d'activation ReLU est très répandue. Malgré son comportement simple, la fonction ReLU permet toujours à un réseau de neurones d'apprendre les relations non linéaires entre les caractéristiques et l'étiquette.

modèle de régression

#fundamentals

de façon informelle, un modèle qui génère une prédiction numérique. En revanche, un modèle de classification génère une prédiction de classe. Par exemple, les exemples suivants représentent tous des modèles de régression:

Modèle qui prédit la valeur d'une maison en particulier, par exemple 423 000 euros.
Modèle qui prédit l'espérance de vie d'un arbre donné, par exemple 23,2 ans.
Modèle qui prédit la quantité de pluie qui tombera dans une ville donnée au cours des six prochaines heures (36 mm, par exemple).

Voici deux types courants de modèles de régression:

La régression linéaire, qui recherche la ligne qui correspond le mieux aux valeurs d'étiquettes aux caractéristiques.
La régression logistique, qui génère une probabilité comprise entre 0,0 et 1,0 qu'un système mappe ensuite généralement à une prédiction de classe.

Les modèles qui génèrent des prédictions numériques ne sont pas tous des modèles de régression. Dans certains cas, une prédiction numérique n'est en fait qu'un modèle de classification qui comporte des noms de classe numériques. Par exemple, un modèle qui prédit un code postal numérique est un modèle de classification, et non un modèle de régression.

régularisation

#fundamentals

Tout mécanisme limitant le surapprentissage. Les types de régularisation les plus courants sont les suivants:

Régularisation L₁
Régularisation L₂
régularisation par abandon
Arrêt prématuré (il ne s'agit pas d'une méthode de régularisation, mais l'arrêt prématuré peut limiter efficacement le surapprentissage)

La régularisation peut également être définie comme la pénalité liée à la complexité d'un modèle.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

La régularisation est contre-intuitive. En général, l'augmentation de la régularisation augmente la perte d'entraînement, ce qui prête à confusion, car l'objectif n'est pas de minimiser la perte d'entraînement ?

En fait, non. Le but n'est pas de minimiser la perte d'entraînement. L'objectif est de faire d'excellentes prédictions sur des exemples concrets. Il est à noter que, même si l'augmentation de la régularisation augmente la perte d'entraînement, elle aide généralement les modèles à effectuer de meilleures prédictions sur des exemples réels.

taux de régularisation

#fundamentals

Nombre indiquant l'importance relative de la régularisation pendant l'entraînement. L'augmentation du taux de régularisation réduit le surapprentissage, mais peut réduire les performances prédictives du modèle. À l'inverse, réduire ou omettre le taux de régularisation augmente le surapprentissage.

Cliquez sur l'icône pour afficher le calcul.

Le taux de régularisation est généralement représenté par la lettre grecque lambda. L'équation de perte simplifiée suivante montre l'influence du lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

où la régularisation correspond à un mécanisme de régularisation, y compris :

Régularisation L₁
Régularisation L₂

ReLU

#fundamentals

Abréviation de unité de rectification linéaire.

RAG (retrieval-Augd Generation)

#fundamentals

Technique permettant d'améliorer la qualité des résultats obtenus avec le grand modèle de langage (LLM) en l'aidant à mettre à profit les sources de connaissances récupérées après l'entraînement du modèle. RAG améliore la précision des réponses du LLM en fournissant au LLM entraîné un accès aux informations extraites de bases de connaissances ou de documents fiables.

Voici quelques raisons courantes qui justifient l'utilisation de la génération augmentée par récupération:

Augmenter la justesse factuelle des réponses générées par un modèle.
Donner au modèle l'accès à des connaissances sur lesquelles il n'a pas été entraîné.
Modifier les connaissances utilisées par le modèle
Permettre au modèle de citer des sources.

Par exemple, supposons qu'une application de chimie utilise l'API PaLM pour générer des résumés liés aux requêtes des utilisateurs. Lorsque le backend de l'application reçoit une requête, il:

Recherche ("récupère") des données en rapport avec la requête de l'utilisateur.
Ajoute ("agrandissements") les données chimiques pertinentes à la requête de l'utilisateur.
Il demande au LLM de créer un résumé basé sur les données ajoutées.

Courbe ROC (Receiver Operating Characteristic)

#fundamentals

Graphique du taux de vrais positifs et du taux de faux positifs pour différents seuils de classification dans la classification binaire.

La forme d'une courbe ROC suggère la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Supposons, par exemple, qu'un modèle de classification binaire sépare parfaitement toutes les classes négatives de toutes les classes positives:

Un axe gradué avec 8 exemples positifs à droite et 7 exemples négatifs à gauche.

La courbe ROC du modèle précédent se présente comme suit:

Une courbe ROC L'axe des abscisses (x) correspond au taux de faux positifs et l'axe des ordonnées (y) au taux de vrais positifs. La courbe a une forme en L inversé. La courbe commence à (0.0,0.0) et va directement jusqu'à (0.0,1.0). Ensuite, la courbe va de (0.0,1.0) à (1.0,1.0).

En revanche, l'illustration suivante représente graphiquement les valeurs brutes de la régression logistique d'un mauvais modèle qui ne peut pas du tout séparer les classes négatives des classes positives:

Ligne graduée avec des exemples positifs et des classes négatives complètement mélangées.

La courbe ROC de ce modèle se présente comme suit:

Une courbe ROC, qui est en réalité une ligne droite comprise entre (0.0,0.0) et (1.0,1.0).

Dans le monde réel, la plupart des modèles de classification binaire séparent dans une certaine mesure les classes positives et négatives, mais ce n'est généralement pas le cas de manière parfaite. Ainsi, une courbe ROC typique se situe entre les deux extrêmes:

Une courbe ROC L'axe des abscisses (x) correspond au taux de faux positifs et l'axe des ordonnées (y) au taux de vrais positifs. La courbe ROC représente approximativement un arc tremblant traversant les points de la boussole d'Ouest vers le Nord.

Le point sur une courbe ROC le plus proche de (0,0,1,0) identifie théoriquement le seuil de classification idéal. Cependant, plusieurs autres problèmes concrets influent sur le choix du seuil de classification idéal. Par exemple, les faux négatifs causent peut-être beaucoup plus de difficultés que les faux positifs.

Une métrique numérique appelée AUC résume la courbe ROC en une seule valeur à virgule flottante.

la racine carrée de l'erreur quadratique moyenne (RMSE, Root Mean Squared Error)

#fundamentals

Racine carrée de l'erreur quadratique moyenne.

S

fonction sigmoïde

#fundamentals

Fonction mathématique qui "agrège" une valeur d'entrée dans une plage limitée, généralement comprise entre 0 et 1 ou entre -1 et +1. Autrement dit, vous pouvez transmettre n'importe quel nombre (deux, un million, un milliard, n'importe quoi) à une sigmoïde et la sortie se situera toujours dans la plage contrainte. Le tracé de la fonction d'activation sigmoïde se présente comme suit:

La fonction sigmoïde a plusieurs utilisations en machine learning, y compris:

Conversion de la sortie brute d'un modèle de régression logistique ou de régression multinomiale en probabilité
Sert de fonction d'activation dans certains réseaux de neurones.

Cliquez sur l'icône pour afficher le calcul.

La fonction sigmoïde sur un nombre d'entrée x a la formule suivante:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

En machine learning, x est généralement une somme pondérée.

softmax

#fundamentals

Fonction qui détermine les probabilités pour chaque classe possible dans un modèle de classification à classes multiples. La somme des probabilités est égale à 1,0. Par exemple, le tableau suivant montre comment softmax distribue différentes probabilités:

L'image est...	Probabilité
chien	0,85
cat	0,13
cheval	0,02

Softmax est aussi appelé softmax complet.

À comparer à l'échantillonnage de candidats.

Cliquez sur l'icône pour afficher le calcul.

L'équation softmax est la suivante:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

où :

$\sigma_i$ est le vecteur de sortie. Chaque élément du vecteur de sortie spécifie la probabilité de cet élément. La somme de tous les éléments dans le vecteur de sortie est égale à 1,0. Le vecteur de sortie contient le même nombre d'éléments que le vecteur d'entrée, $z$.
$z$ est le vecteur d'entrée. Chaque élément du vecteur d'entrée contient une valeur à virgule flottante.
$K$ est le nombre d'éléments dans le vecteur d'entrée (et le vecteur de sortie).

Par exemple, supposons que le vecteur d'entrée soit:

[1.2, 2.5, 1.8]

Par conséquent, softmax calcule le dénominateur comme suit:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

La probabilité softmax de chaque élément est donc:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Le vecteur de sortie est donc le suivant:

$$\sigma = [0.154, 0.565, 0.281]$$

La somme des trois éléments dans $\sigma$ est de 1,0. Ouf !

caractéristique creuse

#language

#fundamentals

Une caractéristique dont les valeurs sont pour la plupart nulles ou vides. Par exemple, une caractéristique contenant une seule valeur 1 et un million de valeurs 0 est creuse. En revanche, une caractéristique dense comporte des valeurs qui ne sont principalement ni nulles ni vides.

Dans le domaine du machine learning, un nombre surprenant de caractéristiques sont des caractéristiques creuses. Les caractéristiques catégorielles sont généralement creuses. Par exemple, parmi les 300 espèces d'arbres possibles d'une forêt, un seul exemple peut n'identifier qu'un érable. Ou, parmi les millions de vidéos possibles d'une bibliothèque de vidéos, un seul exemple pourrait désigner "Casablanca".

Dans un modèle, vous représentez généralement des caractéristiques creuses avec encodage one-hot. Si l'encodage one-hot est volumineux, vous pouvez placer une couche de représentation vectorielle continue au-dessus de l'encodage one-hot pour plus d'efficacité.

représentation creuse

#language

#fundamentals

Ne stocke que la position des éléments non nuls dans une caractéristique creuse.

Par exemple, supposons qu'une caractéristique catégorielle nommée species identifie les 36 espèces d'arbres d'une forêt spécifique. Supposons également que chaque exemple n'identifie qu'une seule espèce.

Vous pouvez utiliser un vecteur one-hot pour représenter les espèces d'arbres dans chaque exemple. Un vecteur one-hot contiendrait une seule valeur 1 (pour représenter l'espèce d'arbre concernée dans cet exemple) et 35 0s (pour représenter les 35 espèces d'arbres qui ne sont pas dans cet exemple). Ainsi, la représentation one-hot de maple peut se présenter comme suit:

Un vecteur dans lequel les positions 0 à 23 contiennent la valeur 0, la position 24 contient la valeur 1 et les positions 25 à 35 contiennent la valeur 0.

La représentation creuse permet également d'identifier simplement la position de l'espèce concernée. Si maple se trouve à la position 24, la représentation creuse de maple est simplement:

Notez que la représentation creuse est beaucoup plus compacte que la représentation one-hot.

Cliquez sur l'icône pour afficher un exemple un peu plus complexe.

Supposons que chaque exemple de votre modèle doive représenter les mots d'une phrase en anglais, mais pas leur ordre. L'anglais comprend environ 170 000 mots, il est donc une caractéristique catégorielle comportant environ 170 000 éléments. La plupart des phrases en anglais utilisent une fraction extrêmement infime de ces 170 000 mots. Il est donc probable que l'ensemble de mots d'un seul exemple ne soit que des données creuses.

Considérez la phrase suivante:

My dog is a great dog

Vous pouvez utiliser une variante du vecteur one-hot pour représenter les mots de cette phrase. Dans cette variante, plusieurs cellules du vecteur peuvent contenir une valeur non nulle. De plus, dans cette variante, une cellule peut contenir un entier autre qu'un. Bien que les mots "my", "is", "a" et "great" n'apparaissent qu'une seule fois dans la phrase, le mot "dog" apparaît deux fois. L'utilisation de cette variante de vecteurs one-hot pour représenter les mots de cette phrase donne le vecteur de 170 000 éléments suivant:

Une représentation creuse de la même phrase serait simplement:

Cliquez sur l'icône si vous êtes perdu.

Le terme "représentation creuse" peut perturber de nombreuses personnes, car la représentation creuse n'est en elle-même pas un vecteur creux. Il s'agit plutôt d'une représentation dense d'un vecteur creux. La représentation d'index avec des synonymes est un peu plus claire que la "représentation creuse".

vecteur creux

#fundamentals

Vecteur dont les valeurs sont pour la plupart des zéros. Voir aussi caractéristique creuse et parcimonie.

perte quadratique

#fundamentals

Synonyme de perte L₂.

static

#fundamentals

Exécuter une action une seule fois plutôt qu'en continu. Les termes statique et hors connexion sont des synonymes. Voici quelques cas d'utilisation courants des méthodes statique et hors connexion en machine learning:

Le modèle statique (ou modèle hors connexion) est un modèle entraîné une fois, puis utilisé pendant un certain temps.
L'entraînement statique (ou entraînement hors connexion) est le processus d'entraînement d'un modèle statique.
L'inférence statique (ou inférence hors connexion) est un processus par lequel un modèle génère un lot de prédictions à la fois.

À comparer à la valeur dynamique.

inférence statique

#fundamentals

Synonyme d'inférence hors ligne.

stationnarité

#fundamentals

Caractéristique dont les valeurs ne changent pas selon une ou plusieurs dimensions, généralement dans le temps. Par exemple, une caractéristique dont les valeurs semblent à peu près identiques en 2021 et en 2023 présente une stationarité.

Dans le monde réel, très peu d'éléments géographiques présentent une stationarité. Même les caractéristiques synonymes de stabilité (comme le niveau de la mer) changent au fil du temps.

À comparer à la nonstationarité.

descente de gradient stochastique (SGD)

#fundamentals

Algorithme de descente de gradient dans lequel la taille de lot est égale à un. En d'autres termes, les SGD sont entraînés sur un seul exemple choisi de manière uniforme et aléatoire dans un ensemble d'entraînement.

machine learning supervisé

#fundamentals

Entraîner un model à partir de model et des model correspondantes Le machine learning supervisé est semblable à l'apprentissage d'un sujet en étudiant un ensemble de questions et les réponses correspondantes. Une fois qu'il maîtrise le mappage entre les questions et les réponses, un élève peut répondre à de nouvelles questions (jamais vues auparavant) sur le même sujet.

À comparer au machine learning non supervisé.

caractéristique synthétique

#fundamentals

Caractéristique absente des caractéristiques d'entrée, mais assemblée à partir d'une ou de plusieurs d'entre elles. Voici des méthodes permettant de créer des caractéristiques synthétiques:

Binning d'une caractéristique continue dans des classes de plages
Créer un croisement de caractéristiques
Multiplication (ou division) d'une caractéristique par une ou plusieurs autres caractéristiques ou par elle-même Par exemple, si a et b sont des caractéristiques d'entrée, les exemples suivants sont des caractéristiques synthétiques :
- ab
- a²
Application d'une fonction transcendante à une valeur de caractéristique Par exemple, si c est une caractéristique d'entrée, les exemples suivants sont des caractéristiques synthétiques :
- sin(c)
- ln(c)

Les caractéristiques créées uniquement par la normalisation ou la mise à l'échelle ne sont pas considérées comme des caractéristiques synthétiques.

T

perte d'évaluation

#fundamentals

Métrique représentant la perte d'un modèle par rapport à l'ensemble de test. Lorsque vous créez un model, vous essayez généralement de minimiser la perte d'évaluation. En effet, une faible perte d'évaluation est un signal de qualité supérieure qu'une perte d'entraînement ou une perte de validation faible.

Un écart important entre la perte d'évaluation et la perte d'entraînement ou la perte de validation suggère parfois qu'il faut augmenter le taux de régularisation.

du modèle

#fundamentals

Processus consistant à déterminer les paramètres idéaux (pondérations et biais) d'un modèle. Pendant l'entraînement, un système lit des exemples et ajuste progressivement les paramètres. L'entraînement utilise chaque exemple de quelques fois à des milliards de fois.

perte d'entraînement

#fundamentals

Métrique représentant la perte d'un modèle lors d'une itération d'entraînement particulière. Par exemple, supposons que la fonction de perte soit l'erreur quadratique moyenne. La perte d'entraînement (erreur quadratique moyenne) pour la 10e itération est peut-être de 2,2 et la perte d'entraînement pour la 100e itération est de 1,9.

Une courbe de perte représente la perte d'entraînement en fonction du nombre d'itérations. Une courbe de fonction de perte fournit les indices suivants concernant l'entraînement:

Une pente négative indique une amélioration du modèle.
Une pente ascendante signifie que le modèle s'aggrave.
Une pente plate signifie que le modèle a atteint la convergence.

La courbe de perte idéalisée ci-dessous montre par exemple:

Une pente descendante forte lors des itérations initiales, ce qui implique une amélioration rapide du modèle
Une pente qui s'aplatit progressivement (mais toujours vers le bas) jusqu'à la fin de l'entraînement, ce qui implique une amélioration continue du modèle à un rythme légèrement plus lent que lors des itérations initiales.
Une pente plate vers la fin de l'entraînement, ce qui suggère une convergence.

Tracé de la perte d'entraînement par rapport aux itérations. Cette courbe de fonction de perte commence
par une pente descendante forte. La pente s'aplatit progressivement jusqu'à ce qu'elle passe à zéro.

Bien que la perte d'entraînement soit importante, consultez également la section consacrée à la généralisation.

décalage entraînement/inférence

#fundamentals

Différence entre les performances d'un modèle pendant l'entraînement et les performances de ce même modèle pendant l'inférence.

Ensemble d'entraînement

#fundamentals

Sous-ensemble de l'ensemble de données utilisé pour entraîner un modèle.

Traditionnellement, les exemples de l'ensemble de données sont divisés en trois sous-ensembles distincts:

un ensemble d'entraînement
Un ensemble de validation
Un ensemble de test

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un même exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et à l'ensemble de validation.

vrai négatif (VN)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe négative. Par exemple, le modèle déduit qu'un e-mail particulier n'est pas du spam, et qu'il ne l'est en réalité pas.

vrai positif (VP)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe positive. Par exemple, le modèle déduit qu'un e-mail donné est du spam, et que cet e-mail est réellement un spam.

taux de vrais positifs (TPR)

#fundamentals

Synonyme de rappel. Par exemple :

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Le taux de vrais positifs correspond à l'axe des ordonnées d'une courbe ROC.

U

sous-apprentissage

#fundamentals

Produire un model avec une faible capacité de prédiction, car le modèle n'a pas totalement capturé la complexité des données d'entraînement De nombreux problèmes peuvent entraîner un sous-apprentissage, y compris les suivants:

Entraînement sur le mauvais ensemble de fonctionnalités.
Entraînement sur trop peu d'époques ou avec un taux d'apprentissage trop faible.
Entraînement avec un taux de régularisation trop élevé.
Fournir trop peu de couches cachées dans un réseau de neurones profond.

exemple sans étiquette

#fundamentals

Exemple contenant des caractéristiques, mais pas de libellé. Par exemple, le tableau suivant présente trois exemples non étiquetés provenant d'un modèle d'évaluation d'une maison, chacun avec trois caractéristiques, mais aucune valeur de logement:

Nombre de chambres	Nombre de salles de bain	Âge de la maison
3	2	15
2	1	72
4	2	34

Dans le machine learning supervisé, les modèles sont entraînés sur des exemples étiquetés et effectuent des prédictions sur des exemples non étiquetés.

Dans l'apprentissage semi-supervisé et non supervisé, des exemples sans étiquette sont utilisés pendant l'entraînement.

Comparer l'exemple sans étiquette à l'exemple étiqueté

machine learning non supervisé

#clustering

#fundamentals

Entraînement d'un model pour détecter des schémas dans un ensemble de données, généralement sans étiquette.

L'utilisation la plus courante du machine learning non supervisé consiste à grouper les données en groupes d'exemples similaires. Par exemple, un algorithme de machine learning non supervisé peut regrouper des chansons en fonction de diverses propriétés de celles-ci. Les clusters obtenus peuvent devenir une entrée d'autres algorithmes de machine learning (par exemple, un service de recommandation de musique). Le clustering peut être utile lorsque les étiquettes utiles sont rares ou absentes. Par exemple, dans des domaines tels que la lutte contre les abus et la fraude, les clusters peuvent aider les humains à mieux comprendre les données.

À comparer au machine learning supervisé.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Un autre exemple de machine learning non supervisé est l'analyse en composantes principales (PCA). Par exemple, l'application de l'ACP sur un ensemble de données contenant le contenu de millions de paniers d'achat peut révéler que ceux contenant des citrons contiennent souvent également des antiacides.

V

en automatisant la validation des règles ;

#fundamentals

Évaluation initiale de la qualité d'un modèle. La validation vérifie la qualité des prédictions d'un modèle par rapport à l'ensemble de validation.

Étant donné que l'ensemble de validation diffère de l'ensemble d'entraînement, la validation permet d'éviter le surapprentissage.

Vous pouvez considérer l'évaluation du modèle par rapport à l'ensemble de validation comme la première série de tests et l'évaluation par rapport à l'ensemble de test comme la deuxième.

perte de validation

#fundamentals

Métrique représentant la perte d'un modèle sur l'ensemble de validation au cours d'une itération particulière d'entraînement.

Consultez également la courbe de généralisation.

Ensemble de validation

#fundamentals

Sous-ensemble de l'ensemble de données qui effectue l'évaluation initiale par rapport à un modèle entraîné. En règle générale, vous évaluez le modèle entraîné plusieurs fois avec l'ensemble de validation avant de l'évaluer avec l'ensemble de test.

Traditionnellement, les exemples de l'ensemble de données sont divisés en trois sous-ensembles distincts:

Un ensemble d'entraînement
un ensemble de validation
Un ensemble de test

L

weight

#fundamentals

Valeur qu'un modèle multiplie par une autre valeur. L'entraînement consiste à déterminer les pondérations idéales d'un modèle, tandis que l'inférence consiste à utiliser ces pondérations apprises pour effectuer des prédictions.

Cliquez sur l'icône pour afficher un exemple de pondérations dans un modèle linéaire.

Imaginez un modèle linéaire avec deux caractéristiques. Supposons que l'entraînement détermine les pondérations (et les biais) suivantes :

Le biais, b, a une valeur de 2,2
La pondération w₁ associée à une caractéristique est de 1, 5.
La pondération w₂ associée à l'autre caractéristique est de 0, 4.

Imaginons maintenant un exemple avec les valeurs de caractéristiques suivantes:

La valeur d'une caractéristique, x₁, est de 6.
La valeur de l'autre caractéristique, x₂, est 10.

Ce modèle linéaire utilise la formule suivante pour générer une prédiction, y':

$$y' = b + w_1x_1 + w_2x_2$$

La prédiction se présente donc comme suit:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Si une pondération est de 0, la caractéristique correspondante ne contribue pas au modèle. Par exemple, si w₁ est égal à 0, la valeur de x₁ n'est pas pertinente.

Somme pondérée

#fundamentals

Somme de toutes les valeurs d'entrée pertinentes multipliée par leurs pondérations correspondantes. Par exemple, supposons que les entrées pertinentes soient les suivantes:

valeur d'entrée	poids d'entrée
2	-1,3
-1	0,6
3	0,4

La somme pondérée est donc la suivante:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Une somme pondérée correspond à l'argument d'entrée d'une fonction d'activation.

Z

Normalisation du score Z

#fundamentals

Technique de mise à l'échelle qui remplace une valeur brute de caractéristique par une valeur à virgule flottante représentant le nombre d'écarts types par rapport à la moyenne de cette caractéristique. Prenons l'exemple d'une caractéristique dont la moyenne est de 800 et dont l'écart-type est de 100. Le tableau suivant montre comment la normalisation du score Z mappe la valeur brute à son score Z:

Valeur brute	Score Z
800	0
950	+1,5
575	-2,25

Le modèle de machine learning s'entraîne ensuite avec les scores Z de cette caractéristique plutôt qu'avec les valeurs brutes.

Glossaire du machine learning: Bases du ML

A

accuracy

Cliquez sur l'icône pour afficher des remarques supplémentaires.

fonction d'activation

Cliquez sur l'icône pour voir un exemple.

l'intelligence artificielle

AUC (aire sous la courbe ROC)

Cliquez sur l'icône pour en savoir plus sur la relation entre les courbes AUC et ROC.

Cliquez sur l'icône pour obtenir une définition plus formelle de l'AUC.

B

rétropropagation

lot

taille de lot

biais (éthique/impartialité)

biais (mathématiques) ou terme de biais

classification binaire

binning

Cliquez sur l'icône pour afficher des remarques supplémentaires.

C

données catégorielles

classe

modèle de classification

seuil de classification

Cliquez sur l'icône pour afficher des remarques supplémentaires.

ensemble de données avec déséquilibre des classes

bornement

Matrice de confusion

caractéristique continue

convergence

D

DataFrame

ensemble de données

modèle deep learning

caractéristique dense

profondeur

caractéristique discrète

dynamic

modèle dynamique

E

arrêt prématuré

Cliquez sur l'icône pour afficher des remarques supplémentaires.

couche de représentation vectorielle continue

epoch

pour décrire cela.

F

faux négatif (FN)

faux positif (FP)

taux de faux positifs (TFP)

fonctionnalité

croisement de caractéristiques

l'ingénierie des caractéristiques.

Cliquez sur l'icône pour afficher des remarques supplémentaires concernant TensorFlow.

ensemble de caractéristiques

vecteur de caractéristiques

boucle de rétroaction

G

généralisation

Cliquez sur l'icône pour afficher des remarques supplémentaires.

courbe de généralisation

descente de gradient

vérité terrain

Cliquez sur l'icône pour afficher des remarques supplémentaires.

H

couche cachée

hyperparamètre

I

indépendamment et de manière identique (i.i.d)

inférence

couche d'entrée

interprétabilité

itération

L

régularisation L0

Cliquez sur l'icône pour afficher des remarques supplémentaires.

perte L1

Cliquez sur l'icône pour afficher le calcul formel.

régularisation L1

perte L2

Cliquez sur l'icône pour afficher le calcul formel.

régularisation L₀

perte L₁

régularisation L₁

perte L₂

régularisation L₂