Glossaire du machine learning: principes de base du ML

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Cette page contient les termes du glossaire ML Fundamentals. Pour consulter tous les termes du glossaire, cliquez ici.

A

accuracy

#fundamentals

Nombre de prédictions de classification correctes divisé par le nombre total de prédictions. Par exemple :

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Par exemple, un modèle qui a effectué 40 prédictions correctes et 10 prédictions incorrectes a une précision de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classification binaire fournit des noms spécifiques pour les différentes catégories de prédictions et de prédictions incorrectes. La formule de précision de la classification binaire est donc la suivante:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

où :

  • "VP" correspond au nombre de vrais positifs (prédictions correctes).
  • TN correspond au nombre de vrais négatifs (prédictions correctes).
  • La FP correspond au nombre de faux positifs (prédictions incorrectes).
  • FN correspond au nombre de faux négatifs (prédictions incorrectes).

Comparez la justesse et le contraste avec la précision et le rappel.

fonction d'activation

#fundamentals

Fonction permettant aux réseaux de neurones d'apprendre des relations non linéaires (complexes) entre les caractéristiques et l'étiquette.

Exemples de fonctions d'activation courantes:

Les graphiques des fonctions d'activation ne sont jamais des lignes droites simples. Par exemple, le graphique de la fonction d'activation ReLU comprend deux lignes droites:

Un graphique cartésien composé de deux lignes. La première ligne a une valeur y constante de 0, qui suit l'axe X de -infinity,0 à 0,-0.
          La deuxième commence à 0,0. Cette ligne a une pente de +1, elle va donc de 0,0 à +infini,+infini.

Un graphique de la fonction d'activation sigmoïde se présente comme suit:

Un graphique incurvé bidimensionnel dont les valeurs s'étendent du domaine -infini à +positive, tandis que les valeurs Y s'étendent sur une plage allant de 0 à presque 1. Lorsque x est égal à 0, y est égal à 0,5. La pente de la courbe est toujours positive, la pente la plus élevée étant égale à 0,0,5, et la pente diminue progressivement à mesure que la valeur absolue de x augmente.

intelligence artificielle

#fundamentals

Programme ou modèle non humain capable de résoudre des tâches complexes Par exemple, un programme ou un modèle qui traduit du texte, ou un programme ou un modèle qui identifie des maladies à partir d'images radiologiques présentent l'intelligence artificielle.

Officiellement, le machine learning est un sous-domaine de l'intelligence artificielle. Toutefois, ces dernières années, certaines organisations ont commencé à utiliser les termes intelligence artificielle et machine learning de manière interchangeable.

AUC (aire sous la courbe ROC)

#fundamentals

Nombre compris entre 0,0 et 1,0 représentant la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Plus l'AUC est proche de 1,0, mieux le modèle peut distinguer les classes les unes des autres.

Par exemple, l'illustration suivante montre un modèle de classificateur qui sépare parfaitement les classes positives (ovales vertes) des classes négatives (rectangles violets). L'AUC de ce modèle parfait de façon irréaliste n'est que 1,0:

Une ligne numérique composée de huit exemples positifs d'un côté et de neuf exemples négatifs de l'autre.

À l'inverse, l'illustration ci-dessous présente les résultats d'un modèle de classificateur qui a généré des résultats aléatoires. L'AUC de ce modèle est de 0,5:

Une ligne de nombre avec six exemples positifs et six exemples négatifs.
          La séquence d'exemples est positive, négative, positive, négative, positive, négative, positive, négative, négative, positive, négative, positive ou négative.

Oui, l'AUC du modèle précédent est de 0,5, et non de 0,0.

La plupart des modèles se situent entre les deux extrêmes. Par exemple, le modèle suivant sépare dans une certaine mesure les valeurs positives et négatives. L'AUC est donc compris entre 0,5 et 1,0:

Une ligne de nombre avec six exemples positifs et six exemples négatifs.
          La séquence d'exemples est négative, négative, négative, négative, positive, négative, positive, positive, positive, négative, positive, positive, positive.

L'AUC ignore toute valeur définie pour le seuil de classification. L'AUC tient compte de tous les seuils de classification possibles.

B

rétropropagation

#fundamentals

L'algorithme qui implémente la descente de gradient dans les réseaux de neurones.

L'entraînement d'un réseau de neurones implique de nombreuses itérations du cycle en deux passes suivant:

  1. Pendant la passe avant, le système traite un lot d'exemples pour générer la ou les prédictions. Le système compare chaque prédiction à chaque valeur de label. La différence entre la prédiction et la valeur d'étiquette est la perte de cet exemple. Le système cumule les pertes pour tous les exemples afin de calculer la perte totale pour le lot actuel.
  2. Pendant la rétropropagation (rétropropagation), le système réduit la perte en ajustant les pondérations de tous les neurones dans toutes les couches cachées.

Les réseaux de neurones contiennent souvent de nombreux neurones répartis sur de nombreuses couches cachées. Chacun de ces neurones contribue à la perte globale de différentes manières. La rétropropagation détermine si les pondérations appliquées à des neurones particuliers doivent être augmentées ou réduites.

Le taux d'apprentissage est un multiplicateur qui contrôle le degré d'augmentation ou de diminution de chaque pondération dans le rétrolien. Un taux d'apprentissage élevé augmente ou diminue plus facilement qu'un taux d'apprentissage faible.

En termes de calcul, la rétropropagation met en œuvre le calcul de la règle de chaîne. Autrement dit, la rétropropagation calcule la dérivée partielle de l'erreur pour chaque paramètre. Pour en savoir plus, consultez ce tutoriel dans le cours d'initiation au Machine Learning.

Il y a plusieurs années, les professionnels du ML ont dû écrire du code pour implémenter la rétropropagation. Les API de ML modernes telles que TensorFlow implémentent désormais la rétropropagation pour vous. Ouf !

lot

#fundamentals

Ensemble d'exemples utilisés dans une itération d'entraînement. La taille de lot détermine le nombre d'exemples dans un lot.

Pour comprendre la relation entre un lot et une époque, consultez la section epoch.

taille de lot

#fundamentals

Nombre d'exemples dans un lot. Par exemple, si la taille de lot est de 100, le modèle traite 100 exemples par itération.

Les stratégies de taille de lot les plus populaires sont les suivantes:

  • Descente de gradient stochastique (SGD), dont la taille de lot est 1.
  • Un lot complet, dans lequel la taille de lot correspond au nombre d'exemples dans l'ensemble de l'ensemble d'entraînement Par exemple, si l'ensemble d'entraînement contient un million d'exemples, la taille du lot correspond à un million d'exemples. Le traitement par lot complet est généralement une stratégie inefficace.
  • mini-lot, dont la taille de lot est généralement comprise entre 10 et 1 000. Le mini-lot est généralement la stratégie la plus efficace.

biais (éthique/équité)

#fairness
#fundamentals

1. Stéréotypage, préjugés ou favoritisme envers des choses, des personnes ou des groupes plutôt que d'autres Ces biais peuvent affecter la collecte et l'interprétation des données, la conception d'un système et la manière dont les utilisateurs interagissent avec celui-ci. Les formes de ce type de biais sont les suivantes:

2. Erreur systématique introduite par une procédure d'échantillonnage ou de création de rapports. Les formes de ce type de biais sont les suivantes:

À ne pas confondre avec le biais des modèles de machine learning ou le biais de prédiction.

biais (mathématique) ou terme de biais

#fundamentals

Interception ou décalage par rapport à une origine. Le biais est un paramètre des modèles de machine learning qui est symbolisé par l'un des éléments suivants:

  • M
  • m0

Par exemple, le biais est le b dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dans une ligne bidimensionnelle simple, le biais signifie simplement « y-intercept ». Dans l'illustration ci-dessous, le biais de la ligne est de 2.

Trace d'une ligne dont la pente est de 0,5 et le biais (y-intercept) de 2

Un biais existe, car tous les modèles ne commencent pas à partir de l'origine (0,0). Par exemple, supposons qu'un parc d'attractions coûte 2 euros et un supplément de 0,5 euro pour chaque heure de séjour. Par conséquent, un modèle mappant le coût total présente un biais de 2, car le coût le plus bas est de 2 euros.

Le biais ne doit pas être confondu avec les biais en matière d'éthique et d'équité ou de biais de prédiction.

classification binaire

#fundamentals

Type de tâche de classification qui prédit l'une des deux classes mutuellement exclusives:

Par exemple, les deux modèles de machine learning suivants effectuent chacun une classification binaire:

  • Modèle qui détermine si les e-mails sont du spam (classe positive) ou non-spam (classe négative).
  • Modèle qui évalue les symptômes médicaux pour déterminer si une personne souffre d'une maladie particulière (la classe positive) ou n'est pas atteinte de cette maladie (la classe négative).

À comparer à la classification multiclasse.

Consultez également les sections Régression logistique et Seuil de classification.

binning

#fundamentals

Conversion d'une seule caractéristique en plusieurs caractéristiques binaires appelées buckets ou bacs, généralement en fonction d'une plage de valeurs. La caractéristique hachée est généralement une caractéristique continue.

Par exemple, au lieu de représenter la température sous la forme d'une seule caractéristique continue à virgule flottante, vous pouvez scinder des plages de températures en buckets discrets, par exemple:

  • <= 10 degrés Celsius correspond au bucket & quot; froid.
  • 11 - 24 degrés Celsius constituerait un seau & quot; tempéré.
  • >= 25 degrés Celsius serait le seau &warm&wart.

Le modèle traitera chaque valeur du même bucket de manière identique. Par exemple, les valeurs 13 et 22 se trouvent dans le bucket tempéré. Le modèle traite donc les deux valeurs de manière identique.

C

données catégorielles

#fundamentals

Caractéristiques avec un ensemble spécifique de valeurs possibles. Par exemple, prenons une caractéristique catégorielle nommée traffic-light-state, qui ne peut avoir que l'une des trois valeurs suivantes:

  • red
  • yellow
  • green

En représentant traffic-light-state en tant que caractéristique catégorielle, un modèle peut apprendre les différents impacts de red, green et yellow sur le comportement du pilote.

Les caractéristiques catégorielles sont parfois appelées caractéristiques discrètes.

À comparer aux données numériques.

classe

#fundamentals

Catégorie à laquelle un libellé peut appartenir. Exemple :

Un modèle de classification prédit une classe. En revanche, un modèle de régression prédit un nombre plutôt qu'une classe.

modèle de classification

#fundamentals

Modèle dont la prédiction est une classe. Voici par exemple tous les modèles de classification:

  • Modèle prédisant la langue d'une phrase d'entrée (en français ? Espagnol ? italien ?).
  • Un modèle capable de prédire les espèces d'arbres (Maple ? Chêne ? Baobab?).
  • Modèle qui prédit la classe positive ou négative d'une pathologie particulière.

En revanche, les modèles de régression prédisent des nombres plutôt que des classes.

Voici deux types de modèles de classification courants:

seuil de classification

#fundamentals

Dans une classification binaire, un nombre compris entre 0 et 1 qui convertit la sortie brute d'un régression logistique en une prédiction de la classe positive ou de la classe négative. Notez que le seuil de classification est une valeur choisie par un humain, et non une valeur choisie par l'entraînement du modèle.

Un modèle de régression logistique génère une valeur brute comprise entre 0 et 1. Puis :

  • Si cette valeur brute est supérieure au seuil de classification, la classe positive est prédite.
  • Si cette valeur brute est inférieure au seuil de classification, la classe négative est prédite.

Par exemple, supposons que le seuil de classification soit de 0,8. Si la valeur brute est de 0,9, le modèle prédit la classe positive. Si la valeur brute est de 0,7, le modèle prédit la classe négative.

Le choix du seuil de classification influence fortement le nombre de faux positifs et de faux négatifs.

ensemble de données avec déséquilibre des classes

#fundamentals

Ensemble de données pour un problème de classification dans lequel le nombre total d'étiquettes de chaque classe diffère considérablement. Prenons l'exemple d'un ensemble de données de classification binaire dont les deux étiquettes sont réparties comme suit:

  • 1 000 000 d'étiquettes négatives
  • 10 étiquettes positives

Le ratio d'étiquettes négatives et positives est de 100 000 pour 1. Il s'agit donc d'un ensemble de données avec déséquilibre des classes.

En revanche, l'ensemble de données suivant n'est pas déséquilibré, car le ratio entre étiquettes négatives et positives est relativement proche de 1:

  • 517 libellés négatifs
  • 483 libellés positifs

Les ensembles de données à classes multiples peuvent également être déséquilibrés. Par exemple, l'ensemble de données de classification à classes multiples suivant est également déséquilibré, car l'une des étiquettes comporte beaucoup plus d'exemples que les deux autres:

  • 1 000 000 étiquettes de classe "verte"
  • 200 étiquettes de couleur violette
  • 350 étiquettes avec la classe "orange"

Voir aussi entropie, classe principale et classe minoritaire.

rognage

#fundamentals

Technique de gestion des anomalies en effectuant l'une des opérations suivantes ou les deux:

  • Diminuer les valeurs des caractéristiques supérieures à un seuil maximal à ce seuil maximal.
  • Augmenter les valeurs de caractéristiques qui sont inférieures à un seuil minimal par rapport à ce seuil minimal

Par exemple, supposons que <0,5% des valeurs pour une caractéristique particulière se situent en dehors de la plage 40–60. Dans ce cas, vous pouvez procéder comme suit:

  • Fait passer toutes les valeurs supérieures à 60 (seuil maximal) pour qu'elles soient exactement égales à 60.
  • Toutes les valeurs inférieures à 40 (le seuil minimal) doivent être exactement égales à 40.

Les anomalies peuvent endommager les modèles, ce qui entraîne parfois un dépassement de pondérations pendant l'entraînement. Certaines anomalies peuvent également gâcher les métriques telles que la précision. Le rognage est une technique courante pour limiter les dommages.

L'option Clip dégradé force les valeurs de gradient dans une plage désignée pendant l'entraînement.

Matrice de confusion

#fundamentals

Une table NxN qui résume le nombre de prédictions correctes et incorrectes effectuées par un modèle de classification. Prenons l'exemple de la matrice de confusion suivante pour un modèle de classification binaire:

Tumeur (prédiction) Sans tumeur (prédiction)
Tumeur (vérité terrain) 18 (VP) 1 (FP)
Non-Tumor (vérité terrain) 6 (FN) 452 (VN)

La matrice de confusion ci-dessus indique les éléments suivants:

  • Sur les 19 prédictions pour lesquelles la vérité terrain était Tumor, le modèle a correctement classé 18 et le classification incorrecte 1.
  • Sur les 458 prédictions pour lesquelles la vérité terrain était "Non-Tumor", le modèle a correctement classé 452 et incorrectement la classification 6.

La matrice de confusion pour un problème de classification à classes multiples peut vous aider à identifier des modèles d'erreurs. Prenons l'exemple de la matrice de confusion suivante pour un modèle de classification à classes multiples à trois classes qui classe trois types d'iris différents (Virginica, Versicolor et Setosa). Lorsque la vérité terrain était Virginica, la matrice de confusion indique que le modèle était beaucoup plus susceptible de prédire à tort Versicolor que Setosa:

  Setosa (prédiction) Versicolor (prédiction) Virginie (prédiction)
Setosa (vérité terrain) 88 12 0
Versicolor (vérité terrain) 6 141 7
Virginie (vérité terrain) 2 27 109

Autre exemple : une matrice de confusion peut révéler qu'un modèle entraîné à reconnaître des chiffres manuscrits a tendance à prédire par erreur 9 au lieu de 4, ou bien par erreur 1 au lieu de 7.

Les matrices de confusion contiennent suffisamment d'informations pour calculer diverses métriques de performances, y compris précision et rappel.

caractéristique continue

#fundamentals

Caractéristique à virgule flottante avec une plage infinie de valeurs possibles, telles que la température ou la pondération.

À comparer à la fonctionnalité discrète.

convergence

#fundamentals

État atteint lorsque les valeurs de loss changent très peu, voire pas du tout, à chaque itération. Par exemple, la courbe de perte suivante suggère une convergence vers environ 700 itérations:

Intrigue cartésienne. L&#39;axe des abscisses représente la perte. L&#39;axe des ordonnées correspond au nombre d&#39;itérations d&#39;entraînement. La perte est très élevée lors des premières itérations, mais chute considérablement. Après environ 100 itérations, la perte diminue toujours, mais beaucoup plus progressivement. Après environ 700 itérations, la perte reste stable.

Un modèle converge lorsqu'un entraînement supplémentaire ne l'améliore pas.

Dans le deep learning, les valeurs de perte restent parfois constantes ou presque pendant de nombreuses itérations avant de finir par baisser. Pendant une longue période avec des valeurs de perte constante, vous pouvez temporairement avoir le sentiment de convergence.

Consultez également la section Arrêt prématuré.

D

DataFrame

#fundamentals

Type de données pandas populaire permettant de représenter des ensembles de données en mémoire.

Un DataFrame est comparable à un tableau ou une feuille de calcul. Chaque colonne d'un DataFrame possède un nom (un en-tête), et chaque ligne est identifiée par un numéro unique.

Chaque colonne d'un DataFrame est structurée comme un tableau 2D, sauf que chaque colonne peut se voir attribuer son propre type de données.

Consultez également la page de référence officielle pandas.DataFrame.

ensemble de données ou ensemble de données

#fundamentals

Ensemble de données brutes, généralement (mais pas exclusivement) organisées dans l'un des formats suivants:

  • une feuille de calcul
  • Un fichier au format CSV (valeurs séparées par une virgule)

modèle profond

#fundamentals

Réseau de neurones contenant plusieurs couches cachées.

Un modèle profond est également appelé réseau de neurones profond.

À comparer au modèle large.

caractéristique dense

#fundamentals

Caractéristique dans laquelle la plupart ou la totalité des valeurs ne sont pas nulles, généralement un Tensor de valeurs à virgule flottante. Par exemple, le Tensor à 10 éléments suivant est dense, car neuf de ses valeurs sont non nulles:

8 3 7 5 2 4 0 4 9 6

À comparer à la caractéristique creuse.

depth

#fundamentals

Somme des éléments suivants dans un réseau de neurones:

Par exemple, un réseau de neurones avec cinq couches cachées et une couche de sortie a une profondeur de 6.

Notez que la couche d'entrée n'a pas d'incidence sur la profondeur.

caractéristique discrète

#fundamentals

Caractéristique avec un ensemble fini de valeurs possibles. Par exemple, une caractéristique dont les valeurs peuvent être uniquement animal, légume ou minéral est une caractéristique discrète (ou catégorielle).

À comparer à la caractéristique continue.

dynamique

#fundamentals

Action fréquente ou continue Les termes dynamique et en ligne sont des synonymes du machine learning. Voici quelques utilisations courantes des technologies dynamiques et en ligne pour le machine learning:

  • Un modèle dynamique (ou modèle en ligne) est un modèle qui est entraîné régulièrement ou de manière continue.
  • L'entraînement dynamique (ou entraînement en ligne) est un processus d'entraînement fréquent ou continu.
  • L'inférence dynamique (ou inférence en ligne) est le processus qui permet de générer des prédictions à la demande.

modèle dynamique

#fundamentals

Modèle qui est fréquemment entraîné (peut-être de manière continue). Un modèle dynamique est un "apprenant tout au long de sa vie" qui s'adapte en permanence à l'évolution des données. Un modèle dynamique est également appelé modèle en ligne.

À comparer au modèle statique.

E

arrêt prématuré

#fundamentals

Méthode de régularisation impliquant l'arrêt de l'entraînement avant la fin de la perte de l'entraînement. Dans un premier temps, vous arrêtez intentionnellement d'entraîner le modèle lorsque la perte sur un ensemble de données de validation commence à augmenter, c'est-à-dire lorsque les performances de la généralisation s'aggravent.

couche de représentation vectorielle continue

#language
#fundamentals

Couche cachée spéciale qui s'entraîne sur une caractéristique catégorielle de grande dimension pour apprendre progressivement un vecteur de représentation vectorielle continue de dimension inférieure. Une couche de représentation vectorielle continue permet à un réseau de neurones de s'entraîner bien plus efficacement que si l'entraînement s'effectuait uniquement sur la caractéristique catégorielle à grande dimension.

Par exemple, la Terre abrite actuellement environ 73 000 espèces d'arbres. Supposons que les espèces d'arbres constituent une caractéristique de votre modèle. Par conséquent, la couche d'entrée de votre modèle comprend un vecteur one-hot de 73 000 éléments. Par exemple, baobab pourrait être représenté comme suit:

Tableau de 73 000 éléments. Les 6 232 premiers éléments contiennent la valeur 0. L&#39;élément suivant contient la valeur 1. Les 66 767 éléments finaux contiennent la valeur zéro.

Un tableau de 73 000 éléments est très long. Si vous n'ajoutez pas de couche de représentations vectorielles continues au modèle, l'entraînement prendra beaucoup de temps en raison de la multiplication de 72 999 zéros. Vous choisirez peut-être la couche de représentations vectorielles continues composée de 12 dimensions. Par conséquent, la couche de représentations vectorielles continues apprendra progressivement un nouveau vecteur de représentation vectorielle continue pour chaque espèce d'arbre.

Dans certains cas, le hachage est une alternative raisonnable à une couche de représentations vectorielles continues.

epoch

#fundamentals

Un parcours d'entraînement complet sur l'intégralité de l'ensemble d'entraînement de sorte que chaque exemple ait été traité une fois.

Une époque représente les itérations d'entraînement N/taille de lot, où N correspond au nombre total d'exemples.

Par exemple:

  • L'ensemble de données comprend 1 000 exemples.
  • La taille de lot est de 50 exemples.

Par conséquent, une époque unique nécessite 20 itérations:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

exemple

#fundamentals

Valeurs d'une ligne de features et éventuellement d'une étiquette. Les exemples d'apprentissage supervisé appartiennent à deux catégories générales:

  • Un exemple étiqueté comprend une ou plusieurs caractéristiques, ainsi qu'une étiquette. Des exemples étiquetés sont utilisés lors de l'entraînement.
  • Un exemple sans étiquette comprend une ou plusieurs caractéristiques, mais pas d'étiquette. Des exemples sans étiquette sont utilisés lors de l'inférence.

Par exemple, supposons que vous entraîniez un modèle pour déterminer l'influence des conditions météorologiques sur les résultats des examens des élèves. Voici trois exemples étiquetés:

Fonctionnalités Libellé
Température Humidité Pression Score de test
15 47 998 Satisfaisantes
19 34 1020 Excellent
18 92 1012 Médiocre

Voici trois exemples sans étiquette:

Température Humidité Pression  
12 62 1014  
21 47 1017  
19 41 1021  

La ligne d'un ensemble de données est généralement la source brute d'un exemple. En d'autres termes, un exemple se compose généralement d'un sous-ensemble des colonnes de l'ensemble de données. En outre, les caractéristiques d'un exemple peuvent également inclure des caractéristiques synthétiques, telles que des croisements de caractéristiques.

F

faux négatif (FN)

#fundamentals

Exemple dans lequel le modèle prédit par erreur la classe négative. Par exemple, le modèle prédit qu'un e-mail particulier n'est pas du spam (la classe négative), mais cet e-mail est en réalité du spam.

faux positif (FP)

#fundamentals

Exemple dans lequel le modèle prédit par erreur la classe positive. Par exemple, le modèle prédit qu'un e-mail particulier est du spam (la classe positive), mais qu'il n'est en réalité pas du spam.

taux de faux positifs

#fundamentals

Proportion d'exemples négatifs réels pour lesquels le modèle a prédit à tort la classe positive. La formule suivante calcule le taux de faux positifs:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Le taux de faux positifs correspond à l'axe des abscisses d'une courbe ROC.

fonctionnalité

#fundamentals

Variable d'entrée pour un modèle de machine learning. Un exemple comprend une ou plusieurs caractéristiques. Par exemple, supposons que vous entraîniez un modèle afin de déterminer l'influence des conditions météorologiques sur les résultats des étudiants. Le tableau suivant présente trois exemples, chacun contenant trois caractéristiques et une étiquette:

Fonctionnalités Libellé
Température Humidité Pression Score de test
15 47 998 92
19 34 1020 84
18 92 1012 87

À comparer au libellé.

croisement de caractéristiques

#fundamentals

Caractéristique synthétique formée par des croisements par catégorie ou par buckets.

Prenons l'exemple d'un modèle de "prévision de l'humeur" qui représente la température dans l'un des quatre segments suivants:

  • freezing
  • chilly
  • temperate
  • warm

Elle représente la vitesse du vent dans l'un des trois segments suivants:

  • still
  • light
  • windy

Sans croisements de caractéristiques, le modèle linéaire s'entraîne indépendamment sur chacun des sept buckets précédents. Ainsi, le modèle s'entraîne par exemple sur freezing indépendamment de l'entraînement, par exemple sur windy.

Vous pouvez également créer un croisement de caractéristiques de température et de vitesse du vent. Cette caractéristique synthétique pourrait avoir les 12 valeurs suivantes:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Grâce aux croisements de caractéristiques, le modèle peut apprendre des différences d'humeur entre freezing-windy jour et freezing-still jour.

Si vous créez une caractéristique synthétique à partir de deux caractéristiques comportant chacune un grand nombre de buckets différents, le croisement de caractéristiques obtenu présentera un grand nombre de combinaisons possibles. Par exemple, si une caractéristique comporte 1 000 buckets et l'autre 2 000 buckets, le croisement de caractéristiques obtenu comprend 2 000 000 buckets.

Officiellement, une croix est un produit cartésien.

Les croisements de caractéristiques sont principalement utilisés avec des modèles linéaires et sont rarement utilisés avec des réseaux de neurones.

extraction de caractéristiques

#fundamentals
#TensorFlow

Ce processus comprend les étapes suivantes:

  1. Déterminer les caractéristiques qui pourraient être utiles pour l'entraînement d'un modèle
  2. Convertir les données brutes de l'ensemble de données en versions efficaces de ces caractéristiques

Par exemple, vous pouvez considérer que temperature peut être une fonctionnalité utile. Vous pouvez ensuite tester le binning pour optimiser ce que le modèle peut apprendre à partir de différentes plages temperature.

L'extraction de caractéristiques est parfois appelée extraction de caractéristiques.

ensemble de fonctionnalités

#fundamentals

Groupe de caractéristiques sur lesquelles s'entraîne votre modèle de machine learning. Par exemple, le code postal, la taille et l'état d'une propriété peuvent constituer un ensemble de caractéristiques simple pour un modèle prédisant le prix des logements.

vecteur de caractéristiques

#fundamentals

Tableau de valeurs feature comprenant un exemple. Le vecteur de caractéristiques est saisi pendant l'entraînement et pendant l'inférence. Par exemple, le vecteur de caractéristiques d'un modèle comportant deux caractéristiques distinctes peut être:

[0.92, 0.56]

Quatre couches: une couche d&#39;entrée, deux couches cachées et une couche de sortie.
          La couche d&#39;entrée contient deux nœuds, l&#39;un contenant la valeur 0,92 et l&#39;autre la valeur 0,56.

Chaque exemple fournit des valeurs différentes pour le vecteur de caractéristiques. Le vecteur de caractéristiques pour l'exemple suivant peut donc être semblable à ceci:

[0.73, 0.49]

L'extraction de caractéristiques détermine comment représenter les caractéristiques dans le vecteur. Par exemple, une caractéristique catégorielle binaire avec cinq valeurs possibles peut être représentée par un encodage one-hot. Dans ce cas, la partie du vecteur de caractéristiques pour un exemple particulier se compose de quatre zéros et d'un seul 1,0 en troisième position, comme suit:

[0.0, 0.0, 1.0, 0.0, 0.0]

Supposons maintenant que votre modèle comporte trois caractéristiques:

  • Une caractéristique catégorielle binaire avec cinq valeurs possibles représentées par un encodage one-hot. Exemple : [0.0, 1.0, 0.0, 0.0, 0.0]
  • Une autre caractéristique catégorielle binaire avec trois valeurs possibles représentées par un encodage one-hot. Exemple : [0.0, 0.0, 1.0]
  • une caractéristique à virgule flottante ; par exemple: 8.3.

Dans ce cas, le vecteur de caractéristiques pour chaque exemple serait représenté par 9 valeurs. Compte tenu des exemples de valeurs de la liste précédente, le vecteur de caractéristiques serait:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

boucle de rétroaction

#fundamentals

En machine learning, une situation dans laquelle les prédictions d'un modèle influencent les données d'entraînement du même modèle ou d'un autre modèle. Par exemple, un modèle qui recommande des films influencera les films que les gens regardent, ce qui aura un impact sur les modèles de recommandations de films suivants.

G

généralisation

#fundamentals

Capacité de modèle à effectuer des prédictions correctes sur de nouvelles données qui n'étaient pas visibles précédemment. Un modèle qui peut être généralisé est l'opposé d'un modèle qui est surapprentissage.

courbe de généralisation

#fundamentals

Représentation graphique de la perte d'entraînement et de la perte de validation en fonction du nombre d'itérations

Une courbe de généralisation peut vous aider à détecter un possible surapprentissage. Par exemple, la courbe de généralisation suivante suggère un surapprentissage, car la perte de validation finit par être considérablement plus élevée que la perte d'entraînement.

Graphique cartésien dans lequel l&#39;axe des ordonnées est étiqueté &quot;loss&quot; et &quot;loss&x39&quot; et l&#39;axe des abscisses est étiqueté &quot;&#39;itérations&#39;&quot;. Deux graphiques s&#39;affichent. Un graphique représente la perte d&#39;entraînement et l&#39;autre la perte de validation.
          Les deux graphiques démarrent de la même manière, mais la perte d&#39;entraînement finit par chuter beaucoup plus bas que la perte de validation.

descente de gradient

#fundamentals

Technique mathématique permettant de minimiser la perte. La descente de gradient ajuste de manière itérative les pondérations et les biais afin de trouver progressivement la meilleure combinaison pour minimiser la perte.

La descente de gradient est plus ancienne (et beaucoup plus ancienne) que le machine learning.

vérité terrain

#fundamentals

La réalité.

Ce qui s'est passé.

Prenons l'exemple d'un modèle de classification binaire qui prédit si un étudiant de la première année d'université aura un diplôme d'ici six ans. Pour ce modèle, la vérité terrain est de savoir si l'étudiant a effectivement obtenu son diplôme dans les six ans.

H

couche cachée

#fundamentals

Couche d'un réseau de neurones entre la couche d'entrée (les caractéristiques) et la couche de sortie (la prédiction). Chaque couche cachée comprend un ou plusieurs neurones. Par exemple, le réseau de neurones suivant contient deux couches cachées : la première avec trois neurones et la seconde avec deux neurones :

Quatre couches. La première couche est une couche d&#39;entrée contenant deux caractéristiques. La deuxième couche est une couche cachée contenant trois neurones. La troisième couche est une couche cachée contenant deux neurones. La quatrième couche est une couche de sortie. Chaque caractéristique contient trois arêtes, chacune pointant vers un neurone différent de la deuxième couche. Chacun des neurones de la deuxième couche contient deux arêtes, chacune pointant vers un neurone différent de la troisième couche. Chacun des neurones de la troisième couche contient un bord, chacun pointant vers la couche de sortie.

Un réseau de neurones profond contient plusieurs couches cachées. Par exemple, l'illustration précédente est celle d'un réseau de neurones profond, car le modèle contient deux couches cachées.

hyperparamètre

#fundamentals

Les variables que vous ou un service de réglage des hyperparamètress'ajustent lors des exécutions successives de l'entraînement d'un modèle. Par exemple, taux d'apprentissage est un hyperparamètre. Vous pouvez définir le taux d'apprentissage sur 0,01 avant une session d'entraînement. Si vous déterminez que 0,01 est trop élevé, vous pouvez peut-être définir le taux d'apprentissage sur 0,003 pour la prochaine session d'entraînement.

En revanche, les paramètres correspondent aux différentes pondérations et biais que le modèle apprend pendant l'entraînement.

I

Répartition indépendante et identique (i.i.d)

#fundamentals

Les données tirées d'une distribution ne change pas, et chaque valeur tirée ne dépend pas des valeurs tirées précédemment. Un iid est le gaz parfait du machine learning : c'est une construction mathématique utile qui ne se rencontre quasiment jamais à l'identique dans le monde réel. Par exemple, la répartition des visiteurs d'une page Web peut être iid sur une courte période, c'est-à-dire qu'elle ne change pas pendant cette courte fenêtre et que la visite d'une personne est généralement indépendante de la visite d'une autre. Toutefois, si vous étendez cette période, des différences saisonnières peuvent se produire au niveau de la page Web.

Consultez également l'article Nonstationarity.

inférence

#fundamentals

En machine learning, le processus de prédiction consiste à appliquer un modèle entraîné à des exemples sans étiquette.

L'inférence a une signification légèrement différente dans les statistiques. Pour en savoir plus, consultez l'article Wikipédia sur l'inférence statistique.

couche d'entrée

#fundamentals

Couche d'un réseau de neurones contenant le vecteur de caractéristiques. Autrement dit, la couche d'entrée fournit des exemples pour l'entraînement ou l'inférence. Par exemple, la couche d'entrée du réseau de neurones suivant comporte deux caractéristiques:

Quatre couches: une couche d&#39;entrée, deux couches cachées et une couche de sortie.

interprétabilité

#fundamentals

Capacité à expliquer ou à présenter un modèle de ML sous une forme compréhensible à un être humain.

La plupart des modèles de régression linéaire, par exemple, sont hautement interprétables. (Il vous suffit de consulter les pondérations entraînées pour chaque caractéristique.) Les forêts de décision sont également très interprétables. Toutefois, certains modèles nécessitent une visualisation sophistiquée pour devenir interprétables.

itération

#fundamentals

Mise à jour unique des paramètres d'un modèle (pondérations et biais du modèle) pendant l'entraînement. La taille de lot détermine le nombre d'exemples traités par le modèle en une seule itération. Par exemple, si la taille de lot est de 20, le modèle traite 20 exemples avant d'ajuster les paramètres.

Lors de l'entraînement d'un réseau de neurones, une seule itération implique les deux passes suivantes:

  1. Une propagation avant pour évaluer la perte sur un seul lot.
  2. Une rétropropagation (backpropagation) pour ajuster les paramètres du modèle en fonction de la perte et du taux d'apprentissage.

L

Régularisation L0

#fundamentals

Type de régularisation qui pénalise le nombre total de pondérations non nulles dans un modèle. Par exemple, un modèle ayant 11 pondérations non nulles serait pénalisé davantage qu'un modèle similaire n'en ayant que 10.

La régularisation L0 est rarement utilisée.

Perte L1

#fundamentals

Fonction de perte qui calcule la valeur absolue de la différence entre les valeurs réelles d'un libellé et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L1 pour un lot de cinq exemples:

Valeur réelle de l'exemple Valeur prédite du modèle Valeur absolue de delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perte L1

La perte L1 est moins sensible aux anomalies que la perte L2.

L'erreur absolue moyennecorrespond à la perte moyenne1par exemple.

Régularisation L1

#fundamentals

Type de régularisation qui pénalise les pondérations proportionnellement à la somme de la valeur absolue des pondérations. La régularisation L1 permet de définir les pondérations des caractéristiques non pertinentes ou à peine pertinentes sur exactement zéro. Une caractéristique ayant une pondération de 0 est supprimée du modèle.

À comparer à la L2régularisation.

Perte L2

#fundamentals

Fonction de perte qui calcule le carré de la différence entre les valeurs réelles de l'étiquette et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L2 pour un lot de cinq exemples :

Valeur réelle de l'exemple Valeur prédite du modèle Carré de delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perte L2

En raison de la mise au carré, la perte de L2 amplifie l'influence des anomalies. Autrement dit, la perte L2 réagit plus fortement aux prédictions incorrectes que la L1perte. Par exemple, la perte L1 pour le lot précédent serait de 8, et non de 16. Notez qu'une seule anomalie représente 9 des 16 éléments.

Les modèles de régression utilisent généralement la perte L2 comme fonction de perte.

L'erreur quadratique moyenne correspond à la perte moyenne L2 par exemple. Perte quadratique est un autre nom désignant la perte L2.

Régularisation L2

#fundamentals

Type de régularisation qui pénalise les pondérations proportionnellement à la somme des carrés des pondérations. La régularisation L2 permet de rapprocher les pondérations aberrantes (celles dont les valeurs sont positives ou négatives) de 0 mais pas de celles de 0. Les caractéristiques dont les valeurs sont très proches de 0 restent dans le modèle, mais n'influencent pas beaucoup la prédiction du modèle.

La régularisation L2 améliore toujours la généralisation des modèles linéaires.

À comparer à la régularisation L1.

étiquette

#fundamentals

Dans le cadre du machine learning supervisé, la partie "answer" ou "résultat" d'un exemple.

Chaque exemple étiqueté comprend une ou plusieurs caractéristiques et une étiquette. Par exemple, dans un ensemble de données de détection de spam, le libellé serait probablement "spam" ou "non spam". Dans un ensemble de données pluvieux, l'étiquette peut correspondre à la quantité de pluies tombées pendant une certaine période.

exemple étiqueté

#fundamentals

Exemple contenant une ou plusieurs caractéristiques et un libellé. Par exemple, le tableau suivant présente trois exemples étiquetés d'un modèle de valorisation immobilière, chacun avec trois caractéristiques et une étiquette:

Nombre de chambres Nombre de salles de bain Âge de la maison Prix du logement (libellé)
3 2 15 345 000 $
2 1 72 179 000 $
4 2 34 392 000 $

Dans le machine learning supervisé, les modèles s'entraînent à partir d'exemples étiquetés et effectuent des prédictions sur des exemples sans étiquette.

Comparer des exemples étiquetés à des exemples sans étiquette.

Lambda

#fundamentals

Synonyme de taux de régularisation.

Lambda est un terme surchargé. Ici, nous nous concentrons sur la définition du terme dans le cadre de la régularisation.

cachée)

#fundamentals

Ensemble de neurones dans un réseau de neurones. Il existe trois types de couches courants:

Par exemple, l'illustration suivante montre un réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie:

Réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une couche de sortie. La couche d&#39;entrée comprend deux caractéristiques. La première couche cachée se compose de trois neurones et la deuxième couche cachée se compose de deux neurones. La couche de sortie se compose d&#39;un seul nœud.

Dans TensorFlow, les couches sont également des fonctions Python qui acceptent les Tensors et les options de configuration en entrée et produisent d'autres Tensors en sortie.

taux d'apprentissage

#fundamentals

Nombre à virgule flottante indiquant à l'algorithme la descente de gradient à quel point ajuster les pondérations et les biais à chaque itération. Par exemple, un taux d'apprentissage de 0,3 ajusterait les pondérations et les biais trois fois plus efficacement qu'un taux d'apprentissage de 0,1.

Le taux d'apprentissage est un hyperparamètre clé. Si vous définissez un taux d'apprentissage trop faible, l'entraînement prend trop de temps. Si vous définissez un taux d'apprentissage trop élevé, la descente de gradient rencontre souvent des difficultés pour atteindre la convergence.

modèle linéaire

#fundamentals

Modèle qui attribue une pondération par caractéristique pour effectuer des prédictions. Les modèles linéaires intègrent également des biais. En revanche, la relation entre les caractéristiques et les prédictions dans les modèles profonds est généralement non linéaire.

Les modèles linéaires sont généralement plus faciles à entraîner et plus interprétables que les modèles profonds. Toutefois, les modèles profonds peuvent apprendre des relations complexes entre les caractéristiques.

La régression linéaire et la régression logistique sont deux types de modèles linéaires.

linear

#fundamentals

Relation entre deux variables ou plus qui ne peuvent être représentées que par l'addition et la multiplication.

Une courbe linéaire est un graphique linéaire.

À comparer à la valeur non linéaire.

régression linéaire

#fundamentals

Type de modèle de machine learning dans lequel les deux conditions suivantes sont remplies:

  • Le modèle est un modèle linéaire.
  • La prédiction est une valeur à virgule flottante. (Il s'agit de la partie de régression de la régression linéaire.)

Comparez la régression linéaire à la régression logistique. Vous pouvez également comparer la régression avec la classification.

régression logistique

#fundamentals

Type de modèle de régression qui prédit une probabilité. Les modèles de régression logistique présentent les caractéristiques suivantes:

  • L'étiquette est catégorielle. Le terme "régression logistique" fait généralement référence à la régression logistique binaire, c'est-à-dire à un modèle qui calcule les probabilités pour les étiquettes ayant deux valeurs possibles. Une variante moins courante, la régression logistique multinomiale, calcule les probabilités pour les étiquettes ayant plus de deux valeurs possibles.
  • La fonction de perte pendant l'entraînement est Perte logistique. (Plusieurs unités de perte de journal peuvent être placées en parallèle pour les étiquettes ayant plus de deux valeurs possibles.)
  • Le modèle présente une architecture linéaire, et non un réseau de neurones profond. Toutefois, le reste de cette définition s'applique également aux modèles profonds qui prédisent les probabilités pour les étiquettes catégorielles.

Prenons l'exemple d'un modèle de régression logistique qui calcule la probabilité qu'un e-mail d'entrée soit indésirable ou non. Lors de l'inférence, supposons que le modèle prédit 0,72. Par conséquent, le modèle estime les éléments suivants:

  • 72% de chances que l'e-mail soit un spam.
  • Il y a 28% de chances que l'e-mail ne soit pas un spam.

Un modèle de régression logistique utilise l'architecture en deux étapes suivante:

  1. Le modèle génère une prédiction brute (y&y) en appliquant une fonction linéaire de caractéristiques d'entrée.
  2. Le modèle utilise cette prédiction brute comme entrée d'une fonction sigmoïde, qui convertit la prédiction brute en une valeur comprise entre 0 et 1 (exclue).

Comme tout modèle de régression, un modèle de régression logistique prédit un nombre. Toutefois, ce nombre fait généralement partie d'un modèle de classification binaire comme suit:

  • Si le nombre prédit est supérieur au seuil de classification, le modèle de classification binaire prédit la classe positive.
  • Si le nombre prédit est inférieur au seuil de classification, le modèle de classification binaire prédit la classe négative.

Perte logistique

#fundamentals

Fonction de perte utilisée en régression logistique binaire.

cotes

#fundamentals

Logarithme des cotes d'un événement donné.

perte

#fundamentals

Lors de l'entraînement d'un modèle supervisé, il s'agit de la mesure de la prédiction d'un modèle par rapport à son étiquette.

Une fonction de perte calcule la perte.

courbe de fonction de perte

#fundamentals

Un graphique de la perte en fonction du nombre d'itérations d'entraînement. Le graphique suivant représente une courbe de fonction de perte typique:

Graphique cartésien de la perte par rapport aux itérations d&#39;entraînement, montrant une baisse rapide de la perte pour les itérations initiales, suivie d&#39;une baisse progressive, puis d&#39;une pente plate pendant les itérations finales.

Les courbes de fonction de perte peuvent vous aider à déterminer quand le modèle est convergent ou surapprentissage.

Les courbes de fonction de perte peuvent tracer tous les types de perte suivants:

Consultez également l'article Courbe de généralisation.

fonction de perte

#fundamentals

Lors de l'entraînement ou des tests, il s'agit d'une fonction mathématique qui calcule la perte sur un lot d'exemples. Une fonction de perte renvoie une perte plus faible pour les modèles qui font de bonnes prédictions que pour ceux qui n'en font pas de bonnes.

L'objectif de l'entraînement est généralement de minimiser la perte renvoyée par une fonction de perte.

Il existe de nombreux types de fonctions de perte. Choisissez la fonction de perte appropriée pour le type de modèle que vous créez. Exemple :

M

machine learning

#fundamentals

Programme ou système qui entraîne un modèle à partir de données d'entrée. Le modèle entraîné peut effectuer des prédictions utiles à partir de nouvelles données (jamais vues auparavant) issues de la même distribution que celle utilisée pour entraîner le modèle.

Le machine learning (apprentissage automatique) fait également référence au domaine d'études concerné par ces programmes ou systèmes.

classe majoritaire

#fundamentals

Étiquette la plus courante dans un ensemble de données avec déséquilibre des classes. Par exemple, avec un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, les étiquettes négatives représentent la classe majoritaire.

À comparer à la classe minoritaire.

mini-lot

#fundamentals

Petit sous-ensemble d'un lot sélectionné aléatoirement et traité dans une itération. La taille de lot d'un mini-lot est généralement comprise entre 10 et 1 000 exemples.

Par exemple, supposons que l'ensemble d'entraînement (le lot complet) contienne 1 000 exemples. Supposons également que vous définissiez la taille de lot de chaque mini-lot sur 20. Par conséquent, chaque itération détermine la perte sur un échantillon aléatoire de 20 000 exemples,puis ajuste les pondérations et les biais en conséquence.

Il est beaucoup plus efficace de calculer la perte sur un mini-lot que sur la perte de tous les exemples du lot complet.

classe minoritaire

#fundamentals

Étiquette la moins courante dans un ensemble de données avec déséquilibre des classes. Par exemple, avec un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, les étiquettes positives représentent la classe minoritaire.

À comparer à la classe principale.

modèle

#fundamentals

En général, toute construction mathématique qui traite les données d'entrée et renvoie des résultats. En d'autres termes, un modèle est l'ensemble des paramètres et de la structure nécessaires à un système pour effectuer des prédictions. Dans le cadre du machine learning supervisé, un modèle utilise un exemple en entrée et déduit une prédiction en sortie. Dans le machine learning supervisé, les modèles diffèrent quelque peu. Exemple :

  • Un modèle de régression linéaire se compose d'un ensemble de pondérations et de biais.
  • Un modèle de réseau de neurones comprend les éléments suivants :
    • Un ensemble de couches cachées, chacune contenant un ou plusieurs neurones.
    • Pondération et biais associés à chaque neurone.
  • Un modèle d'arbre de décision comprend les éléments suivants :
    • Forme de l'arbre, c'est-à-dire le modèle dans lequel les conditions et les feuilles sont connectées.
    • Conditions et départs.

Vous pouvez enregistrer, restaurer ou créer des copies d'un modèle.

Le machine learning non supervisé génère également des modèles, généralement une fonction capable de mapper un exemple d'entrée au cluster le plus approprié.

classification à classes multiples

#fundamentals

En apprentissage supervisé, problème de classification dans lequel l'ensemble de données contient plus de deux classes d'étiquettes. Par exemple, les étiquettes de l'ensemble de données Iris doivent appartenir à l'une des trois classes suivantes:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Un modèle entraîné sur l'ensemble de données Iris qui prédit le type Iris sur de nouveaux exemples effectue une classification à classes multiples.

En revanche, les problèmes de classification qui distinguent exactement deux classes sont des modèles de classification binaires. Par exemple, un modèle de messagerie qui prédit le spam ou le non-spam est un modèle de classification binaire.

Dans les problèmes de clustering, la classification à classes multiples fait référence à plus de deux clusters.

N

classe négative

#fundamentals

Dans la classification binaire, une classe est nommée positive et l'autre est appelée négative. La classe positive correspond à l'élément ou à l'événement testé par le modèle, tandis que la classe négative représente l'autre possibilité. Exemple :

  • La classe négative d'un test médical peut être "pas une tumeur."
  • La classe négative d'un classificateur d'e-mail peut ne pas être du spam.

À comparer à la classe positive.

réseau de neurones

#fundamentals

Modèle contenant au moins une couche cachée. Un réseau de neurones profond est un type de réseau de neurones contenant plusieurs couches cachées. Par exemple, le schéma suivant montre un réseau de neurones profond contenant deux couches cachées.

Réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une couche de sortie.

Chaque neurone d'un réseau de neurones se connecte à tous les nœuds de la couche suivante. Par exemple, dans le diagramme précédent, vous remarquerez que chacun des trois neurones de la première couche cachée se connecte séparément aux deux neurones de la deuxième couche cachée.

Les réseaux de neurones implémentés sur des ordinateurs sont parfois appelés réseaux de neurones artificiels pour les différencier des réseaux de neurones présents dans le cerveau et d'autres systèmes nerveux.

Certains réseaux de neurones peuvent imiter des relations non linéaires extrêmement complexes entre différentes caractéristiques et l'étiquette.

Voir aussi réseau de neurones convolutif et réseau de neurones récurrent.

neurone

#fundamentals

En machine learning, unité distincte au sein d'une couche cachée d'un réseau de neurones. Chaque neurone effectue l'action en deux étapes suivante:

  1. Calcule la somme pondérée des valeurs d'entrée multipliées par la pondération correspondante.
  2. Transmet la somme pondérée en tant qu'entrée à une fonction d'activation.

Un neurone de la première couche cachée accepte les entrées de valeurs de caractéristiques dans la couche d'entrée. Un neurone de n'importe quelle couche cachée au-delà de la première accepte les entrées des neurones de la couche cachée précédente. Par exemple, un neurone de la deuxième couche cachée accepte les entrées des neurones de la première couche cachée.

L'illustration suivante met en évidence deux neurones et leurs entrées.

Réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une couche de sortie. Deux neurones sont mis en évidence: un dans la première couche cachée et un dans la deuxième couche cachée. Le neurone en surbrillance dans la première couche cachée reçoit les entrées des deux caractéristiques dans la couche d&#39;entrée. Le neurone en surbrillance dans la deuxième couche cachée reçoit les entrées de chacun des trois neurones de la première couche cachée.

Un neurone dans un réseau de neurones imite le comportement des neurones dans le cerveau et d'autres parties des systèmes nerveux.

nœud (réseau de neurones)

#fundamentals

neurone dans une couche cachée.

non linéaire

#fundamentals

Relation entre deux variables ou plus qui ne peuvent pas être représentées uniquement par l'addition et la multiplication. Une relation linéaire peut être représentée par une ligne. Une relation non linéaire ne peut pas être représentée par une ligne. Par exemple, considérons deux modèles qui associent chacun une seule caractéristique à une seule étiquette. Le modèle de gauche est linéaire, tandis que celui de droite n'est pas linéaire:

Deux intrigues. Un graphique est une ligne, il s&#39;agit donc d&#39;une relation linéaire.
          L&#39;autre graphique est une courbe, il s&#39;agit donc d&#39;une relation non linéaire.

non-stationarité

#fundamentals

Fonctionnalité dont les valeurs changent pour une ou plusieurs dimensions, généralement le temps. Prenons l'exemple des cas de non-stationnarité suivants:

  • Le nombre de maillots de bain vendus dans un magasin spécifique varie selon la saison.
  • La quantité d'un fruit spécifique récolté dans une région donnée est nulle pendant une grande partie de l'année, mais grande pendant une courte période.
  • En raison du changement climatique, les températures moyennes annuelles changent.

À comparer à la stationarité.

normalisation

#fundamentals

Dans les grandes lignes, le processus de conversion d'une plage de valeurs réelle en variables dans une plage standard de valeurs, par exemple:

  • -1 à +1
  • 0 à 1
  • la distribution normale

Par exemple, supposons que la plage de valeurs réelle d'une certaine caractéristique soit de 800 à 2 400. Lors de l'extraction de caractéristiques, vous pouvez normaliser les valeurs réelles jusqu'à une plage standard, telle que -1 à +1.

La normalisation est une tâche courante dans l'extraction de caractéristiques. Les modèles s'entraînent généralement plus rapidement (et produisent de meilleures prédictions) lorsque chaque caractéristique numérique du vecteur de caractéristiques présente à peu près la même plage.

données numériques

#fundamentals

Caractéristiques représentées par des nombres entiers ou réels. Par exemple, un modèle d'évaluation d'une maison représentera probablement la taille d'une maison (en pieds carrés ou en mètres carrés) sous forme de données numériques. La représentation d'une caractéristique sous forme de données numériques indique que les valeurs de la caractéristique ont une relation mathématique avec l'étiquette. Autrement dit, le nombre de mètres carrés d'une maison a probablement une relation mathématique avec sa valeur.

Les données entières ne doivent pas toutes être représentées par des données numériques. Par exemple, dans certaines régions du monde, les codes postaux sont des entiers. Toutefois, les codes postaux entiers ne doivent pas être représentés par des données numériques dans les modèles. Cela s'explique par le fait que le code postal 20000 n'est pas deux fois plus puissant que le code postal 10000. De plus, bien que différents codes postaux soient en rapport avec différentes valeurs immobilières, nous ne pouvons pas supposer que les valeurs immobilières au code postal 20000 sont deux fois plus intéressantes que celles du code postal 10000. Les codes postaux doivent être représentés par des données catégorielles.

Les caractéristiques numériques sont parfois appelées caractéristiques continues.

O

offline

#fundamentals

Synonyme de static.

inférence hors ligne

#fundamentals

Processus par un modèle générant un lot de prédictions, puis la mise en cache (enregistrement) de ces prédictions. Les applications peuvent ensuite accéder à la prédiction souhaitée à partir du cache au lieu de réexécuter le modèle.

Prenons l'exemple d'un modèle qui génère des prévisions météorologiques locales (prédictions) une fois toutes les quatre heures. Après chaque exécution, le système met en cache toutes les prévisions météorologiques locales. Les applications météorologiques récupèrent les prévisions à partir du cache.

L'inférence hors ligne est également appelée inférence statique.

À comparer à l'inférence en ligne.

Encodage one-hot

#fundamentals

Représenter les données catégorielles sous forme de vecteur dans lequel:

  • Un élément a la valeur 1.
  • Tous les autres éléments sont définis sur 0.

L'encodage one-hot est couramment utilisé pour représenter des chaînes ou des identifiants ayant un ensemble fini de valeurs possibles. Par exemple, supposons qu'une certaine caractéristique catégorielle nommée Scandinavia comporte cinq valeurs possibles:

  • &Danemark
  • "Suède"
  • Norvège
  • "Finlande"
  • "Islande"

L'encodage one-hot peut représenter chacune des cinq valeurs comme suit:

country (pays) Vecteur
&Danemark 1 0 0 0 0
"Suède" 0 1 0 0 0
Norvège 0 0 1 0 0
"Finlande" 0 0 0 1 0
"Islande" 0 0 0 0 1

Grâce à l'encodage one-hot, un modèle peut apprendre différentes connexions en fonction de chacun des cinq pays.

La représentation d'une caractéristique sous forme de données numériques est une alternative à l'encodage one-hot. Malheureusement, représenter numériquement les pays scandinaves n'est pas un bon choix. Prenons l'exemple de la représentation numérique suivante:

  • "Danemark" est 0
  • "Suède" est 1
  • "Norvège" est égal à 2
  • "Finlande" est 3
  • « Islande » est 4

Avec l'encodage numérique, un modèle interprète mathématiquement les nombres bruts et tente d'entraîner ces nombres. Cependant, l'Islande n'est pas deux fois plus (ou moins) deux fois plus intéressante que la Norvège. Le modèle aurait des conclusions étranges.

un contre tous

#fundamentals

Compte tenu d'un problème de classification avec N classes, une solution composée de N classificateurs binaires distincts (un classificateur binaire pour chaque résultat possible). Par exemple, avec un modèle qui classe les exemples comme animaux, légumes ou minéraux, une solution un contre tous fournitrait les trois classificateurs binaires suivants:

  • animal/non animal
  • Légume ou non
  • minéraux vs non minéraux

en ligne

#fundamentals

Synonyme de dynamique.

inférence en ligne

#fundamentals

Générer des prédictions à la demande Par exemple, supposons qu'une application transmet une entrée à un modèle et émet une requête de prédiction. Un système utilisant l'inférence en ligne répond à la requête en exécutant le modèle et en renvoyant la prédiction à l'application.

À comparer à l'inférence hors ligne.

couche de sortie

#fundamentals

Couche finale d'un réseau de neurones. La couche de sortie contient la prédiction.

L'illustration suivante montre un petit réseau de neurones profond avec une couche d'entrée, deux couches cachées et une couche de sortie:

Réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une couche de sortie. La couche d&#39;entrée comprend deux caractéristiques. La première couche cachée se compose de trois neurones et la deuxième couche cachée se compose de deux neurones. La couche de sortie se compose d&#39;un seul nœud.

surapprentissage

#fundamentals

la création d'un modèle correspondant si étroitement aux données d'entraînement est tel qu'il ne parvient pas à effectuer des prédictions correctes sur les nouvelles données ;

La régularisation peut réduire le surapprentissage. L'entraînement sur un vaste ensemble d'appareils diversifiés peut également réduire le surapprentissage.

P

pandas

#fundamentals

API d'analyse de données orientée colonnes basée sur numpy De nombreux frameworks de machine learning, y compris TensorFlow, acceptent les structures de données pandas comme entrées. Pour en savoir plus, consultez la documentation de Pandas.

paramètre

#fundamentals

Pondérations et biais qu'un modèle apprend pendant l'entraînement. Par exemple, dans un modèle de régression linéaire, les paramètres sont constitués du biais (b) et de toutes les pondérations (w1, w2, etc.) dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En revanche, les hyperparamètres sont les valeurs que vous ou un service de rotation des hyperparamètres fournissez au modèle. Par exemple, taux d'apprentissage est un hyperparamètre.

classe positive

#fundamentals

Classe pour laquelle vous effectuez des tests.

Par exemple, la classe positive d'un modèle de cancer peut être "tumeur". La classe positive d'un classificateur d'e-mail pourrait être &qut;spam."

À comparer à la classe négative.

post-traitement

#fairness
#fundamentals

Ajuster la sortie d'un modèle après son exécution Le post-traitement permet d'appliquer des contraintes d'équité sans modifier les modèles eux-mêmes.

Par exemple, vous pouvez appliquer un post-traitement à un classificateur binaire en définissant un seuil de classification de sorte que l'égalité des chances soit maintenue pour un attribut donné, en vérifiant que le taux de vrais positifs est le même pour toutes les valeurs de cet attribut.

prédiction

#fundamentals

Sortie d'un modèle Exemple :

  • La prédiction d'un modèle de classification binaire est soit la classe positive, soit la classe négative.
  • La prédiction d'un modèle de classification à classes multiples est une classe.
  • La prédiction d'un modèle de régression linéaire est un nombre.

étiquettes de proxy

#fundamentals

Les données utilisées pour estimer les étiquettes ne sont pas directement disponibles dans un ensemble de données.

Par exemple, supposons que vous deviez entraîner un modèle pour prédire le niveau de stress des employés. Votre ensemble de données contient un grand nombre de caractéristiques prédictives, mais pas d'étiquette nommée niveau de stress Sans courage, vous choisissez des accidents du travail comme indicateur de niveau de stress. En effet, les employés soumis à un niveau de stress élevé sont confrontés à davantage d'accidents que les employés calmes. Ou ? Peut-être les accidents du travail augmentent-ils pour plusieurs raisons.

Prenons un autre exemple : supposons qu'il va s'agir d'un libellé booléen is it raining? pour votre ensemble de données, mais qu'il ne contient pas de données sur la pluie. Si des photographies sont disponibles, vous pouvez utiliser des photos de personnes portant des parapluies comme étiquette de substitution pour la phrase is it raining?. Est-ce une bonne étiquette de proxy ? C'est possible, mais les populations de certaines cultures sont plus susceptibles de porter des parapluies pour se protéger du soleil plutôt que de la pluie.

Les libellés de proxy sont souvent imparfaits. Si possible, privilégiez les étiquettes réelles aux étiquettes proxy. Cela dit, lorsqu'une étiquette réelle est absente, faites très attention à l'étiquette de proxy et à la moins horrible.

R

évaluateur

#fundamentals

Un humain qui fournit des étiquettes pour les exemples. "Annotator" est un autre nom utilisé pour les évaluateurs.

Unité de rectification linéaire (ReLU)

#fundamentals

Une fonction d'activation avec le comportement suivant:

  • Si l'entrée est négative ou nulle, la sortie est nulle.
  • Si l'entrée est positive, la sortie est égale à l'entrée.

Exemple :

  • Si l'entrée est -3, la sortie est 0.
  • Si l'entrée est +3, la sortie est 3.0.

Voici un graphique de ReLU:

Un graphique cartésien composé de deux lignes. La première ligne a une valeur y constante de 0, qui suit l&#39;axe X de -infinity,0 à 0,-0.
          La deuxième commence à 0,0. Cette ligne a une pente de +1, elle va donc de 0,0 à +infini,+infini.

La fonction ReLU est une fonction d'activation très populaire. Malgré son comportement simple, la fonction ReLU permet à un réseau de neurones d'apprendre les relations non linéaires entre les caractéristiques et l'étiquette.

modèle de régression

#fundamentals

De manière informelle, un modèle qui génère une prédiction numérique. (En revanche, un modèle de classification génère une prédiction de classe.) Par exemple, tous les modèles de régression sont les suivants:

  • Un modèle qui prédit la valeur d'une maison donnée (423 000 euros, par exemple).
  • Un modèle qui prédit l'espérance de vie d'un arbre (23,2 ans, par exemple).
  • Un modèle qui prédit la quantité de pluie prévue dans une ville spécifique au cours des six prochaines heures (par exemple, 0,18 pouce).

Voici deux types de modèles de régression courants:

  • La régression linéaire, qui trouve la ligne qui correspond le mieux aux valeurs de libellé aux caractéristiques.
  • La régression logistique, qui génère une probabilité comprise entre 0,0 et 1,0 qu'un système mappe ensuite sur une prédiction de classe.

Tous les modèles qui génèrent des prédictions numériques ne sont pas tous des modèles de régression. Dans certains cas, une prédiction numérique n'est en réalité qu'un modèle de classification qui a des noms de classe numériques. Par exemple, un modèle qui prédit un code postal numérique est un modèle de classification, et non un modèle de régression.

régularisation

#fundamentals

Tout mécanisme qui réduit le surapprentissage Les types de régularisation les plus courants sont les suivants:

La régularisation peut également être définie comme la pénalité associée à la complexité d'un modèle.

taux de régularisation

#fundamentals

Nombre spécifiant l'importance relative de la régularisation lors de l'entraînement. L'augmentation du taux de régularisation réduit le surapprentissage, mais peut réduire la puissance prédictive du modèle. À l'inverse, la réduction ou l'omission du taux de régularisation augmente le surapprentissage.

ReLU

#fundamentals

Abréviation de unité de rectification linéaire.

Courbe ROC (Receiver Operating Characteristic)

#fundamentals

Graphique entre le taux de vrais positifs et le taux de faux positifs pour différents seuils de classification dans la classification binaire.

La forme d'une courbe ROC suggère un modèle de classification binaire capable de séparer les classes positives et négatives. Supposons, par exemple, qu'un modèle de classification binaire sépare parfaitement toutes les classes négatives de toutes les classes positives:

Une ligne numérique composée de huit exemples positifs à droite et de sept exemples négatifs à gauche.

La courbe ROC du modèle précédent se présente comme suit:

Une courbe ROC L&#39;axe des abscisses correspond au taux de faux positifs, tandis que l&#39;axe des ordonnées correspond au taux de vrais positifs. La courbe présente une forme de L inversé. La courbe commence à (0.0,0.0) et monte directement à (0.0,1.0). La courbe passe ensuite de (0,0,1,0) à (1,0,1,0).

À l'inverse, l'illustration suivante illustre les valeurs de régression logistique brutes pour un modèle terrible qui ne peut pas séparer les classes négatives des classes positives:

Ligne de nombres contenant des exemples positifs et des classes négatives complètement mélangées.

La courbe ROC pour ce modèle se présente comme suit:

Une courbe ROC, qui est en réalité une ligne droite allant de (0.0,0.0) à (1.0,1.0).

Dans le monde réel, la plupart des modèles de classification binaire séparent les classes positives et négatives dans une certaine mesure, mais pas toujours parfaitement. Ainsi, une courbe ROC typique se situe entre les deux extrêmes:

Une courbe ROC L&#39;axe des abscisses correspond au taux de faux positifs, tandis que l&#39;axe des ordonnées correspond au taux de vrais positifs. La courbe ROC correspond approximativement à un arc saccadé qui traverse les points de la boussole, d&#39;ouest en nord.

Le point d'une courbe ROC la plus proche de (0,0,1,0) identifie théoriquement le seuil de classification idéal. Cependant, plusieurs autres problèmes concrets ont une incidence sur la sélection du seuil de classification idéal. Par exemple, les faux négatifs peuvent causer beaucoup plus de douleur que les faux positifs.

Une métrique numérique appelée AUC résume la courbe ROC en une seule valeur à virgule flottante.

la racine carrée de l'erreur quadratique moyenne (RMSE, Root Mean Squared Error)

#fundamentals

Racine carrée de l'erreur quadratique moyenne.

S

fonction sigmoïde

#fundamentals

Fonction mathématique qui écrase une valeur d'entrée dans une plage limitée, généralement de 0 à 1 ou de -1 à +1. Autrement dit, vous pouvez transmettre n'importe quel nombre (deux, un million, un milliard de valeurs négatives, etc.) à une fonction sigmoïde, et le résultat restera dans la plage limitée. Un graphique de la fonction d'activation sigmoïde se présente comme suit:

Un graphique incurvé bidimensionnel dont les valeurs s&#39;étendent du domaine -infini à +positive, tandis que les valeurs Y s&#39;étendent sur une plage allant de 0 à presque 1. Lorsque x est égal à 0, y est égal à 0,5. La pente de la courbe est toujours positive, la pente la plus élevée étant égale à 0,0,5, et la pente diminue progressivement à mesure que la valeur absolue de x augmente.

La fonction sigmoïde a plusieurs utilisations en machine learning:

softmax

#fundamentals

Fonction qui détermine les probabilités pour chaque classe possible dans un modèle de classification à classes multiples. La probabilité totale est de 1,0. Par exemple, le tableau suivant montre comment softmax répartit différentes probabilités:

L'image est un... Probabilité
chien 0,85
cat 0,13
cheval 0,02

Softmax est également appelé softmax complet.

À comparer à l'échantillonnage de candidats.

caractéristique creuse

#language
#fundamentals

Caractéristique dont les valeurs sont pour la plupart nulles ou vides. Par exemple, une caractéristique contenant une seule valeur 1 et un million de valeurs 0 est creuses. En revanche, une caractéristique dense possède des valeurs qui ne sont généralement ni nulles, ni vides.

En machine learning, un nombre surprenant de caractéristiques sont creuses. Les caractéristiques catégorielles sont généralement creuses. Par exemple, parmi les 300 espèces d'arbres disponibles dans une forêt, un seul exemple peut permettre d'identifier un érable. Ou, parmi les millions de vidéos possibles d'une bibliothèque, un seul exemple pourrait correspondre à "Casablanca".

Dans un modèle, vous représentez généralement des caractéristiques creuses avec un encodage one-hot. Si l'encodage one-hot est important, vous pouvez placer une couche de représentation vectorielle continue sur l'encodage one-hot pour plus d'efficacité.

représentation creuse

#language
#fundamentals

Stocker uniquement la ou les positions d'éléments non nuls dans une caractéristique creuse.

Par exemple, supposons qu'une caractéristique catégorielle nommée species identifie les 36 espèces d'arbres d'une forêt particulière. Supposons également que chaque exemple n'identifie qu'une seule espèce.

Vous pouvez utiliser un vecteur one-hot pour représenter les espèces d'arbres dans chaque exemple. Un vecteur one-hot contient une seule valeur 1 (pour représenter l'espèce spécifique d'arbre dans cet exemple) et 35 éléments 0 (pour représenter les 35 espèces d'arbres pas dans cet exemple). Ainsi, la représentation one-hot de maple peut se présenter comme suit:

Vecteur dans lequel les positions 0 à 23 contiennent la valeur 0, la position 24 contient la valeur 1 et les positions 25 à 35 contiennent la valeur 0.

Une représentation creuse devrait simplement identifier la position de chaque espèce. Si maple est à la position 24, la représentation creuse de maple serait simplement:

24

Notez que la représentation creuse est beaucoup plus compacte que la représentation one-hot.

vecteur creux

#fundamentals

Vecteur dont les valeurs sont pour la plupart nulles. Voir aussi caractéristique creuse et parcimonie.

perte quadratique

#fundamentals

Synonyme de L2 perte.

static

#fundamentals

L'action s'effectue une fois plutôt que de manière continue. Les termes statique et hors connexion sont des synonymes. Voici quelques utilisations courantes des technologies statiques et hors connexion dans le domaine du machine learning:

  • Le modèle statique (ou modèle hors connexion) est un modèle entraîné une fois, puis utilisé pendant un certain temps.
  • L'entraînement statique (ou entraînement hors connexion) est le processus qui consiste à entraîner un modèle statique.
  • L'inférence statique (ou inférence hors ligne) est un processus dans lequel un modèle génère un lot de prédictions à la fois.

À comparer à la méthode dynamic.

inférence statique

#fundamentals

Synonyme d'inférence hors ligne.

stationnarité

#fundamentals

Caractéristique dont les valeurs ne changent pas selon une ou plusieurs dimensions, généralement du temps. Par exemple, une caractéristique dont les valeurs sont à peu près identiques en 2020 et 2022 présente une stationnarité.

Dans le monde réel, très peu d'éléments montrent la stationnaire. Même les caractéristiques synonymes de stabilité (comme le niveau de la mer) changent au fil du temps.

À comparer à la nonstationarité.

descente de gradient stochastique (SGD)

#fundamentals

Algorithme de descente de gradient dans lequel la taille de lot est égale à 1. En d'autres termes, la SGD s'entraîne sur un seul exemple choisi de manière uniforme et aléatoire à partir d'un ensemble d'entraînement.

machine learning supervisé

#fundamentals

Entraîner un modèle à partir de caractéristiques et des étiquettes correspondantes Le machine learning supervisé est comparable à l'apprentissage d'un sujet en étudiant un ensemble de questions et les réponses correspondantes. Une fois que le mappage entre les questions et les réponses est terminé, l'élève peut fournir des réponses à de nouvelles questions (jamais vues auparavant) sur le même sujet.

À comparer au machine learning non supervisé.

caractéristique synthétique

#fundamentals

Caractéristique absente des caractéristiques d'entrée, mais assemblée à partir d'une ou plusieurs d'entre elles Les méthodes suivantes permettent de créer des caractéristiques synthétiques:

  • Binning d'une caractéristique continue dans des bacs de plage.
  • Création d'un croisement de caractéristiques
  • Multiplication (ou division) d'une caractéristique par d'autres caractéristiques ou par elle-même Par exemple, si a et b sont des caractéristiques d'entrée, voici des exemples de caractéristiques synthétiques :
    • ab
    • a2.
  • Application d'une fonction transcendantale à une valeur de caractéristique. Par exemple, si c est une caractéristique d'entrée, voici des exemples de caractéristiques synthétiques :
    • sin(c).
    • ln(c).

Les caractéristiques créées en utilisant uniquement la normalisation ou le scaling ne sont pas considérées comme synthétiques.

T

perte d'évaluation

#fundamentals

Métrique représentant la perte d'un modèle par rapport à l'ensemble de test. Lorsque vous créez un modèle, vous essayez généralement de minimiser la perte d'évaluation. Cela est dû au fait qu'une faible perte de test est un signal de meilleure qualité qu'une faible perte d'entraînement ou une faible perte de validation.

Un écart important entre la perte d'évaluation et la perte d'entraînement ou de validation indique parfois que vous devez augmenter le taux de régularisation.

de modèle

#fundamentals

Processus visant à déterminer les paramètres idéaux (pondérations et biais) constituant un modèle. Pendant l'entraînement, un système lit des exemples et ajuste progressivement les paramètres. L'entraînement utilise chaque exemple de quelques fois à des milliards de fois.

perte d'entraînement

#fundamentals

Métrique représentant la perte d'un modèle lors d'une itération d'entraînement particulière. Par exemple, supposons que la fonction de perte soit Erreur quadratique moyenne. La perte d'entraînement (erreur quadratique moyenne) de la 10e itération est peut-être de 2.2, et celle de la 100e itération est de 1.9.

Une courbe de perte représente la perte d'entraînement et le nombre d'itérations. Une courbe de fonction de perte fournit les indices suivants sur l'entraînement:

  • Une pente descendante indique que le modèle s'améliore.
  • Une pente ascendante indique que le modèle s'aggrave.
  • Une pente plate signifie que le modèle a atteint la convergence.

Par exemple, la courbe de perte suivante, qui est quelque peu idéale, montre ce qui suit:

  • Pente abrupte lors des itérations initiales, ce qui implique une amélioration rapide du modèle.
  • Une pente aplatie progressivement (mais toujours en baisse) jusqu'à la fin de l'entraînement, ce qui implique une amélioration continue du modèle à un rythme légèrement plus lent qu'au cours des itérations initiales.
  • Pente plate vers la fin de l'entraînement, qui suggère une convergence.

Représentation graphique des pertes d&#39;entraînement et des itérations. Cette courbe de fonction de perte commence par une pente raide et descendante. La pente s&#39;aplatit progressivement jusqu&#39;à ce qu&#39;elle devienne nulle.

Bien que la perte d'entraînement soit importante, consultez également la section Généralisation.

décalage entraînement/inférence

#fundamentals

Différence entre les performances d'un modèle pendant l'entraînement et celles du même modèle lors de l'inférence.

Ensemble d'entraînement

#fundamentals

Sous-ensemble de l'ensemble de données utilisé pour entraîner un modèle.

Traditionnellement, les exemples de l'ensemble de données sont divisés en trois sous-ensembles distincts:

Idéalement, chaque exemple de l'ensemble de données doit appartenir à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et à l'ensemble de validation.

vrai négatif (VN)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe négative. Par exemple, le modèle déduit qu'un e-mail particulier n'est pas du spam, qui n'est réellement pas du spam.

vrai positif (VP)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe positive. Par exemple, le modèle déduit qu'un e-mail spécifique est un spam, qui est en réalité du spam.

taux de vrais positifs (TPR)

#fundamentals

Synonyme de rappel. Par exemple :

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Le taux de vrais positifs correspond à l'axe Y d'une courbe ROC.

U

sous-apprentissage

#fundamentals

Production d'un modèle avec une mauvaise capacité de prédiction, car le modèle n'a pas pleinement évalué la complexité des données d'entraînement. De nombreux problèmes peuvent entraîner un sous-apprentissage, par exemple:

exemple sans étiquette

#fundamentals

Exemple contenant des caractéristiques, mais pas de libellé. Par exemple, le tableau suivant présente trois exemples sans étiquette d'un modèle de valeur de maison, chacun avec trois caractéristiques, mais sans valeur de maison:

Nombre de chambres Nombre de salles de bain Âge de la maison
3 2 15
2 1 72
4 2 34

Dans le machine learning supervisé, les modèles s'entraînent à partir d'exemples étiquetés et effectuent des prédictions sur des exemples sans étiquette.

Dans l'apprentissage semi-supervisé et non supervisé, des exemples sans étiquette sont utilisés pendant l'entraînement.

Comparez l'exemple sans étiquette avec l'exemple labeled example.

machine learning non supervisé

#clustering
#fundamentals

Entraînement d'un modèle pour détecter des modèles dans un ensemble de données, généralement sans étiquette.

L'utilisation la plus courante du machine learning non supervisé consiste à clusterer les données dans des groupes d'exemples similaires. Par exemple, un algorithme de machine learning non supervisé peut regrouper des titres en fonction de diverses propriétés de la musique. Les clusters obtenus peuvent devenir une entrée pour d'autres algorithmes de machine learning (par exemple, à un service de recommandation de musique). Le clustering peut être utile lorsque les étiquettes utiles sont peu nombreuses ou absentes. Par exemple, dans des domaines tels que la lutte contre les abus et la fraude, les clusters peuvent aider les humains à mieux comprendre les données.

À comparer au machine learning supervisé.

V

validation

#fundamentals

Évaluation initiale de la qualité d'un modèle. La validation vérifie la qualité des prédictions d'un modèle par rapport à l'ensemble de validation.

Étant donné que l'ensemble de validation diffère de l'ensemble d'entraînement, la validation permet d'éviter le surapprentissage.

Vous pouvez considérer l'évaluation du modèle par rapport à l'ensemble de validation comme la première série de tests et l'évaluation par rapport à l'ensemble de test comme la deuxième série de tests.

perte de validation

#fundamentals

Métrique représentant la perte d'un modèle sur l'ensemble de validation au cours d'une itération d'entraînement particulière.

Consultez également l'article Courbe de généralisation.

Ensemble de validation

#fundamentals

Sous-ensemble de l'ensemble de données qui effectue l'évaluation initiale sur un modèle entraîné. En règle générale, vous évaluez plusieurs fois le modèle entraîné par rapport à l'ensemble de validation avant de l'évaluer avec l'ensemble de test.

Traditionnellement, vous divisez les exemples de l'ensemble de données en trois sous-ensembles distincts:

Idéalement, chaque exemple de l'ensemble de données doit appartenir à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et à l'ensemble de validation.

W

weight

#fundamentals

Valeur qu'un modèle multiplie par une autre valeur. L'entraînement est le processus permettant de déterminer les pondérations idéales d'un modèle. L'inférence est le processus qui consiste à utiliser ces pondérations apprises pour effectuer des prédictions.

somme pondérée

#fundamentals

Somme de toutes les valeurs d'entrée pertinentes multipliée par les pondérations correspondantes. Par exemple, supposons que les entrées pertinentes soient composées des éléments suivants:

valeur saisie Pondération de l'entrée
2 -1,3
-1 0,6
3 0,4

La somme pondérée est donc:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Une somme pondérée correspond à l'argument d'entrée d'une fonction d'activation.

Z

Normalisation du score Z

#fundamentals

Technique de mise à l'échelle qui remplace une valeur caractéristique brute par une valeur à virgule flottante représentant le nombre d'écarts types par rapport à cette moyenne. Prenons l'exemple d'une caractéristique dont la moyenne est de 800 et dont l'écart type est de 100. Le tableau suivant montre comment la normalisation du score Z mappe la valeur brute à son score Z:

Valeur brute Score Z
800 0
950 +1,5
575 -2,25

Le modèle de machine learning s'entraîne ensuite sur les scores Z de cette caractéristique plutôt que sur les valeurs brutes.