Cette page a été traduite par l'API Cloud Translation.

Glossaire du machine learning: forêts de décision

Cette page contient les termes du glossaire de Decision Forests. Pour connaître tous les termes du glossaire, cliquez ici.

A

Échantillonnage d'attributs

#df

Stratégie d'entraînement d'une forêt de décision dans laquelle chaque arbre de décision ne prend en compte qu'un sous-ensemble aléatoire des caractéristiques possibles lors de l'apprentissage de la condition. En général, un sous-ensemble différent de fonctionnalités est échantillonné pour chaque nœud. En revanche, lors de l'entraînement d'un arbre de décision sans échantillonnage d'attributs, toutes les caractéristiques possibles sont prises en compte pour chaque nœud.

condition alignée sur l'axe

#df

Dans un arbre de décision, condition ne concernant qu'une seule fonctionnalité. Par exemple, si area est une fonctionnalité, la condition suivante est une condition alignée sur l'axe:

area > 200

À comparer à la condition oblique.

B

bagging

#df

Méthode permettant d'entraîner un ensemble, où chaque modèle constituant s'entraîne sur un sous-ensemble aléatoire d'exemples d'entraînement échantillonnés avec remplacement. Par exemple, une forêt d'arbres décisionnels est une collection d'arbres de décision entraînés avec le bagging.

Le terme bagging est l'abréviation de bootstrap aggregating.

Pour en savoir plus, consultez la section Forêts d'arbres aléatoires du cours "Forêts d'arbres décisionnels".

condition binaire

#df

Dans un arbre de décision, condition qui n'a que deux résultats possibles, généralement oui ou non. Par exemple, la condition suivante est une condition binaire:

temperature >= 100

À comparer à la condition non binaire.

Pour en savoir plus, consultez la section Types de conditions du cours sur les forêts décisionnelles.

C

état

#df

Dans un arbre de décision, tout nœud qui évalue une expression. Par exemple, la partie suivante d'un arbre de décision contient deux conditions:

Arbre de décision composé de deux conditions: (x > 0) et (y > 0).

Une condition est également appelée "split" ou "test".

Condition de contraste avec la feuille.

Voir également :

condition binaire
condition non binaire.
condition-alignée-sur-l'axe
condition-oblique

Pour en savoir plus, consultez la section Types de conditions du cours sur les forêts décisionnelles.

D

forêt de décision

#df

Modèle créé à partir de plusieurs arbres de décision. Une forêt de décision effectue une prédiction en agrégation des prédictions de ses arbres de décision. Parmi les types de forêts d'arbres décisionnels populaires, citons les forêts aléatoires et les arbres de décision à boosting de gradient.

Pour en savoir plus, consultez la section Forêts de décision du cours sur les forêts de décision.

arbre de décision

#df

Modèle d'apprentissage supervisé composé d'un ensemble de conditions et de feuilles organisées hiérarchiquement. Voici un exemple d'arbre de décision:

Arbre de décision composé de quatre conditions disposées hiérarchiquement, qui mènent à cinq feuilles.

E

entropie

#df

#Metric

Dans la théorie de l'information, description de l'imprévisibilité d'une distribution de probabilité. L'entropie est également définie comme la quantité d'informations contenue dans chaque exemple. Une distribution a l'entropie la plus élevée possible lorsque toutes les valeurs d'une variable aléatoire sont également probables.

L'entropie d'un ensemble avec deux valeurs possibles, "0" et "1" (par exemple, les libellés dans un problème de classification binaire) se calcule comme suit:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

où :

H est l'entropie.
p est la fraction des exemples "1".
q est la fraction des exemples "0". Notez que q = (1 - p).
log est généralement log₂. Dans ce cas, l'unité d'entropie est un bit.

Par exemple, supposons les éléments suivants :

100 exemples contiennent la valeur "1"
300 exemples contiennent la valeur "0"

La valeur d'entropie est donc la suivante:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bit par exemple

Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") aurait une entropie de 1,0 bit par exemple. À mesure qu'un ensemble devient plus déséquilibré, son entropie tend vers 0,0.

Dans les arbres de décision, l'entropie permet de formuler le gain d'information pour aider le séparateur à sélectionner les conditions au cours de la croissance d'un arbre de décision de classification.

Comparez l'entropie à:

impureté de Gini
Fonction de perte entropie croisée

L'entropie est souvent appelée entropie de Shannon.

Pour en savoir plus, consultez la section Diviseur exact pour la classification binaire avec des caractéristiques numériques dans le cours sur les forêts de décision.

F

importance des caractéristiques

#df

#Metric

Synonyme de importance des variables.

G

impureté de Gini

#df

#Metric

Métrique semblable à l'entropie. Les séparateurs utilisent des valeurs dérivées de l'impureté de Gini ou de l'entropie pour composer des conditions de classification des arbres de décision. Le gain d'information est dérivé de l'entropie. Il n'existe pas de terme équivalent universellement accepté pour la métrique dérivée de l'impureté de Gini. Toutefois, cette métrique sans nom est tout aussi importante que le gain d'informations.

L'impureté de Gini est également appelée indice de Gini ou simplement Gini.

Cliquez sur l'icône pour en savoir plus sur l'impureté de Gini.

L'impureté de Gini est la probabilité de mal classer une nouvelle donnée issue de la même distribution. L'impureté de Gini d'un ensemble avec deux valeurs possibles, "0" et "1" (par exemple, les libellés d'un problème de classification binaire) est calculée à partir de la formule suivante:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

où :

I est l'impureté de Gini.
p est la fraction des exemples "1".
q est la fraction des exemples "0". Notez que q = 1-p

Prenons l'exemple de l'ensemble de données suivant:

100 libellés (0,25 de l'ensemble de données) contiennent la valeur "1".
300 libellés (0,75 de l'ensemble de données) contiennent la valeur "0".

Par conséquent, l'impureté de Gini est la suivante:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Par conséquent, une étiquette aléatoire de l'ensemble de données aura 37,5% de chances d'être mal classée et 62,5% de chances d'être correctement classée.

Un libellé parfaitement équilibré (par exemple, 200 "0" et 200 "1") aurait une impureté de Gini de 0,5. Un libellé très déséquilibré aurait une impureté de Gini proche de 0,0.

Arbres de décision à boosting de gradient (GBT)

#df

Type de forêt de décision dans lequel:

L'entraînement repose sur le boosting par gradient.
Le modèle faible est un arbre de décision.

Pour en savoir plus, consultez la section Arbres de décision à boosting de gradient du cours sur les forêts de décision.

boostage par gradient

#df

Algorithme d'entraînement dans lequel des modèles faibles sont entraînés pour améliorer de manière itérative la qualité (réduire la perte) d'un modèle fort. Par exemple, un modèle faible peut être un modèle linéaire ou un petit modèle d'arbre de décision. Le modèle fort devient la somme de tous les modèles faibles précédemment entraînés.

Dans la forme la plus simple du renforcement par gradient, à chaque itération, un modèle faible est entraîné pour prédire le gradient de perte du modèle fort. Ensuite, la sortie du modèle fort est mise à jour en soustrayant le gradient prévu, comme dans la descente du gradient.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

où :

$F_{0}$ est le modèle fort de départ.
$F_{i+1}$ est le prochain modèle performant.
$F_{i}$ est le modèle fort actuel.
$\xi$ est une valeur comprise entre 0,0 et 1,0 appelée rétrécissement, qui est analogue au taux d'apprentissage dans la descente du gradient.
$f_{i}$ est le modèle faible entraîné pour prédire le gradient de perte de $F_{i}$.

Les variantes modernes du boosting par gradient incluent également la deuxième dérivée (Hessian) de la perte dans leur calcul.

Les arbres de décision sont couramment utilisés comme modèles faibles dans le boosting par gradient. Consultez les arbres de décision à boosting de gradient.

I

chemin d'inférence

#df

Dans un arbre de décision, lors de l'inférence, le chemin qu'un exemple particulier emprunte de la racine à d'autres conditions se termine par une feuille. Par exemple, dans l'arborescence de décision suivante, les flèches plus épaisses indiquent le chemin d'inférence pour un exemple avec les valeurs de caractéristique suivantes:

x = 7
y = 12
z = -3

Le chemin d'inférence de l'illustration suivante passe par trois conditions avant d'atteindre la feuille (Zeta).

Les trois flèches épaisses indiquent le chemin d'inférence.

Pour en savoir plus, consultez la section Arbres de décision du cours "Forêts de décision".

gain d'informations

#df

#Metric

Dans les forêts de décision, différence entre l'entropie d'un nœud et la somme pondérée (par le nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud correspond à l'entropie des exemples de ce nœud.

Prenons l'exemple des valeurs d'entropie suivantes:

Entropie du nœud parent = 0,6
Entropie d'un nœud enfant avec 16 exemples pertinents = 0,2
Entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1

Ainsi, 40% des exemples se trouvent dans un nœud enfant et 60% dans l'autre. Par conséquent :

Somme pondérée de l'entropie des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Le gain d'information est donc le suivant:

Gain d'information = entropie du nœud parent - somme pondérée de l'entropie des nœuds enfants
Gain d'information = 0,6 - 0,14 = 0,46

La plupart des séparateurs cherchent à créer des conditions qui maximisent le gain d'informations.

condition dans l'ensemble

#df

Dans un arbre de décision, condition qui vérifie la présence d'un élément dans un ensemble d'éléments. Par exemple, la condition suivante est une condition dans un ensemble:

  house-style in [tudor, colonial, cape]

Lors de l'inférence, si la valeur de la fonctionnalité de style de maison est tudor, colonial ou cape, cette condition est évaluée à "Oui". Si la valeur de la fonctionnalité de style de maison est différente (par exemple, ranch), cette condition renvoie la valeur "Non".

Les conditions du jeu de données génèrent généralement des arbres de décision plus efficaces que les conditions qui testent des caractéristiques encodées en one-hot.

L

feuille

#df

Tout point de terminaison dans un arbre de décision. Contrairement à une condition, une feuille n'effectue pas de test. Il s'agit plutôt d'une prédiction possible. Une feuille est également le nœud terminal d'un chemin d'inférence.

Par exemple, l'arbre de décision suivant contient trois feuilles:

Arbre de décision avec deux conditions menant à trois feuilles.

Pour en savoir plus, consultez la section Arbres de décision du cours "Forêts de décision".

N

nœud (arbre de décision)

#df

Dans un arbre de décision, toute condition ou feuille.

Arbre de décision avec deux conditions et trois feuilles.

Pour en savoir plus, consultez la section Arbres de décision du cours "Forêts de décision".

condition non binaire

#df

Condition contenant plus de deux résultats possibles. Par exemple, la condition non binaire suivante contient trois résultats possibles:

Condition (number_of_legs = ?) qui conduit à trois résultats possibles. Un résultat (number_of_legs = 8) conduit à une araignée nommée feuille. Un deuxième résultat (number_of_legs = 4) mène à une feuille nommée "dog". Un troisième résultat (number_of_legs = 2) conduit à une feuille nommée "pingouin".

Pour en savoir plus, consultez la section Types de conditions du cours sur les forêts décisionnelles.

O

condition oblique

#df

Dans un arbre de décision, condition impliquant plusieurs caractéristiques. Par exemple, si la hauteur et la largeur sont toutes deux des caractéristiques, la condition suivante est oblique:

  height > width

À comparer à la condition alignée sur l'axe.

Pour en savoir plus, consultez la section Types de conditions du cours sur les forêts décisionnelles.

évaluation hors échantillon (évaluation hors échantillon)

#df

Mécanisme permettant d'évaluer la qualité d'une forêt d'arbres de décision en testant chaque arbre de décision avec les exemples non utilisés lors de l'entraînement de cet arbre de décision. Par exemple, dans le diagramme suivant, notez que le système entraîne chaque arbre de décision sur environ deux tiers des exemples, puis les évalue par rapport au tiers restant.

L'évaluation hors échantillon est une approximation efficace et conservatrice du mécanisme de validation croisée. Dans la validation croisée, un modèle est entraîné pour chaque cycle de validation croisée (par exemple, 10 modèles sont entraînés dans une validation croisée à 10 fois). Avec l'évaluation hors bande, un seul modèle est entraîné. Étant donné que le bagging retient certaines données de chaque arbre pendant l'entraînement, l'évaluation hors échantillon peut utiliser ces données pour approximer la validation croisée.

Pour en savoir plus, consultez la section Évaluation hors échantillon du cours sur les forêts de décision.

P

Importances des variables de permutation

#df

#Metric

Type d'importance des variables qui évalue l'augmentation de l'erreur de prédiction d'un modèle après avoir permuté les valeurs de la caractéristique. L'importance des variables de permutation est une métrique indépendante du modèle.

R

forêt d'arbres décisionnels

#df

Ensemble d'arbres de décision dans lequel chaque arbre de décision est entraîné avec un bruit aléatoire spécifique, tel que le bagging.

Les forêts d'arbres décisionnels sont un type de forêt de décision.

Pour en savoir plus, consultez la section Forêt d'arbres aléatoires du cours "Forêts d'arbres décisionnels".

root

#df

Nœud de départ (première condition) d'un arbre de décision. Par convention, les diagrammes placent la racine en haut de l'arbre de décision. Exemple :

Arbre de décision avec deux conditions et trois feuilles. La condition de départ (x > 2) est la racine.

S

Échantillonnage avec remplacement

#df

Méthode permettant de sélectionner des éléments parmi un ensemble d'éléments candidats dans lequel le même élément peut être sélectionné plusieurs fois. L'expression "avec remplacement" signifie qu'après chaque sélection, l'élément sélectionné est renvoyé dans l'ensemble d'éléments candidats. La méthode inverse, l'échantillonnage sans remplacement, signifie qu'un élément candidat ne peut être sélectionné qu'une seule fois.

Prenons l'exemple suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supposons que le système choisisse de manière aléatoire fig comme premier élément. Si vous utilisez l'échantillonnage avec remplacement, le système sélectionne le deuxième élément de l'ensemble suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Oui, il s'agit du même ensemble qu'auparavant. Le système pourrait donc choisir fig à nouveau.

Si vous utilisez l'échantillonnage sans remplacement, une fois qu'un échantillon a été sélectionné, vous ne pouvez plus le sélectionner à nouveau. Par exemple, si le système choisit de manière aléatoire fig comme premier échantillon, fig ne peut plus être sélectionné. Par conséquent, le système choisit le deuxième échantillon de l'ensemble (réduit) suivant:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Cliquez sur l'icône pour ajouter des notes.

Le mot remplacement dans l'échantillonnage avec remplacement déroute de nombreuses personnes. En anglais, replacement signifie "substitution". Toutefois, l'échantillonnage avec remplacement utilise en fait la définition française de remplacement, qui signifie "remplacer quelque chose".

Le mot anglais replacement est traduit par le mot français remplacement.

rétrécissement

#df

Hyperparamètre dans le boosting par gradient qui contrôle l'surajustement. La rétraction dans le boosting par gradient est analogue au taux d'apprentissage dans la descente de gradient. Le rétrécissement est une valeur décimale comprise entre 0,0 et 1,0. Une valeur de rétrécissement plus faible réduit le surajustement plus qu'une valeur de rétrécissement plus élevée.

split

#df

Dans un arbre de décision, autre nom d'une condition.

séparateur

#df

Lors de l'entraînement d'un arbre de décision, routine (et algorithme) chargée de trouver la meilleure condition à chaque nœud.

T

test

#df

Dans un arbre de décision, autre nom d'une condition.

seuil (pour les arbres de décision)

#df

Dans une condition alignée sur l'axe, valeur à laquelle une entité est comparée. Par exemple, 75 est la valeur de seuil dans la condition suivante:

grade >= 75

Pour en savoir plus, consultez la section Diviseur exact pour la classification binaire avec des caractéristiques numériques dans le cours sur les forêts d'arbres décisionnels.

V

importance des variables

#df

#Metric

Ensemble de scores qui indique l'importance relative de chaque caractéristique pour le modèle.

Prenons l'exemple d'un arbre de décision qui estime les prix des maisons. Supposons que cet arbre de décision utilise trois caractéristiques: la taille, l'âge et le style. Si un ensemble d'importances de variables pour les trois caractéristiques est calculé comme étant {taille=5,8, âge=2,5, style=4,7}, la taille est plus importante pour l'arbre de décision que l'âge ou le style.

Il existe différentes métriques d'importance des variables, qui peuvent renseigner les experts en ML sur différents aspects des modèles.

W

Sagesse de la foule

#df

Idée selon laquelle la moyenne des opinions ou des estimations d'un grand groupe de personnes (la "foule") produit souvent des résultats étonnamment bons. Prenons l'exemple d'un jeu dans lequel les participants doivent deviner le nombre de bonbons enrobés dans un grand bocal. Bien que la plupart des estimations individuelles soient inexactes, la moyenne de toutes les estimations s'est avérée empiriquement étonnamment proche du nombre réel de bonbons dans le pot.

Les ensembles sont un équivalent logiciel de la sagesse de la foule. Même si des modèles individuels font des prédictions extrêmement inexactes, la moyenne des prédictions de nombreux modèles génère souvent des prédictions étonnamment bonnes. Par exemple, bien qu'un arbre de décision individuel puisse effectuer de mauvaises prédictions, une forêt de décision génère souvent de très bonnes prédictions.

Glossaire du machine learning: forêts de décision Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

A

Échantillonnage d'attributs

condition alignée sur l'axe

B

bagging

condition binaire

C

état

D

forêt de décision

arbre de décision

E

entropie

F

importance des caractéristiques

G

impureté de Gini

Cliquez sur l'icône pour en savoir plus sur l'impureté de Gini.

Arbres de décision à boosting de gradient (GBT)

boostage par gradient

I

chemin d'inférence

gain d'informations

condition dans l'ensemble

L

feuille

N

nœud (arbre de décision)

condition non binaire

O

condition oblique

évaluation hors échantillon (évaluation hors échantillon)

P

Importances des variables de permutation

R

forêt d'arbres décisionnels

root

S

Échantillonnage avec remplacement

Cliquez sur l'icône pour ajouter des notes.

rétrécissement

split

séparateur

T

test

seuil (pour les arbres de décision)

V

importance des variables

W

Sagesse de la foule

Glossaire du machine learning: forêts de décision