Glossaire du machine learning: forêts d'arbres décisionnels

Cette page contient les termes du glossaire des forêts d'arbres décisionnels. Pour consulter tous les termes du glossaire, cliquez ici.

A

échantillonnage d'attributs

#df

Stratégie pour l'entraînement d'une forêt de décision dans laquelle chaque arbre de décision ne prend en compte qu'un sous-ensemble aléatoire de caractéristiques possibles lors de l'apprentissage de la condition. En règle générale, un sous-ensemble différent de caractéristiques est échantillonné pour chaque nœud. En revanche, lors de l'entraînement d'un arbre de décision sans échantillonnage d'attributs, toutes les caractéristiques possibles sont prises en compte pour chaque nœud.

condition alignée sur l'axe

#df

Dans un arbre de décision, une condition n'implique qu'une seule caractéristique. Par exemple, si l'aire est une caractéristique, voici une condition alignée sur l'axe:

area > 200

À comparer aux états obliques.

Mrds

Bagging

#df

Méthode d'entraînement d'un ensemble où chaque modèle est entraîné sur un sous-ensemble aléatoire d'exemples d'entraînement échantillonnés avec remplacement. Par exemple, une forêt aléatoire est un ensemble d'arbres de décision entraînés avec des bagages.

Le terme bagage est l'acronyme de bootstrap aggregating.

condition binaire

#df

Dans un arbre de décision, une condition n'ayant que deux résultats possibles, généralement oui ou non. Par exemple, voici une condition binaire:

temperature >= 100

À comparer aux états non binaires.

C

état

#df

Dans un arbre de décision, tout nœud qui évalue une expression. Par exemple, la partie suivante d'un arbre de décision contient deux conditions:

Arbre de décision composé de deux conditions: (x > 0) et (y > 0).

Une condition est également appelée fractionnement ou test.

Contraste avec la feuille.

Article associé :

D

Foresterie

#df

Modèle créé à partir de plusieurs arbres de décision. Une forêt de décisions effectue une prédiction en agrégeant les prédictions de ses arbres de décision. Les forêts d'arbres décisionnels sont souvent appelées forêts aléatoires et arbres de décision à boosting de gradient.

arbre de décision

#df

Modèle d'apprentissage supervisé composé d'un ensemble de conditions et de feuilles organisées de manière hiérarchique. Par exemple, l'arbre de décision suivant:

Arbre de décision composé de quatre conditions organisées de façon hiérarchique, qui entraînent cinq feuilles.

E

entropie

#df

Dans la théorie de l'information, il s'agit d'une description de l'imprévisibilité d'une distribution de probabilité. L'entropie peut également être définie comme la quantité d'informations contenues dans chaque exemple. Une distribution présente l'entropie la plus élevée lorsque toutes les valeurs d'une variable aléatoire sont tout aussi probables.

L'entropie d'un ensemble avec deux valeurs possibles "0" et "1" (par exemple, les étiquettes d'un problème de classification binaire) a la formule suivante:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

où :

  • H est l'entropie.
  • p est la fraction d'exemples "1".
  • q est la fraction des exemples "0". Notez que q = (1 - p)
  • log est généralement log2. Dans ce cas, l'unité d'entropie est un peu utilisée.

Par exemple, supposons les éléments suivants :

  • 100 exemples contiennent la valeur "1"
  • 300 exemples contiennent la valeur "0"

La valeur d'entropie est donc la suivante:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit par exemple

Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") présentera une entropie de 1 bit par exemple. À mesure qu'un ensemble devient déséquilibré, son entropie se rapproche de 0,0.

Dans les arbres de décision, l'entropie permet de formuler des informations pour aider le séparateur à sélectionner les conditions lors du développement d'un arbre de décision de classification.

Comparer l'entropie avec:

L'entropie est souvent appelée l'entropie de Shannon.

F

importances des caractéristiques

#df

Synonyme d'importances variables.

G

impur de Gini

#df

Métrique semblable à l'entropie. Les Diviser utilisent des valeurs dérivées de l'impurité ou des engins gini pour composer des conditions de décisions d'arbres de classification. Le gain d'informations est dérivé de l'entropie. Il n'existe pas de terme équivalent universellement pour la métrique dérivée de l'impur de Gini. Toutefois, cette métrique sans nom est tout aussi importante que l'obtention d'informations.

L'impurité de Gini est également appelée index de Gini, ou simplement gini.

boosting de gradient

#df

Algorithme d'entraînement où les modèles faibles sont entraînés pour améliorer de manière itérative la qualité (réduire la perte) d'un modèle puissant. Par exemple, un modèle faible peut être un modèle d'arbre de décision linéaire ou de petite taille. Le modèle performant est la somme de tous les modèles faibles précédemment entraînés.

Dans la forme la plus simple de boosting de gradient, à chaque itération, un modèle faible est entraîné pour prédire le gradient de perte du modèle fort. Ensuite, la sortie du modèle puissant est mise à jour en soustrayant le gradient prédit, semblable à la descente de gradient.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

où :

  • $F_{0}$ est le premier modèle puissant.
  • $F_{i+1}$ est le prochain modèle puissant.
  • $F_{i}$ est le modèle performant actuellement.
  • $\xi$ est une valeur comprise entre 0,0 et 1,0 appelée réduction, qui est semblable au taux d'apprentissage de la descente de gradient.
  • $f_{i}$ est le modèle faible entraîné pour prédire le gradient de perte de $F_{i}$.

Les variantes modernes de boosting de gradient incluent également la deuxième dérivée (Hessian) de la perte dans leur calcul.

Les arbres de décision sont couramment utilisés comme modèles faibles lors du boosting de gradient. Consultez la section arbres de décision à boosting de gradient.

arbres de décision à boosting de gradient (GBT)

#df

Type de forêt de décisions dans laquelle:

I

chemin d'inférence

#df

Dans un arbre de décision, pendant l'inférence, l'itinéraire d'un exemple particulier passe de la racine à d'autres conditions, se terminant par une feuille. Par exemple, dans l'arbre de décision suivant, les flèches plus épaisses affichent le chemin d'inférence pour un exemple avec les valeurs de caractéristiques suivantes:

  • x = 7
  • y = 12
  • z = -3

Le chemin d'inférence de l'illustration suivante traverse trois conditions avant d'atteindre la feuille (Zeta).

Arbre de décision composé de quatre conditions et de cinq feuilles.
          La condition racine est (x > 0). Comme la réponse est "Oui", le chemin d'inférence passe de la racine à la condition suivante (y > 0).
          Étant donné que la réponse est "Oui", le chemin d'inférence passe à la condition suivante (z > 0). Comme la réponse est "Non", le chemin d'inférence se déplace vers son nœud terminal, qui est la feuille (Zeta).

Les trois flèches épaisses indiquent le tracé d'inférence.

gain d'informations

#df

Dans les forêts de décisions, la différence entre l'entropie d'un nœud et la somme pondérée (en nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud est l'entropie des exemples de ce nœud.

Prenons l'exemple des valeurs d'entropie suivantes:

  • entropie du nœud parent = 0,6
  • entropie d'un nœud enfant avec 16 exemples pertinents = 0,2
  • entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1

Ainsi, 40% des exemples se trouvent dans un nœud enfant et 60% dans l'autre nœud enfant. Par conséquent :

  • Somme d'entropie pondérée des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Les informations sont donc les suivantes:

  • gain d'informations = entropie du nœud parent - somme entropique pondérée des nœuds enfants
  • Gain d'information = 0,6 - 0,14 = 0,46

La plupart des diviseurs cherchent à créer des conditions qui maximisent le gain d'informations.

condition intégrée

#df

Dans un arbre de décision, condition teste la présence d'un élément dans un ensemble d'éléments. Par exemple, la condition suivante est intégrée à l'annonce:

  house-style in [tudor, colonial, cape]

Lors de l'inférence, si la valeur de la caractéristique feature est tudor, colonial ou cape, cette condition est définie sur "Yes". Si la valeur de la fonctionnalité d'auto-promotion est différente (par exemple, ranch), cette condition prend la valeur "Non".

Les conditions définies entraînent généralement un arbre de décision plus efficace que les conditions qui testent les fonctionnalités d'encodage one-hot.

L

feuille

#df

Tout point de terminaison dans un arbre de décision. Contrairement à une condition, une feuille n'effectue pas de test. Au contraire, une feuille est une prédiction possible. Une feuille est également le nœud terminal d'un chemin d'inférence.

Par exemple, l'arbre de décision suivant contient trois feuilles:

Arbre de décision avec deux conditions menant à trois feuilles.

N

nœud (arbre de décision)

#df

Dans un arbre de décision, toute condition ou feuille.

Arbre de décision avec deux conditions et trois feuilles.

condition non binaire

#df

Une condition pouvant avoir plus de deux résultats possibles. Par exemple, la condition non binaire suivante contient trois résultats possibles:

Une condition (number_of_legs = ?) peut générer trois résultats. Un résultat (number_of_legs = 8) mène à une feuille nommée "araignée". Un deuxième résultat (number_of_legs = 4) mène à une feuille nommée "chien". Un troisième résultat (number_of_legs = 2) conduit à une feuille nommée manchot.

O

condition oblique

#df

Dans un arbre de décision, condition impliquant plusieurs caractéristiques. Par exemple, si la hauteur et la largeur sont deux caractéristiques, la condition suivante est une condition oblique:

  height > width

À comparer à l'état aligné sur l'axe.

évaluation prête à l'emploi (évaluation du déploiement)

#df

Mécanisme d'évaluation de la qualité d'une forêt de décision en testant chaque arbre de décision sur les exemples non utilisés lors de l'entraînement de cet arbre de décision. Par exemple, dans le schéma suivant, notez que le système entraîne chaque arbre de décision sur environ deux tiers des exemples, puis effectue une évaluation par rapport au tiers restant des exemples.

Forêt de décision composée de trois arbres de décision.
          Un arbre de décision s'entraîne sur les deux tiers des exemples, puis utilise le tiers restant pour l'évaluation de l'environnement d'exécution.
          Un deuxième arbre de décision s'entraîne sur deux tiers des exemples différents de l'arbre de décision précédent, puis utilise un tiers différent de celui de l'arbre de décision précédent pour évaluer OOB.

L'évaluation prête à l'emploi est une approximation prudente et efficace en termes de calcul du mécanisme de validation croisée. Lors de la validation croisée, un modèle est entraîné pour chaque tour de validation croisée (par exemple, 10 modèles sont entraînés lors d'une validation croisée 10 fois). L'évaluation de votre environnement unique consiste à entraîner un seul modèle. Étant donné que l'enregistrement suspend certaines données de chaque arborescence pendant l'entraînement, l'évaluation OOB peut les utiliser pour effectuer une validation croisée approximative.

P

Importance des variables de permutation

#df

Type d'importance variable qui permet d'évaluer l'augmentation de l'erreur de prédiction d'un modèle après avoir modifié les valeurs de la caractéristique. L'importance des variables de permutation est une métrique indépendante du modèle.

D

forêt d'arbres décisionnels

#df

Ensemble d'arbres de décision dans lequel chaque arbre de décision est entraîné avec un bruit aléatoire spécifique, tel que bagging.

Les forêts d'arbres décisionnels sont un type de forêt de décision.

racine

#df

Nœud de départ (la première condition) dans un arbre de décision. Par convention, les diagrammes placent la racine en haut de l'arbre de décision. Exemple :

Arbre de décision avec deux conditions et trois feuilles. La condition de départ (x > 2) est la racine.

S

échantillonnage avec remplacement

#df

Méthode de sélection d'éléments d'un ensemble d'éléments candidats, dans laquelle le même élément peut être sélectionné plusieurs fois. L'expression "avec remplacement" signifie qu'après chaque sélection, l'élément sélectionné est renvoyé au pool d'éléments candidats. La méthode inverse, échantillonnage sans remplacement, signifie qu'un élément candidat ne peut être sélectionné qu'une seule fois.

Considérons l'ensemble de fruits suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supposons que le système sélectionne aléatoirement le fig premier élément. Si vous utilisez l'échantillonnage avec une création de remplacement, le système sélectionne le deuxième élément de l'ensemble suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Oui, c'est le même ensemble que précédemment, le système pourrait donc choisir fig à nouveau.

Si vous utilisez l'échantillonnage sans remplacement, une fois qu'un échantillon est sélectionné, vous ne pouvez plus le sélectionner. Par exemple, si le système choisit fig aléatoirement comme premier échantillon, fig ne peut pas être sélectionné à nouveau. Par conséquent, le système choisit le deuxième échantillon parmi les suivants (réduit) :

fruit = {kiwi, apple, pear, cherry, lime, mango}

réduire

#df

Un hyperparamètre lors du boosting du gradient qui contrôle le surapprentissage La réduction du boosting de gradient est analogue au taux d'apprentissage dans la descente de gradient. La minification est une valeur décimale comprise entre 0,0 et 1,0. Une valeur de rétrécissement faible réduit le surapprentissage plus qu'une valeur plus grande.

split

#df

Dans un arbre de décision, un autre nom pour une condition.

séparateur

#df

Lors de l'entraînement d'un arbre de décision, la routine (et l'algorithme) responsable de trouver la meilleure condition à chaque nœud

T

test

#df

Dans un arbre de décision, un autre nom pour une condition.

seuil (pour les arbres de décision)

#df

Dans une condition alignée sur un axe, la valeur à laquelle unecaractéristique est comparée. Par exemple, 75 est la valeur de seuil dans la condition suivante:

grade >= 75

V

importances variables

#df

Un ensemble de scores qui indique l'importance relative de chaque caractéristique pour le modèle.

Prenons l'exemple d'un arbre de décision qui estime le prix d'un bien immobilier. Supposons que cet arbre de décision utilise trois caractéristiques: la taille, l'âge et le style. Si un ensemble d'importances variables pour les trois caractéristiques est calculé comme {size=5.8, age=2.5, style=4.7}, la taille est plus importante dans l'arbre de décision que l'âge ou le style.

Il existe différentes métriques d'importance variable, ce qui peut informer les experts en ML de différents aspects des modèles.

W

la sagesse des foules

#df

L'idée que la moyenne des opinions ou des estimations d'un grand groupe de personnes ("la foule") produit des résultats étonnamment bons Prenons l'exemple d'un jeu dans lequel les utilisateurs devinent le nombre de haricots emballés dans un grand bocal. Bien que la plupart des estimations individuelles soient inexactes, la moyenne de toutes les suppositions s'avère étonnamment proche du nombre réel de bonbons haricots dans le bocal.

Les ensembles sont un analogie logicielle de la sagesse de la foule. Même si des modèles individuels exécutent des prédictions extrêmement inexactes, la moyenne des prédictions de nombreux modèles génère souvent des prédictions étonnamment bonnes. Par exemple, bien qu'un arbre de décision individuel puisse donner de mauvaises prédictions, une forêt de décisions produit souvent de très bonnes prédictions.