Glossaire du machine learning: forêts d'arbres décisionnels

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Cette page contient les termes du glossaire Decision Forests. Pour consulter tous les termes du glossaire, cliquez ici.

A

échantillonnage des attributs

#df

Stratégie pour l'entraînement d'une forêt de décision, dans laquelle chaque arbre de décision ne prend en compte qu'un sous-ensemble aléatoire de caractéristiques possibles lors de l'apprentissage de la condition. En règle générale, un sous-ensemble différent de caractéristiques est échantillonné pour chaque nœud. En revanche, lorsque vous entraînez un arbre de décision sans échantillonnage des attributs, toutes les caractéristiques possibles sont prises en compte pour chaque nœud.

condition alignée sur un axe

#df

Dans un arbre de décision, condition impliquant une seule caractéristique. Par exemple, si l'aire est une caractéristique, une condition alignée sur un axe est la suivante:

area > 200

À comparer aux états obliques.

B

bagage

#df

Méthode d'entraînement d'un ensemble où chaque modèle composant s'entraîne sur un sous-ensemble aléatoire d'exemples d'entraînement échantillonnés avec remplacement. Par exemple, une forêt aléatoire est un ensemble d'arbres de décision entraînés avec des bagages.

Le terme bagging est l'abréviation de bootstrap aggregating.

condition binaire

#df

Dans un arbre de décision, une condition n'a que deux résultats possibles, généralement oui ou non. Par exemple, voici une condition binaire:

temperature >= 100

À comparer à la condition non binaire.

C

état

#df

Dans un arbre de décision, tout nœud qui évalue une expression. Par exemple, la partie suivante d'un arbre de décision contient deux conditions:

Arbre de décision composé de deux conditions: (x > 0) et (y > 0).

Une condition est également appelée "division" ou "test".

Condition de contraste avec leaf :

Voir également :

D

Decision Forest

#df

Modèle créé à partir de plusieurs arbres de décision. Une forêt de décision effectue une prédiction en cumulant les prédictions de ses arbres de décision. Les types de forêts d'arbres décisionnels les plus courants sont les forêts aléatoires et les arbres de décision à boosting de gradient.

arbre de décision

#df

Modèle d'apprentissage supervisé composé d'un ensemble de conditions et de feuilles organisées de manière hiérarchique. Par exemple, voici un arbre de décision:

Arbre de décision composé de quatre conditions organisées de manière hiérarchique, ce qui conduit à cinq feuilles.

E

entropie

#df

Dans la théorie de l'information, il s'agit de la description d'une distribution de probabilité imprévisible. L'entropie correspond également à la quantité d'informations contenues dans chaque exemple. Une distribution a l'entropie la plus élevée possible lorsque toutes les valeurs d'une variable aléatoire sont tout aussi probables.

L'entropie d'un ensemble avec deux valeurs possibles "0" et "1" (par exemple, les étiquettes dans un problème de classification binaire) a la formule suivante:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

où :

  • H est l'entropie.
  • p est la fraction d'exemples "1".
  • q est la fraction des exemples "0". Notez que q = (1 - p)
  • log est généralement log2. Dans ce cas, l'unité d'entropie est un peu.

Par exemple, supposons les éléments suivants :

  • 100 exemples contiennent la valeur "1".
  • 300 exemples contiennent la valeur "0".

La valeur d'entropie est donc la suivante:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit par exemple

Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") présenterait une entropie de 1 bit par exemple. À mesure que l'ensemble devient plus déséquilibré, son entropie se rapproche de 0,0.

Dans les arbres de décision, l'entropie permet de formuler des informations pour aider le séparateur à sélectionner les conditions pendant la croissance d'un arbre de décision de classification.

Comparer l'entropie avec:

L'entropie de Shannon est souvent appelée.

F

Importance des fonctionnalités

#df

Synonyme d'importances variables.

G

Gini impurity

#df

Métrique semblable à l'entropie. Les divers utilisent des valeurs dérivées de l'impurité ou de l'entropie de Gini pour composer des conditions de classification des arbres de décision. La prise d'informations est dérivée de l'entropie. Il n'existe pas de terme équivalent universel pour la métrique dérivée de l'impurité des ginis. Toutefois, cette métrique sans nom est tout aussi importante que l'obtention d'informations.

L'impurité de Gini est également appelée index de Gini, ou simplement gini.

boosting de gradient

#df

Algorithme d'entraînement où les modèles faibles sont entraînés pour améliorer de manière itérative la qualité (réduire la perte) d'un modèle performant. Par exemple, un modèle faible peut être un modèle d'arbre de décision linéaire ou de petite taille. Le modèle performant devient la somme de tous les modèles faibles précédemment entraînés.

Dans la forme la plus simple de boosting de gradient, à chaque itération, un modèle faible est entraîné pour prédire le gradient de perte du modèle puissant. Ensuite, le résultat du modèle est mis à jour en soustrayant le gradient prédit, semblable à la descente de gradient.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

où :

  • $F_{0}$ est le modèle le plus performant de départ.
  • $F_{i+1}$ constitue le prochain modèle performant.
  • $F_{i}$ est le modèle actuel performant.
  • $\xi$ est une valeur comprise entre 0,0 et 1,0 appelée shrinkage, ce qui correspond au taux d'apprentissage de la descente de gradient.
  • $f_{i}$ est le modèle faible entraîné pour prédire le gradient de perte de $F_{i}$.

Les variantes modernes de boosting de gradient incluent également la deuxième dérivée (hessienne) de la perte dans leur calcul.

Les arbres de décision sont couramment utilisés comme modèles faibles lors du boosting de gradient. Consultez la section arbres de décision à boosting de gradient (décision).

arbres de décision à boosting de gradient (GBT)

#df

Type de forêt de décision dans lequel:

I

chemin d'inférence

#df

Dans un arbre de décision, pendant l'inférence, la route d'un exemple particulier passe de la racine à d'autres conditions, se terminant par une feuille. Par exemple, dans l'arbre de décision suivant, les flèches plus épaisses affichent le chemin d'inférence pour un exemple avec les valeurs de caractéristiques suivantes:

  • x = 7
  • y = 12
  • z = -3

Dans l'illustration ci-dessous, le chemin d'inférence traverse trois conditions avant d'atteindre la feuille (Zeta).

Arbre de décision composé de quatre conditions et de cinq feuilles.
          La condition racine est (x > 0). Étant donné que la réponse est "Oui", le chemin d'inférence passe de la racine à la condition suivante (y > 0).
          Étant donné que la réponse est "Oui", le chemin d'inférence passe ensuite à la condition suivante (z > 0). Étant donné que la réponse est non, le chemin d'inférence est acheminé vers son nœud de terminal, qui est la feuille (Zeta).

Les trois flèches épaisses représentent le chemin d'inférence.

gain d'information

#df

Dans les forêts de décision, différence entre l'entropie d'un nœud et la somme pondérée (en nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud est l'entropie des exemples qu'il contient.

Prenons l'exemple des valeurs d'entropie suivantes:

  • entropie du nœud parent = 0,6
  • entropie d'un nœud enfant avec 16 exemples pertinents = 0,2
  • entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1

Ainsi, 40% des exemples sont dans un nœud enfant et 60% dans l'autre nœud enfant. Par conséquent :

  • Somme des entropies pondérée des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Le gain d'informations est donc le suivant:

  • gain d'informations = entropie du nœud parent - somme entropie pondérée des nœuds enfants
  • gain d'informations = 0,6 - 0,14 = 0,46

La plupart des diviseurs cherchent à créer des conditions qui maximisent le gain d'informations.

condition intégrée

#df

Dans un arbre de décision, état qui teste la présence d'un élément dans un ensemble. Par exemple, la condition suivante est intégrée:

  house-style in [tudor, colonial, cape]

Lors de l'inférence, si la valeur de la fonctionnalité de type maison est tudor, colonial ou cape, cette condition renvoie la valeur "Oui". Si la valeur de la caractéristique "house" est une autre valeur (par exemple, ranch), cette condition indique "No".

Les conditions définies définissent généralement des arbres de décision plus efficaces que les conditions qui testent les fonctionnalités d'encodage one-hot.

L

feuille

#df

Tout point de terminaison dans un arbre de décision Contrairement à une condition, une feuille n'effectue pas de test. Une feuille est plutôt une prédiction possible. Une feuille est également le nœud terminal d'un chemin d'inférence.

Par exemple, l'arbre de décision suivant contient trois feuilles:

Arbre de décision avec deux conditions menant à trois feuilles.

N

nœud (arbre de décision)

#df

Dans un arbre de décision, toute condition ou feuille.

Arbre de décision avec deux conditions et trois feuilles.

condition non binaire

#df

Condition comportant plus de deux résultats possibles. Par exemple, la condition non binaire suivante contient trois résultats possibles:

Une condition (nombre_de_jambes = ?) qui aboutit à trois résultats possibles. Un résultat (nombre_de_jambes = 8) conduit à une feuille nommée araignée. Un second résultat (nombre_de_jambes = 4) conduit à une feuille nommée chien. Un troisième résultat (nombre_de_jambes = 2) conduit à une feuille nommée manchot.

O

condition oblique

#df

Dans un arbre de décision, condition impliquant plusieurs caractéristiques Par exemple, si la hauteur et la largeur sont deux caractéristiques, la condition suivante est oblique:

  height > width

À comparer à la condition alignée sur l'axe.

évaluation initiale (évaluation de l'absence d'achat)

#df

Mécanisme pour évaluer la qualité d'une forêt de décision en testant chaque arbre de décision par rapport aux exemples non utilisés lors de l'entraînement de cet arbre de décision. Par exemple, dans le schéma suivant, notez que le système entraîne chaque arbre de décision sur environ deux tiers des exemples, puis effectue l'évaluation sur le tiers restant des exemples.

Forêt de décision composée de trois arbres de décision.
          Un arbre de décision s'entraîne sur les deux tiers des exemples, puis utilise le tiers restant pour l'évaluation de la quantité de données.
          Un deuxième arbre de décision s'entraîne sur deux tiers des exemples différents de celui de l'arbre de décision précédent, puis utilise un tiers différent de l'arbre de décision précédent pour évaluer l'utilisation.

Cette évaluation est une approximation prudente et efficace en termes de calcul du mécanisme de validation croisée. En validation croisée, un modèle est entraîné pour chaque tour de validation croisée (par exemple, 10 modèles sont entraînés dans une validation croisée à 10 fois). Avec l'évaluation OOB, un seul modèle est entraîné. Étant donné que l'enregistrement retient certaines données de chaque arbre pendant l'entraînement, l'évaluation OOB peut les utiliser pour effectuer une validation croisée approximative.

P

Importance des variables de permutation

#df

Type d'importance variable qui évalue l'augmentation de l'erreur de prédiction d'un modèle après avoir modifié les valeurs de la caractéristique. L'importance des variables de permutation est une métrique indépendante du modèle.

R

forêt d'arbres décisionnels

#df

Ensemble d'arbres de décision dans lesquels chaque arbre de décision est entraîné avec un bruit aléatoire spécifique, tel que l'bagging.

Les forêts d'arbres décisionnels sont un type de forêt de décision.

racine

#df

Nœud de départ (la première condition) dans un arbre de décision. Par convention, les diagrammes placent la racine en haut de l'arbre de décision. Exemple :

Arbre de décision avec deux conditions et trois feuilles. La condition de départ (x > 2) correspond à la racine.

S

échantillonnage avec remplacement

#df

Méthode de sélection d'éléments parmi un ensemble d'éléments candidats, dans laquelle le même élément peut être sélectionné plusieurs fois. L'expression "avec remplacement" signifie qu'après chaque sélection, l'élément sélectionné est renvoyé au pool d'éléments candidats. La méthode inverse, échantillonnage sans remplacement, signifie qu'un élément candidat ne peut être sélectionné qu'une seule fois.

Prenons l'exemple de l'ensemble de fruits suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supposons que le système sélectionne fig comme premier élément au hasard. Si vous utilisez un échantillonnage avec remplacement, le système sélectionne le second élément de l'ensemble suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Oui, il s'agit du même ensemble que précédemment, le système pourrait donc à nouveau sélectionner fig.

Si vous utilisez l'échantillonnage sans remplacement, une fois que vous avez choisi un échantillon, vous ne pouvez pas le sélectionner à nouveau. Par exemple, si le système choisit fig de manière aléatoire comme premier échantillon, fig ne peut pas être sélectionné à nouveau. Par conséquent, le système sélectionne le second échantillon de l'ensemble suivant (réduit) :

fruit = {kiwi, apple, pear, cherry, lime, mango}

réduire

#df

Un hyperparamètre en boost de gradient qui contrôle le surapprentissage. La réduction du boosting de gradient est analogue au taux d'apprentissage de la descente de gradient. La réduction est une valeur décimale comprise entre 0,0 et 1,0. Une valeur de réduction faible réduit le surapprentissage plus qu'une valeur de réduction supérieure.

split

#df

Dans un arbre de décision, autre nom pour une condition.

séparateur

#df

Lors de l'entraînement d'un arbre de décision, la routine (et l'algorithme) est chargée de trouver la meilleure condition à chaque nœud.

T

test

#df

Dans un arbre de décision, autre nom pour une condition.

seuil (pour les arbres de décision)

#df

Dans une condition alignée sur un axe, la valeur à laquelle une caractéristiqueest comparée. Par exemple, 75 est la valeur du seuil dans la condition suivante:

grade >= 75

V

Importance variable

#df

Ensemble de scores qui indique l'importance relative de chaque caractéristique du modèle.

Prenons l'exemple d'un arbre de décision qui estime le prix des logements. Supposons que cet arbre de décision utilise trois caractéristiques: la taille, l'âge et le style. Si l'on considère qu'un ensemble d'importances variables pour les trois caractéristiques est de {size=5.8, age=2.5, style=4.7}, la taille est plus importante pour l'arbre de décision que l'âge ou le style.

Différentes métriques d'importance variable existent pour informer les experts en ML des différents aspects des modèles.

W

sagesse des autres

#df

L'idée que la moyenne des opinions ou des estimations d'un grand nombre de personnes (la foule) aboutissent souvent à des résultats étonnamment bons. Prenons l'exemple d'un jeu qui consiste à deviner le nombre de haricots emballés dans un grand bocal. Bien que la plupart des estimations individuelles soient inexactes, la moyenne de toutes les suppositions s'est révélée étonnamment proche du nombre réel de bonbons en grains dans le bocal.

Les ensembles sont une analogie logicielle de la sagesse des autres. Même si des modèles individuels effectuent des prédictions très inexactes, la moyenne des prédictions de nombreux modèles génère souvent des prédictions étonnamment bonnes. Par exemple, même si un arbre de décision individuel peut donner de mauvaises prédictions, une forêt de décision effectue souvent de très bonnes prédictions.