Cette page contient les termes du glossaire Decision Forests. Pour consulter tous les termes du glossaire, cliquez ici.
A
échantillonnage des attributs
Stratégie pour l'entraînement d'une forêt de décision, dans laquelle chaque arbre de décision ne prend en compte qu'un sous-ensemble aléatoire de caractéristiques possibles lors de l'apprentissage de la condition. En règle générale, un sous-ensemble différent de caractéristiques est échantillonné pour chaque nœud. En revanche, lorsque vous entraînez un arbre de décision sans échantillonnage des attributs, toutes les caractéristiques possibles sont prises en compte pour chaque nœud.
condition alignée sur un axe
Dans un arbre de décision, condition impliquant une seule caractéristique. Par exemple, si l'aire est une caractéristique, une condition alignée sur un axe est la suivante:
area > 200
À comparer aux états obliques.
B
bagage
Méthode d'entraînement d'un ensemble où chaque modèle composant s'entraîne sur un sous-ensemble aléatoire d'exemples d'entraînement échantillonnés avec remplacement. Par exemple, une forêt aléatoire est un ensemble d'arbres de décision entraînés avec des bagages.
Le terme bagging est l'abréviation de bootstrap aggregating.
condition binaire
Dans un arbre de décision, une condition n'a que deux résultats possibles, généralement oui ou non. Par exemple, voici une condition binaire:
temperature >= 100
À comparer à la condition non binaire.
C
état
Dans un arbre de décision, tout nœud qui évalue une expression. Par exemple, la partie suivante d'un arbre de décision contient deux conditions:
Une condition est également appelée "division" ou "test".
Condition de contraste avec leaf :
Voir également :
D
Decision Forest
Modèle créé à partir de plusieurs arbres de décision. Une forêt de décision effectue une prédiction en cumulant les prédictions de ses arbres de décision. Les types de forêts d'arbres décisionnels les plus courants sont les forêts aléatoires et les arbres de décision à boosting de gradient.
arbre de décision
Modèle d'apprentissage supervisé composé d'un ensemble de conditions et de feuilles organisées de manière hiérarchique. Par exemple, voici un arbre de décision:
E
entropie
Dans la théorie de l'information, il s'agit de la description d'une distribution de probabilité imprévisible. L'entropie correspond également à la quantité d'informations contenues dans chaque exemple. Une distribution a l'entropie la plus élevée possible lorsque toutes les valeurs d'une variable aléatoire sont tout aussi probables.
L'entropie d'un ensemble avec deux valeurs possibles "0" et "1" (par exemple, les étiquettes dans un problème de classification binaire) a la formule suivante:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
où :
- H est l'entropie.
- p est la fraction d'exemples "1".
- q est la fraction des exemples "0". Notez que q = (1 - p)
- log est généralement log2. Dans ce cas, l'unité d'entropie est un peu.
Par exemple, supposons les éléments suivants :
- 100 exemples contiennent la valeur "1".
- 300 exemples contiennent la valeur "0".
La valeur d'entropie est donc la suivante:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit par exemple
Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") présenterait une entropie de 1 bit par exemple. À mesure que l'ensemble devient plus déséquilibré, son entropie se rapproche de 0,0.
Dans les arbres de décision, l'entropie permet de formuler des informations pour aider le séparateur à sélectionner les conditions pendant la croissance d'un arbre de décision de classification.
Comparer l'entropie avec:
- impurité des ginis
- Fonction de perte d'entropie croisée
L'entropie de Shannon est souvent appelée.
F
Importance des fonctionnalités
Synonyme d'importances variables.
G
Gini impurity
Métrique semblable à l'entropie. Les divers utilisent des valeurs dérivées de l'impurité ou de l'entropie de Gini pour composer des conditions de classification des arbres de décision. La prise d'informations est dérivée de l'entropie. Il n'existe pas de terme équivalent universel pour la métrique dérivée de l'impurité des ginis. Toutefois, cette métrique sans nom est tout aussi importante que l'obtention d'informations.
L'impurité de Gini est également appelée index de Gini, ou simplement gini.
boosting de gradient
Algorithme d'entraînement où les modèles faibles sont entraînés pour améliorer de manière itérative la qualité (réduire la perte) d'un modèle performant. Par exemple, un modèle faible peut être un modèle d'arbre de décision linéaire ou de petite taille. Le modèle performant devient la somme de tous les modèles faibles précédemment entraînés.
Dans la forme la plus simple de boosting de gradient, à chaque itération, un modèle faible est entraîné pour prédire le gradient de perte du modèle puissant. Ensuite, le résultat du modèle est mis à jour en soustrayant le gradient prédit, semblable à la descente de gradient.
où :
- $F_{0}$ est le modèle le plus performant de départ.
- $F_{i+1}$ constitue le prochain modèle performant.
- $F_{i}$ est le modèle actuel performant.
- $\xi$ est une valeur comprise entre 0,0 et 1,0 appelée shrinkage, ce qui correspond au taux d'apprentissage de la descente de gradient.
- $f_{i}$ est le modèle faible entraîné pour prédire le gradient de perte de $F_{i}$.
Les variantes modernes de boosting de gradient incluent également la deuxième dérivée (hessienne) de la perte dans leur calcul.
Les arbres de décision sont couramment utilisés comme modèles faibles lors du boosting de gradient. Consultez la section arbres de décision à boosting de gradient (décision).
arbres de décision à boosting de gradient (GBT)
Type de forêt de décision dans lequel:
- L'entraînement repose sur l'optimisation des gradients.
- Le modèle faible est un arbre de décision.
I
chemin d'inférence
Dans un arbre de décision, pendant l'inférence, la route d'un exemple particulier passe de la racine à d'autres conditions, se terminant par une feuille. Par exemple, dans l'arbre de décision suivant, les flèches plus épaisses affichent le chemin d'inférence pour un exemple avec les valeurs de caractéristiques suivantes:
- x = 7
- y = 12
- z = -3
Dans l'illustration ci-dessous, le chemin d'inférence traverse trois conditions avant d'atteindre la feuille (Zeta
).
Les trois flèches épaisses représentent le chemin d'inférence.
gain d'information
Dans les forêts de décision, différence entre l'entropie d'un nœud et la somme pondérée (en nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud est l'entropie des exemples qu'il contient.
Prenons l'exemple des valeurs d'entropie suivantes:
- entropie du nœud parent = 0,6
- entropie d'un nœud enfant avec 16 exemples pertinents = 0,2
- entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1
Ainsi, 40% des exemples sont dans un nœud enfant et 60% dans l'autre nœud enfant. Par conséquent :
- Somme des entropies pondérée des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Le gain d'informations est donc le suivant:
- gain d'informations = entropie du nœud parent - somme entropie pondérée des nœuds enfants
- gain d'informations = 0,6 - 0,14 = 0,46
La plupart des diviseurs cherchent à créer des conditions qui maximisent le gain d'informations.
condition intégrée
Dans un arbre de décision, état qui teste la présence d'un élément dans un ensemble. Par exemple, la condition suivante est intégrée:
house-style in [tudor, colonial, cape]
Lors de l'inférence, si la valeur de la fonctionnalité de type maison est tudor
, colonial
ou cape
, cette condition renvoie la valeur "Oui". Si la valeur de la caractéristique "house" est une autre valeur (par exemple, ranch
), cette condition indique "No".
Les conditions définies définissent généralement des arbres de décision plus efficaces que les conditions qui testent les fonctionnalités d'encodage one-hot.
L
feuille
Tout point de terminaison dans un arbre de décision Contrairement à une condition, une feuille n'effectue pas de test. Une feuille est plutôt une prédiction possible. Une feuille est également le nœud terminal d'un chemin d'inférence.
Par exemple, l'arbre de décision suivant contient trois feuilles:
N
nœud (arbre de décision)
Dans un arbre de décision, toute condition ou feuille.
condition non binaire
Condition comportant plus de deux résultats possibles. Par exemple, la condition non binaire suivante contient trois résultats possibles:
O
condition oblique
Dans un arbre de décision, condition impliquant plusieurs caractéristiques Par exemple, si la hauteur et la largeur sont deux caractéristiques, la condition suivante est oblique:
height > width
À comparer à la condition alignée sur l'axe.
évaluation initiale (évaluation de l'absence d'achat)
Mécanisme pour évaluer la qualité d'une forêt de décision en testant chaque arbre de décision par rapport aux exemples non utilisés lors de l'entraînement de cet arbre de décision. Par exemple, dans le schéma suivant, notez que le système entraîne chaque arbre de décision sur environ deux tiers des exemples, puis effectue l'évaluation sur le tiers restant des exemples.
Cette évaluation est une approximation prudente et efficace en termes de calcul du mécanisme de validation croisée. En validation croisée, un modèle est entraîné pour chaque tour de validation croisée (par exemple, 10 modèles sont entraînés dans une validation croisée à 10 fois). Avec l'évaluation OOB, un seul modèle est entraîné. Étant donné que l'enregistrement retient certaines données de chaque arbre pendant l'entraînement, l'évaluation OOB peut les utiliser pour effectuer une validation croisée approximative.
P
Importance des variables de permutation
Type d'importance variable qui évalue l'augmentation de l'erreur de prédiction d'un modèle après avoir modifié les valeurs de la caractéristique. L'importance des variables de permutation est une métrique indépendante du modèle.
R
forêt d'arbres décisionnels
Ensemble d'arbres de décision dans lesquels chaque arbre de décision est entraîné avec un bruit aléatoire spécifique, tel que l'bagging.
Les forêts d'arbres décisionnels sont un type de forêt de décision.
racine
Nœud de départ (la première condition) dans un arbre de décision. Par convention, les diagrammes placent la racine en haut de l'arbre de décision. Exemple :
S
échantillonnage avec remplacement
Méthode de sélection d'éléments parmi un ensemble d'éléments candidats, dans laquelle le même élément peut être sélectionné plusieurs fois. L'expression "avec remplacement" signifie qu'après chaque sélection, l'élément sélectionné est renvoyé au pool d'éléments candidats. La méthode inverse, échantillonnage sans remplacement, signifie qu'un élément candidat ne peut être sélectionné qu'une seule fois.
Prenons l'exemple de l'ensemble de fruits suivant:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Supposons que le système sélectionne fig
comme premier élément au hasard.
Si vous utilisez un échantillonnage avec remplacement, le système sélectionne le second élément de l'ensemble suivant:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Oui, il s'agit du même ensemble que précédemment, le système pourrait donc à nouveau sélectionner fig
.
Si vous utilisez l'échantillonnage sans remplacement, une fois que vous avez choisi un échantillon, vous ne pouvez pas le sélectionner à nouveau. Par exemple, si le système choisit fig
de manière aléatoire comme premier échantillon, fig
ne peut pas être sélectionné à nouveau. Par conséquent, le système sélectionne le second échantillon de l'ensemble suivant (réduit) :
fruit = {kiwi, apple, pear, cherry, lime, mango}
réduire
Un hyperparamètre en boost de gradient qui contrôle le surapprentissage. La réduction du boosting de gradient est analogue au taux d'apprentissage de la descente de gradient. La réduction est une valeur décimale comprise entre 0,0 et 1,0. Une valeur de réduction faible réduit le surapprentissage plus qu'une valeur de réduction supérieure.
split
Dans un arbre de décision, autre nom pour une condition.
séparateur
Lors de l'entraînement d'un arbre de décision, la routine (et l'algorithme) est chargée de trouver la meilleure condition à chaque nœud.
T
test
Dans un arbre de décision, autre nom pour une condition.
seuil (pour les arbres de décision)
Dans une condition alignée sur un axe, la valeur à laquelle une caractéristiqueest comparée. Par exemple, 75 est la valeur du seuil dans la condition suivante:
grade >= 75
V
Importance variable
Ensemble de scores qui indique l'importance relative de chaque caractéristique du modèle.
Prenons l'exemple d'un arbre de décision qui estime le prix des logements. Supposons que cet arbre de décision utilise trois caractéristiques: la taille, l'âge et le style. Si l'on considère qu'un ensemble d'importances variables pour les trois caractéristiques est de {size=5.8, age=2.5, style=4.7}, la taille est plus importante pour l'arbre de décision que l'âge ou le style.
Différentes métriques d'importance variable existent pour informer les experts en ML des différents aspects des modèles.
W
sagesse des autres
L'idée que la moyenne des opinions ou des estimations d'un grand nombre de personnes (la foule) aboutissent souvent à des résultats étonnamment bons. Prenons l'exemple d'un jeu qui consiste à deviner le nombre de haricots emballés dans un grand bocal. Bien que la plupart des estimations individuelles soient inexactes, la moyenne de toutes les suppositions s'est révélée étonnamment proche du nombre réel de bonbons en grains dans le bocal.
Les ensembles sont une analogie logicielle de la sagesse des autres. Même si des modèles individuels effectuent des prédictions très inexactes, la moyenne des prédictions de nombreux modèles génère souvent des prédictions étonnamment bonnes. Par exemple, même si un arbre de décision individuel peut donner de mauvaises prédictions, une forêt de décision effectue souvent de très bonnes prédictions.