Cette page contient les termes du glossaire des forêts d'arbres décisionnels. Pour consulter tous les termes du glossaire, cliquez ici.
A
échantillonnage d'attributs
Stratégie pour l'entraînement d'une forêt de décision dans laquelle chaque arbre de décision ne prend en compte qu'un sous-ensemble aléatoire de caractéristiques possibles lors de l'apprentissage de la condition. En règle générale, un sous-ensemble différent de caractéristiques est échantillonné pour chaque nœud. En revanche, lors de l'entraînement d'un arbre de décision sans échantillonnage d'attributs, toutes les caractéristiques possibles sont prises en compte pour chaque nœud.
condition alignée sur l'axe
Dans un arbre de décision, une condition n'implique qu'une seule caractéristique. Par exemple, si l'aire est une caractéristique, voici une condition alignée sur l'axe:
area > 200
À comparer aux états obliques.
Mrds
Bagging
Méthode d'entraînement d'un ensemble où chaque modèle est entraîné sur un sous-ensemble aléatoire d'exemples d'entraînement échantillonnés avec remplacement. Par exemple, une forêt aléatoire est un ensemble d'arbres de décision entraînés avec des bagages.
Le terme bagage est l'acronyme de bootstrap aggregating.
condition binaire
Dans un arbre de décision, une condition n'ayant que deux résultats possibles, généralement oui ou non. Par exemple, voici une condition binaire:
temperature >= 100
À comparer aux états non binaires.
C
état
Dans un arbre de décision, tout nœud qui évalue une expression. Par exemple, la partie suivante d'un arbre de décision contient deux conditions:
Une condition est également appelée fractionnement ou test.
Contraste avec la feuille.
Article associé :
D
Foresterie
Modèle créé à partir de plusieurs arbres de décision. Une forêt de décisions effectue une prédiction en agrégeant les prédictions de ses arbres de décision. Les forêts d'arbres décisionnels sont souvent appelées forêts aléatoires et arbres de décision à boosting de gradient.
arbre de décision
Modèle d'apprentissage supervisé composé d'un ensemble de conditions et de feuilles organisées de manière hiérarchique. Par exemple, l'arbre de décision suivant:
E
entropie
Dans la théorie de l'information, il s'agit d'une description de l'imprévisibilité d'une distribution de probabilité. L'entropie peut également être définie comme la quantité d'informations contenues dans chaque exemple. Une distribution présente l'entropie la plus élevée lorsque toutes les valeurs d'une variable aléatoire sont tout aussi probables.
L'entropie d'un ensemble avec deux valeurs possibles "0" et "1" (par exemple, les étiquettes d'un problème de classification binaire) a la formule suivante:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
où :
- H est l'entropie.
- p est la fraction d'exemples "1".
- q est la fraction des exemples "0". Notez que q = (1 - p)
- log est généralement log2. Dans ce cas, l'unité d'entropie est un peu utilisée.
Par exemple, supposons les éléments suivants :
- 100 exemples contiennent la valeur "1"
- 300 exemples contiennent la valeur "0"
La valeur d'entropie est donc la suivante:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit par exemple
Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") présentera une entropie de 1 bit par exemple. À mesure qu'un ensemble devient déséquilibré, son entropie se rapproche de 0,0.
Dans les arbres de décision, l'entropie permet de formuler des informations pour aider le séparateur à sélectionner les conditions lors du développement d'un arbre de décision de classification.
Comparer l'entropie avec:
- gini impurity
- Fonction de perte d'entropie croisée
L'entropie est souvent appelée l'entropie de Shannon.
F
importances des caractéristiques
Synonyme d'importances variables.
G
impur de Gini
Métrique semblable à l'entropie. Les Diviser utilisent des valeurs dérivées de l'impurité ou des engins gini pour composer des conditions de décisions d'arbres de classification. Le gain d'informations est dérivé de l'entropie. Il n'existe pas de terme équivalent universellement pour la métrique dérivée de l'impur de Gini. Toutefois, cette métrique sans nom est tout aussi importante que l'obtention d'informations.
L'impurité de Gini est également appelée index de Gini, ou simplement gini.
boosting de gradient
Algorithme d'entraînement où les modèles faibles sont entraînés pour améliorer de manière itérative la qualité (réduire la perte) d'un modèle puissant. Par exemple, un modèle faible peut être un modèle d'arbre de décision linéaire ou de petite taille. Le modèle performant est la somme de tous les modèles faibles précédemment entraînés.
Dans la forme la plus simple de boosting de gradient, à chaque itération, un modèle faible est entraîné pour prédire le gradient de perte du modèle fort. Ensuite, la sortie du modèle puissant est mise à jour en soustrayant le gradient prédit, semblable à la descente de gradient.
où :
- $F_{0}$ est le premier modèle puissant.
- $F_{i+1}$ est le prochain modèle puissant.
- $F_{i}$ est le modèle performant actuellement.
- $\xi$ est une valeur comprise entre 0,0 et 1,0 appelée réduction, qui est semblable au taux d'apprentissage de la descente de gradient.
- $f_{i}$ est le modèle faible entraîné pour prédire le gradient de perte de $F_{i}$.
Les variantes modernes de boosting de gradient incluent également la deuxième dérivée (Hessian) de la perte dans leur calcul.
Les arbres de décision sont couramment utilisés comme modèles faibles lors du boosting de gradient. Consultez la section arbres de décision à boosting de gradient.
arbres de décision à boosting de gradient (GBT)
Type de forêt de décisions dans laquelle:
- L'entraînement repose sur l'optimisation des gradients.
- Le modèle faible est un arbre de décision.
I
chemin d'inférence
Dans un arbre de décision, pendant l'inférence, l'itinéraire d'un exemple particulier passe de la racine à d'autres conditions, se terminant par une feuille. Par exemple, dans l'arbre de décision suivant, les flèches plus épaisses affichent le chemin d'inférence pour un exemple avec les valeurs de caractéristiques suivantes:
- x = 7
- y = 12
- z = -3
Le chemin d'inférence de l'illustration suivante traverse trois conditions avant d'atteindre la feuille (Zeta
).
Les trois flèches épaisses indiquent le tracé d'inférence.
gain d'informations
Dans les forêts de décisions, la différence entre l'entropie d'un nœud et la somme pondérée (en nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud est l'entropie des exemples de ce nœud.
Prenons l'exemple des valeurs d'entropie suivantes:
- entropie du nœud parent = 0,6
- entropie d'un nœud enfant avec 16 exemples pertinents = 0,2
- entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1
Ainsi, 40% des exemples se trouvent dans un nœud enfant et 60% dans l'autre nœud enfant. Par conséquent :
- Somme d'entropie pondérée des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Les informations sont donc les suivantes:
- gain d'informations = entropie du nœud parent - somme entropique pondérée des nœuds enfants
- Gain d'information = 0,6 - 0,14 = 0,46
La plupart des diviseurs cherchent à créer des conditions qui maximisent le gain d'informations.
condition intégrée
Dans un arbre de décision, condition teste la présence d'un élément dans un ensemble d'éléments. Par exemple, la condition suivante est intégrée à l'annonce:
house-style in [tudor, colonial, cape]
Lors de l'inférence, si la valeur de la caractéristique feature
est tudor
, colonial
ou cape
, cette condition est définie sur "Yes". Si la valeur de la fonctionnalité d'auto-promotion est différente (par exemple, ranch
), cette condition prend la valeur "Non".
Les conditions définies entraînent généralement un arbre de décision plus efficace que les conditions qui testent les fonctionnalités d'encodage one-hot.
L
feuille
Tout point de terminaison dans un arbre de décision. Contrairement à une condition, une feuille n'effectue pas de test. Au contraire, une feuille est une prédiction possible. Une feuille est également le nœud terminal d'un chemin d'inférence.
Par exemple, l'arbre de décision suivant contient trois feuilles:
N
nœud (arbre de décision)
Dans un arbre de décision, toute condition ou feuille.
condition non binaire
Une condition pouvant avoir plus de deux résultats possibles. Par exemple, la condition non binaire suivante contient trois résultats possibles:
O
condition oblique
Dans un arbre de décision, condition impliquant plusieurs caractéristiques. Par exemple, si la hauteur et la largeur sont deux caractéristiques, la condition suivante est une condition oblique:
height > width
À comparer à l'état aligné sur l'axe.
évaluation prête à l'emploi (évaluation du déploiement)
Mécanisme d'évaluation de la qualité d'une forêt de décision en testant chaque arbre de décision sur les exemples non utilisés lors de l'entraînement de cet arbre de décision. Par exemple, dans le schéma suivant, notez que le système entraîne chaque arbre de décision sur environ deux tiers des exemples, puis effectue une évaluation par rapport au tiers restant des exemples.
L'évaluation prête à l'emploi est une approximation prudente et efficace en termes de calcul du mécanisme de validation croisée. Lors de la validation croisée, un modèle est entraîné pour chaque tour de validation croisée (par exemple, 10 modèles sont entraînés lors d'une validation croisée 10 fois). L'évaluation de votre environnement unique consiste à entraîner un seul modèle. Étant donné que l'enregistrement suspend certaines données de chaque arborescence pendant l'entraînement, l'évaluation OOB peut les utiliser pour effectuer une validation croisée approximative.
P
Importance des variables de permutation
Type d'importance variable qui permet d'évaluer l'augmentation de l'erreur de prédiction d'un modèle après avoir modifié les valeurs de la caractéristique. L'importance des variables de permutation est une métrique indépendante du modèle.
D
forêt d'arbres décisionnels
Ensemble d'arbres de décision dans lequel chaque arbre de décision est entraîné avec un bruit aléatoire spécifique, tel que bagging.
Les forêts d'arbres décisionnels sont un type de forêt de décision.
racine
Nœud de départ (la première condition) dans un arbre de décision. Par convention, les diagrammes placent la racine en haut de l'arbre de décision. Exemple :
S
échantillonnage avec remplacement
Méthode de sélection d'éléments d'un ensemble d'éléments candidats, dans laquelle le même élément peut être sélectionné plusieurs fois. L'expression "avec remplacement" signifie qu'après chaque sélection, l'élément sélectionné est renvoyé au pool d'éléments candidats. La méthode inverse, échantillonnage sans remplacement, signifie qu'un élément candidat ne peut être sélectionné qu'une seule fois.
Considérons l'ensemble de fruits suivant:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Supposons que le système sélectionne aléatoirement le fig
premier élément.
Si vous utilisez l'échantillonnage avec une création de remplacement, le système sélectionne le deuxième élément de l'ensemble suivant:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Oui, c'est le même ensemble que précédemment, le système pourrait donc choisir fig
à nouveau.
Si vous utilisez l'échantillonnage sans remplacement, une fois qu'un échantillon est sélectionné, vous ne pouvez plus le sélectionner. Par exemple, si le système choisit fig
aléatoirement comme premier échantillon, fig
ne peut pas être sélectionné à nouveau. Par conséquent, le système choisit le deuxième échantillon parmi les suivants (réduit) :
fruit = {kiwi, apple, pear, cherry, lime, mango}
réduire
Un hyperparamètre lors du boosting du gradient qui contrôle le surapprentissage La réduction du boosting de gradient est analogue au taux d'apprentissage dans la descente de gradient. La minification est une valeur décimale comprise entre 0,0 et 1,0. Une valeur de rétrécissement faible réduit le surapprentissage plus qu'une valeur plus grande.
split
Dans un arbre de décision, un autre nom pour une condition.
séparateur
Lors de l'entraînement d'un arbre de décision, la routine (et l'algorithme) responsable de trouver la meilleure condition à chaque nœud
T
test
Dans un arbre de décision, un autre nom pour une condition.
seuil (pour les arbres de décision)
Dans une condition alignée sur un axe, la valeur à laquelle unecaractéristique est comparée. Par exemple, 75 est la valeur de seuil dans la condition suivante:
grade >= 75
V
importances variables
Un ensemble de scores qui indique l'importance relative de chaque caractéristique pour le modèle.
Prenons l'exemple d'un arbre de décision qui estime le prix d'un bien immobilier. Supposons que cet arbre de décision utilise trois caractéristiques: la taille, l'âge et le style. Si un ensemble d'importances variables pour les trois caractéristiques est calculé comme {size=5.8, age=2.5, style=4.7}, la taille est plus importante dans l'arbre de décision que l'âge ou le style.
Il existe différentes métriques d'importance variable, ce qui peut informer les experts en ML de différents aspects des modèles.
W
la sagesse des foules
L'idée que la moyenne des opinions ou des estimations d'un grand groupe de personnes ("la foule") produit des résultats étonnamment bons Prenons l'exemple d'un jeu dans lequel les utilisateurs devinent le nombre de haricots emballés dans un grand bocal. Bien que la plupart des estimations individuelles soient inexactes, la moyenne de toutes les suppositions s'avère étonnamment proche du nombre réel de bonbons haricots dans le bocal.
Les ensembles sont un analogie logicielle de la sagesse de la foule. Même si des modèles individuels exécutent des prédictions extrêmement inexactes, la moyenne des prédictions de nombreux modèles génère souvent des prédictions étonnamment bonnes. Par exemple, bien qu'un arbre de décision individuel puisse donner de mauvaises prédictions, une forêt de décisions produit souvent de très bonnes prédictions.