本页面包含决策森林术语表。如需查看所有术语表,请点击此处。
答
属性抽样
一种用于训练决策森林的策略,其中每个决策树在学习条件时仅考虑可能的特征的一个随机子集。通常,系统会为每个节点采样不同的特征子集。相比之下,如果在不使用属性采样的情况下训练决策树,系统会考虑每个节点的所有可能特征。
轴对齐条件
在决策树中,仅涉及单个特征的条件。例如,如果区域是一个地图项,则以下条件是轴对齐的条件:
area > 200
与倾斜条件相对。
B
袋装
一种训练集成学习的方法,其中每个组成部分均根据替换采样的随机训练示例子集进行训练。例如,随机森林是利用 bagging 进行训练的一组决策树。
术语 bagging 是 bootstrap aggregat 的简称。
二元条件
在决策树中,只有两种可能结果的条件(通常为 yes [是] 或 no [否])。例如,以下是一个二元条件:
temperature >= 100
与非二元条件相对。
C
condition
在决策树中,任何用于评估表达式的节点。例如,决策树的以下部分包含两个条件:
条件也称为拆分或测试。
与叶的对比度条件。
另请参阅:
D
决策森林
使用多个决策树创建的模型。决策森林通过汇总其决策树的预测结果来进行预测。常见的决策森林类型包括随机森林和梯度提升树。
决策树
一种监督式学习模型,由一组按层次结构整理的一组条件和离开组成。conditionsconditions例如,以下是一个决策树:
E
熵
在 信息理论中,描述概率分布的不可预测程度。此外,熵也定义为每个样本包含的信息量。当随机变量的所有值都同等可能时,分布具有尽可能高的熵。
具有两个可能值“0”和“1”的集合的熵(例如,二元分类问题中的标签)的公式如下:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
其中:
- H 表示熵。
- p 表示“1”样本的比例。
- q 是“0”样本的比例。请注意,q = (1 - p)
- log 通常是 log2。在这里,熵单位有点小。
例如,假设情况如下:
- 有 100 个示例包含值“1”
- 有 300 个示例包含值“0”
因此,熵值为:
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 位(每个样本)
一个完美平衡的集合(例如,200 个“0”和 200 个“1”)的每个样本的熵为 1.0 位。随着集合变得越来越不平衡,其熵向 0.0 移动。
在决策树中,熵有助于公式制定信息增益,以帮助拆分器在分类决策树成长期间选择条件。
将熵与以下项进行比较:
熵通常称为 Shannon 熵。
F
特征重要性
与变量重要性的含义相同。
G
吉尼杂质
类似于熵的指标。分流器使用从基尼杂质或熵推导的值来构成分类决策树的条件。信息获取源自熵。对于从基尼杂质衍生的指标,没有广泛接受的等效术语;但是,这个未命名的指标与信息增益一样重要。
基尼杂质也称为“基尼指数”,或简称为 gini。
梯度提升(决策)树 (GBT)
一种决策森林,其中:
梯度提升
一种训练算法,其中训练弱模型以迭代方式提高强大模型的质量(减少损失)。例如,弱模型可以是线性模型或小型决策树模型。强模型是之前训练的所有弱模型的总和。
在最简单的梯度提升方法中,每次迭代时,系统都会训练一个弱模型,以预测强模型的损失梯度。然后,减去预测梯度以更新强模型的输出,类似于梯度下降法。
其中:
- $F_{0}$ 是起始的强模型。
- $F_{i+1}$ 是下一个强大的模型。
- $F_{i}$ 是当前的强模型。
- $\xi$ 是一个介于 0.0 和 1.0 之间的值,称为缩减,类似于梯度下降法中的学习速率。
- $f_{i}$ 是经过训练的弱模型,用于预测 $F_{i}$ 的损失梯度。
梯度提升的现代变化形式还包括计算损失的二次导数 (Hessian)。
决策树通常用作梯度提升中的弱模型。请参阅梯度提升(决策)树。
I
推断路径
在决策树中,在推断期间,特定示例会从根传递到其他条件,并以叶子终止。例如,在下面的决策树中,较粗的箭头表示具有以下特征值的示例的推断路径:
- x = 7
- y = 12
- z = -3
在下图中,推断路径经过三个条件后到达叶项 (Zeta
)。
三个粗箭头表示推断路径。
信息增益
在决策森林中,节点的熵加上子节点的加权和节点的熵是该节点中样本的熵。
以下面的熵值为例:
- 父节点的熵 = 0.6
- 1 个子节点与 16 个相关示例的熵 = 0.2
- 包含 24 个相关示例的另一个子节点的熵 = 0.1
因此,40% 的示例位于一个子节点中,60% 的示例位于另一个子节点中。因此:
- 子节点的加权熵和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
因此,信息获取为:
- 信息增益 = 父节点的熵 - 子节点的加权熵和
- 信息增益 = 0.6 - 0.14 = 0.46
预设条件
在决策树中,用于测试在一组项中是否存在某个项的条件。例如,以下是内嵌条件:
house-style in [tudor, colonial, cape]
在推理期间,如果房屋风格地图项的值为 tudor
、colonial
或 cape
,则此条件的评估结果为“是”。如果房屋风格地图项的值是其他值(例如 ranch
),则此条件的评估结果为“否”。
与测试独热编码特征的条件相比,内嵌条件通常会生成更高效的决策树。
L
叶子
决策树中的任意端点。与条件不同,叶不会执行测试。实际上,叶子是一种可能的预测。叶子也是推断路径的节点的终端节点。
例如,以下决策树包含三个叶:
北
节点(决策树)
非二元条件
包含两种以上可能结果的条件。 例如,以下非二元条件包含三种可能的结果:
O
倾斜条件
在决策树中,涉及多个特征的条件。例如,如果高度和宽度都是特征,则以下条件就是倾斜条件:
height > width
与轴对齐条件相对。
开箱评估(OOB 评估)
一种机制,用于评估决策林的质量,方法是对照相应决策树的训练期间未使用的样本进行测试。例如,在下图中,请注意,系统会用大约三分之二的样本来训练每个决策树,然后针对剩下的三分之一样本进行评估。
外包评估是交叉验证机制的一种高效、保守的近似计算。在交叉验证中,每一轮交叉验证对应一个模型(例如,在 10 倍交叉验证中训练 10 个模型)。使用 OOB 评估时,系统会训练单个模型。由于 bagging 会在训练期间从每个树中保留一些数据,因此 OOB 评估可以使用这些数据来近似交叉验证。
P
排列变量重要性
一种变量重要性,用于评估在对特征的值进行排列后模型预测误差的增长情况。排列变量重要性是一项与模型无关的指标。
R
随机森林
一个由决策树组成的集成,其中每个决策树都使用特定的随机噪声进行训练,例如打包 (bagging)。
随机森林是一种决策森林。
根
决策树中的起始节点(第一个条件)。按照惯例,图表会将根位置放在决策树的顶部。例如:
南
替换抽样
一种从一组候选项(其中同一项可以多次选择)中选择项目的方法。“替换项”是指每次做出选择后,所选项都会返回到候选项池。相反,采样而不替换意味着,候选项只能选择一次。
例如,假设有以下水果组合:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
假设系统随机选择 fig
作为第一项。如果使用替换采样,系统会从以下集合中选择第二项:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
是,这与之前设置相同,因此系统可能会再次选择 fig
。
如果使用不替换的抽样,一旦选择了某个样本,便无法再次选择。例如,如果系统随机选择 fig
作为第一个样本,那么 fig
就无法再次选择。因此,系统会从以下(简化的)集合中选择第二个样本:
fruit = {kiwi, apple, pear, cherry, lime, mango}
收缩
梯度提升中的超参数,用于控制过拟合。梯度提升中的收缩类似于梯度下降法中的学习速率。缩减是 0.0 到 1.0 之间的十进制值。与较大的缩减值相比,较低的收缩值在减少过拟合方面效果更佳。
分摊
分离器
训练决策树时,负责在每个节点上找出最佳条件的例程(和算法)。
T
test
阈值(适用于决策树)
在轴对齐条件中,这是与地图项进行比较的值。例如,在以下条件下,75 是阈值:
grade >= 75
V
变量重要性
一组评分,表示每个特征对模型的相对重要性。
例如,假设有一个估算房价的决策树。假设此决策树使用三个特征:尺寸、年龄和样式。如果这三个特征的一组可变的重要性计算为 {size=5.8, age=2.5, style=4.7},则大小对决策树比年龄或样式更重要。
存在不同的可变重要性指标,这些指标可让机器学习专家了解模型的不同方面。
西
众人的智慧
将一大群人(“人群”)的意见或估计取平均值通常会产生令人惊讶的理想结果。例如,假设有一个游戏,玩家猜测一个大罐子中装有果冻豆的数量。虽然大多数个人猜测都不准确,但根据实证,所有猜测的平均值已经非常接近罐中果冻豆的实际数量。
Ensembles 是对群体智慧的模拟软件。 即使单个模型做出的预测非常不准确,对许多模型的预测取平均值通常也会产生非常出色的预测结果。例如,虽然单个决策树的预测可能很差,但决策森林通常可以做出非常好的预测。