机器学习术语表:决策森林

使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

本页面包含决策森林术语表。如需了解所有术语表,请点击此处

A

属性抽样

#df

一种训练决策森林的策略,在学习条件时,每个决策树只会考虑可能的特征的随机子集。通常,系统会对每个节点采样不同的特征子集。相反,在训练决策树而不进行特性采样时,系统会考虑每个节点的所有可能特征。

轴对齐条件

#df

决策树中,这是一种仅涉及单个特征条件。例如,如果面积是地图项,则以下为轴对齐条件:

area > 200

倾斜条件相对。

B

行李

#df

用于训练集成的方法,其中每个组成模型使用训练样本的随机子集进行替换(采样)训练。例如,随机森林是使用训练的决策树的集合。

术语 baggingbootstrap agg 记录的简称。

二进制条件

#df

决策树中,一个只有两种可能结果(通常是 yesno)的条件。例如,以下是二进制条件:

temperature >= 100

非二元条件相对。

C

condition

#df

决策树中,任何评估表达式的节点。例如,决策树的以下部分包含两个条件:

由两个条件 (x > 0) 和 (y > 0) 组成的决策树。

条件也称为拆分或测试。

使用设置对比度条件。

另请参阅:

D

决策森林

#df

基于多个决策树创建的模型。决策森林通过汇总其决策树的预测结果来进行预测。常用的决策森林类型包括随机森林梯度提升树

决策树

#df

一种监督式学习模型,包含一组分层条件。例如,下面是一个决策树:

一个决策树,由分层排列的四个条件组成,形成五个叶子。

E

#df

信息理论中,描述了概率分布的不可预测性。或者,熵也可以定义为每个示例包含的信息量。当某个随机变量的所有值都相等的可能性时,分布的可能具有最高的熵。

包含两个可能的值“0”和“1”的集合的熵(例如,二元分类问题中的标签)采用以下公式:

H = -p 日志 p - q 日志 q = -p 日志 p - (1-p) * 日志 (1-p)

其中:

  • H 是熵。
  • p 是“1”样本的比例。
  • q 是“0”样本的分数。请注意,q = (1 - p)
  • log 通常是 log2。在这种情况下,熵单位有点少。

例如,假设情况如下:

  • 100 个示例包含值“1”
  • 300 个示例包含值“0”

因此,熵值是:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 位/样本

完全平衡的集合(例如,200“0”和 200“1”)的样本为每个熵 1.0 位。随着集的不平衡越来越多,其熵也会逐渐接近 0.0。

决策树中,熵有助于计算信息增益,帮助拆分器在分类决策树的增长过程中选择条件

将熵与:

熵通常称为 Shannon 的熵。

F

特征重要性

#df

变量重要性的含义相同。

G

基尼尔杂质

#df

类似于的指标。分离器使用源自基尼杂质或熵的值来组合用于分类决策树条件信息增益来自熵。对于基于吉尼尔杂质提供的指标,没有公认的等效术语;但是,这个未命名的指标与信息增益一样重要。

基尼尔杂质也称为基尼尼指数,简称为“gini”。

渐变增强

#df

一种训练算法,训练弱模型以迭代方式改进强模型的质量(降低损失)。例如,弱模型可以是线性或小型决策树模型。强模型会成为之前训练的所有弱模型的总和。

以最简单的梯度提升形式,在每次迭代时训练一个弱模型,以预测强模型的损失梯度。然后,通过减去预测梯度来更新强模型的输出,类似于梯度下降法

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中:

  • $F_{0}$ 是初始强效模型。
  • $F_{i+1}$ 是下一个非常不错的模型。
  • $F_{i}$ 是目前的强模型。
  • $\xi$ 介于 0.0 和 1.0 之间,称为收缩,类似于梯度下降法的学习速率
  • $f_{i}$ 是用于训练预测 $F_{i}$ 损失梯度的弱模型。

梯度提升的现代变体还在其计算中加入了损失的二阶导数(海森矩阵)。

决策树通常用作梯度提升中的弱模型。请参阅梯度提升(决策)树

梯度提升(决策)树 (GBT)

#df

一种决策森林,其中:

I

推断路径

#df

决策树中,在推断期间,特定示例到其他条件(以终止)。例如,在以下决策树中,较粗的箭头显示具有以下特征值的示例的推断路径:

  • x = 7
  • y = 12
  • z = -3

下图中的推理路径在到达叶子 (Zeta) 之前经过三个条件。

由四个条件和五个叶子组成的决策树。
          根条件为 (x > 0)。由于答案是“是”,因此推断路径从根到下一个条件 (y > 0)。由于答案是“是”,因此推断路径会转到下一个条件 (z > 0)。由于答案是“否”,因此推断路径会到达其终端节点,即叶子 (Zeta)。

三个粗箭头显示推断路径。

信息增益

#df

决策森林中,节点的与其子节点的熵的加权(按样本数)总和之差。节点的熵是该节点内样本的熵。

例如,请考虑以下熵值:

  • 父节点的熵 = 0.6
  • 一个子节点的熵,有 16 个相关示例 = 0.2
  • 包含 24 个相关示例的另一个子节点的熵 = 0.1

因此,40% 的样本位于一个子节点中,60% 位于另一个子节点中。因此:

  • 子节点的加权熵总和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,信息增益为:

  • 信息增益 = 父节点的熵 - 子节点的加权熵总和
  • 信息增益 = 0.6 - 0.14 = 0.46

大多数分离器都会尝试创建可实现信息增益的条件

内嵌式条件

#df

决策树中,用于测试是否存在一组项中一项内容的条件。例如,以下为内嵌式条件:

  house-style in [tudor, colonial, cape]

在推断期间,如果房屋样式的特征的值为 tudorcolonialcape,则该条件的评估结果为“是”。如果房屋样式特征的值是其他内容(例如 ranch),则此条件的评估结果为“否”。

相较于测试独热编码特征的条件,内嵌条件通常可生成更高效的决策树。

L

叶子

#df

决策树中的任意端点。与条件不同,叶不会执行测试。相反,叶子就是一个可能的预测。叶也是推断路径的终端节点

例如,以下决策树包含三个叶项:

包含两个条件、指向三叶的决策树。

节点(决策树)

#df

决策树中,可以是任何条件

包含两个条件和三叶的决策树。

非二元性别疾病

#df

一种条件,其中包含两种可能的结果。 例如,以下非二元条件包含三种可能的结果:

一种可导致三种可能的结果的条件 (number_of_legs = ?)。一个结果(数字数量 = 8)指向一片名为“蜘蛛”的分支。第二个结果 (number_of_legs = 4) 导致生成一条名为 dog 的叶子。第三个结果 (number_of_legs = 2) 指向一棵名为企鹅的叶。

O

倾斜条件

#df

决策树,一种涉及多个特征条件。例如,如果高度和宽度都是这两个特征,那么以下为倾斜条件:

  height > width

轴对齐条件相对。

包装外评估(OOB 评估)

#df

用于评估决策树质量的一种机制,是对照该决策树的训练过程中使用的示例,测试每个决策树例如,请注意,在下图中,系统会在大约三分之二的样本上训练每个决策树,然后根据其余三分之一的样本进行评估。

由三个决策树组成的决策森林。
          一个决策树基于三分之二的样本进行训练,然后使用剩余的三分之一进行 OOB 评估。第二个决策树基于与前一个决策树不同的三分之二样本进行训练,然后使用与前一个决策树不同的三分之一进行 OOB 评估。

套外评估是计算效率较高且较为保守的交叉验证机制的近似值。在交叉验证中,每轮交叉验证会训练一个模型(例如,10 个模型在 10 倍交叉验证中训练)。借助 OOB 评估,系统会训练单个模型。由于打包会在训练期间保留每个树的部分数据,因此 OOB 评估可以使用这些数据来近似进行交叉验证。

P

排列变量重要性

#df

一种变量重要性,用于评估在改变特征值后模型的预测误差的增加情况。排列变量重要性与模型无关。

R

随机森林

#df

一种决策树集成,其中每个决策树都使用特定的随机噪声(例如打包)进行训练。

随机森林是一种决策森林

根级

#df

某个决策树中的起始节点(第一个条件)。按照惯例,图表会将根放在决策树的顶部。例如:

包含两个条件和三叶的决策树。起始条件 (x > 2) 是根。

S

采样替换

#df

从一组候选项中选择项的方法,在这些项中可以多次选择同一项。“替换”一词表示在每次选择后,所选内容都会返回到候选项目池中。反选方法在不替换的情况下采样表示候选项目只能被选择一次。

例如,请考虑以下水果集:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假设系统随机选择 fig 作为第一项。如果将采样与替换搭配使用,系统会从以下集合中选择第二项:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是的,这与之前的设置相同,因此系统可能会再次选择 fig

如果采用采样而非替换,一旦选择样本,就无法再重新选择。例如,如果系统随机选择 fig 作为第一个样本,则无法再次选择 fig。因此,系统会从以下(缩减的)集合中选择第二个样本:

fruit = {kiwi, apple, pear, cherry, lime, mango}

收缩

#df

控制过拟合梯度提升功能中的一个超参数。梯度增强中的收缩类似于梯度下降法中的学习速率。收缩是 0.0 到 1.0 之间的小数值。与较大的收缩值相比,较小的收缩值会减少过拟合。

拆分

#df

决策树中,这是条件的另一个名称。

分离器

#df

在训练决策树时,负责在每个节点处查找最佳条件的例程(和算法)。

T

test

#df

决策树中,这是条件的另一个名称。

阈值(适用于决策树)

#df

轴对齐条件中,与特征进行比较的值。例如,在以下条件中,阈值为 75:

grade >= 75

V

可变重要性

#df

一组得分,表示每个特征对模型的相对重要性。

例如,考虑一个估算房价的决策树假设此决策树使用三个特征:大小、年龄和样式。如果针对这三个特征的一组重要性计算为 {size=5.8, age=2.5, style=4.7},则大小对决策树的重要性高于年龄或样式。

存在不同的可变性重要指标,它们可以告知机器学习专家模型的不同方面。

W

观众的智慧

#df

平均而言,“一群人”的意见或估算值通常能够带来意想不到的好结果。例如,假设有一款游戏,玩家可以猜到装在一个大罐子里的软糖数量。虽然大多数猜测都不准确,但根据经验,所有猜测的平均值都令人惊讶地接近 jar 中的实际软糖数量。

Ensembles 是模拟群体智慧的软件。即使各个模型做出的预测极为不准确,平均许多模型的预测通常也会带来令人惊讶的良好预测结果。例如,虽然单个决策树的预测效果可能较差,但决策森林通常可以做出非常好的预测。