框架:关键机器学习术语

什么是(监督式)机器学习?简而言之,如下所示:

  • 机器学习系统学习如何组合输入以对从未见过的数据生成有用的预测。

我们来探索一下机器学习的基本术语。

标签

标签是指我们要预测的内容,即简单线性回归中的 y 变量。标签可以是小麦的未来价格、图片中显示的动物类型、音频剪辑的含义,也可以是其他任何信息。

特性

特征是输入变量,即简单线性回归中的 x 变量。一个简单的机器学习项目可能会使用单个功能,而更复杂的机器学习项目可以使用数百万个功能,如下所示:

\[\\{x_1, x_2, ... x_N\\}\]

在垃圾邮件检测器示例中,这些功能可能包括:

  • 电子邮件文字中的字词
  • 发件人的地址
  • 发送电子邮件的时间
  • 电子邮件中包含词组“一种奇怪的技巧”。

示例

样本是指数据的特定实例:x。(我们将 x 显示为粗体,表示它是一个矢量。)我们将示例分为两类:

  • 有标签样本
  • 无标签样本

有标签样本同时包含特征和标签。具体来说:

  labeled examples: {features, label}: (x, y)

使用有标签样本来训练模型。在我们的垃圾邮件检测器示例中,有标签样本是指用户明确标记为“垃圾邮件”或“不是垃圾邮件”的个别电子邮件。

例如,下表显示了从包含加利福尼亚州房价信息的数据集中获取的 5 个有标签样本:

homeMedianAge
(功能)
会议室总数
(设施)
卧室总数
(设施)
medianHouseValue
(标签)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

无标签样本包含特征,但不包含标签。具体来说:

  unlabeled examples: {features, ?}: (x, ?)

以下是来自同一住房数据集的 3 个无标签样本(不包括 medianHouseValue):

homeMedianAge
(功能)
会议室总数
(设施)
卧室总数
(设施)
42 1686 361
34 1226 180
33 1077 271

使用有标签样本训练模型后,我们便会使用该模型来预测无标签样本的标签。在垃圾邮件检测器中,无标签样本是用户尚未添加标签的新电子邮件。

模型

模型定义了特征和标签之间的关系。例如,垃圾内容检测模型可能会将某些功能与“垃圾内容”紧密关联。我们重点介绍模型生命周期的两个阶段:

  • 训练是指创建或学习模型。也就是说,您向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。

  • 推断表示将经过训练的模型应用于无标签样本。也就是说,使用经过训练的模型做出有用的预测 (y')。例如,在推理期间,您可以针对新的无标签样本预测 medianHouseValue

回归与分类

回归模型可预测连续值。例如,回归模型做出的预测可回答如下问题:

  • 加利福尼亚州一栋房子的价值是多少?

  • 用户点击此广告的可能性有多大?

分类模型可预测离散值。例如,分类模型做出的预测可回答如下问题:

  • 指定的电子邮件是垃圾邮件还是非垃圾邮件?

  • 这是狗、猫还是仓鼠的图片?