机器学习术语表:图片模型

本页面包含图片模型术语表术语。如需了解所有术语表术语,请点击此处

增强现实

#image

一种技术,将计算机生成的图像叠加到用户现实世界的视角,从而提供复合视图。

B

边界框

#image

在图像中,矩形 (x, y) 的坐标位于某个相关区域(例如下图中的狗)周围。

一张狗坐在沙发上的照片。一个绿色边界框,左上坐标为 (275, 1271),右下角坐标为 (2954, 2761),环绕着狗身

C

卷积

#image

在数学中,随意是指两种函数的混合。在机器学习中,卷积混合使用卷积过滤器和输入矩阵来训练权重

在机器学习中,“卷积”一词通常是指卷积运算卷积层

在没有卷积的情况下,机器学习算法需要学习大型张量中每个单元格的单独权重。例如,使用 2K x 2K 图片训练的机器学习算法将被迫查找 400 万个单独的权重。得益于卷积,机器学习算法只需找到卷积过滤器中每个单元格的权重,从而大大减少训练模型所需的内存。应用卷积过滤器时,只需将其复制到所有单元格中,使每个卷积都乘以过滤器。

卷积过滤器

#image

卷积运算中的两位演员之一。(另一个执行方是输入矩阵的一部分)。卷积过滤器是一种与输入矩阵具有相同的矩阵,但其形状较小。 例如,对于 28x28 输入矩阵,该过滤器可以是小于 28x28 的任何 2D 矩阵。

在照片操作中,卷积过滤器中的所有单元格通常设置为 1 和 0 的恒定模式。在机器学习中,卷积过滤器通常以随机数作为种子,然后网络会训练理想值。

卷积层

#image

一个深度神经网络层,其中卷积过滤器输入例如,请考虑以下 3x3 卷积过滤器

具有以下值的 3x3 矩阵:[[0,1,0], [1,0,1], [0,1,0]]

以下动画显示由 9 个卷积运算(其中涉及 5x5 输入矩阵)组成的卷积层。请注意,每个卷积运算都针对不同的 3x3 输入矩阵切片执行。生成的 3x3 矩阵(右侧)由 9 个卷积运算的结果组成:

显示两个矩阵的动画。第一个矩阵是 5x5 矩阵:[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,117]177,177]第二个矩阵是 3x3 矩阵:[[181,303,618], [115,338,605], [169,351,560]]。
第二个矩阵是对 5x5 矩阵的不同 3x3 子集应用卷积过滤器 [[0, 1, 0], [1, 0, 1], [0, 1, 0]]。

卷积神经网络

#image

一种神经网络,其中至少一个层是卷积层。典型的卷积神经网络由以下层的某种组合组成:

卷积神经网络在某些类型的问题(如图像识别)上取得了巨大成功。

卷积运算

#image

以下两步数学运算:

  1. 卷积过滤器和输入矩阵切片进行元素级乘法。(输入矩阵的切片与卷积过滤器具有相同的排名和大小。)
  2. 对得到的产品矩阵中的所有值进行求和。

例如,假设存在以下 5x5 输入矩阵:

5x5 矩阵:[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [11,47,177]

现在,假设以下 2x2 卷积过滤器:

2x2 矩阵:[[1, 0], [0, 1]]

每个卷积运算都涉及一个输入 2x2 输入矩阵。例如,假设我们使用输入矩阵左上角的 2x2 切片。因此,该切片的卷积运算如下所示:

将卷积过滤器 [[1, 0], [0, 1]] 应用于输入矩阵的左上角 2x2 部分,即 [[128,97], [35,22]]。
          
          卷积过滤器使 128 和 22 保持不变,但 97 和 35 为零。因此,卷积运算会产生 150 (128+22) 值。

卷积层由一系列卷积运算组成,每个卷积运算处理不同的输入矩阵切片。

D

数据增强

#image

通过转换现有示例,人为地增加训练示例的范围和数量,以创建更多示例。例如,假设图片是您的特征之一,但数据集包含的图片不足以让模型学习有用的关联。理想情况下,您应该向数据集添加足够多的标签图片,使您的模型能够正确训练。如果无法做到这一点,数据增强可以旋转、拉伸和反映每张图像,以生成原始图片的许多变体,并可能产生足够的带标签数据以实现出色的训练效果。

深度可分离卷积神经网络 (sepCNN)

#image

基于 Inception卷积神经网络架构,但 Inception 模块已被深度分离的卷积取代。也称为 Xception。

深度可分离卷积(也称为可拆分卷积)可将标准的 3D 卷积分解为两个计算效率更高的卷积:首先,深度为 1 (n 🇪? n 🇪? 1),深度为 1 (深度 n 🇪? 1),其次是点宽 (1)。

如需了解详情,请参阅 Xception:使用深度可分离卷积的深度学习

降采样

#image

多余字词是指以下任何一种情况:

  • 减少特征中的信息量,以更高效地训练模型。例如,在训练图像识别模型之前,将高分辨率图像降采样为较低的分辨率格式。
  • 使用比例偏高的类别示例进行比例偏低的训练,以提升针对缺乏足够代表的类别的模型训练效果。例如,在类别不均衡数据集中,模型往往会学到大多数类别,但不会充分了解少数类降采样有助于在多数类和少数类之间平衡训练量。

I

图像识别

#image

对图片中的对象、图案或概念进行分类的过程。 图像识别也称为图像分类

如需了解详情,请参阅机器学习实践:图像分类

交并比 (IoU)

#image

两组的交集除以它们的并集。在机器学习图像检测任务中,IoU 用于衡量模型预测的边界框相对于标准答案边界框的准确性。在这种情况下,两个框的 IoU 是重叠区域与总面积之间的比率,并且其值范围为 0(预测的边界框和标准答案边界框没有重叠)到 1(预测的边界框和标准答案边界框具有完全相同的坐标)。

例如,在下图中:

  • 预测的边界框(坐标用于预测模型在画中的夜间表所在的位置)以紫色轮廓。
  • 标准答案边界框(坐标中绘制的夜间表格实际所在位置的坐标)以绿色轮廓显示。

梵高在《阿尔勒的卧室》中绘有“文森特卧室”(Bincent's Bedroom in Arles) 的画面,床边的夜桌旁放置了两个不同的边界框。标准答案边界框(绿色)完美地环绕了夜表。预测的边界框(以紫色表示)在标准答案边界框的右侧和右侧偏移 50%;它会包围夜间表格的右下角,但会缺少表格的其余部分。

在这里,用于预测的边界框和标准答案的交集(左下角)为 1,预测和标准答案的边界框的并集为 7,因此 IoU 为 \(\frac{1}{7}\)。

与上文相同,但每个边界框划分为四个象限。总共有 7 个象限,因为标准答案边界框的右下角象限与预测边界框的左上角象限相互重叠。此重叠部分(以绿色突出显示)表示交叉路口,面积为 1。 与上文相同,但每个边界框划分为四个象限。总共有 7 个象限,因为标准答案边界框的右下角象限与预测边界框的左上角象限相互重叠。两个边界框围成的整个内部(以绿色突出显示)代表联合体,并且具有 7 面积。

K

关键点

#image

图片中特定地图项的坐标。例如,对于一种图片识别模型,用于区分花卉种类,每个花瓣、茎、花瓣等中心都可能是关键点。

L

landmarks

#image

要点的含义相同。

M

MNIST

#image

由 LeCun、Cortes 和 Burges 编译的公共领域数据集,其中包含 60000 张图片,每张图片都显示人类如何手动写入 0-9 之间的特定数字。每张图片都存储为 28x28 个整数数组,其中每个整数都是 0 到 255(含 0 和 255)之间的灰度值。

MNIST 是机器学习的规范数据集,通常用于测试新的机器学习方法。如需了解详情,请参阅 MNIST 手写数字数据库

P

池化

#image

将由之前的卷积层创建的矩阵缩减为较小的矩阵。 池化通常涉及对共用区域使用最大值或平均值。例如,假设我们有以下 3x3 矩阵:

3x3 矩阵 [[5,3,1], [8,2,5], [9,4,3]]。

池化运算与卷积运算类似,它会将该矩阵拆分为多个切片,然后按步长滑动该卷积运算。例如,假设池化运算以 1x1 步长的方式将卷积矩阵划分为 2x2 个切片。如下图所示,发生了四项池化操作。假设每次池化运算都会选择该切片中第四项的最大值:

输入矩阵为 3x3,值为:[[5,3,1], [8,2,5], [9,4,3]]。
          输入矩阵的左上角 2x2 子矩阵为 [[5,3], [8,2]],因此左上角池化运算会生成值 8(最大值为 5、3、8 和 2)。输入矩阵右上角的 2x2 子矩阵为 [[3,1], [2,5]],因此右上角池化运算会生成值 5。输入矩阵的左 2x2 子矩阵为 [[8,2], [9,4]],因此左边池化运算会产生值 9。输入矩阵右下角的 2x2 子矩阵为 [[2,5], [4,3]],因此右下角池化运算会产生值 5。总而言之,池化运算会产生 2x2 矩阵 [[8,5], [9,5]]。

池化有助于在输入矩阵中强制执行翻译不变性

视觉应用池化更正式地称为空间池化。时序应用通常将池化称为时间池化。一种不太正式的概念是池化,通常称为下采样或降采样。

(右)

旋转不变

#image

在图像分类问题中,即使图像的方向发生变化,算法也会成功对图像进行分类。例如,无论网球拍是朝上、侧向还是下推,算法仍然可以识别它。请注意,旋转不变性并非总是可取的;例如,不应将倒立的 9 归类为 9。

另请参阅翻译不变性大小不变性

S

大小不变性

#image

在图像分类问题中,即使图像的大小发生变化,算法也会成功对图像进行分类。例如,算法仍然可以识别猫是消耗 200 万像素还是 20 万像素。请注意,即使是最好的图像分类算法,在大小不变性方面仍然具有实际限制。例如,算法(或人工)不太可能将只占用 20 个像素的猫图片正确分类。

另请参阅翻译不变性旋转不变性

空间池化

#image

请参阅

步长

#image

在卷积运算或池化中,下一个系列输入切片的每个维度中的增量。例如,以下动画展示了在卷积运算期间的步进 (1,1)。因此,下一个输入切片会从上一个输入切片的右侧开始一个位置。当操作到达右侧边缘时,下一个切片将一直向左,但是向下移动一个位置。

一个输入 5x5 矩阵和一个 3x3 卷积过滤器。由于步长为 (1,1),因此会应用卷积过滤器 9 次。第一个卷积切片会评估输入矩阵的左上角 3x3 子矩阵。第二个切片会评估顶部中间的 3x3 子矩阵。第三个卷积切片会评估右上角的 3x3 子矩阵。第四部分会评估中间的 3x3 子矩阵。第五个切片会评估中间的 3x3 子矩阵。第六个切片评估的是中间右侧 3x3 子矩阵。第七个切片会评估左下角的 3x3 子矩阵。第八个切片会评估中下层 3x3 子矩阵。第九个切片会评估右下角的 3x3 子矩阵。

上面的示例演示了二维步长。如果输入矩阵是三维,那么步长也将是三维。

下采样

#image

请参阅

T

翻译不变性

#image

在图像分类问题中,即使对象在图像中的位置发生变化,算法也会成功对图像进行分类。例如,算法仍然可以识别狗,无论它位于画面的中心还是画面的左端。

另请参阅大小不变性旋转不变