本页面包含图片模型术语表术语。如需了解所有术语表术语,请点击此处。
答
增强现实
一种技术,将计算机生成的图像叠加到用户现实世界的视角,从而提供复合视图。
B
边界框
在图像中,矩形 (x, y) 的坐标位于某个相关区域(例如下图中的狗)周围。
C
卷积
在数学中,随意是指两种函数的混合。在机器学习中,卷积混合使用卷积过滤器和输入矩阵来训练权重。
在没有卷积的情况下,机器学习算法需要学习大型张量中每个单元格的单独权重。例如,使用 2K x 2K 图片训练的机器学习算法将被迫查找 400 万个单独的权重。得益于卷积,机器学习算法只需找到卷积过滤器中每个单元格的权重,从而大大减少训练模型所需的内存。应用卷积过滤器时,只需将其复制到所有单元格中,使每个卷积都乘以过滤器。
卷积过滤器
卷积运算中的两位演员之一。(另一个执行方是输入矩阵的一部分)。卷积过滤器是一种与输入矩阵具有相同秩的矩阵,但其形状较小。 例如,对于 28x28 输入矩阵,该过滤器可以是小于 28x28 的任何 2D 矩阵。
在照片操作中,卷积过滤器中的所有单元格通常设置为 1 和 0 的恒定模式。在机器学习中,卷积过滤器通常以随机数作为种子,然后网络会训练理想值。
卷积层
一个深度神经网络层,其中卷积过滤器输入例如,请考虑以下 3x3 卷积过滤器:
以下动画显示由 9 个卷积运算(其中涉及 5x5 输入矩阵)组成的卷积层。请注意,每个卷积运算都针对不同的 3x3 输入矩阵切片执行。生成的 3x3 矩阵(右侧)由 9 个卷积运算的结果组成:
卷积神经网络
一种神经网络,其中至少一个层是卷积层。典型的卷积神经网络由以下层的某种组合组成:
卷积神经网络在某些类型的问题(如图像识别)上取得了巨大成功。
卷积运算
以下两步数学运算:
- 对卷积过滤器和输入矩阵切片进行元素级乘法。(输入矩阵的切片与卷积过滤器具有相同的排名和大小。)
- 对得到的产品矩阵中的所有值进行求和。
例如,假设存在以下 5x5 输入矩阵:
现在,假设以下 2x2 卷积过滤器:
每个卷积运算都涉及一个输入 2x2 输入矩阵。例如,假设我们使用输入矩阵左上角的 2x2 切片。因此,该切片的卷积运算如下所示:
卷积层由一系列卷积运算组成,每个卷积运算处理不同的输入矩阵切片。
D
数据增强
通过转换现有示例,人为地增加训练示例的范围和数量,以创建更多示例。例如,假设图片是您的特征之一,但数据集包含的图片不足以让模型学习有用的关联。理想情况下,您应该向数据集添加足够多的标签图片,使您的模型能够正确训练。如果无法做到这一点,数据增强可以旋转、拉伸和反映每张图像,以生成原始图片的许多变体,并可能产生足够的带标签数据以实现出色的训练效果。
深度可分离卷积神经网络 (sepCNN)
基于 Inception 的卷积神经网络架构,但 Inception 模块已被深度分离的卷积取代。也称为 Xception。
深度可分离卷积(也称为可拆分卷积)可将标准的 3D 卷积分解为两个计算效率更高的卷积:首先,深度为 1 (n 🇪? n 🇪? 1),深度为 1 (深度 n 🇪? 1),其次是点宽 (1)。
如需了解详情,请参阅 Xception:使用深度可分离卷积的深度学习。
降采样
多余字词是指以下任何一种情况:
- 减少特征中的信息量,以更高效地训练模型。例如,在训练图像识别模型之前,将高分辨率图像降采样为较低的分辨率格式。
- 使用比例偏高的类别示例进行比例偏低的训练,以提升针对缺乏足够代表的类别的模型训练效果。例如,在类别不均衡数据集中,模型往往会学到大多数类别,但不会充分了解少数类。降采样有助于在多数类和少数类之间平衡训练量。
I
图像识别
对图片中的对象、图案或概念进行分类的过程。 图像识别也称为图像分类。
如需了解详情,请参阅机器学习实践:图像分类。
交并比 (IoU)
两组的交集除以它们的并集。在机器学习图像检测任务中,IoU 用于衡量模型预测的边界框相对于标准答案边界框的准确性。在这种情况下,两个框的 IoU 是重叠区域与总面积之间的比率,并且其值范围为 0(预测的边界框和标准答案边界框没有重叠)到 1(预测的边界框和标准答案边界框具有完全相同的坐标)。
例如,在下图中:
- 预测的边界框(坐标用于预测模型在画中的夜间表所在的位置)以紫色轮廓。
- 标准答案边界框(坐标中绘制的夜间表格实际所在位置的坐标)以绿色轮廓显示。
在这里,用于预测的边界框和标准答案的交集(左下角)为 1,预测和标准答案的边界框的并集为 7,因此 IoU 为 \(\frac{1}{7}\)。


K
关键点
图片中特定地图项的坐标。例如,对于一种图片识别模型,用于区分花卉种类,每个花瓣、茎、花瓣等中心都可能是关键点。
L
landmarks
与要点的含义相同。
M
MNIST
由 LeCun、Cortes 和 Burges 编译的公共领域数据集,其中包含 60000 张图片,每张图片都显示人类如何手动写入 0-9 之间的特定数字。每张图片都存储为 28x28 个整数数组,其中每个整数都是 0 到 255(含 0 和 255)之间的灰度值。
MNIST 是机器学习的规范数据集,通常用于测试新的机器学习方法。如需了解详情,请参阅 MNIST 手写数字数据库。
P
池化
将由之前的卷积层创建的矩阵缩减为较小的矩阵。 池化通常涉及对共用区域使用最大值或平均值。例如,假设我们有以下 3x3 矩阵:
池化运算与卷积运算类似,它会将该矩阵拆分为多个切片,然后按步长滑动该卷积运算。例如,假设池化运算以 1x1 步长的方式将卷积矩阵划分为 2x2 个切片。如下图所示,发生了四项池化操作。假设每次池化运算都会选择该切片中第四项的最大值:
池化有助于在输入矩阵中强制执行翻译不变性。
视觉应用池化更正式地称为空间池化。时序应用通常将池化称为时间池化。一种不太正式的概念是池化,通常称为下采样或降采样。
(右)
旋转不变
在图像分类问题中,即使图像的方向发生变化,算法也会成功对图像进行分类。例如,无论网球拍是朝上、侧向还是下推,算法仍然可以识别它。请注意,旋转不变性并非总是可取的;例如,不应将倒立的 9 归类为 9。
S
大小不变性
在图像分类问题中,即使图像的大小发生变化,算法也会成功对图像进行分类。例如,算法仍然可以识别猫是消耗 200 万像素还是 20 万像素。请注意,即使是最好的图像分类算法,在大小不变性方面仍然具有实际限制。例如,算法(或人工)不太可能将只占用 20 个像素的猫图片正确分类。
空间池化
请参阅池。
步长
在卷积运算或池化中,下一个系列输入切片的每个维度中的增量。例如,以下动画展示了在卷积运算期间的步进 (1,1)。因此,下一个输入切片会从上一个输入切片的右侧开始一个位置。当操作到达右侧边缘时,下一个切片将一直向左,但是向下移动一个位置。
上面的示例演示了二维步长。如果输入矩阵是三维,那么步长也将是三维。
下采样
请参阅池。
T
翻译不变性
在图像分类问题中,即使对象在图像中的位置发生变化,算法也会成功对图像进行分类。例如,算法仍然可以识别狗,无论它位于画面的中心还是画面的左端。