处理数值数据

与构建模型相比,机器学习从业者花在评估、清理和转换数据上的时间要多得多。数据非常重要,因此本课程将有整整三个单元来介绍该主题:

本单元着重介绍 数值数据、 表示整数或浮点值 其行为方式与数字类似的函数。也就是说,它们是可累加的、可数的、有序的, 依此类推。下一部分将重点介绍分类数据,其中可能包含行为类似于类别的数字。第三单元重点介绍如何 准备数据,确保在训练和评估时获得高质量结果 模型。

数值数据的示例包括:

  • 温度
  • 重量
  • 自然保护区的鹿数量

相比之下,美国邮政编码虽然是 5 位数或 9 位数的数字,但其行为方式与数字不同,也不代表数学关系。邮政编码 40004(肯塔基州尼尔森县)不是邮政编码 20002(华盛顿特区)的两倍。这些数字代表类别(具体而言是地理区域),被视为分类数据。