此页面由 Cloud Translation API 翻译。

机器学习中的数据准备和特征工程

机器学习可帮助我们找到数据中的模式，然后我们利用这些模式对新数据点进行预测。为了正确进行这些预测，我们必须正确构建数据。本课程介绍了这两个关键步骤。我们还将看到训练/投放注意事项是如何这些步骤发挥作用的。

一个分为五个阶段的机器学习项目。1. 定义机器学习问题并提出解决方案。2. 构建您的数据集。3. 转换数据。
4. 训练模型。 5. 使用该模型进行预测。本课程介绍如何构建数据集和转换数据。

前提条件

本课程假定您已具备以下条件：

已完成机器学习速成课程。

为什么要了解数据准备和特征工程？

您可以将特征工程视为帮助模型以相同的方式理解数据集。学习者经常会进入专注于模型构建的机器学习课程，但最终会有更多时间专注于数据。

对于以下问题，请点击所需的箭头以查看您的答案：

在机器学习项目中，如果必须优先改进以下某一方面，哪个方面产生的影响最大？

数据的质量和大小

数据优先于一切。更新学习算法或模型架构确实能让您学习不同类型的模式，但如果您的数据有问题，最终将构建适合错误情况的函数。数据集的质量和大小比您使用哪个闪亮的算法更重要。

使用最新的优化算法

在推送优化器方面，无疑会获得一些收益，但此列表对模型的影响不会比此列表中的另一个项大。

更深入的网络

虽然较深的网络可能会改进您的模型，但影响不如此列表中的其他内容那么显著。

更智能的损失函数

关闭！更好的损失函数可以为您带来巨大的成功，但它仍是此列表中的另一项。

为什么收集良好的数据集非常重要？

谷歌翻译

“...由于机器学习机器翻译一直在确定要使用的最好的训练数据子集，因此影响力最大的质量改进之一”

- 谷歌翻译软件工程师

Google 翻译团队拥有的训练数据数量超出了上限。他们没有优化自己的模型，而是通过利用其数据的最佳特性来获得更大的成功。

“大多数时候，当我尝试手动调试看起来很有趣的错误时，可以追溯到训练数据的问题。”

“引起兴趣”错误通常由数据引起。无论您尝试使用哪种建模方法，错误的数据都可能导致模型学习错误的模式。

大脑糖尿病视网膜病变项目

Google Brain 的糖尿病视网膜病变项目采用神经网络架构（称为 Inception）通过对图像进行分类来检测疾病。该团队并未调整模型。相反，他们成功创建了由 120,000 个样本组成的数据集，这些样本由眼科医生进行标记。（如需了解详情，请访问 https://research.google.com/pubs/pub43022.html）。

流程