机器学习中的数据准备和特征工程

机器学习可帮助我们找到数据中的模式,然后我们利用这些模式对新数据点进行预测。为了正确进行这些预测,我们必须正确构建数据。本课程介绍了这两个关键步骤。我们还将看到训练/投放注意事项是如何这些步骤发挥作用的。

一个分为五个阶段的机器学习项目。1. 定义机器学习问题并提出解决方案。2. 构建您的数据集。3. 转换数据。
4. 训练模型。 5. 使用该模型进行预测。本课程介绍如何构建数据集和转换数据。

前提条件

本课程假定您已具备以下条件:

为什么要了解数据准备和特征工程?

您可以将特征工程视为帮助模型以相同的方式理解数据集。学习者经常会进入专注于模型构建的机器学习课程,但最终会有更多时间专注于数据。

对于以下问题,请点击所需的箭头以查看您的答案:

在机器学习项目中,如果必须优先改进以下某一方面,哪个方面产生的影响最大?
数据的质量和大小
数据优先于一切。更新学习算法或模型架构确实能让您学习不同类型的模式,但如果您的数据有问题,最终将构建适合错误情况的函数。数据集的质量和大小比您使用哪个闪亮的算法更重要。
使用最新的优化算法
在推送优化器方面,无疑会获得一些收益,但此列表对模型的影响不会比此列表中的另一个项大。
更深入的网络
虽然较深的网络可能会改进您的模型,但影响不如此列表中的其他内容那么显著。
更智能的损失函数
关闭!更好的损失函数可以为您带来巨大的成功,但它仍是此列表中的另一项。

为什么收集良好的数据集非常重要?

谷歌翻译

“...由于机器学习机器翻译一直在确定要使用的最好的训练数据子集,因此影响力最大的质量改进之一”

- 谷歌翻译软件工程师

Google 翻译团队拥有的训练数据数量超出了上限。 他们没有优化自己的模型,而是通过利用其数据的最佳特性来获得更大的成功。

 

 

 

“大多数时候,当我尝试手动调试看起来很有趣的错误时,可以追溯到训练数据的问题。”

“引起兴趣”错误通常由数据引起。无论您尝试使用哪种建模方法,错误的数据都可能导致模型学习错误的模式。

 

 

大脑糖尿病视网膜病变项目

Google Brain 的糖尿病视网膜病变项目采用神经网络架构(称为 Inception)通过对图像进行分类来检测疾病。该团队并未调整模型。相反,他们成功创建了由 120,000 个样本组成的数据集,这些样本由眼科医生进行标记。(如需了解详情,请访问 https://research.google.com/pubs/pub43022.html)。