数据集、泛化和过拟合

简介

本单元以一个引导性问题开头。请从以下选项中选择一项:

如果您必须优先改进机器学习项目中的以下某个方面,哪个方面的影响最大?
提高数据集的质量
数据胜过一切。 数据集的质量和大小比 用于构建模型的闪亮算法。
对模型训练应用更巧妙的损失函数
没错,更好的损失函数可以帮助模型更快地训练,但与此列表中的另一项相比,它仍然远远落后。

还有一个更重要的问题:

猜猜看:在您的机器学习项目中, 您通常花在数据准备和转换上吗?
超过项目时间的一半
是的,机器学习从业者会花费大部分时间构建数据集和进行特征工程。
不到项目时间的一半
制定更多计划!通常情况下,80% 的时间用于机器学习 用于构建数据集和转换数据。

在本单元中,您将详细了解机器学习 以及如何准备数据,以确保在 来训练和评估模型。