数据集、泛化和过拟合
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
简介
本单元以一个引导性问题开头。请从以下选项中选择一项:
如果您必须优先改进机器学习项目中的以下某个方面,哪个方面的影响最大?
提高数据集的质量
数据胜过一切。
数据集的质量和大小比
用于构建模型的闪亮算法。
对模型训练应用更巧妙的损失函数
没错,更好的损失函数可以帮助模型更快地训练,但与此列表中的另一项相比,它仍然远远落后。
还有一个更重要的问题:
猜猜看:在您的机器学习项目中,
您通常花在数据准备和转换上吗?
超过项目时间的一半
是的,机器学习从业者会花费大部分时间构建数据集和进行特征工程。
不到项目时间的一半
制定更多计划!通常情况下,80% 的时间用于机器学习
用于构建数据集和转换数据。
在本单元中,您将详细了解机器学习
以及如何准备数据,以确保在
来训练和评估模型。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-07-27。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-07-27。"],[],[]]