数值数据:总结
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
机器学习 (ML) 模型的运行状况取决于其数据。向模型提供优质数据,模型就会茁壮成长;向模型提供垃圾数据,其预测结果将毫无价值。
处理数值数据的最佳实践:
- 请注意,机器学习模型与特征向量中的数据进行交互,而不是与数据集中的数据进行交互。
- 归一化大多数数值特征。
- 如果您的第一种归一化策略不成功,请考虑采用其他方式来归一化数据。
- 分箱(也称为分桶)有时比标准化更有效。
- 考虑一下您的数据应该是什么样子,编写验证测试来验证这些预期。例如:
- 纬度的绝对值不得超过 90。您可以编写一个测试,检查数据中是否出现大于 90 的纬度值。
- 如果您的数据仅限于佛罗里达州,您可以编写测试来检查纬度是否介于 24 到 31 之间(包括这两个数值)。
- 使用散点图和直方图直观呈现数据。查找异常。
- 您不仅可以收集整个数据集的统计信息,还可以收集数据集的较小子集的统计信息。这是因为汇总统计数据有时会掩盖数据集中较小部分存在的问题。
- 记录所有数据转换。
数据是您最宝贵的资源,因此请妥善处理。
后续步骤
恭喜您完成本单元!
我们鼓励您根据自己的兴趣和进度,探索各种 MLCC 模块。如果您想按照建议的顺序学习,我们建议您接下来学习以下模块:表示分类数据。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2024-11-10。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2024-11-10。"],[],[]]