数据集:转换数据
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
机器学习模型只能基于浮点值进行训练。不过,许多数据集特征本身不是浮点值。因此,机器学习的一个重要部分是将非浮点特征转换为浮点表示法。
例如,假设 street names
是地图项。大多数街道名称都是字符串,例如“Broadway”或“Vilakazi”。您的模型无法使用“Broadway”进行训练,因此您必须将“Broadway”转换为浮点数。“分类数据”模块介绍了具体操作。
此外,您还应转换大多数浮点地图项。此转换过程称为标准化,可将浮点数转换为受限范围,从而改进模型训练。“数值数据”模块介绍了如何执行此操作。
对数据进行采样(如果数据量过多)
有些组织拥有丰富的数据。
如果数据集包含的示例过多,您必须选择一组子集进行训练。请尽可能选择与模型预测最相关的子集。
包含个人身份信息的过滤条件示例
优质数据集会省略包含个人身份信息 (PII) 的示例。此政策有助于保护隐私,但可能会影响模型。
如需详细了解这些主题,请参阅本课程稍后的“安全和隐私”模块。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-07-27。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-07-27。"],[],[]]