数值数据:擦除
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
苹果树结出的果实有美味的果实,还有臭虫的滋生。
而高端杂货店的苹果是 100% 完美的水果。
在果园和杂货店之间,有人花费大量时间
或者给可挽救的苹果喷蜡。
作为一名机器学习工程师,您将花费大量时间
丢弃不良样本,清理可挽救的样本。
即使是几个坏苹果也可能会破坏大型数据集。
由于存在一个或多个
以下问题:
问题类别 | 示例 |
省略的值 |
人口普查员未能记录居民的年龄。 |
重复示例 |
服务器会将相同的日志上传两次。 |
超出范围的特征值。 |
有人不小心输入了额外的数字。 |
标签有误 |
一名人工评估员误将一张橡树的图片标记为
枫树。 |
您可以编写程序或脚本来检测以下任何问题:
例如,以下数据集包含六个重复值:
图 15. 前六个值是重复的。
再举一个例子,假设某个特征的温度范围
介于 10 度(含)和 30 度(含)之间。但意外还是会发生——也许是
温度计暂时暴露在阳光下,会导致不良的离群值。
您的程序或脚本必须识别小于 10 或更大的温度值
超过 30 个字符:
图 16. 超出范围的值。
如果标签由多人生成,我们建议您
确定每个标注者是否生成了等效的标签集。
某个评分者可能比其他评分者更加严格,或
使用一组不同的评分标准?
一旦检测到,您通常需要“修正”包含不良特征的示例
从数据集中移除或输入值来调整标签或不良标签。
有关详情,请参阅
数据特征
部分中
数据集、泛化和过拟合
模块。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2024-08-13。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2024-08-13。"],[],[]]