Google uses AI technology to translate content into your preferred language. AI translations can contain errors.
摘要
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
本课程介绍了许多常见的数据陷阱,从数据集质量到思维、可视化和统计分析。
机器学习从业者应问:
- 我对数据集的特征以及收集相应数据时的条件了解程度如何?
- 我的数据中存在哪些质量或偏差问题?是否存在混杂因素?
- 使用这些特定数据集可能会导致哪些潜在的下游问题?
- 在训练用于进行预测或分类的模型时,模型所训练的数据集是否包含所有相关变量?
无论发现如何,机器学习从业者都应始终检查自己是否存在确认偏差,然后根据直觉和常识检查自己的发现,并在数据与这些直觉和常识相冲突时进行调查。
附加阅读材料
开罗,阿尔贝托。How Charts Lie: Getting Smarter about Visual Information(图表如何撒谎:更智能地了解视觉信息)。纽约:W.W. Norton,2019 年。
Huff, Darrell. How to Lie with Statistics(如何用统计数据撒谎)。纽约:W.W. Norton,1954 年。
Monmonier, Mark. How to Lie with Maps,第 3 版。芝加哥:芝加哥大学出版社,2018 年。
Jones, Ben. 避免数据陷阱。Hoboken, NJ: Wiley, 2020.
Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. 纽约:W.W. Norton,2013 年
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-07-27。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-07-27。"],[],[]]