摘要

本课程介绍了许多常见的数据陷阱,从数据集质量到思维、可视化和统计分析。

机器学习从业者应问:

  • 我对数据集的特征以及收集相应数据时的条件了解程度如何?
  • 我的数据中存在哪些质量或偏差问题?是否存在混杂因素?
  • 使用这些特定数据集可能会导致哪些潜在的下游问题?
  • 在训练用于进行预测或分类的模型时,模型所训练的数据集是否包含所有相关变量?

无论发现如何,机器学习从业者都应始终检查自己是否存在确认偏差,然后根据直觉和常识检查自己的发现,并在数据与这些直觉和常识相冲突时进行调查。

附加阅读材料

开罗,阿尔贝托。How Charts Lie: Getting Smarter about Visual Information(图表如何撒谎:更智能地了解视觉信息)。纽约:W.W. Norton,2019 年。

Huff, Darrell. How to Lie with Statistics(如何用统计数据撒谎)。纽约:W.W. Norton,1954 年。

Monmonier, Mark. How to Lie with Maps,第 3 版。芝加哥:芝加哥大学出版社,2018 年。

Jones, Ben. 避免数据陷阱。Hoboken, NJ: Wiley, 2020.

Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. 纽约:W.W. Norton,2013 年