概要

このコースでは、データセットの品質から思考、可視化、統計分析まで、一般的なデータ トラップについて説明しました。

ML 担当者は次のように自問する必要があります。

  • データセットの特性と、そのデータが収集された条件をどれだけ理解していますか?
  • データに存在する品質やバイアスの問題交絡因子は存在するか?
  • これらの特定のデータセットを使用すると、どのようなダウンストリームの問題が発生する可能性がありますか?
  • 予測または分類を行うモデルをトレーニングする場合、モデルのトレーニングに使用するデータセットには、関連するすべての変数が含まれていますか?

結果がどうであれ、ML 実務者は常に自分自身に確証バイアスがないか確認し、直感や常識と照らし合わせて結果をチェックし、データが直感や常識と矛盾している場合は調査する必要があります。

その他の情報

Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. NY: W.W. Norton, 2019.

Huff, Darrell. 統計で嘘をつく方法。NY: W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps, 3rd ed. Chicago: U of Chicago P, 2018.

Jones, Ben. Avoiding Data Pitfalls. Hoboken, NJ: Wiley, 2020.

Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. NY: W.W. Norton, 2013