Resumo

Este curso abordou muitas armadilhas comuns de dados, desde a qualidade do conjunto de dados até o pensamento, a visualização e a análise estatística.

Os profissionais de ML precisam perguntar:

  • Quão bem entendo as características dos meus conjuntos de dados e as condições em que esses dados foram coletados?
  • Quais problemas de qualidade ou viés existem nos meus dados? Há fatores de confusão?
  • Quais possíveis problemas futuros podem surgir do uso desses conjuntos de dados específicos?
  • Ao treinar um modelo que faz previsões ou classificações, o conjunto de dados usado contém todas as variáveis relevantes?

Seja qual for a descoberta, os profissionais de ML precisam sempre se examinar para identificar viés de confirmação, verificar as descobertas em relação à intuição e ao senso comum e investigar sempre que os dados entrarem em conflito com eles.

Mais informações

Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. NY: W.W. Norton, 2019.

Huff, Darrell. Como mentir com estatísticas. NY: W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps,3ª ed. Chicago: U of Chicago P, 2018.

Jones, Ben. Como evitar armadilhas de dados. Hoboken, NJ: Wiley, 2020.

Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. NY: W.W. Norton, 2013