Este curso abordou muitas armadilhas comuns de dados, desde a qualidade do conjunto de dados até o pensamento, a visualização e a análise estatística.
Os profissionais de ML precisam perguntar:
- Quão bem entendo as características dos meus conjuntos de dados e as condições em que esses dados foram coletados?
- Quais problemas de qualidade ou viés existem nos meus dados? Há fatores de confusão?
- Quais possíveis problemas futuros podem surgir do uso desses conjuntos de dados específicos?
- Ao treinar um modelo que faz previsões ou classificações, o conjunto de dados usado contém todas as variáveis relevantes?
Seja qual for a descoberta, os profissionais de ML precisam sempre se examinar para identificar viés de confirmação, verificar as descobertas em relação à intuição e ao senso comum e investigar sempre que os dados entrarem em conflito com eles.
Mais informações
Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. NY: W.W. Norton, 2019.
Huff, Darrell. Como mentir com estatísticas. NY: W.W. Norton, 1954.
Monmonier, Mark. How to Lie with Maps,3ª ed. Chicago: U of Chicago P, 2018.
Jones, Ben. Como evitar armadilhas de dados. Hoboken, NJ: Wiley, 2020.
Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. NY: W.W. Norton, 2013