Resumen

En este curso, se analizaron muchas trampas de datos comunes, desde la calidad del conjunto de datos hasta el pensamiento, la visualización y el análisis estadístico.

Los profesionales del AA deben preguntarse lo siguiente:

  • ¿Qué tan bien comprendo las características de mis conjuntos de datos y las condiciones en las que se recopilaron esos datos?
  • ¿Qué problemas de calidad o sesgo existen en mis datos? ¿Hay factores de confusión presentes?
  • ¿Qué posibles problemas posteriores podrían surgir por usar estos conjuntos de datos en particular?
  • Cuando se entrena un modelo que realiza predicciones o clasificaciones, ¿el conjunto de datos con el que se entrena el modelo contiene todas las variables pertinentes?

Independientemente de sus hallazgos, los profesionales de AA siempre deben analizar si tienen sesgo de confirmación, luego verificar sus hallazgos en función de su intuición y sentido común, y realizar investigaciones cuando los datos entren en conflicto con estos.

Lecturas adicionales

Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. NY: W.W. Norton, 2019.

Huff, Darrell. Cómo mentir con estadísticas. NY: W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps, 3ª ed. Chicago: U of Chicago P, 2018.

Jones, Ben. Avoiding Data Pitfalls. Hoboken, NJ: Wiley, 2020.

Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. NY: W.W. Norton, 2013