Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Objetivos de aprendizaje
En este módulo, aprenderás a hacer lo siguiente:
Investigar problemas potenciales subyacentes de conjuntos de datos sin procesar o procesados, lo que incluye
de recopilación y calidad.
Identifica sesgos, inferencias no válidas y racionalizaciones.
Encontrar problemas habituales en el análisis de datos, incluida la correlación,
la relación y la irrelevancia.
Examina un gráfico para detectar problemas comunes, percepciones erróneas y
opciones de visualización y diseño engañosas.
Motivación por el AA
Aunque no son tan glamorosos como las arquitecturas de modelos y otros trabajos de modelos downstream,
la exploración de datos,
la documentación y el procesamiento previo
de AA. según lo que Nithya Sambasivan et al. se llamó
cascadas de datos
en su informe de ACM de 2021
si no entienden en detalle lo siguiente:
las condiciones en las que se recopilan sus datos
la calidad, las características y las limitaciones de los datos
lo que los datos pueden y no pueden mostrar
Es muy costoso entrenar modelos con datos incorrectos y
solo descubres en el punto de resultados de baja calidad que hubo problemas
con los datos. Del mismo modo, la falta de comprensión
de las limitaciones de los datos,
sesgos en la recopilación de datos o confundir la correlación con la causalidad,
puede dar lugar a resultados demasiado prometedores o insuficientes, lo que puede generar
pérdida de confianza.
En este curso, se explican las trampas de datos comunes, pero sutiles, que el AA y los datos
que los profesionales pueden encontrar en su trabajo.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Falta la información que necesito","missingTheInformationINeed","thumb-down"],["Muy complicado o demasiados pasos","tooComplicatedTooManySteps","thumb-down"],["Desactualizado","outOfDate","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Problema con las muestras o los códigos","samplesCodeIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2024-07-26 (UTC)"],[[["This module teaches you to identify potential issues in datasets, including biases and invalid inferences, ultimately helping you build better ML models."],["Understanding data limitations and collection conditions is crucial to avoid \"data cascades\" that lead to poor model performance and wasted resources."],["The module explores common data analysis pitfalls, such as mistaking correlation for causation, and emphasizes the importance of proper data exploration and preprocessing in machine learning workflows."],["By recognizing common problems in charts and data visualizations, you'll be able to avoid misperceptions and ensure accurate data representation."]]],[]]