Conjuntos de datos, generalización y sobreajuste

Introducción

Este módulo comienza con una pregunta guía. Elige una de las siguientes respuestas:

Si tuvieras que priorizar la mejora de una de las siguientes áreas en tu proyecto de aprendizaje automático, ¿cuál tendría el mayor impacto?
Mejora la calidad de tu conjunto de datos
Los datos tienen prioridad sobre todo. La calidad y el tamaño del conjunto de datos son mucho más importantes de lo que el algoritmo más brillante que usas para crear tu modelo.
Aplicar una función de pérdida más inteligente para entrenar tu modelo
Una mejor función de pérdida puede ayudar a que un modelo se entrene más rápido, sigue siendo un segundo elemento de esta lista.

Esta es una pregunta aún más sugestiva:

Adivina: En tu proyecto de aprendizaje automático, ¿cuánto tiempo sueles invertir en la preparación y transformación de los datos?
Más de la mitad del tiempo del proyecto
Sí, quienes practican el AA dedican la mayor parte de su tiempo a la construcción de conjuntos de datos y a la ingeniería de atributos.
Menos de la mitad del tiempo del proyecto
Planifica más. Por lo general, el 80% del tiempo de un proyecto de aprendizaje automático se dedica a la construcción de conjuntos de datos y a la transformación de datos.

En este módulo, aprenderás más sobre las características de los conjuntos de datos del aprendizaje automático y cómo preparar tus datos para garantizar resultados de alta calidad cuando entrenes y evalúes tu modelo.