Preparación de datos e ingeniería de atributos en AA

El aprendizaje automático nos ayuda a encontrar patrones en los datos, que usamos para hacer predicciones sobre datos nuevos. Para obtener esas predicciones correctamente, debemos construir el conjunto de datos y transformar los datos correctamente. Este curso abarca estos dos pasos clave. También veremos cómo estos factores determinan las consideraciones de entrenamiento y entrega.

Un proyecto de aprendizaje automático organizado en cinco etapas. 1. Definir un problema del AA y proponer una solución 2. Construye tu conjunto de datos. 3. Transformar datos.
4. Entrenar un modelo. 5. Usar el modelo para hacer predicciones  En este curso, se explica cómo construir un conjunto de datos y transformar datos.

Requisitos previos

En este curso, se da por sentado que tienes lo siguiente:

¿Por qué aprender sobre la preparación de datos y la ingeniería de atributos?

La ingeniería de atributos es como ayudar al modelo a comprender el conjunto de datos de la misma manera que tú. Los alumnos suelen acudir a un curso de aprendizaje automático enfocado en la compilación de modelos, pero pasan mucho más tiempo concentrándose en los datos.

En la siguiente pregunta, haz clic en la flecha deseada para verificar tu respuesta:

Si tuvieras que priorizar la mejora de una de las siguientes áreas en tu proyecto de aprendizaje automático, ¿cuál tendría el mayor impacto?
La calidad y el tamaño de sus datos
Los datos tienen prioridad sobre todo. Es cierto que actualizar tu algoritmo de aprendizaje o la arquitectura del modelo te permitirá aprender diferentes tipos de patrones, pero si tus datos son incorrectos, terminarás compilando funciones que se ajusten a lo incorrecto. La calidad y el tamaño del conjunto de datos son mucho más importantes que el algoritmo brillante que uses.
Usa el algoritmo de optimización más reciente
Por supuesto, podrías ver algunos beneficios en el envío de optimizadores, pero no tendría un impacto tan significativo en tu modelo como otro elemento de esta lista.
Una red más profunda
Si bien una red más profunda puede mejorar tu modelo, el impacto no será tan significativo como otro elemento de esta lista.
Una función de pérdida más inteligente
Estás cerca. Una mejor función de pérdida puede brindarte una gran ventaja, pero es la segunda de otro elemento de la lista.

¿Por qué es importante recopilar un buen conjunto de datos?

Google Traductor

“...uno de nuestros avances de calidad más impactantes desde que la traducción automática neuronal ha sido identificar el mejor subconjunto de nuestros datos de entrenamiento para usar”

- Ingeniero de software, Google Traductor

El equipo de Google Traductor tiene más datos de entrenamiento de los que puede usar. En lugar de ajustar su modelo, el equipo ha logrado grandes victorias mediante el uso de los mejores atributos en sus datos.

 

 

 

“...la mayoría de las veces, cuando intenté depurar de forma manual los errores interesantes, se podía remontar a los problemas de los datos de entrenamiento”. - Ingeniero de software, Google Traductor

Por lo general, los errores de aspecto interesante son causados por los datos. Los datos con fallas pueden hacer que tu modelo aprenda los patrones incorrectos, sin importar las técnicas de modelado que pruebes.

 

 

Proyecto de retinopatía diabética de Brain

El proyecto de retinopatía diabética de Google Brain usó una arquitectura de red neuronal, conocida como Inception, para clasificar enfermedades mediante la detección de enfermedades. El equipo no modificó modelos. En su lugar, lograron crear un conjunto de datos de 120,000 ejemplos etiquetados por oftalmólogos. (Obtén más información en https://research.google.com/pubs/pub43022.html).