Preparación de datos e ingeniería de atributos en AA

El aprendizaje automático nos ayuda a encontrar patrones en los datos, que usamos para hacer predicciones sobre datos nuevos. Para obtener esas predicciones correctamente, debemos construir el conjunto de datos y transformar los datos correctamente. Este curso abarca estos dos pasos clave. También veremos cómo influyen las consideraciones de entrenamiento y entrega en estos pasos.

Un proyecto de aprendizaje automático organizado en cinco etapas. 1. Define un problema de AA y propone una solución. 2. Construye tu conjunto de datos. 3. Transforme los datos.
4. Entrenar un modelo. 5. Usar el modelo para hacer predicciones  En este curso, se aborda la construcción de un conjunto de datos y la transformación de datos.

Requisitos previos

En este curso, suponemos que tienes lo siguiente:

¿Por qué deberías aprender sobre preparación de datos y, también, ingeniería de atributos?

Puedes pensar en la ingeniería de atributos como ayudar al modelo a comprender los conjuntos de datos de la misma manera que tú. Los alumnos suelen asistir a un curso de aprendizaje automático centrado en la compilación de modelos, pero terminan dedicando mucho más tiempo a enfocarse en los datos.

En la siguiente pregunta, haz clic en la flecha deseada para verificar tu respuesta:

Si tuvieras que priorizar la mejora de una de las siguientes áreas de tu proyecto de aprendizaje automático, ¿cuál tendría más impacto?
La calidad y el tamaño de sus datos
Los datos tienen prioridad sobre todo. Es cierto que actualizar el algoritmo de aprendizaje o la arquitectura del modelo te permitirá aprender diferentes tipos de patrones, pero si los datos son incorrectos, obtendrás funciones que se ajustan a lo incorrecto. La calidad y el tamaño del conjunto de datos son mucho más importantes que el algoritmo brillante que uses.
Usa el algoritmo de optimización más reciente
Definitivamente, podrías ver algunos beneficios al aplicar optimizadores, pero no tendría un impacto tan significativo en tu modelo como otro elemento de esta lista.
Una red más profunda
Si bien una red más profunda puede mejorar tu modelo, el impacto no será tan significativo como otro elemento de esta lista.
Una función de pérdida más inteligente
Estás cerca. Una mejor función de pérdida puede significar una gran victoria, pero sigue siendo la segunda en comparación con otro elemento de esta lista.

¿Por qué es importante recopilar un buen conjunto de datos?

Google Traductor

Uno de nuestros avances de calidad más impactantes desde la traducción automática neuronal fue identificar el mejor subconjunto de datos de entrenamiento para usarlo.

- Ingeniero de software, Google Traductor

El equipo de Google Traductor tiene más datos de entrenamiento de los que puede usar. En lugar de ajustar su modelo, el equipo ha ganado más victorias gracias a las mejores características en sus datos.

 

 

 

La mayoría de las veces, cuando intentaba depurar de forma manual los errores interesantes, se podía rastrear hasta encontrar problemas con los datos de entrenamiento. - Ingeniero de software, Google Traductor

Los errores de aspecto interesante generalmente se deben a los datos. Los datos con fallas pueden hacer que tu modelo aprenda los patrones incorrectos, sin importar las técnicas de modelado que pruebes.

 

 

Proyecto de retinopatía diabética para el cerebro

El proyecto de retinopatía diabética de Google Brain utilizó una arquitectura de redes neuronales, conocida como Inception, para detectar enfermedades mediante la clasificación de imágenes. El equipo no modificó los modelos. En su lugar, lograron crear un conjunto de datos de 120,000 ejemplos etiquetados por oftalmólogos. (Más información en https://research.google.com/pubs/pub43022.html)