Preparación de datos e ingeniería de atributos en AA
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
El aprendizaje automático nos ayuda a encontrar patrones en los datos, que usamos para hacer predicciones sobre datos nuevos. Para obtener esas predicciones correctamente, debemos construir el conjunto de datos y transformar los datos correctamente.
Este curso abarca estos dos pasos clave. También veremos cómo influyen las consideraciones de entrenamiento y entrega en estos pasos.
¿Por qué deberías aprender sobre preparación de datos y, también, ingeniería de atributos?
Puedes pensar en la ingeniería de atributos como ayudar al modelo a comprender los conjuntos de datos de la misma manera que tú. Los alumnos suelen asistir a un curso de aprendizaje automático centrado en la compilación de modelos, pero terminan dedicando mucho más tiempo a enfocarse en los datos.
En la siguiente pregunta, haz clic en la flecha deseada para verificar tu respuesta:
Si tuvieras que priorizar la mejora de una de las siguientes áreas de tu proyecto de aprendizaje automático, ¿cuál tendría más impacto?
La calidad y el tamaño de sus datos
Los datos tienen prioridad sobre todo. Es cierto que actualizar el algoritmo de aprendizaje o la arquitectura del modelo te permitirá aprender diferentes tipos de patrones, pero si los datos son incorrectos, obtendrás funciones que se ajustan a lo incorrecto. La calidad y el tamaño del conjunto de datos son mucho más importantes que el algoritmo brillante que uses.
Usa el algoritmo de optimización más reciente
Definitivamente, podrías ver algunos beneficios al aplicar optimizadores, pero no tendría un impacto tan significativo en tu modelo como otro elemento de esta lista.
Una red más profunda
Si bien una red más profunda puede mejorar tu modelo, el impacto no será tan significativo como otro elemento de esta lista.
Una función de pérdida más inteligente
Estás cerca. Una mejor función de pérdida puede significar una gran victoria, pero sigue siendo la segunda en comparación con otro elemento de esta lista.
¿Por qué es importante recopilar un buen conjunto de datos?
Google Traductor
Uno de nuestros avances de calidad más impactantes desde la traducción automática neuronal fue identificar el mejor subconjunto de datos de entrenamiento para usarlo.
- Ingeniero de software, Google Traductor
El equipo de Google Traductor tiene más datos de entrenamiento de los que puede usar.
En lugar de ajustar su modelo, el equipo ha ganado más victorias gracias a las mejores características en sus datos.
La mayoría de las veces, cuando intentaba depurar de forma manual los errores interesantes, se podía rastrear hasta encontrar problemas con los datos de entrenamiento.
- Ingeniero de software, Google Traductor
Los errores de aspecto interesante generalmente se deben a los datos. Los datos con fallas pueden hacer que tu modelo aprenda los patrones incorrectos, sin importar las técnicas de modelado que pruebes.
Proyecto de retinopatía diabética para el cerebro
El proyecto de retinopatía diabética de Google Brain utilizó una arquitectura de redes neuronales, conocida como Inception, para detectar enfermedades mediante la clasificación de imágenes. El equipo no modificó los modelos.
En su lugar, lograron crear un conjunto de datos de 120,000 ejemplos etiquetados por oftalmólogos. (Más información en https://research.google.com/pubs/pub43022.html)