Introducción a la construcción de tu conjunto de datos

Pasos para construir tu conjunto de datos

Para construir tu conjunto de datos (y antes de realizar la transformación de datos), debes hacer lo siguiente:

  1. Recopilar los datos sin procesar
  2. Identifica las fuentes de atributos y etiquetas.
  3. Selecciona una estrategia de muestreo.
  4. Dividir los datos

Estos pasos dependen en gran medida de cómo hayas planteado tu problema de AA. Usa la autoverificación que se muestra a continuación para actualizar la memoria sobre el encuadre de problemas y verificar tus suposiciones sobre la recopilación de datos.

Autoevaluación de enmarcado de problemas y conceptos de recopilación de datos

En las siguientes preguntas, haz clic en la flecha deseada para verificar tu respuesta:

Estás en un nuevo proyecto de aprendizaje automático a punto de seleccionar tus primeras funciones. ¿Cuántas funciones debería elegir?
Elige entre 1 y 3 características que parezcan tener un poder predictivo sólido.
Es mejor que tu canalización de recopilación de datos comience con solo una o dos funciones. Esto lo ayudará a confirmar que el modelo de AA funciona según lo previsto. Además, si creas un modelo de referencia a partir de algunas funciones, sentirás que estás progresando.
Elige entre 4 y 6 características que parezcan tener un poder predictivo sólido.
Puedes usar esta cantidad de funciones en el futuro, pero es mejor comenzar con menos. Por lo general, menos funciones implican menos complicaciones innecesarias.
Elige la mayor cantidad de atributos posible y comienza a observar cuáles tienen el mayor poder predictivo.
Comience con un importe más bajo. Cada función nueva agrega una dimensión nueva a tu conjunto de datos de entrenamiento. Cuando la dimensionalidad aumenta, el volumen del espacio aumenta tan rápido que los datos de entrenamiento disponibles se vuelven dispersos. Cuanto más dispersos son tus datos, más difícil es que un modelo aprenda la relación entre los atributos que realmente importan y la etiqueta. Este fenómeno se denomina "la maldición de la dimensionalidad".
Tu amigo Sam está entusiasmado con los resultados iniciales de su análisis estadístico. Él dice que los datos muestran una correlación positiva entre la cantidad de descargas de aplicaciones y la cantidad de impresiones de opiniones sobre aplicaciones. Sin embargo, no está seguro de si la habrían descargado de todas formas sin ver la opinión. ¿Qué respuesta sería más útil para Sam?
Puedes ejecutar un experimento para comparar el comportamiento de los usuarios que no vieron la opinión con el de usuarios similares que sí la vieron.
Correcto. Si Sam observa que los usuarios que vieron la opinión positiva fueron más propensos a descargar la app que los que no la vieron, tiene evidencia razonable para sugerir que esa opinión motiva a las personas a descargar la app.
Confía en los datos. Está claro que esa es la razón por la que los usuarios descargan la app.
Incorrecto. Esta respuesta no llevaría a Sam en la dirección correcta. No puedes determinar la causalidad solo a partir de los datos de observación. Sam está viendo una correlación (es decir, una dependencia estadística entre los números) que puede o no indicar causalidad. No dejes que tus análisis se unan a las clasificaciones de correlaciones falsas.