Depuración de datos y atributos

Los datos de baja calidad afectarán significativamente el rendimiento de su modelo. Es mucho más fácil detectar datos de baja calidad en la entrada que adivinar que existe después de que el modelo predice de manera incorrecta. Supervisa tus datos con las sugerencias de esta sección.

Valida datos de entrada con un esquema de datos

Para supervisar tus datos, debes verificar tus datos de forma continua con los valores estadísticos esperados mediante la escritura de reglas que los datos deben satisfacer. Esta colección de reglas se denomina esquema de datos. Para definir un esquema de datos, sigue estos pasos:

  1. Para los datos de sus atributos, comprenda el rango y la distribución. Para los atributos categóricos, debes comprender el conjunto de valores posibles.
  2. Codifica tu comprensión en reglas definidas en el esquema. Estos son algunos ejemplos de reglas:

    • Asegúrese de que las calificaciones enviadas por los usuarios estén siempre entre 1 y 5.
    • Comprueba que "el" aparezca con más frecuencia (para una función de texto en inglés).
    • Verifica que los atributos categóricos tengan valores de un conjunto fijo.
  3. Prueba tus datos en el esquema de datos. Tu esquema debería detectar errores de datos como los siguientes:

    • anomalies
    • valores inesperados de variables categóricas
    • distribuciones de datos inesperadas

Asegúrate de que las divisiones sean de buena calidad

Las divisiones de prueba y entrenamiento deben ser igual de representativas que los datos de entrada. Si las divisiones de prueba y entrenamiento son estadísticamente diferentes, los datos de entrenamiento no ayudarán a predecir los datos de prueba. Para obtener información sobre cómo muestrear y dividir datos, consulta la sección Muestreo y división de datos en el curso Preparación de datos y, luego, ingeniería de atributos en AA.

Supervisa las propiedades estadísticas de tus divisiones. Si las propiedades difieren, envía una marca. Además, prueba que la proporción de ejemplos en cada división se mantenga constante. Por ejemplo, si tus datos se dividen en 80:20, esa proporción no debería cambiar.

Probar datos de ingeniería

Si bien tus datos sin procesar pueden ser válidos, el modelo solo ve datos de atributos de ingeniería. Debido a que los datos de diseño se ven muy diferentes de los datos de entrada sin procesar, debes verificarlos por separado. Escribe pruebas de unidades según tus conocimientos de los datos de ingeniería. Por ejemplo, puedes escribir pruebas de unidades para verificar las siguientes condiciones:

  • Todos los atributos numéricos se escalan, por ejemplo, entre 0 y 1.
  • Los vectores con codificación one-hot solo contienen ceros de 1 y N-1.
  • Los datos faltantes se reemplazan por valores promedio o predeterminados.
  • Las distribuciones de datos después de la transformación cumplen con las expectativas. Por ejemplo, si normalizaste mediante puntuaciones z, la media de las puntuaciones z es 0.
  • Los valores atípicos se controlan, por ejemplo, mediante escalamiento o recorte.