Representación

Un modelo de aprendizaje automático no puede ver, oír ni percibir los ejemplos de entrada de forma directa. En su lugar, debes crear una representación de los datos para proporcionarle al modelo un punto de vista útil sobre las cualidades clave de los datos. Es decir, para entrenar un modelo, debes elegir un conjunto de atributos que representen los datos de la mejor manera.

Representación

De datos sin procesar a atributos

La idea es asignar cada parte del vector de la izquierda a uno o más campos en el vector de atributos de la derecha.

Los datos sin procesar se asignan a un vector de atributos a través de un proceso llamado ingeniería de atributos.

De datos sin procesar a atributos

Asignación de un número entero sin procesar (6) a un atributo de punto flotante (6.0).

De datos sin procesar a atributos

De datos sin procesar a atributos

Asignación de un valor de string mediante codificación de un solo 1
  • El diccionario asigna cada nombre de calle a un int en {0, …,V-1}.
  • Ahora representa un vector de un solo 1 superior como <i>

Propiedades de un buen atributo

Los valores de los atributos deben tener valores que no sean cero varias veces en el conjunto de datos.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Propiedades de un buen atributo

Los atributos deben tener un significado claro y evidente.

user_age:23

user_age:123456789

Propiedades de un buen atributo

Los atributos no deben basarse en valores "mágicos".

(En su lugar, usa un atributo booleano adicional, como tiempo_de_reproducción_definido).

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

Propiedades de un buen atributo

La definición de un atributo no debe cambiar en el tiempo.

(Cuidado con la dependencia de otros sistemas de AA).

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

Propiedades de un buen atributo

La distribución no debe tener valores atípicos.

Idealmente, todos los atributos deben adaptarse a un rango similar, como (-1, 1) o (0, 5).

Distribución con valores atípicos y una distribución con un límite

El truco de la discretización

Gráfico en el que se muestra una distribución con una curva de ajuste en función de la ubicación

El truco de la discretización

Gráfico en el que se muestra una distribución con una curva de ajuste en función de la ubicación
  • Crea muchas discretizaciones booleanas, cada una asignada a un nuevo atributo único.
  • Permite que el modelo ajuste un valor diferente para cada punto.

Hábitos positivos

CONOCE TUS DATOS

  • Visualización: Traza histogramas, ordenados del más al menos común.
  • Depuración: ¿Hay ejemplos duplicados? ¿Faltan valores? ¿Hay valores atípicos? ¿Los datos coinciden con los paneles de control? ¿Los datos de entrenamiento y validación son similares?
  • Supervisión: Cuantiles de atributos: ¿cuál es la cantidad de ejemplos en el tiempo?

Enviar comentarios sobre…

Curso intensivo de aprendizaje automático