Unir registros de datos

Cuando ensamblas un conjunto de entrenamiento, a veces debes unir varias fuentes de datos.

Tipos de registros

Puedes trabajar con cualquiera de los siguientes tipos de datos de entrada:

  • registros transaccionales
  • datos de atributos
  • estadísticas agregadas

Los registros transaccionales registran un evento específico. Por ejemplo, un registro transaccional puede registrar una dirección IP que realiza una consulta y la fecha y hora en que se realizó. Los eventos transaccionales corresponden a un evento específico.

Datos de atributos contiene instantáneas de información. Por ejemplo:

  • datos demográficos de los usuarios
  • historial de búsqueda en el momento de la búsqueda

Los datos de atributos no son específicos de un evento o momento, pero pueden ser útiles para hacer predicciones. Para las tareas de predicción no vinculadas a un evento específico (por ejemplo, predecir la deserción de usuarios, que involucra un rango de tiempo en lugar de un momento individual), los datos de atributos pueden ser el único tipo de datos.

Los datos de atributos y los registros de transacciones están relacionados. Por ejemplo, puedes crear un tipo de datos de atributos mediante la agregación de varios registros de transacciones y crear estadísticas agregadas. En este caso, puedes consultar muchos registros de transacciones a fin de crear un solo atributo para un usuario.

Las estadísticas agregadas crean un atributo a partir de varios registros de transacciones. Por ejemplo:

  • frecuencia de las consultas de los usuarios
  • La tasa de clics promedio en un anuncio determinado

Une fuentes de registro

Cada tipo de registro suele estar en una ubicación diferente. Cuando recopiles datos para tu modelo de aprendizaje automático, debes unir diferentes fuentes a fin de crear tu conjunto de datos. Estos son algunos ejemplos:

  • Aprovecha el ID y la marca de tiempo del usuario en los registros transaccionales para buscar los atributos del usuario en el momento del evento.
  • Usa la marca de tiempo de la transacción para seleccionar el historial de búsquedas en el momento de la búsqueda.

Fuentes de datos de predicción: en línea y sin conexión

En el Curso intensivo de aprendizaje automático, aprendiste sobre la entrega en línea y sin conexión. La elección influye en cómo tu sistema recopila datos de la siguiente manera:

  • en línea: la latencia es una preocupación, por lo que tu sistema debe generar entradas rápidamente.
  • sin conexión: es probable que no tengas restricciones de procesamiento, por lo que puedes realizar operaciones igualmente complejas como la generación de datos de entrenamiento.

Por ejemplo, los datos de atributos con frecuencia deben buscarse desde otro sistema, lo que podría generar problemas de latencia. Del mismo modo, las estadísticas agregadas pueden ser costosas para el procesamiento. Si la latencia es un bloqueador, una posibilidad es procesar previamente estas estadísticas.