Agrupamiento

Comencemos con una revisión rápida de una idea clave del Curso intensivo de aprendizaje automático. Observa la distribución en el siguiente gráfico.

Un gráfico de casas por latitud. El trazado es muy irregular, y contiene tambores alrededor de la latitud 36 y grandes picos alrededor de las latitudes 34 y 38. Figura 1: Precios de casas frente a latitud.

 

En la siguiente pregunta, haz clic en la flecha deseada para verificar tu respuesta:

Ten en cuenta la figura 1. Si crees que la latitud puede ser un buen predictor de los valores de la vivienda, ¿debes dejarla como un valor de punto flotante? ¿Por qué? (Supongamos que es un modelo lineal).
Sí. Si la latitud es un valor de punto flotante en el conjunto de datos, no debes cambiarlo.
Si alimentas esos valores de punto flotante en tu red, intentará aprender una relación lineal entre el atributo y la etiqueta. Pero una relación lineal no es probable para la latitud. Un aumento de un grado en la latitud (por ejemplo, de 34 a 35 grados) puede producir una cierta cantidad de cambio en el resultado del modelo, mientras que un aumento de un grado diferente (por ejemplo, de 35 a 36 grados) puede producir una cantidad de cambio diferente. Ese comportamiento no lineal.
No, no hay relación lineal entre la latitud y los valores de vivienda.
Sospechas que las latitudes individuales y los valores de vivienda están relacionados, pero la relación no es lineal.

En casos como el ejemplo de latitud, debes dividir las latitudes en depósitos para aprender algo diferente sobre los valores de vivienda de cada depósito. Esta transformación de atributos numéricos en atributos categóricos, mediante un conjunto de umbrales, se denomina agrupamiento. En este ejemplo de agrupamiento, los límites están separados por igual.

La misma representación de latitud frente a los precios de viviendas de la figura anterior. Sin embargo, esta vez, el trazado se divide en 11 discretizaciones entre latitudes de números enteros.

 

Figura 2: Precios de casas frente a latitud, divididos en depósitos.

Agrupación de cuantiles

Revisemos nuestro conjunto de datos de precios de automóviles con los depósitos agregados. Con un atributo por bucket, el modelo usa tanta capacidad para un solo ejemplo en el rango 45000 como para todos los ejemplos del rango 5000-10000. Esto parece ser un desperdicio. ¿Cómo podríamos mejorar esta situación?

Un gráfico de precios de automóviles por la cantidad de automóviles vendidos a ese precio El trazado se divide en 10 depósitos del mismo tamaño con un rango de 5,000 (precio de autos). Los tres primeros depósitos contienen muchos ejemplos, pero los últimos siete contienen muy pocos ejemplos.

Figura 3: Cantidad de automóviles que se venden con precios diferentes

 

El problema es que los depósitos de igual distribución no capturan bien esta distribución. La solución radica en crear depósitos que tienen la misma cantidad de puntos. Esta técnica se llama agrupamiento en cuantiles. Por ejemplo, en la siguiente figura, se dividen los precios de automóviles en segmentos cuantiles. Para obtener la misma cantidad de ejemplos en cada bucket, algunos incluyen un intervalo de precios limitado y otros, un intervalo de precios muy amplio.

Igual que la Figura 3, excepto con los depósitos de cuantiles. Es decir, los depósitos ahora tienen diferentes tamaños. El bucket más pequeño tiene un rango de alrededor de 1,000 dólares y el bucket más grande tiene un rango de alrededor de 25,000.
Ahora, la cantidad de automóviles de cada bucket es casi la misma.

Figura 4: Los depósitos cuantiles proporcionan a cada depósito aproximadamente la misma cantidad de automóviles.

Resumen de agrupamiento

Si eliges agrupar en depósitos tus atributos numéricos, sé claro sobre cómo estableces los límites y qué tipo de agrupamiento estás aplicando:

  • Depósitos con límites de igual espaciado: los límites son fijos y abarcan el mismo rango (por ejemplo, de 0 a 4 grados, de 5 a 9 grados y de 10 a 14 grados, o de $5,000 a $9,999, $10,000 a $14,999 y $15,000 a $19,999). Algunos depósitos pueden contener muchos puntos, mientras que otros pueden tener pocos o ninguno.
  • Depósitos con límites cuantiles: cada depósito tiene la misma cantidad de puntos. Los límites no son fijos y podrían abarcar un intervalo de valores limitado o amplio.