Comencemos con una revisión rápida de una idea clave del Curso intensivo de aprendizaje automático. Observa la distribución en el siguiente gráfico.
Figura 1: Precios de casas frente a latitud.
En la siguiente pregunta, haz clic en la flecha deseada para verificar tu respuesta:
En casos como el ejemplo de latitud, debes dividir las latitudes en depósitos para aprender algo diferente sobre los valores de vivienda de cada depósito. Esta transformación de atributos numéricos en atributos categóricos, mediante un conjunto de umbrales, se denomina agrupamiento. En este ejemplo de agrupamiento, los límites están separados por igual.
Figura 2: Precios de casas frente a latitud, divididos en depósitos.
Agrupación de cuantiles
Revisemos nuestro conjunto de datos de precios de automóviles con los depósitos agregados. Con un atributo por bucket, el modelo usa tanta capacidad para un solo ejemplo en el rango 45000 como para todos los ejemplos del rango 5000-10000. Esto parece ser un desperdicio. ¿Cómo podríamos mejorar esta situación?
Figura 3: Cantidad de automóviles que se venden con precios diferentes
El problema es que los depósitos de igual distribución no capturan bien esta distribución. La solución radica en crear depósitos que tienen la misma cantidad de puntos. Esta técnica se llama agrupamiento en cuantiles. Por ejemplo, en la siguiente figura, se dividen los precios de automóviles en segmentos cuantiles. Para obtener la misma cantidad de ejemplos en cada bucket, algunos incluyen un intervalo de precios limitado y otros, un intervalo de precios muy amplio.
Figura 4: Los depósitos cuantiles proporcionan a cada depósito aproximadamente la misma cantidad de automóviles.
Resumen de agrupamiento
Si eliges agrupar en depósitos tus atributos numéricos, sé claro sobre cómo estableces los límites y qué tipo de agrupamiento estás aplicando:
- Depósitos con límites de igual espaciado: los límites son fijos y abarcan el mismo rango (por ejemplo, de 0 a 4 grados, de 5 a 9 grados y de 10 a 14 grados, o de $5,000 a $9,999, $10,000 a $14,999 y $15,000 a $19,999). Algunos depósitos pueden contener muchos puntos, mientras que otros pueden tener pocos o ninguno.
- Depósitos con límites cuantiles: cada depósito tiene la misma cantidad de puntos. Los límites no son fijos y podrían abarcar un intervalo de valores limitado o amplio.