Glosario de aprendizaje automático: Agrupamiento en clústeres

En esta página, se incluyen los términos del glosario de agrupamiento en clústeres. Para ver todos los términos del glosario, haz clic aquí.

A

agrupamiento aglomerado

#clustering

Consulta agrupamiento en clústeres jerárquico.

C

centroid

#clustering

El centro de un clúster, según lo determinado por un algoritmo k-means o k-median. Por ejemplo, si k es 3, entonces el algoritmo k-means o k-mediana encuentra 3 centroides.

agrupamiento en clústeres basado en centroides

#clustering

Es una categoría de algoritmos de agrupamiento en clústeres que organiza datos en clústeres no jerárquicos. k-means es el algoritmo de agrupamiento en clústeres basado en centroides más utilizado.

Compara esto con algoritmos de agrupamiento en clústeres jerárquico.

agrupamiento en clústeres

#clustering

Agrupar ejemplos relacionados, en particular durante aprendizaje no supervisado Una vez que todos los ejemplos están agrupados, una persona puede, de manera opcional, proporcionar un significado a cada clúster.

Existen muchos algoritmos de agrupamiento en clústeres. Por ejemplo, los ejemplos de clústeres de algoritmo k-means en función de su proximidad a un centroide, como en el siguiente diagrama:

Un gráfico bidimensional en el que el eje x está etiquetado como ancho de árbol y el eje y está etiquetado como altura de árbol. El gráfico contiene dos centroides y varias docenas de puntos de datos. Los datos se clasifican según su proximidad. Es decir, los datos más cercanos a un centroide se clasifican como clúster 1, mientras que los más cercanos al otro centroide se clasifican como clúster 2.

Un investigador humano podría luego revisar los clústeres y, por ejemplo, etiquetar el grupo 1 como “árboles enanos” y el grupo 2 como “árboles de tamaño completo”.

Como otro ejemplo, considera un algoritmo de agrupamiento en clústeres basado en la distancia del ejemplo desde un punto central, como se ilustra a continuación:

Decenas de datos se organizan en círculos concéntricos, casi como agujeros alrededor del centro de un tablero de dardos. El anillo más interno de los datos se clasifica como el clúster 1, el anillo del medio se clasifica como el clúster 2 y el anillo más externo el clúster 3.

D

agrupamiento en clústeres divisivo

#clustering

Consulta agrupamiento en clústeres jerárquico.

H

agrupamiento en clústeres jerárquico

#clustering

Es una categoría de algoritmos de agrupamiento en clústeres que crean un árbol de clústeres. El agrupamiento en clústeres jerárquico es adecuado para datos jerárquicos, como taxonomías botánicas. Existen dos tipos de algoritmos de agrupamiento jerárquico:

  • El agrupamiento aglomerado asigna primero cada ejemplo a su propio clúster y, de manera iterativa, combina los clústeres más cercanos para crear un árbol de jerarquías.
  • El agrupamiento en clústeres divisivo agrupa primero todos los ejemplos en un clúster y, luego, divide el clúster de forma iterativa en un árbol jerárquico.

Compara esto con el agrupamiento en clústeres basado en centroides.

K

k-medios

#clustering

Algoritmo de agrupamiento en clústeres popular que agrupa ejemplos en el aprendizaje no supervisado. El algoritmo k-means hace básicamente lo siguiente:

  • Determina de forma iterativa los mejores puntos centrales k (conocidos como centroides).
  • Asigna cada ejemplo al centroide más cercano. Los ejemplos más cercanos al mismo centroide pertenecen al mismo grupo.

El algoritmo k-means selecciona las ubicaciones del centroide para minimizar el cuadrado acumulativo de las distancias desde cada ejemplo hasta su centroide más cercano.

Por ejemplo, considera el siguiente diagrama de altura y ancho de perro:

Un diagrama cartesiano con varias docenas de puntos de datos.

Si k=3, el algoritmo k-means determinará tres centroides. Cada ejemplo se asigna a su centroide más cercano, lo que produce tres grupos:

El mismo diagrama cartesiano que en la ilustración anterior, excepto que se agregaron tres centroides.
          Los datos anteriores se agrupan en tres grupos distintos, y cada uno de ellos representa los datos más cercanos a un centroide en particular.

Imagina que un fabricante quiere determinar los tamaños ideales de suéteres pequeños, medianos y grandes para perros. Los tres centroides identifican la altura media y el ancho medio de cada perro en ese grupo. Por lo tanto, el fabricante debería basar los tamaños de suéter en esos tres centroides. Ten en cuenta que el centroide de un clúster no suele ser un ejemplo del clúster.

En las ilustraciones anteriores, se muestra k-medios para ejemplos con solo dos atributos (altura y ancho). Ten en cuenta que k-means puede agrupar ejemplos en muchos atributos.

k-mediana

#clustering

Un algoritmo de agrupamiento en clústeres estrechamente relacionado con k-means. La diferencia práctica entre ambos es la siguiente:

  • En k-medios, los centroides se determinan minimizando la suma de los cuadrados de la distancia entre un centroide candidato y cada uno de sus ejemplos.
  • En k-mediana, los centroides se determinan minimizando la suma de la distancia entre un centroide candidato y cada uno de sus ejemplos.

Ten en cuenta que las definiciones de distancia también son diferentes:

  • k-medios se basa en la distancia euclidiana del centroide a un ejemplo. (En dos dimensiones, la distancia euclidiana significa usar el teorema de Pitágoras para calcular la hipotenusa). Por ejemplo, la distancia de k-means entre (2,2) y (5,-2) sería:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median se basa en la distancia Manhattan del centroide a un ejemplo. Esta distancia es la suma de los deltas absolutos en cada dimensión. Por ejemplo, la distancia k-mediana entre (2,2) y (5,-2) sería:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

medida de similitud

#clustering

En los algoritmos de agrupamiento en clústeres, métrica que se usa para determinar qué tan similares son (qué tan similares) son dos ejemplos cualquiera.

bocetos

#clustering

En el aprendizaje automático no supervisado, categoría de algoritmos que realizan un análisis preliminar de similitud de los ejemplos. Los algoritmos de esbozo usan una función de hash sensible a la localidad para identificar puntos que pueden ser similares y, luego, agruparlos en buckets.

Los esbozos disminuyen el cálculo requerido para los cálculos de similitud en conjuntos de datos grandes. En lugar de calcular la similitud para cada par de ejemplos del conjunto de datos, calculamos la similitud solo para cada par de puntos dentro de cada bucket.

T

análisis de series temporales

#clustering

Subcampo del aprendizaje automático y la estadística que analiza datos temporales. Muchos tipos de problemas de aprendizaje automático requieren un análisis de series temporales que incluye la clasificación, el agrupamiento en clústeres, la previsión y la detección de anomalías. Por ejemplo, podrías usar análisis de series temporales para prever las ventas futuras de abrigos de invierno por mes en función de los datos de ventas históricos.

U

aprendizaje automático no supervisado

#clustering
#fundamentals

Entrenar un model para encontrar patrones en un conjunto de datos, generalmente sin etiqueta

El uso más común del aprendizaje automático no supervisado es agrupar en clústeres los datos en grupos de ejemplos similares. Por ejemplo, un algoritmo de aprendizaje automático no supervisado puede agrupar canciones en función de varias propiedades de la música. Los clústeres resultantes pueden convertirse en una entrada para otros algoritmos de aprendizaje automático (por ejemplo, para un servicio de recomendaciones de música). El agrupamiento en clústeres puede ayudar cuando las etiquetas útiles son escasas o ausentes. Por ejemplo, en dominios como la protección contra el abuso y el fraude, los clústeres pueden ayudar a las personas a comprender mejor los datos.

Compara esto con el aprendizaje automático supervisado.