Glosario sobre aprendizaje automático: agrupamiento en clústeres

Esta página contiene términos del glosario de agrupamiento en clústeres. Para ver todos los términos del glosario, haz clic aquí.

A

agrupamiento aglomerado (agglomerative clustering)

#clustering

Consulta agrupamiento en clústeres jerárquico.

C

centroid

#clustering

Centro de un clúster, determinado por un algoritmo k-means o k-median. Por ejemplo, si k es 3, entonces el algoritmo k-medios o k-mediana encuentra 3 centroides.

agrupamiento en clústeres basado en centroides

#clustering

Categoría de algoritmos de agrupamiento en clústeres que organizan datos en clústeres no jerárquicos. k-means es el algoritmo más utilizado para agrupamiento en clústeres basado en centroides.

Compara esto con algoritmos de agrupamiento en clústeres jerárquico.

agrupamiento en clústeres

#clustering

Agrupar ejemplos relacionados, en especial durante el aprendizaje no supervisado. Una vez que se agrupan todos los ejemplos, una persona puede, opcionalmente, proporcionar significado a cada clúster.

Existen muchos algoritmos de agrupamiento en clústeres. Por ejemplo, el algoritmo k-means agrupa ejemplos según su proximidad a un centroide, como se muestra en el siguiente diagrama:

Un gráfico bidimensional en el que el eje X está etiquetado como "ancho del árbol" y el eje Y se denomina "Altura del árbol". El gráfico contiene dos centroides y varias decenas de datos. Los datos se categorizan según su proximidad. Es decir, los datos más cercanos a un centroide se clasifican como “clúster 1”, mientras que los más cercanos al otro se clasifican como “clúster 2”.

Un investigador humano podría revisar los clústeres y, por ejemplo, etiquetar el grupo 1 como "árboles enanos" y el clúster 2 como "árboles grandes".

Como otro ejemplo, considera un algoritmo de agrupamiento en clústeres basado en la distancia de un ejemplo desde un punto central, como se ilustra a continuación:

Decenas de datos están organizados en círculos concéntricos, casi como agujeros alrededor del centro de un tablero de dardos. El anillo más interno de los datos se clasifica como “clúster 1”, el anillo intermedio se clasifica como “clúster 2” y el anillo más externo como “clúster 3”.

D.

agrupamiento en clústeres divisivo (divisive clustering)

#clustering

Consulta agrupamiento en clústeres jerárquico.

H

agrupamiento en clústeres jerárquico

#clustering

Categoría de algoritmos de agrupamiento en clústeres que crean un árbol de clústeres. El agrupamiento en clústeres jerárquico es adecuado para datos jerárquicos, como las taxonomías botánicas. Existen dos tipos de algoritmos de agrupamiento en clústeres jerárquicos:

  • El agrupamiento aglomerado asigna primero cada ejemplo a su propio clúster, luego une los clústeres más cercanos para crear un árbol jerárquico.
  • El agrupamiento en clústeres divisivo primero agrupa todos los ejemplos en un clúster y, luego, divide el clúster de forma iterativa en un árbol jerárquico.

Compara esto con el agrupamiento en clústeres basado en centroides.

K

k-medios

#clustering

Algoritmo de agrupamiento en clústeres popular que agrupa ejemplos en el aprendizaje no supervisado. El algoritmo k-means hace básicamente lo siguiente:

  • Determina de forma iterativa los mejores puntos centrales k (conocidos como centroides).
  • Asigna cada ejemplo al centroide más cercano. Los ejemplos más cercanos al mismo centroide pertenecen al mismo grupo.

El algoritmo k-means selecciona las ubicaciones del centroide para minimizar el cuadrado acumulativo de las distancias desde cada ejemplo hasta su centroide más cercano.

Por ejemplo, considera la siguiente representación de altura y anchura de perro:

Un diagrama cartesiano con varios datos.

Si k=3, el algoritmo k-means determinará tres centroides. Cada ejemplo se asigna a su centroide más cercano, lo que produce tres grupos:

La misma representación cartesiana que en la ilustración anterior, excepto que se agregaron tres centroides.
          Los datos anteriores se agrupan en tres grupos distintos, y cada grupo representa los datos más cercanos a un centroide en particular.

Imagina que un fabricante quiere determinar los tamaños ideales de suéteres pequeños, medianos y grandes para perros. Los tres centroides identifican la altura media y el ancho medio de cada perro en ese grupo. Por lo tanto, el fabricante debería basar los tamaños de suéter en esos tres centroides. Ten en cuenta que el centroide de un clúster no suele ser un ejemplo del clúster.

En las ilustraciones anteriores, se muestran k-medios para ejemplos con solo dos atributos (altura y ancho). Ten en cuenta que k-means puede agrupar ejemplos en muchos atributos.

mediana mediana

#clustering

Algoritmo de agrupamiento en clústeres que se relaciona estrechamente con k-means. La diferencia práctica entre los dos es la siguiente:

  • En k-medios, los centroides se determinan minimizando la suma de los cuadrados de la distancia entre un centroide candidato y cada uno de sus ejemplos.
  • En la k-mediana, los centroides se determinan minimizando la suma de la distancia entre un centroide candidato y cada uno de sus ejemplos.

Ten en cuenta que las definiciones de distancia también son diferentes:

  • k-medios se basa en la distancia euclidiana del centroide a un ejemplo. (En dos dimensiones, la distancia euclidiana significa usar el teorema de Pitágoras para calcular la hipotenusa). Por ejemplo, la distancia de k-medios entre (2,2) y (5,-2) sería:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-mediana se basa en la distancia Manhattan del centroide a un ejemplo. Esta distancia es la suma de los deltas absolutos en cada dimensión. Por ejemplo, la distancia k-mediana entre (2,2) y (5,-2) sería:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

medida de similitud

#clustering

En los algoritmos de agrupamiento en clústeres, esta métrica se usa para determinar qué tan parecidos (cuán similares) son dos ejemplos cualquiera.

esbozo (sketching)

#clustering

En el aprendizaje automático no supervisado, es una categoría de algoritmos que realizan un análisis preliminar de similitud de los ejemplos. Los algoritmos de esbozo usan una función de hash sensible a la localidad para identificar puntos que probablemente sean similares y luego agruparlos en agrupamientos.

El boceto disminuye el cálculo necesario para los cálculos de similitud en conjuntos de datos grandes. En lugar de calcular la similitud para cada par de ejemplos del conjunto de datos, se calcula la similitud solo para cada par de puntos dentro de cada bucket.

T

análisis de series temporales

#clustering

Subcampo del aprendizaje automático y la estadística que analiza datos temporales. Muchos tipos de problemas de aprendizaje automático requieren un análisis de series temporales, incluida la clasificación, el agrupamiento en clústeres, la previsión y la detección de anomalías. Por ejemplo, puedes usar el análisis de series temporales para predecir las ventas futuras de abrigos de invierno por mes en función de los datos de ventas históricos.

U

aprendizaje automático no supervisado (unsupervised machine learning)

#clustering
#fundamentals

Entrenamiento de un modelo para encontrar patrones en un conjunto de datos, generalmente sin etiqueta.

El uso más común del aprendizaje automático no supervisado es agrupar en clústeres los datos en grupos de ejemplos similares. Por ejemplo, un algoritmo de aprendizaje automático no supervisado puede agrupar canciones según varias propiedades de la música. Los clústeres resultantes pueden convertirse en una entrada de otros algoritmos de aprendizaje automático (por ejemplo, para un servicio de recomendación de música). El agrupamiento en clústeres puede ser útil cuando las etiquetas útiles son escasas o faltantes. Por ejemplo, en dominios como la protección contra el abuso y el fraude, los clústeres pueden ayudar a las personas a comprender mejor los datos.

Compara esto con el aprendizaje automático supervisado.