Glossário de machine learning: clustering

Nesta página, você encontra os termos do glossário de clustering. Para ver todos os termos do glossário, clique aqui.

A

clustering aglomerativo

#clustering

Consulte clustering hierárquico.

C

centroid

#clustering

O centro de um cluster, conforme determinado por um algoritmo k-means ou k-median. Por exemplo, se k é 3, o algoritmo k-means ou k-median encontra três centroides.

clustering baseado em centroide

#clustering

Uma categoria de algoritmos de clustering que organiza os dados em clusters não hierárquicos. k-means é o algoritmo de clustering baseado em centroide mais usado.

Contraste com algoritmos de clustering hierárquico.

clustering

#clustering

Agrupar exemplos relacionados, especialmente durante o aprendizado não supervisionado. Depois que todos os exemplos estiverem agrupados, um humano poderá, opcionalmente, fornecer significado para cada cluster.

Há muitos algoritmos de clustering. Por exemplo, os exemplos de clusters de algoritmo k-means baseados na proximidade deles com um centroide, como no diagrama a seguir:

Um gráfico bidimensional em que o eixo x é rotulado como largura da árvore e o eixo y é rotulado como altura da árvore. O gráfico contém dois centroides e várias dezenas de pontos de dados. Os pontos de dados são categorizados com base na proximidade. Ou seja, os pontos de dados mais próximos de um centroide são categorizados como cluster 1, enquanto os mais próximos do outro centroide são categorizados como cluster 2.

Um pesquisador humano pode revisar os clusters e, por exemplo, rotular o cluster 1 como "árvores anãs" e o cluster 2 como "árvores de tamanho real".

Como outro exemplo, considere um algoritmo de clustering com base na distância de um exemplo de um ponto central, ilustrado a seguir:

Dezenas de pontos de dados são dispostos em círculos concêntricos, quase como buracos no centro de um dardo. O anel mais interno dos pontos de dados é categorizado como cluster 1, o anel do meio
 como cluster 2 e o anel mais externo como
 cluster 3.

D

agrupamento divisivo

#clustering

Consulte clustering hierárquico.

H

clustering hierárquico

#clustering

Uma categoria de algoritmos de clustering que criam uma árvore de clusters. O clustering hierárquico é adequado para dados hierárquicos, como taxonomias botânicas. Há dois tipos de algoritmos de clustering hierárquicos:

  • Primeiro, o clustering aglomerativo atribui cada exemplo ao próprio cluster e mescla iterativamente os clusters mais próximos para criar uma árvore hierárquica.
  • Primeiro, o clustering divisivo agrupa todos os exemplos em um único cluster e, em seguida, o divide iterativamente em uma árvore hierárquica.

Contraste com o clustering baseado em centroide.

K

k-means

#clustering

Um algoritmo de clustering conhecido que agrupa exemplos em aprendizado não supervisionado. O algoritmo k-means basicamente faz o seguinte:

  • Determina iterativamente os melhores k pontos centrais (conhecidos como centróides).
  • Atribui cada exemplo ao centroide mais próximo. Os exemplos mais próximos do mesmo centroide pertencem ao mesmo grupo.

O algoritmo k-means escolhe locais centroides para minimizar o quadrado cumulativo das distâncias de cada exemplo até o centroide mais próximo.

Por exemplo, considere o seguinte gráfico da altura e da largura dos cachorros:

Um gráfico cartesiano com dezenas de pontos de dados.

Se k=3, o algoritmo k-means vai determinar três centroides. Cada exemplo é atribuído ao centroide mais próximo, produzindo três grupos:

O mesmo gráfico cartesiano da ilustração anterior, exceto com três centroides adicionados.
          Os pontos de dados anteriores são agrupados em três grupos distintos, com cada grupo representando os pontos de dados mais próximos de um centroide específico.

Imagine que um fabricante quer determinar os tamanhos ideais para suéteres pequenos, médios e grandes para cães. Os três centroides identificam a altura e a largura médias de cada cachorro nesse cluster. Portanto, o fabricante provavelmente deve basear os tamanhos de suéteres nesses três centroides. Observe que o centroide de um cluster normalmente não é um exemplo no cluster.

As ilustrações anteriores mostram k-means para exemplos com apenas dois elementos (altura e largura). Observe que o k-means pode agrupar exemplos em muitos atributos.

k-mediana

#clustering

Um algoritmo de clustering relacionado a k-means. A diferença prática entre as duas é a seguinte:

  • Em k-means, os centroides são determinados minimizando a soma dos quadrados da distância entre um candidato a centroide e cada um de seus exemplos.
  • Em k-mediana, os centroides são determinados minimizando a soma da distância entre um candidato a centroide e cada um dos seus exemplos.

As definições de distância também são diferentes:

  • k-means depende da distância euclidiana do centroide até um exemplo. Em duas dimensões, a distância euclidiana significa usar o teorema de Pitágoras para calcular a hipotenusa. Por exemplo, a distância k-means entre (2,2) e (5,-2) seria:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median depende da distância de Manhattan do centroide até um exemplo. Essa distância é a soma dos deltas absolutos de cada dimensão. Por exemplo, a distância k-mediana entre (2,2) e (5,-2) seria:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

medida de similaridade

#clustering

Nos algoritmos de clustering, a métrica usada para determinar a semelhança entre dois exemplos.

esboços

#clustering

Em machine learning não supervisionado, uma categoria de algoritmos que realizam uma análise preliminar de similaridade em exemplos. Os algoritmos de esboço usam uma função de hash sensível à localidade para identificar pontos que provavelmente são semelhantes e, em seguida, agrupá-los em buckets.

Os esboços reduzem o cálculo necessário para cálculos de similaridade em grandes conjuntos de dados. Em vez de calcular a semelhança para cada par de exemplos no conjunto de dados, calculamos a semelhança apenas para cada par de pontos dentro de cada bucket.

T

análise de série temporal

#clustering

Um subcampo de machine learning e estatística que analisa dados temporais. Muitos tipos de problemas de machine learning exigem análise de séries temporais, incluindo classificação, clustering, previsão e detecção de anomalias. Por exemplo, é possível usar a análise de série temporal para prever as vendas futuras de casacos de inverno por mês com base nos dados históricos.

U

machine learning não supervisionado

#clustering
#fundamentals

Treinar um model para encontrar padrões em um conjunto de dados, normalmente um conjunto de dados não rotulado.

O uso mais comum do machine learning não supervisionado é cluster de dados em grupos de exemplos semelhantes. Por exemplo, um algoritmo de aprendizado de máquina não supervisionado pode agrupar músicas com base em várias propriedades delas. Os clusters resultantes podem se tornar uma entrada para outros algoritmos de machine learning (por exemplo, para um serviço de recomendação de músicas). O clustering pode ajudar quando os rótulos úteis estiverem escassos ou ausentes. Por exemplo, em domínios como antiabuso e fraude, os clusters podem ajudar os humanos a entender melhor os dados.

Contraste com o machine learning supervisionado.