Glossário de machine learning: clustering

Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Nesta página, há termos do glossário de clustering. Para ver todos os termos do glossário, clique aqui.

A

clustering aglomerativo

#clustering

Consulte Clustering hierárquico.

C

centroid

#clustering

O centro de um cluster conforme determinado por um algoritmo k-means ou k-median. Por exemplo, se k for 3, o algoritmo k-means ou k-median encontrará 3 centroides.

clustering baseado em centroide

#clustering

Uma categoria de algoritmos de clustering que organizam dados em clusters não hierárquicos. k-means é o algoritmo de clustering baseado em centroide mais usado.

Contraste com os algoritmos de clustering hierárquico.

clustering

#clustering

Agrupamento de exemplos relacionados, especialmente durante aprendizado não supervisionado. Quando todos os exemplos forem agrupados, uma pessoa poderá, de maneira opcional, fornecer significado a cada cluster.

Existem muitos algoritmos de clustering. Por exemplo, o algoritmo de k-means agrupa exemplos com base na proximidade de um centroide, como no diagrama a seguir:

Um gráfico bidimensional no qual o eixo x é rotulado como 'largura da árvore'
          e o eixo y é rotulado como 'altura da árvore'.  O gráfico contém dois
          centroides e várias dezenas de pontos de dados. Os pontos de dados são
          categorizados com base na proximidade. Ou seja, os pontos de dados
          mais próximos de um centroide são categorizados como 'cluster 1' enquanto aqueles
          mais próximos de outro centroide são categorizados como 'cluster 2'.

Um pesquisador pode revisar os clusters e, por exemplo, rotular o cluster 1 como "árvores anãs" e o cluster 2 como "árvores em tamanho real."

Como outro exemplo, considere um algoritmo de clustering baseado na distância de um exemplo a partir de um ponto central, ilustrado a seguir:

Dezenas de pontos de dados são organizados em círculos concêntricos, quase
          como buracos em torno do centro de uma placa de dardos. O anel mais interno
          dos pontos de dados é categorizado como 'cluster 1', o anel do meio
          é categorizado como 'cluster 2' e o anel mais externo como
          'cluster 3.'

D

clustering divisivo

#clustering

Consulte Clustering hierárquico.

H

clustering hierárquico

#clustering

Uma categoria de algoritmos de clustering que criam uma árvore de clusters. O clustering hierárquico é ideal para dados hierárquicos, como as taxonomias botânicas. Há dois tipos de algoritmos de clustering hierárquicos:

  • O clustering aglomerativo primeiro atribui todos os exemplos ao próprio cluster e mescla iterativamente os clusters mais próximos para criar uma árvore hierárquica.
  • Primeiro, o clustering divisivo agrupa todos os exemplos em um cluster e, em seguida, divide o cluster em uma árvore hierárquica.

Contraste com o clustering baseado em centroide.

K

k-means

#clustering

Um algoritmo de clustering muito conhecido que agrupa exemplos em aprendizado não supervisionado. O algoritmo k-means basicamente faz o seguinte:

  • Determina iterativamente os melhores mil pontos centrais (conhecidos como centroides).
  • Atribui cada exemplo ao centroide mais próximo. Os exemplos mais próximos do mesmo centroide pertencem ao mesmo grupo.

O algoritmo k-means escolhe locais do centroide para minimizar o quadrado cumulativo das distâncias de cada exemplo até o centroide mais próximo.

Por exemplo, considere o seguinte gráfico de altura e altura de cachorro:

Um gráfico cartesiano com várias dezenas de pontos de dados.

Se k=3, o algoritmo k-means vai determinar três centroides. Cada exemplo é atribuído ao centroide mais próximo, rendendo três grupos:

O mesmo gráfico cartesiano da ilustração anterior, exceto
          com três centroides adicionados.
          Os pontos de dados anteriores são agrupados em três grupos distintos, em que cada grupo representa os pontos de dados mais próximos de um determinado centroide.

Imagine que um fabricante quer determinar os tamanhos ideais para suéteres pequenos, médios e grandes para cachorros. Os três centroides identificam a altura média e a largura média de cada cachorro nesse cluster. Portanto, o fabricante provavelmente se baseia em tamanhos de suéter nesses três centroides. O centroide de um cluster geralmente não é um exemplo no cluster.

As ilustrações anteriores mostram k-means para exemplos com apenas dois recursos (altura e largura). A k-means pode agrupar exemplos em muitos recursos.

mediana k

#clustering

Um algoritmo de clustering diretamente relacionado a k-means. A diferença prática entre os dois é a seguinte:

  • Em k-means, os centroides são determinados minimizando a soma dos quadrados da distância entre um candidato centroide e cada um dos exemplos dele.
  • Na mediana k, os centroides são determinados minimizando a soma da distância entre um candidato centroide e cada um dos exemplos.

As definições de distância também são diferentes:

  • A k-means depende da distância euclidiana do centroide para um exemplo. Em duas dimensões, a distância euclidiana significa usar o teorema de Pitágoras para calcular a hipotenusa. Por exemplo, a distância k-means entre (2,2) e (5,-2) seria:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • A k-median depende da distância de Manhattan do centroide para um exemplo. Essa distância é a soma dos deltas absolutos em cada dimensão. Por exemplo, a distância de k-mediana entre (2,2) e (5,-2) seria:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

medida de semelhança

#clustering

Nos algoritmos de clustering, a métrica usada para determinar o nível de similaridade entre os dois exemplos.

desenho

#clustering

Em machine learning não supervisionado, uma categoria de algoritmos que realizam uma análise preliminar de semelhança em exemplos. Os algoritmos de rascunho usam uma função de hash sensível à localidade para identificar pontos que provavelmente são semelhantes e, em seguida, agrupá-los em buckets.

O rascunho reduz o cálculo necessário para cálculos de semelhança em grandes conjuntos de dados. Em vez de calcular a semelhança para cada par de exemplos no conjunto de dados, calculamos a semelhança apenas para cada par de pontos dentro de cada bucket.

T

análise de série temporal

#clustering

Um subcampo de machine learning e estatística que analisa dados temporais. Muitos tipos de problemas de machine learning exigem análises de série temporal, incluindo classificação, clustering, previsão e detecção de anomalias. Por exemplo, é possível usar análise de série temporal para prever as vendas futuras de casacos de inverno por mês com base nos dados históricos de vendas.

U

machine learning não supervisionado

#clustering

Treinamento de um modelo para encontrar padrões em um conjunto de dados, normalmente um conjunto de dados sem rótulos.

O uso mais comum do machine learning não supervisionado é o agrupamento de dados em grupos de exemplos semelhantes. Por exemplo, um algoritmo de machine learning não supervisionado pode agrupar músicas com base em várias propriedades da música. Os clusters resultantes podem se tornar uma entrada para outros algoritmos de machine learning (por exemplo, para um serviço de recomendação de músicas). O clustering pode ser útil em domínios em que rótulos verdadeiros são difíceis de conseguir. Por exemplo, em domínios como antiabuso e fraude, os clusters podem ajudar as pessoas a entender melhor os dados.

Outro exemplo de machine learning não supervisionado é a análise de componentes principais (PCA, na sigla em inglês). Por exemplo, a aplicação de PCA em um conjunto de dados contendo o conteúdo de milhões de carrinhos de compras pode revelar que os carrinhos de compras que contêm limões costumam conter antiácidos.

Compare com o machine learning supervisionado.