Esta página contém os termos do glossário de clustering. Para todos os termos do glossário, clique aqui.
A
cluster aglomerativo
Consulte clustering hierárquico.
C
centroid
O centro de um cluster conforme determinado por um algoritmo k-means ou k-median. Por exemplo, se k for 3, o algoritmo k-means ou k-median encontrará 3 centroides.
clustering baseado em centroide
Uma categoria de algoritmos de clustering que organiza dados em clusters não hierárquicos. k-means é o algoritmo de clustering baseado em centróide mais usado.
Contraste com algoritmos de clustering hierárquico.
clustering
Agrupamento de exemplos relacionados, principalmente durante aprendizado não supervisionado. Depois que todos os exemplos forem agrupados, um humano poderá, opcionalmente, fornecer significado para cada cluster.
Existem muitos algoritmos de clustering. Por exemplo, o algoritmo k-means agrupa exemplos com base na proximidade com um centroide, como no diagrama a seguir:
Um pesquisador poderia revisar os clusters e, por exemplo, rotular o cluster 1 como "árvores anãs" e o cluster 2 como "árvores em tamanho original".
Como outro exemplo, considere um algoritmo de clustering baseado na distância de um exemplo de um ponto central, ilustrado da seguinte maneira:
D
clustering divisivo
Consulte clustering hierárquico.
H
clustering hierárquico
Uma categoria de algoritmos de clustering que criam uma árvore de clusters. O cluster hierárquico é adequado para dados hierárquicos, como taxonomias botânicas. Há dois tipos de algoritmos de clustering hierárquicos:
- O cluster aglomerativo primeiro atribui cada exemplo ao próprio cluster e mescla iterativamente os clusters mais próximos para criar uma árvore hierárquica.
- O clustering divisivo primeiro agrupa todos os exemplos em um cluster e, em seguida, divide o cluster iterativamente em uma árvore hierárquica.
Contraste com o clustering baseado em centróide.
K
k-means
Um conhecido algoritmo de clustering que agrupa exemplos em aprendizado não supervisionado. O algoritmo k-means basicamente faz o seguinte:
- Determina iterativamente os melhores k pontos centrais (conhecidos como centroides).
- Atribui cada exemplo ao centroide mais próximo. Os exemplos mais próximos do mesmo centroide pertencem ao mesmo grupo.
O algoritmo k-means escolhe locais do centroide para minimizar o quadrado cumulativo das distâncias de cada exemplo para o centroide mais próximo.
Por exemplo, considere o seguinte gráfico da altura do cachorro em relação à largura:
Se k=3, o algoritmo k-means determinará três centroides. Cada exemplo é atribuído ao centroide mais próximo, produzindo três grupos:
Imagine que um fabricante queira determinar os tamanhos ideais para suéteres pequenos, médios e grandes para cães. Os três centroides identificam a altura e a largura médias de cada cão nesse cluster. Portanto, o fabricante provavelmente deve basear os tamanhos de suéter nesses três centroides. Observe que o centroide de um cluster geralmente não é um exemplo no cluster.
As ilustrações anteriores mostram k-means para exemplos com apenas dois atributos (altura e largura). Os k-means podem agrupar exemplos em vários recursos.
k-mediana
Um algoritmo de clustering intimamente relacionado a k-means. A diferença prática entre os dois é a seguinte:
- Em k-means, os centroides são determinados minimizando a soma dos quadrados da distância entre um candidato a centroide e cada um dos exemplos.
- No k-median, os centroides são determinados minimizando a soma da distância entre um candidato centroide e cada um dos exemplos.
As definições de distância também são diferentes:
- k-means depende da distância euclidiana do centroide para um exemplo. Em duas dimensões, a distância euclidiana significa usar o teorema de Pitágoras para calcular a hipotenusa. Por exemplo, a distância k-means entre (2,2) e (5,-2) seria:
- O k-median depende da distância de Manhattan do centroide até um exemplo. Essa distância é a soma dos deltas absolutos em cada dimensão. Por exemplo, a distância k-mediana entre (2,2) e (5,-2) seria:
S
medida de similaridade
Nos algoritmos de clustering, a métrica usada para determinar a semelhança de dois exemplos.
desenho
Em machine learning não supervisionado, uma categoria de algoritmos que realizam uma análise de similaridade preliminar em exemplos. Os algoritmos de esboço usam uma função de hash sensível à localidade para identificar pontos que provavelmente serão semelhantes e, em seguida, agrupá-los em buckets.
O esboço diminui a computação necessária para cálculos de similaridade em grandes conjuntos de dados. Em vez de calcular a semelhança para cada par de exemplos no conjunto de dados, calculamos a semelhança apenas para cada par de pontos dentro de cada bucket.
T
análise de séries temporais
Um subcampo de machine learning e estatística que analisa dados temporais. Muitos tipos de problemas de machine learning exigem análise de série temporal, incluindo classificação, clustering, previsão e detecção de anomalias. Por exemplo, é possível usar a análise de série temporal para prever as vendas futuras de casacos de inverno por mês com base nos dados históricos de vendas.
U
machine learning não supervisionado
Treinamento de um modelo para encontrar padrões em um conjunto de dados, normalmente um conjunto de dados não rotulado.
O uso mais comum de machine learning não supervisionado é agrupar dados em grupos de exemplos semelhantes. Por exemplo, um algoritmo de aprendizado de máquina não supervisionado pode agrupar músicas com base em várias propriedades da música. Os clusters resultantes podem se tornar uma entrada para outros algoritmos de machine learning (por exemplo, para um serviço de recomendação de música). O clustering pode ajudar quando rótulos úteis são escassos ou ausentes. Por exemplo, em domínios como antiabuso e fraude, os clusters podem ajudar as pessoas a entender melhor os dados.
Contraste com o machine learning supervisionado.