Esta página foi traduzida pela API Cloud Translation.

Glossário de machine learning: clustering

Esta página contém os termos do glossário de clusterização. Para conferir todos os termos do glossário, clique aqui.

A

clustering aglomerativo

#clustering

Consulte clustering hierárquico.

C

centroid

#clustering

O centro de um cluster determinado por um algoritmo k-means ou k-mediana. Por exemplo, se k for 3, o algoritmo k-means ou k-median vai encontrar três centróides.

Consulte Algoritmos de agrupamento no curso de agrupamento para mais informações.

Clustering com base no centroide

#clustering

Uma categoria de algoritmos de agrupamento que organiza dados em clusters não hierárquicos. O k-means é o algoritmo de agrupamento baseado em centroide mais usado.

Compare com os algoritmos de agrupamento hierárquico.

Consulte Algoritmos de agrupamento no curso de agrupamento para mais informações.

clustering

#clustering

Agrupar exemplos relacionados, principalmente durante o aprendizado não supervisionado. Depois que todos os exemplos forem agrupados, uma pessoa pode fornecer significado a cada cluster.

Existem muitos algoritmos de agrupamento. Por exemplo, o algoritmo k-means agrupa exemplos com base na proximidade de um centroide, como no diagrama a seguir:

Um pesquisador humano pode analisar os clusters e, por exemplo, rotular o cluster 1 como "árvores anãs" e o cluster 2 como "árvores de tamanho normal".

Como outro exemplo, considere um algoritmo de agrupamento baseado na distância de um exemplo de um ponto central, ilustrado da seguinte maneira:

Dezenas de pontos de dados são organizados em círculos concêntricos, quase
como buracos ao redor do centro de um alvo. O anel mais interno dos pontos de dados é categorizado como cluster 1, o anel do meio é categorizado como cluster 2 e o anel mais externo como cluster 3.

Consulte o curso sobre agrupamento para mais informações.

D

clustering divisive

#clustering

Consulte clustering hierárquico.

H

clustering hierárquico

#clustering

Uma categoria de algoritmos de clustering que cria uma árvore de clusters. O agrupamento hierárquico é adequado para dados hierárquicos, como as taxonomias botânicas. Há dois tipos de algoritmos de agrupamento hierárquico:

O clustering aglomerativo primeiro atribui cada exemplo ao próprio cluster e mescla de forma iterativa os clusters mais próximos para criar uma árvore hierárquica.
O clustering divisivo agrupa primeiro todos os exemplos em um cluster e, em seguida, divide o cluster de forma iterativa em uma árvore hierárquica.

Compare com a agrupamento com base no centroide.

Consulte Algoritmos de clustering no curso de clustering para mais informações.

K

k-means

#clustering

Um algoritmo de clustering conhecido que agrupa exemplos no aprendizado não supervisionado. O algoritmo k-means basicamente faz o seguinte:

Determina iterativamente os melhores pontos centrais k (conhecidos como centroides).
Atribui cada exemplo ao centroide mais próximo. Os exemplos mais próximos do mesmo centroide pertencem ao mesmo grupo.

O algoritmo k-means escolhe locais de centroide para minimizar o quadrado cumulativo das distâncias de cada exemplo até o centroide mais próximo.

Por exemplo, considere o seguinte gráfico de altura do cão em relação à largura:

Um gráfico cartesiano com várias dezenas de pontos de dados.

Se k=3, o algoritmo k-means vai determinar três centroides. Cada exemplo é atribuído ao centroide mais próximo, gerando três grupos:

O mesmo gráfico cartesiano da ilustração anterior, exceto
com três centroides adicionados.
Os pontos de dados anteriores são agrupados em três grupos distintos,
sendo que cada grupo representa os pontos de dados mais próximos de um centroid
específico.

Imagine que um fabricante quer determinar os tamanhos ideais para suéteres pequenos, médios e grandes para cães. Os três centroides identificam a altura média e a largura média de cada cão nesse cluster. Portanto, o fabricante provavelmente deve basear os tamanhos dos suéteres nesses três centroides. O centroide de um cluster normalmente não é um exemplo no cluster.

As ilustrações anteriores mostram o k-means para exemplos com apenas dois recursos (altura e largura). O k-means pode agrupar exemplos em vários recursos.

Consulte O que é o cluster K-means? no curso de cluster para mais informações.

k-median

#clustering

Um algoritmo de agrupamento intimamente relacionado a k-means. A diferença prática entre os dois é a seguinte:

No k-means, os centroides são determinados minimizando a soma dos quadrados da distância entre um candidato a centroide e cada um dos exemplos.
Na k-mediana, os centroides são determinados minimizando a soma da distância entre um centroide candidato e cada um dos exemplos.

As definições de distância também são diferentes:

O k-means depende da distância euclidiana do centroide para um exemplo. Em duas dimensões, a distância euclidiana significa usar o teorema de Pitágoras para calcular a hipotenusa. Por exemplo, a distância k-means entre (2,2) e (5,-2) seria:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

A mediana k usa a distância de Manhattan do centróide para um exemplo. Essa distância é a soma das deltas absolutas em cada dimensão. Por exemplo, a distância da mediana k entre (2,2) e (5,-2) seria:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

medida de similaridade

#clustering

#Metric

Em algoritmos de agrupamento, a métrica usada para determinar o quanto dois exemplos são semelhantes.

esboçar

#clustering

Em machine learning não supervisionado, uma categoria de algoritmos que realiza uma análise preliminar de similaridade em exemplos. Os algoritmos de esboço usam uma função de hash sensível à localidade para identificar pontos que provavelmente são semelhantes e, em seguida, agrupam esses pontos em buckets.

O esboço reduz a computação necessária para cálculos de similaridade em grandes conjuntos de dados. Em vez de calcular a semelhança para cada par de exemplos no conjunto de dados, calculamos a semelhança apenas para cada par de pontos em cada bucket.

T

análise de séries temporais

#clustering

Um subcampo do aprendizado de máquina e da estatística que analisa dados temporais. Muitos tipos de problemas de machine learning exigem análise de séries temporais, incluindo classificação, agrupamento, previsão e detecção de anomalias. Por exemplo, você pode usar a análise de séries temporais para prever as vendas futuras de casacos de inverno por mês com base nos dados históricos de vendas.

U

machine learning não supervisionado

#clustering

#fundamentals

Treinar um modelo para encontrar padrões em um conjunto de dados, normalmente um conjunto de dados não rotulado.

O uso mais comum do aprendizado de máquina não supervisionado é agrupar dados em grupos de exemplos semelhantes. Por exemplo, um algoritmo de aprendizado de máquina não supervisionado pode agrupar músicas com base em várias propriedades da música. Os clusters resultantes podem se tornar uma entrada para outros algoritmos de aprendizado de máquina, por exemplo, para um serviço de recomendação de músicas. O agrupamento pode ajudar quando os rótulos úteis são escassos ou ausentes. Por exemplo, em domínios como antiabuso e fraude, os clusters podem ajudar as pessoas a entender melhor os dados.

Compare com o machine learning supervisionado.

Clique no ícone para ver outras notas.

Outro exemplo de aprendizado de máquina não supervisionado é a análise de componentes principais (PCA). Por exemplo, aplicar a PCA em um conjunto de dados que contém o conteúdo de milhões de carrinhos de compras pode revelar que os carrinhos com limões também contêm antiácidos.

Consulte O que é machine learning? no curso Introdução ao ML para mais informações.

Glossário de machine learning: clustering Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

A

clustering aglomerativo

C

centroid

Clustering com base no centroide

clustering

D

clustering divisive

H

clustering hierárquico

K

k-means

k-median

S

medida de similaridade

esboçar

T

análise de séries temporais

U

machine learning não supervisionado

Clique no ícone para ver outras notas.

Glossário de machine learning: clustering