Fluxo de trabalho em cluster

Para agrupar seus dados, siga estas etapas:

  1. Preparar dados.
  2. Crie uma métrica de semelhança.
  3. Executar o algoritmo de clustering
  4. Interprete os resultados e ajuste o clustering.

Esta página apresenta as etapas rapidamente. Entraremos em detalhes nas seções próximas.

As quatro etapas do fluxo de trabalho de clustering

Preparar dados

Como acontece com qualquer problema de ML, você precisa normalizar, escalonar e transformar os dados de atributos. Durante o clustering, no entanto, é necessário garantir que os dados preparados também permitam calcular com precisão a semelhança entre os exemplos. As próximas seções discutim essa consideração.

Criar métrica de semelhança

Antes de um algoritmo de clustering agrupar dados, ele precisa saber como pares de exemplos são semelhantes. Para quantificar a semelhança entre os exemplos, crie uma métrica de semelhança. A criação de uma métrica de semelhança exige que você entenda cuidadosamente seus dados e saiba como conseguir a semelhança dos recursos.

Executar algoritmo de clustering

Um algoritmo de clustering usa a métrica de semelhança para agrupar dados. O foco deste curso é o k-means.

Interpretar resultados e ajustar

A verificação da qualidade do resultado do clustering é iterativa e exploratória, porque o clustering não tem "verdade" que pode verificar a saída. Você verifica o resultado em relação às expectativas no nível do cluster e no nível do exemplo. Melhorar o resultado exige a iteração das etapas anteriores para ver como elas afetam o clustering.