Para agrupar seus dados, siga estas etapas:
- Preparar dados.
- Crie uma métrica de semelhança.
- Executar o algoritmo de clustering
- Interprete os resultados e ajuste o clustering.
Esta página apresenta as etapas rapidamente. Entraremos em detalhes nas seções próximas.
Preparar dados
Como acontece com qualquer problema de ML, você precisa normalizar, escalonar e transformar os dados de atributos. Durante o clustering, no entanto, é necessário garantir que os dados preparados também permitam calcular com precisão a semelhança entre os exemplos. As próximas seções discutim essa consideração.
Criar métrica de semelhança
Antes de um algoritmo de clustering agrupar dados, ele precisa saber como pares de exemplos são semelhantes. Para quantificar a semelhança entre os exemplos, crie uma métrica de semelhança. A criação de uma métrica de semelhança exige que você entenda cuidadosamente seus dados e saiba como conseguir a semelhança dos recursos.
Executar algoritmo de clustering
Um algoritmo de clustering usa a métrica de semelhança para agrupar dados. O foco deste curso é o k-means.
Interpretar resultados e ajustar
A verificação da qualidade do resultado do clustering é iterativa e exploratória, porque o clustering não tem "verdade" que pode verificar a saída. Você verifica o resultado em relação às expectativas no nível do cluster e no nível do exemplo. Melhorar o resultado exige a iteração das etapas anteriores para ver como elas afetam o clustering.