클러스터링 워크플로

데이터를 클러스터링하려면 다음 단계를 따르세요.

  1. 데이터를 준비합니다.
  2. 유사성 측정항목 만들기
  3. 클러스터링 알고리즘을 실행합니다.
  4. 결과를 해석하고 클러스터링을 조정합니다.

이 페이지에서는 단계를 간략하게 소개합니다. 다음 섹션에서 더 자세히 알아보겠습니다.

클러스터링 워크플로의 네 가지 단계

데이터 준비

ML 문제와 마찬가지로 특성 데이터를 정규화, 확장, 변환해야 합니다. 그러나 클러스터링하는 동안 준비된 데이터를 사용하여 예시 간의 유사성을 정확하게 계산할 수 있는지 확인해야 합니다. 다음 섹션에서는 이러한 고려사항을 설명합니다.

유사성 측정항목 만들기

클러스터링 알고리즘에서 데이터를 그룹화하려면 먼저 예 쌍이 서로 얼마나 유사한지 알아야 합니다. 유사성 측정항목을 만들어 예시 간 유사성을 수치화합니다. 유사성 측정항목을 만들려면 데이터를 신중하게 이해하고 특성에서 유사성을 도출하는 방법을 알아야 합니다.

클러스터링 알고리즘 실행

클러스터링 알고리즘은 유사성 측정항목을 사용하여 데이터를 클러스터링합니다. 이 과정에서는 k-평균에 중점을 둡니다.

결과 해석 및 조정

클러스터링 출력의 품질을 확인할 수 있는 '진실'이 부족하기 때문에 클러스터링 출력의 품질은 반복적이고 탐색적입니다. 클러스터 수준 및 예시 수준에서 기대치를 기준으로 결과를 확인합니다. 결과를 개선하려면 클러스터링에 미치는 영향을 확인하기 위해 이전 단계를 반복적으로 실험해야 합니다.