결과 해석 및 클러스터링 조정

클러스터링은 비지도 학습이므로 결과를 검증하는 데 '진실'이 제공되지 않습니다. 진실이 없으면 품질 평가가 복잡해집니다. 또한 실제 데이터 세트는 일반적으로 그림 1에 나와 있는 데이터 세트와 같은 명확한 예시 클러스터에 속하지 않습니다.

3개의 명확한 데이터 포인트 그룹을 보여주는 그래프
그림 1: 이상적인 데이터 플롯. 실제 데이터는 거의 없습니다.

안타깝게도 실제 데이터는 그림 2와 유사해 보여서 클러스터링 품질을 시각적으로 평가하기가 어렵습니다.

임의의 데이터 포인트가 있는 그래프
그림 2: 실제 데이터 플롯

아래의 플로우 차트는 클러스터링의 품질을 확인하는 방법을 요약해서 보여줍니다. 요약은 다음 섹션에서 자세히 살펴보겠습니다.

인증 절차 플로우 차트
차트의 더 큰 버전을 보려면 여기를 클릭하세요.

1단계: 클러스터링의 품질

클러스터링의 품질 확인은 엄격한 프로세스가 아닙니다. 클러스터링은 '진실'이 부족하기 때문입니다. 클러스터링의 품질을 개선하기 위해 반복적으로 적용할 수 있는 가이드라인은 다음과 같습니다.

먼저 클러스터가 예상대로 표시되는지 그리고 유사한 것으로 간주되는 예시가 동일한 클러스터에 표시되는지 시각적으로 확인합니다. 그런 다음 아래 섹션에 설명된 대로 일반적으로 사용되는 측정항목을 확인합니다.

  • 클러스터 카디널리티
  • 클러스터 규모
  • 다운스트림 시스템의 성능
여러 클러스터의 카디널리티를 보여주는 막대 그래프 일부 클러스터에는 큰 차이가 있습니다.
그림 2: 여러 클러스터의 카디널리티

클러스터 카디널리티

클러스터 카디널리티는 클러스터당 예시 수입니다. 모든 클러스터의 클러스터 카디널리티를 표시하고 주요 이상점인 클러스터를 조사합니다. 예를 들어 그림 2에서 클러스터 번호 5를 조사합니다.

여러 클러스터의 크기를 보여주는 막대 그래프 한 클러스터의 크기가 다른 클러스터보다 훨씬 큽니다.
그림 3: 여러 클러스터의 규모

클러스터 크기

클러스터 규모는 모든 예시에서 클러스터 중심까지 거리의 합계입니다. 카디널리티와 마찬가지로 클러스터 간 크기가 어떻게 다른지 확인하고 이상치를 조사합니다. 예를 들어 그림 3에서 클러스터 번호 0을 조사합니다.

여러 클러스터의 카디널리티와 크기를 보여주는 분산형 차트 클러스터 한 개는 플롯의 이상점입니다.
그림 4: 카디널리티와 여러 클러스터의 크기 비교.

크기와 카디널리티 비교

클러스터 카디널리티가 높으면 더 큰 클러스터 크기가 발생하는 경향이 있으며 이는 직관적으로 타당합니다. 카디널리티가 다른 클러스터와 비교하여 규모와 상관관계가 없으면 클러스터가 이상합니다. 카디널리티에 대한 크기를 표시하여 비정상적인 클러스터를 찾습니다. 예를 들어 그림 4에서 클러스터 측정항목에 선을 맞추면 클러스터 번호 0이 비정상임을 나타냅니다.

다운스트림 시스템의 실적

다운스트림 ML 시스템에서 클러스터링 출력이 자주 사용되므로 클러스터링 프로세스가 변경될 때 다운스트림 시스템의 성능이 향상되는지 확인합니다. 다운스트림 성능에 미치는 영향은 클러스터링 품질에 대한 실제 테스트를 제공합니다. 단점은 이 검사가 복잡하다는 점입니다.

문제가 발견되었을 때 조사할 질문

문제가 발견되면 데이터 준비 및 유사성 측정을 통해 다음 질문을 확인하세요.

  • 데이터가 확장되나요?
  • 유사성 측정값이 올바른가요?
  • 알고리즘이 데이터에 관해 의미론적으로 유의미한 작업을 수행하고 있나요?
  • 알고리즘의 가정이 데이터와 일치하나요?

2단계: 유사성 측정의 실적

클러스터링 알고리즘은 유사성 측정값만큼 우수합니다. 유사성 측정이 적합한 결과를 반환하는지 확인하세요. 가장 간단한 검사는 다른 쌍보다 유사하거나 더 낮은 것으로 알려진 예시 쌍을 식별하는 것입니다. 그런 다음 각 예시 쌍에 대한 유사도 측정을 계산합니다. 더 유사한 예의 유사도 측정은 덜 유사한 예의 유사성 측정값보다 높은지 확인합니다.

유사성을 측정하는 데 사용하는 예는 데이터 세트를 나타내야 합니다. 모든 예시에 대해 유사성 측정을 보유해야 합니다. 신중한 검증을 통해 수동 또는 감독 여부에 관계없이 데이터 세트에서 유사성 측정을 일관되게 합니다. 유사성 측정이 일부 예시에서 일관되지 않으면 해당 예시는 유사한 예시와 함께 클러스터링되지 않습니다.

유사성이 부정확한 예를 찾으면 유사성 측정이 해당 사례를 구분하는 특성 데이터를 캡처하지 않을 가능성이 높습니다. 유사성 측정을 실험하고 유사성을 더 정확하게 파악하세요.

3단계: 최적의 클러스터 수

k-평균을 사용하려면 사전에 클러스터 수를 결정해야 합니다 \(k\) . \(k\)의 최적 값을 어떻게 결정하나요? 증가 알고리즘을 실행하고 \(k\) 클러스터 크기의 합계를 기록해 보세요. \(k\)가 증가하면 클러스터가 작아지고 총 거리가 줄어듭니다. 클러스터 수에 대해 이 거리를 표시합니다.

그림 4와 같이 특정 \(k\)에서 손실이 감소하면 \(k\)이 증가합니다. 수학적으로 볼 때 대략 \(k\)입니다. 즉, 경사가 -1(\(\theta > 135^{\circ}\))을 가로지릅니다. 이 가이드라인에서는 최적의 값을 정확하게 \(k\) 알려주지 않고 대략적인 값만 지정합니다. 표시된 플롯의 최적값은 \(k\) 약 11입니다. 보다 세분화된 클러스터를 선호한다면 \(k\) 이 도표를 지침으로 사용하여 더 높은 클러스터를 선택할 수 있습니다.

사용된 손실 및 사용되는 클러스터의 차이를 보여주는 그래프 약 10개의 클러스터가 수평화될 때까지 클러스터 수가 증가하면 손실이 감소합니다.
그림 4: 손실과 클러스터 수 비교