다음 연습에서는 유사성 측정을 수동으로 만드는 과정을 안내합니다.
주택에 간단한 데이터 세트가 있다고 가정해 보겠습니다.
특성 | 유형 |
---|---|
가격 | 양의 정수 |
크기 | 양의 부동 소수점 값(제곱미터 단위) |
우편번호 | 정수 |
침실 수 | 정수 |
주택 유형 | '단일 가족', '다가구', '아파트', '콘도'의 텍스트 값 |
차고 | 0/1(아니요/예) |
색상 | 다변수 범주형: 표준 색상에서 1개 이상의 값 '흰색', '노란색', '녹색' 등 |
사전 처리
첫 번째 단계는 가격, 크기, 침실 수, 우편번호 등 숫자 특성을 사전 처리하는 것입니다. 이러한 각 기능에 대해 서로 다른 작업을 실행해야 합니다. 예를 들어 이 경우 가격 책정 데이터는 이중 모달 분포를 따른다고 가정합니다. 앞으로 어떤 조치를 취해야 하나요?
아래 필드에 사이즈 데이터를 처리하는 방법을 설명해 보세요.
아래 필드에 침실 수에 관한 데이터를 처리하는 방법을 설명해 보세요.
우편번호는 어떻게 표시해야 하나요? 우편번호를 경도 및 위도로 변환합니다. 그런 다음 다른 숫자 값을 처리하는 것처럼 이러한 값을 처리합니다.
특성당 유사성 계산
이제 특성당 유사성을 계산할 차례입니다. 숫자 특성의 경우 차이만 알 수 있습니다. 주택에 차고가 있는 것과 같은 바이너리 특성의 경우 0 또는 1의 차이를 찾을 수도 있습니다. 하지만 범주형 특성은 어떤가요? 아래의 질문에 답하여 확인해 보세요.
전체 유사성 계산
모든 특성의 유사성을 수치로 계산했습니다. 그러나 클러스터링 알고리즘을 사용하려면 클러스터 하우스와 전반적으로 유사해야 합니다. 평균 제곱근 오차 (RMSE)를 사용하여 특성당 유사성을 결합하여 두 주택 간의 전반적인 유사성을 계산합니다. 즉,\(s_1,s_2,\ldots,s_N\) 기능의 유사성을 \(N\) 나타냅니다.
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
수동 유사성 측정의 제한사항
이 예시에서 알 수 있듯이 데이터가 복잡해지면 의미론적으로 의미 있는 방식으로 유사성을 정확하게 측정하기 위해 데이터를 처리하고 결합하는 것이 점점 더 어려워집니다. 색상 데이터를 고려하세요. 색상이 정말 범주형이어야 할까요? 아니면 흑백보다 유사성을 높이기 위해 빨간색과 적갈색 같은 색상을 할당해야 하나요? 데이터 결합과 관련하여 차고 특성에 주택 요금에 동일한 가중치를 부여했습니다. 그러나 주택 가격은 차고보다 훨씬 더 중요합니다. 가중치를 동일하게 적용하는 것이 합리적인가요?
예시 간의 유사성을 진정으로 반영하지 않는 유사성 측정을 생성하는 경우 파생된 클러스터는 의미가 없습니다. 이러한 경우는 범주형 데이터를 대상으로 하며 감독 대상 조치를 취하는 경우가 많습니다.