수동 유사성 측정 연습

다음 연습에서는 유사성 측정을 수동으로 만드는 과정을 안내합니다.

주택에 간단한 데이터 세트가 있다고 가정해 보겠습니다.

특성유형
가격양의 정수
크기 양의 부동 소수점 값(제곱미터 단위)
우편번호정수
침실 수정수
주택 유형'단일 가족', '다가구', '아파트', '콘도'의 텍스트 값
차고0/1(아니요/예)
색상다변수 범주형: 표준 색상에서 1개 이상의 값 '흰색', '노란색', '녹색' 등

사전 처리

첫 번째 단계는 가격, 크기, 침실 수, 우편번호 등 숫자 특성을 사전 처리하는 것입니다. 이러한 각 기능에 대해 서로 다른 작업을 실행해야 합니다. 예를 들어 이 경우 가격 책정 데이터는 이중 모달 분포를 따른다고 가정합니다. 앞으로 어떤 조치를 취해야 하나요?

데이터가 이중 모달 분포를 따르는 경우 어떻게 해야 하나요?
데이터에서 분위수를 만들고 [0,1]로 조정합니다.
데이터가 이중 모달 분포를 따르는 경우 취해야 하는 올바른 단계입니다.
로그를 변환하고 [0,1]로 확장합니다.
이 단계는 데이터가 전력 법칙 분포를 따르는 경우 취해야 하는 단계입니다.
정규화한 후 [0,1]로 확장합니다.
데이터가 가우시안 분포를 따르는 경우 수행해야 하는 단계입니다.

아래 필드에 사이즈 데이터를 처리하는 방법을 설명해 보세요.

아래 필드에 침실 수에 관한 데이터를 처리하는 방법을 설명해 보세요.

우편번호는 어떻게 표시해야 하나요? 우편번호를 경도 및 위도로 변환합니다. 그런 다음 다른 숫자 값을 처리하는 것처럼 이러한 값을 처리합니다.

특성당 유사성 계산

이제 특성당 유사성을 계산할 차례입니다. 숫자 특성의 경우 차이만 알 수 있습니다. 주택에 차고가 있는 것과 같은 바이너리 특성의 경우 0 또는 1의 차이를 찾을 수도 있습니다. 하지만 범주형 특성은 어떤가요? 아래의 질문에 답하여 확인해 보세요.

다음 중 다가가 (여러 값을 가질 수 있음) 특성은 무엇인가요?
색상
주어진 집이 2개 이상의 색일 수 있습니다(예: 흰색 테두리가 있는 파란색). 따라서 색은 다변수 특성입니다.
우편번호
모든 주택에는 우편번호가 하나만 있을 수 있습니다. 이는 일률적인 기능입니다.
유형
집은 한 가지 유형, 집, 아파트, 콘도 등이며, 이는 일생의 특징입니다.
다변수 특성의 유사성을 계산하려면 어떤 유형의 유사성 측정을 사용해야 하나요?
Jaccard 유사성
홈에 고정된 색상 집합의 색상이 할당되었다고 가정해 보겠습니다. 그런 다음 공통 값의 비율(Jaccard 유사성)을 사용하여 유사성을 계산합니다.
유클리드 거리
값이 하나뿐인 특성(일관적 특성)을 갖는 특성인 '우편번호'와 '유형'의 경우 특성이 일치하면 유사성 측정값은 0이고 그렇지 않은 경우 유사성 측정값은 1입니다.

전체 유사성 계산

모든 특성의 유사성을 수치로 계산했습니다. 그러나 클러스터링 알고리즘을 사용하려면 클러스터 하우스와 전반적으로 유사해야 합니다. 평균 제곱근 오차 (RMSE)를 사용하여 특성당 유사성을 결합하여 두 주택 간의 전반적인 유사성을 계산합니다. 즉,\(s_1,s_2,\ldots,s_N\) 기능의 유사성을 \(N\) 나타냅니다.

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

수동 유사성 측정의 제한사항

이 예시에서 알 수 있듯이 데이터가 복잡해지면 의미론적으로 의미 있는 방식으로 유사성을 정확하게 측정하기 위해 데이터를 처리하고 결합하는 것이 점점 더 어려워집니다. 색상 데이터를 고려하세요. 색상이 정말 범주형이어야 할까요? 아니면 흑백보다 유사성을 높이기 위해 빨간색과 적갈색 같은 색상을 할당해야 하나요? 데이터 결합과 관련하여 차고 특성에 주택 요금에 동일한 가중치를 부여했습니다. 그러나 주택 가격은 차고보다 훨씬 더 중요합니다. 가중치를 동일하게 적용하는 것이 합리적인가요?

예시 간의 유사성을 진정으로 반영하지 않는 유사성 측정을 생성하는 경우 파생된 클러스터는 의미가 없습니다. 이러한 경우는 범주형 데이터를 대상으로 하며 감독 대상 조치를 취하는 경우가 많습니다.