Exercice sur la mesure de similarité manuelle

L'exercice suivant vous explique comment créer manuellement une mesure de similarité.

Imaginez un ensemble de données simple sur les maisons comme suit:

FonctionnalitéType
PrixEntier positif
Taille Valeur à virgule flottante positive en mètres carrés
Code postalInteger
Nombre de chambresInteger
Type de maisonUne valeur de texte issue de "maison individuelle", "maison individuelle", "appartement" ou "copropriété"
Garage0/1 pour non/oui
ColorisCatégorique multivalente: une ou plusieurs valeurs parmi les couleurs standards "blanc", "jaune", "vert", etc.

Preprocessing

La première étape consiste à prétraiter les caractéristiques numériques: prix, taille, nombre de chambres et code postal. Vous devrez effectuer une opération différente pour chacune de ces fonctionnalités. Par exemple, supposons que les données tarifaires suivent une distribution bimodale. Que dois-je faire ?

Que devez-vous faire si vos données suivent une distribution bimodale ?
Créez des quantiles à partir des données et redimensionnez-les à [0,1].
C'est la bonne étape à suivre lorsque les données suivent une distribution bimodale.
Transformation de journal et scaling à [0,1].
Il s'agit en fait de l'étape à suivre lorsque les données suivent une distribution de la loi sur la puissance électrique.
Normalisation et scaling à [0,1].
Il s'agit de l'étape à suivre lorsque les données suivent une distribution gaussienne.

Dans le champ ci-dessous, essayez d'expliquer comment traiter les données de taille.

Dans le champ ci-dessous, essayez d'expliquer comment traiter les données sur le nombre de chambres.

Comment devez-vous représenter les codes postaux ? Convertissez des codes postaux en longitude et en latitude. Traitez ensuite ces valeurs comme vous traiteriez d'autres valeurs numériques.

Calcul de la similarité par caractéristique

Il est maintenant temps de calculer la similarité par caractéristique. Pour les caractéristiques numériques, il suffit de trouver la différence. Pour les caractéristiques binaires (par exemple, si une maison possède un garage), vous pouvez également trouver la différence pour obtenir 0 ou 1. Mais qu'en est-il des caractéristiques catégorielles ? Répondez aux questions ci-dessous pour le savoir.

Laquelle de ces caractéristiques est multivalente (peut avoir plusieurs valeurs) ?
Couleur
Une résidence donnée peut être de plusieurs couleurs, par exemple le bleu avec une bordure blanche. Par conséquent, la couleur est une caractéristique multivalente.
Code postal
Une maison ne peut avoir qu'un seul code postal. Il s'agit d'une caractéristique univalente.
Type
Votre maison ne peut être qu'un seul type (maison, appartement, copropriété, etc.), ce qui signifie qu'il s'agit d'une caractéristique unique.
Quel type de mesure de similarité devez-vous utiliser pour calculer la similarité pour une caractéristique multivalente ?
Similarité Jaccard
Supposons que des maisons soient attribuées à des couleurs issues d'un ensemble fixe de couleurs. Calculez ensuite la similarité à l'aide du ratio de valeurs communes (similarité Jacquard).
Distance euclidienne
Pour les caractéristiques "code postal" et "type" qui n'ont qu'une seule valeur (caractéristiques univalentes), si la caractéristique correspond, la mesure de similarité est égale à 0. Sinon, la mesure de similarité est 1.

Calcul de la similarité globale

Vous avez calculé la similarité numérique pour chaque caractéristique. Toutefois, l'algorithme de clustering nécessite la similitude globale avec les maisons en cluster. Calculez la similarité globale entre deux maisons en combinant la similarité par caractéristique à l'aide de la racine carrée de l'erreur quadratique moyenne (RMSE). C'est là que\(s_1,s_2,\ldots,s_N\) représentent les similitudes pour les \(N\) caractéristiques:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

Limites de la mesure manuelle de similarité

Comme nous l'avons vu dans cet exercice, lorsque les données deviennent complexes, il est de plus en plus difficile de les traiter et de les combiner pour mesurer avec précision la similarité de manière sémantique pertinente. Tenez compte des données de couleur. La couleur doit-elle être vraiment catégorique ? Ou devons-nous attribuer des couleurs telles que le rouge et le marron pour avoir une similitude supérieure à celle du noir et du blanc ? Concernant la combinaison des données, nous avons pondéré la caractéristique garage de manière égale avec le prix des maisons. Toutefois, le prix d'une maison est bien plus important qu'un garage. Est-il vraiment judicieux de les pondérer en parts égales ?

Si vous créez une mesure de similarité qui ne reflète pas vraiment la similarité entre les exemples, vos clusters dérivés ne seront pas pertinents. C'est souvent le cas pour les données catégorielles, ce qui nous amène à une mesure supervisée.