Cette page a été traduite par l'API Cloud Translation.

Exercice sur la mesure de similarité manuelle

L'exercice suivant vous explique comment créer manuellement une mesure de similarité.

Imaginez un ensemble de données simple sur les maisons comme suit:

Fonctionnalité	Type
Prix	Entier positif
Taille	Valeur à virgule flottante positive en mètres carrés
Code postal	Integer
Nombre de chambres	Integer
Type de maison	Une valeur de texte issue de "maison individuelle", "maison individuelle", "appartement" ou "copropriété"
Garage	0/1 pour non/oui
Coloris	Catégorique multivalente: une ou plusieurs valeurs parmi les couleurs standards "blanc", "jaune", "vert", etc.

Preprocessing

La première étape consiste à prétraiter les caractéristiques numériques: prix, taille, nombre de chambres et code postal. Vous devrez effectuer une opération différente pour chacune de ces fonctionnalités. Par exemple, supposons que les données tarifaires suivent une distribution bimodale. Que dois-je faire ?

Que devez-vous faire si vos données suivent une distribution bimodale ?

Créez des quantiles à partir des données et redimensionnez-les à [0,1].

C'est la bonne étape à suivre lorsque les données suivent une distribution bimodale.

Transformation de journal et scaling à [0,1].

Il s'agit en fait de l'étape à suivre lorsque les données suivent une distribution de la loi sur la puissance électrique.

Normalisation et scaling à [0,1].

Il s'agit de l'étape à suivre lorsque les données suivent une distribution gaussienne.

Dans le champ ci-dessous, essayez d'expliquer comment traiter les données de taille.

Je prétraite les données de taille en fonction de :

Cliquez sur l'icône Plus pour vérifier votre réponse

Vérifiez si la taille suit une distribution de la puissance puissance, de Poisson ou de Gauss.

Power-law: Consigner la transformation et le scaling à l'échelle de [0,1].
Poisson: créer des quantiles et effectuer un scaling jusqu'à [0,1].
Gaussien: Normalisation et scaling à [0,1].

Dans le champ ci-dessous, essayez d'expliquer comment traiter les données sur le nombre de chambres.

Je prétraite le nombre de chambres en fonction de :

Cliquez sur l'icône Plus pour vérifier votre réponse

Vérifiez la distribution pour le nombre de chambres. Il est très probable que vous rogniez les anomalies et que vous puissiez effectuer un scaling jusqu'à [0,1], mais si vous trouvez une distribution de la loi de puissance, une transformation de journal peut s'avérer nécessaire.

Comment devez-vous représenter les codes postaux ? Convertissez des codes postaux en longitude et en latitude. Traitez ensuite ces valeurs comme vous traiteriez d'autres valeurs numériques.

Calcul de la similarité par caractéristique

Il est maintenant temps de calculer la similarité par caractéristique. Pour les caractéristiques numériques, il suffit de trouver la différence. Pour les caractéristiques binaires (par exemple, si une maison possède un garage), vous pouvez également trouver la différence pour obtenir 0 ou 1. Mais qu'en est-il des caractéristiques catégorielles ? Répondez aux questions ci-dessous pour le savoir.

Laquelle de ces caractéristiques est multivalente (peut avoir plusieurs valeurs) ?

Couleur

Une résidence donnée peut être de plusieurs couleurs, par exemple le bleu avec une bordure blanche. Par conséquent, la couleur est une caractéristique multivalente.

Code postal

Une maison ne peut avoir qu'un seul code postal. Il s'agit d'une caractéristique univalente.

Type

Votre maison ne peut être qu'un seul type (maison, appartement, copropriété, etc.), ce qui signifie qu'il s'agit d'une caractéristique unique.

Quel type de mesure de similarité devez-vous utiliser pour calculer la similarité pour une caractéristique multivalente ?

Similarité Jaccard

Supposons que des maisons soient attribuées à des couleurs issues d'un ensemble fixe de couleurs. Calculez ensuite la similarité à l'aide du ratio de valeurs communes (similarité Jacquard).

Distance euclidienne

Pour les caractéristiques "code postal" et "type" qui n'ont qu'une seule valeur (caractéristiques univalentes), si la caractéristique correspond, la mesure de similarité est égale à 0. Sinon, la mesure de similarité est 1.

Calcul de la similarité globale

Vous avez calculé la similarité numérique pour chaque caractéristique. Toutefois, l'algorithme de clustering nécessite la similitude globale avec les maisons en cluster. Calculez la similarité globale entre deux maisons en combinant la similarité par caractéristique à l'aide de la racine carrée de l'erreur quadratique moyenne (RMSE). C'est là que\(s_1,s_2,\ldots,s_N\) représentent les similitudes pour les \(N\) caractéristiques:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

Limites de la mesure manuelle de similarité

Comme nous l'avons vu dans cet exercice, lorsque les données deviennent complexes, il est de plus en plus difficile de les traiter et de les combiner pour mesurer avec précision la similarité de manière sémantique pertinente. Tenez compte des données de couleur. La couleur doit-elle être vraiment catégorique ? Ou devons-nous attribuer des couleurs telles que le rouge et le marron pour avoir une similitude supérieure à celle du noir et du blanc ? Concernant la combinaison des données, nous avons pondéré la caractéristique garage de manière égale avec le prix des maisons. Toutefois, le prix d'une maison est bien plus important qu'un garage. Est-il vraiment judicieux de les pondérer en parts égales ?

Si vous créez une mesure de similarité qui ne reflète pas vraiment la similarité entre les exemples, vos clusters dérivés ne seront pas pertinents. C'est souvent le cas pour les données catégorielles, ce qui nous amène à une mesure supervisée.

Mesure de similarité manuelle

Exercice de programmation : Similarité manuelle