Esercizio manuale di misurazione della somiglianza

Il seguente esercizio ti illustra il processo di creazione manuale di una misura di similitudine.

Immagina di avere un set di dati semplice sulle case nel seguente modo:

FunzionalitàTipo
PrezzoIntero positivo
Dimensioni Valore in virgola mobile positivo in unità di metri quadrati
Codice postaleNumero intero
Numero di camereNumero intero
Tipo di casaUn valore di testo da "singolo_famiglia", "multifamiliare", "appartamento", "condominio"
Garage0/1 per no/sì
ColoriCategoria multivalente: uno o più valori nei colori standard "bianco", "giallo", "verde" e così via.

Pre-elaborazione

Il primo passaggio consiste nel pre-elaborare le funzionalità numeriche: prezzo, dimensioni, numero di camere da letto e codice postale. Per ciascuna di queste funzionalità dovrai eseguire un'operazione diversa. Ad esempio, in questo caso, supponiamo che i dati sui prezzi seguano una distribuzione bimodale. Cosa dovresti fare adesso?

Quale azione dovresti intraprendere se i tuoi dati seguono una distribuzione bimodale?
Crea quantili dai dati e scala a [0,1].
Questo è il passaggio corretto da eseguire quando i dati seguono una distribuzione bimodale.
Trasformazione del log e scala a [0,1].
Questo è in effetti il passaggio da seguire quando i dati seguono una distribuzione di legge di potenza.
Normalizza e scala a [0,1].
Questo è il passaggio che devi eseguire quando i dati seguono una distribuzione gaussiana.

Nel campo sottostante, prova a spiegare in che modo elaborare i dati sulle dimensioni.

Nel campo seguente, prova a spiegare in che modo elaboreresti i dati sul numero di camere da letto.

Come devo rappresentare i codici postali? Converti i codici postali in longitudine e latitudine. Quindi, elabora questi valori come faresti con altri valori numerici.

Calcolo della somiglianza per caratteristica

Ora è il momento di calcolare la somiglianza per elemento. Per gli elementi numerici, troverai semplicemente la differenza. Per le funzionalità binarie, ad esempio se una casa ha un garage, puoi anche trovare la differenza per ottenere 0 o 1. E per quanto riguarda le funzionalità categoriche? Rispondi alle domande di seguito per scoprirlo.

Quale di queste funzionalità è multivalente (può avere più valori)?
Colore
Una determinata abitazione può essere di più colori, ad esempio blu con finiture bianche. Pertanto, il colore è una caratteristica multivalente.
Codice postale
Qualsiasi abitazione può avere un solo codice postale. Questa è una funzionalità univalente.
Tipo
La tua casa può essere di un solo tipo: casa, appartamento, condominio e così via, il che significa che si tratta di una funzionalità univalente.
Che tipo di misura di somiglianza dovresti utilizzare per calcolare la somiglianza per una funzionalità multivalente?
Similarità per Jaccard
Supponiamo che alle case vengano assegnati colori utilizzando un insieme fisso di colori. Calcola quindi la somiglianza utilizzando il rapporto di valori comuni (Jaccard).
Distanza euclidea
Per gli elementi "codice postale" e "tipo" che hanno un solo valore (elementi univoci), se la caratteristica corrisponde, la misura di similitudine è 0; altrimenti la misura di somiglianza è 1.

Calcolo della somiglianza complessiva

Hai calcolato numericamente la somiglianza per ogni elemento. Tuttavia, l'algoritmo di clustering richiede una somiglianza complessiva con le case dei cluster. Calcola la somiglianza complessiva tra una coppia di case combinando la somiglianza per caratteristica utilizzando l'errore al quadrato medio radice (RMSE). Ecco dove\(s_1,s_2,\ldots,s_N\) rappresentano le somiglianze per \(N\) funzionalità:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

Limiti della misurazione manuale della somiglianza

Come dimostrato in questo esercizio, quando i dati diventano complessi, è sempre più difficile elaborare e combinare i dati per misurare con precisione la somiglianza in modo semanticamente significativo. Considera i dati relativi al colore. Il colore dovrebbe essere davvero categorico? Oppure dovremmo assegnare colori come rosso e bordeaux per avere una maggiore somiglianza rispetto a bianco e nero? Per quanto riguarda la combinazione dei dati, abbiamo ponderato la funzionalità del garage in modo uguale al prezzo della casa. Tuttavia, il prezzo delle case è molto più importante che avere un garage. Ha davvero senso pesarli allo stesso modo?

Se crei una misura di somiglianza che non riflette effettivamente la somiglianza tra gli esempi, i tuoi cluster derivati non saranno significativi. Spesso questo è il caso dei dati categorici e ci porta a una misura supervisionato.