Il seguente esercizio ti illustra il processo di creazione manuale di una misura di similitudine.
Immagina di avere un set di dati semplice sulle case nel seguente modo:
Funzionalità | Tipo |
---|---|
Prezzo | Intero positivo |
Dimensioni | Valore in virgola mobile positivo in unità di metri quadrati |
Codice postale | Numero intero |
Numero di camere | Numero intero |
Tipo di casa | Un valore di testo da "singolo_famiglia", "multifamiliare", "appartamento", "condominio" |
Garage | 0/1 per no/sì |
Colori | Categoria multivalente: uno o più valori nei colori standard "bianco", "giallo", "verde" e così via. |
Pre-elaborazione
Il primo passaggio consiste nel pre-elaborare le funzionalità numeriche: prezzo, dimensioni, numero di camere da letto e codice postale. Per ciascuna di queste funzionalità dovrai eseguire un'operazione diversa. Ad esempio, in questo caso, supponiamo che i dati sui prezzi seguano una distribuzione bimodale. Cosa dovresti fare adesso?
Nel campo sottostante, prova a spiegare in che modo elaborare i dati sulle dimensioni.
Nel campo seguente, prova a spiegare in che modo elaboreresti i dati sul numero di camere da letto.
Come devo rappresentare i codici postali? Converti i codici postali in longitudine e latitudine. Quindi, elabora questi valori come faresti con altri valori numerici.
Calcolo della somiglianza per caratteristica
Ora è il momento di calcolare la somiglianza per elemento. Per gli elementi numerici, troverai semplicemente la differenza. Per le funzionalità binarie, ad esempio se una casa ha un garage, puoi anche trovare la differenza per ottenere 0 o 1. E per quanto riguarda le funzionalità categoriche? Rispondi alle domande di seguito per scoprirlo.
Calcolo della somiglianza complessiva
Hai calcolato numericamente la somiglianza per ogni elemento. Tuttavia, l'algoritmo di clustering richiede una somiglianza complessiva con le case dei cluster. Calcola la somiglianza complessiva tra una coppia di case combinando la somiglianza per caratteristica utilizzando l'errore al quadrato medio radice (RMSE). Ecco dove\(s_1,s_2,\ldots,s_N\) rappresentano le somiglianze per \(N\) funzionalità:
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
Limiti della misurazione manuale della somiglianza
Come dimostrato in questo esercizio, quando i dati diventano complessi, è sempre più difficile elaborare e combinare i dati per misurare con precisione la somiglianza in modo semanticamente significativo. Considera i dati relativi al colore. Il colore dovrebbe essere davvero categorico? Oppure dovremmo assegnare colori come rosso e bordeaux per avere una maggiore somiglianza rispetto a bianco e nero? Per quanto riguarda la combinazione dei dati, abbiamo ponderato la funzionalità del garage in modo uguale al prezzo della casa. Tuttavia, il prezzo delle case è molto più importante che avere un garage. Ha davvero senso pesarli allo stesso modo?
Se crei una misura di somiglianza che non riflette effettivamente la somiglianza tra gli esempi, i tuoi cluster derivati non saranno significativi. Spesso questo è il caso dei dati categorici e ci porta a una misura supervisionato.