Questa pagina è stata tradotta dall'API Cloud Translation.

Esercizio manuale di misurazione della somiglianza

Il seguente esercizio ti illustra il processo di creazione manuale di una misura di similitudine.

Immagina di avere un set di dati semplice sulle case nel seguente modo:

Funzionalità	Tipo
Prezzo	Intero positivo
Dimensioni	Valore in virgola mobile positivo in unità di metri quadrati
Codice postale	Numero intero
Numero di camere	Numero intero
Tipo di casa	Un valore di testo da "singolo_famiglia", "multifamiliare", "appartamento", "condominio"
Garage	0/1 per no/sì
Colori	Categoria multivalente: uno o più valori nei colori standard "bianco", "giallo", "verde" e così via.

Pre-elaborazione

Il primo passaggio consiste nel pre-elaborare le funzionalità numeriche: prezzo, dimensioni, numero di camere da letto e codice postale. Per ciascuna di queste funzionalità dovrai eseguire un'operazione diversa. Ad esempio, in questo caso, supponiamo che i dati sui prezzi seguano una distribuzione bimodale. Cosa dovresti fare adesso?

Quale azione dovresti intraprendere se i tuoi dati seguono una distribuzione bimodale?

Crea quantili dai dati e scala a [0,1].

Questo è il passaggio corretto da eseguire quando i dati seguono una distribuzione bimodale.

Trasformazione del log e scala a [0,1].

Questo è in effetti il passaggio da seguire quando i dati seguono una distribuzione di legge di potenza.

Normalizza e scala a [0,1].

Questo è il passaggio che devi eseguire quando i dati seguono una distribuzione gaussiana.

Nel campo sottostante, prova a spiegare in che modo elaborare i dati sulle dimensioni.

Vorrei pre-elaborare i dati sulle dimensioni come segue:

Fai clic sull'icona con il segno più per controllare la tua risposta

Verifica se le dimensioni seguono una legge vigente, una Poisson o una distribuzione gaussiana.

diritto di potere: trasformare e scalare i log fino a [0,1].
Poisson: Crea quantili e scala a [0,1].
Gaussiano: normalizzare e scalare fino a [0,1].

Nel campo seguente, prova a spiegare in che modo elaboreresti i dati sul numero di camere da letto.

Vorrei pre-elaborare il numero di camere da letto in base a:

Fai clic sull'icona con il segno più per controllare la tua risposta

Controlla la distribuzione per numero di camere da letto. Molto probabilmente, il ritaglio di valori anomali e la scalabilità a [0,1] saranno adeguati, ma se trovi una distribuzione di diritto di potere, potrebbe essere necessaria una trasformazione log.

Come devo rappresentare i codici postali? Converti i codici postali in longitudine e latitudine. Quindi, elabora questi valori come faresti con altri valori numerici.

Calcolo della somiglianza per caratteristica

Ora è il momento di calcolare la somiglianza per elemento. Per gli elementi numerici, troverai semplicemente la differenza. Per le funzionalità binarie, ad esempio se una casa ha un garage, puoi anche trovare la differenza per ottenere 0 o 1. E per quanto riguarda le funzionalità categoriche? Rispondi alle domande di seguito per scoprirlo.

Quale di queste funzionalità è multivalente (può avere più valori)?

Colore

Una determinata abitazione può essere di più colori, ad esempio blu con finiture bianche. Pertanto, il colore è una caratteristica multivalente.

Codice postale

Qualsiasi abitazione può avere un solo codice postale. Questa è una funzionalità univalente.

Tipo

La tua casa può essere di un solo tipo: casa, appartamento, condominio e così via, il che significa che si tratta di una funzionalità univalente.

Che tipo di misura di somiglianza dovresti utilizzare per calcolare la somiglianza per una funzionalità multivalente?

Similarità per Jaccard

Supponiamo che alle case vengano assegnati colori utilizzando un insieme fisso di colori. Calcola quindi la somiglianza utilizzando il rapporto di valori comuni (Jaccard).

Distanza euclidea

Per gli elementi "codice postale" e "tipo" che hanno un solo valore (elementi univoci), se la caratteristica corrisponde, la misura di similitudine è 0; altrimenti la misura di somiglianza è 1.

Calcolo della somiglianza complessiva

Hai calcolato numericamente la somiglianza per ogni elemento. Tuttavia, l'algoritmo di clustering richiede una somiglianza complessiva con le case dei cluster. Calcola la somiglianza complessiva tra una coppia di case combinando la somiglianza per caratteristica utilizzando l'errore al quadrato medio radice (RMSE). Ecco dove\(s_1,s_2,\ldots,s_N\) rappresentano le somiglianze per \(N\) funzionalità:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

Limiti della misurazione manuale della somiglianza

Come dimostrato in questo esercizio, quando i dati diventano complessi, è sempre più difficile elaborare e combinare i dati per misurare con precisione la somiglianza in modo semanticamente significativo. Considera i dati relativi al colore. Il colore dovrebbe essere davvero categorico? Oppure dovremmo assegnare colori come rosso e bordeaux per avere una maggiore somiglianza rispetto a bianco e nero? Per quanto riguarda la combinazione dei dati, abbiamo ponderato la funzionalità del garage in modo uguale al prezzo della casa. Tuttavia, il prezzo delle case è molto più importante che avere un garage. Ha davvero senso pesarli allo stesso modo?

Se crei una misura di somiglianza che non riflette effettivamente la somiglianza tra gli esempi, i tuoi cluster derivati non saranno significativi. Spesso questo è il caso dei dati categorici e ci porta a una misura supervisionato.

Indietro

Misura manuale della similarità

Avanti

Esercizio manuale di programmazione della somiglianza