Flusso di lavoro del clustering

Per raggruppare i dati, devi seguire questi passaggi:

  1. Prepara i dati.
  2. Crea una metrica di similitudine.
  3. Esegui l'algoritmo di clustering.
  4. Interpreta i risultati e modifica il clustering.

Questa pagina illustra brevemente i passaggi. Approfondiremo le sezioni successive.

I quattro passaggi del flusso di lavoro di clustering

Preparazione dei dati

Come per qualsiasi problema ML, devi normalizzare, scalare e trasformare i dati delle funzionalità Durante il clustering tuttavia, devi assicurarti che i dati preparati ti consentano di calcolare con precisione la somiglianza tra gli esempi. Nelle prossime sezioni, abbiamo discusso di questa considerazione.

Crea metrica di similitudine

Prima che un algoritmo di clustering possa raggruppare i dati, deve sapere quanto sono simili le coppie di esempi. Puoi quantificare la somiglianza tra gli esempi creando una metrica di similitudine. La creazione di una metrica di somiglianza richiede di conoscere attentamente i dati e come ricavare una somiglianza dalle tue funzionalità.

Esegui l'algoritmo di clustering

Un algoritmo di clustering utilizza la metrica della somiglianza per eseguire il cluster dei dati. Questo corso è incentrato sui concetti di k.

Interpreta i risultati e modifica

Il controllo della qualità dell'output di clustering è iterativo ed esplorativo perché il clustering è privo di "informazioni veritiere" che possono verificare l'output. Puoi verificare il risultato rispetto alle aspettative a livello di cluster e di esempio. Per migliorare il risultato, è necessario sperimentare ripetutamente i passaggi precedenti per vedere come influiscono sul clustering.