Lavorare con i dati categorici

I dati categoriali hanno un insieme specifico di valori possibili. Ad esempio:

  • Le diverse specie di animali in un parco nazionale
  • I nomi delle strade in una determinata città
  • Se un'email è spam o meno
  • I colori con cui vengono dipinti gli esterni delle case
  • Numeri raggruppati, descritti nel modulo Lavori con i dati numerici

I numeri possono anche essere dati categorici

Dati numerici reali può essere moltiplicato in modo significativo. Ad esempio, prendi in considerazione un modello che preveda il valore di una casa in base alla sua metratura. Tieni presente che un modello utile per valutare i prezzi delle abitazioni di solito si basa su centinaia di funzionalità. Detto questo, a parità di condizioni, una casa di 200 m2 i metri dovrebbero avere circa il doppio del valore di una casa identica di 100 metri quadrati metri.

Spesso, è consigliabile rappresentare le caratteristiche che contengono valori interi come dati categorici anziché numerici. Ad esempio, considera una funzionalità di codice postale in cui i valori sono numeri interi. Se rappresenti questa caratteristica in modo numerico anziché categorico, chiedi al modello di trovare una relazione numerica tra codici postali diversi. Ciò significa che il modello considera il codice postale 20004 come il doppio (o la metà) di un indicatore rispetto al codice postale 10002. Rappresentare i codici postali come dati categorici consente al modello ponderare ogni singolo codice postale separatamente.

Codifica

Codifica significa convertire dati categorici o di altro tipo in vettori numerici su cui può essere addestrato un modello. Questa conversione è necessaria perché i modelli possono vengono addestrate solo con valori in virgola mobile; i modelli non possono essere addestrati su stringhe come "dog" o "maple". Questo modulo illustra diverse metodi di codifica per dati categorici.