Dati appropriati per le foreste decisionale

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Le foreste decisionale sono più efficaci quando hai un set di dati tabulare (i dati che potresti rappresentare in un foglio di lavoro, un file CSV o una tabella di database). I dati tabulari sono uno dei formati di dati più comuni e le foreste decisionale dovrebbero essere la soluzione ideale per modellarli.

Tabella 1. Un esempio di set di dati tabulare.

Numero di gambe Numero di occhi Peso (kg) Specie (etichetta)
2 2 12 Pinguino
8 6 0,1 Ragno
4 2 44 Cani

A differenza delle reti neurali, le foreste decisionale utilizzano in modo nativo i dati tabulari del modello. Quando sviluppi le foreste pensionistiche, non devi fare attività come le seguenti:

  • Esegui la pre-elaborazione come la normalizzazione delle funzionalità o la codifica one-hot.
  • Esegui l'imputazione (ad esempio, sostituendo un valore mancante con -1).

Tuttavia, le foreste decisionale non sono adatte a consumare direttamente dati non tabulari (chiamati anche dati non strutturati), come immagini o testo. Sì, esistono soluzioni alternative per questa limitazione, ma in genere le reti neurali gestiscono meglio i dati non strutturati.

Prestazioni

Le foreste pensionistiche sono un campione di efficienza. In altre parole, le foreste decisionale sono ideali per l'addestramento su set di dati di piccole dimensioni o su set di dati in cui il rapporto tra numero di funzionalità e numero di esempi è elevato (forse maggiore di 1). Anche se le foreste di decisioni sono un campione efficiente, come tutte le macchine di machine learning, le foreste di decisioni hanno prestazioni migliori quando sono disponibili molti dati.

Le foreste decisionali in genere inferiscono più velocemente di reti neurali simili. Ad esempio, una foresta decisionale di medie dimensioni esegue un'inferenza in pochi microsecondi su una CPU moderna.