Classificazione: bias di previsione

Il calcolo del bias di previsione è un controllo rapido che può segnalare problemi con il modello o i dati di addestramento in una fase iniziale.

Il bias di previsione è la differenza tra la media delle previsioni di un modello e la media delle etichette basate su dati empirici reali nei dati. Un modello addestrato su un set di dati in cui il 5% delle email è spam dovrebbe prevedere, in media, che il 5% delle email che classifica è spam. In altre parole, la media delle etichette nel set di dati basato su dati empirici reali è 0,05 e anche la media delle previsioni del modello dovrebbe essere 0,05. In questo caso, il modello non presenta bias di previsione. Naturalmente, il modello potrebbe presentare altri problemi.

Se invece il modello prevede il 50% delle volte che un'email è spam, allora qualcosa non va nel set di dati di addestramento, nel nuovo set di dati a cui viene applicato il modello o nel modello stesso. Qualsiasi differenza significativa tra le due medie suggerisce che il modello presenta un bias di previsione.

Il bias di previsione può essere causato da:

  • Bias o rumore nei dati, incluso il campionamento distorto per il set di addestramento
  • Regolarizzazione troppo forte, il che significa che il modello è stato semplificato eccessivamente e ha perso parte della complessità necessaria
  • Bug nella pipeline di addestramento del modello
  • Il set di funzionalità fornite al modello non è sufficiente per l'attività