Generalizzazione

La generalizzazione si riferisce alla capacità del tuo modello di adattarsi correttamente ai dati nuovi e mai visti, ricavati dalla stessa distribuzione di quella utilizzata per creare il modello.

Generalizzazione

Ciclo di modelli, previsione, campioni, scoperta della distribuzione reale, più campionamento
  • Obiettivo: prevedere correttamente i nuovi dati estratti da una distribuzione reale (nascosta).
  • Problema: non vediamo la verità.
    • Puoi campionarlo solo tramite campionamento.
Ciclo di modelli, previsione, campioni, scoperta della distribuzione reale, più campionamento
  • Obiettivo: prevedere correttamente i nuovi dati estratti da una distribuzione reale (nascosta).
  • Problema: non vediamo la verità.
    • Puoi campionarlo solo tramite campionamento.
  • Se il modello h si adatta bene al nostro campione attuale, come possiamo rassicurarlo sulla sua previsione su altri nuovi campioni?
  • In teoria:
    • Campo interessante: teoria della generalizzazione
    • In base alle idee per misurare la semplicità o la complessità del modello
  • Intuizione: formalità del principio del rasoio di Ockham
    • Meno è complesso un modello, più è probabile che un buon risultato empirico non sia solo a causa delle particolarità del nostro campione
  • In modo empirico:
    • Chiedere: Il nostro modello andrà bene per un nuovo campione di dati?
    • Valuta: ottieni un nuovo campione di dati - chiamalo set di test
    • Un buon rendimento nel set di test è un indicatore utile del buon rendimento dei nuovi dati in generale:
      • Se il set di test è abbastanza grande
      • Se non raggiungiamo i risultati usando il set di test più volte

Tre presupposti di base in tutti questi casi:

  1. Estraiamo esempi in modo indipendente e identico (ovvero) a caso dalla distribuzione
  2. La distribuzione è fissa: non cambia nel tempo
  3. Estraiamo sempre dalla stessa distribuzione, compresi set di addestramento, convalida e test