La generalizzazione si riferisce alla capacità del tuo modello di adattarsi correttamente ai dati nuovi e mai visti, ricavati dalla stessa distribuzione di quella utilizzata per creare il modello.
Generalizzazione
Quadro generale
- Obiettivo: prevedere correttamente i nuovi dati estratti da una distribuzione reale (nascosta).
- Problema: non vediamo la verità.
- Puoi campionarlo solo tramite campionamento.
Quadro generale
- Obiettivo: prevedere correttamente i nuovi dati estratti da una distribuzione reale (nascosta).
- Problema: non vediamo la verità.
- Puoi campionarlo solo tramite campionamento.
- Se il modello h si adatta bene al nostro campione attuale, come possiamo rassicurarlo sulla sua previsione su altri nuovi campioni?
Come sappiamo se il nostro modello è adatto?
- In teoria:
- Campo interessante: teoria della generalizzazione
- In base alle idee per misurare la semplicità o la complessità del modello
- Intuizione: formalità del principio del rasoio di Ockham
- Meno è complesso un modello, più è probabile che un buon risultato empirico non sia solo a causa delle particolarità del nostro campione
Come sappiamo se il nostro modello è adatto?
- In modo empirico:
- Chiedere: Il nostro modello andrà bene per un nuovo campione di dati?
- Valuta: ottieni un nuovo campione di dati - chiamalo set di test
- Un buon rendimento nel set di test è un indicatore utile del buon rendimento dei nuovi dati in generale:
- Se il set di test è abbastanza grande
- Se non raggiungiamo i risultati usando il set di test più volte
Il machine learning per il machine learning
Tre presupposti di base in tutti questi casi:
- Estraiamo esempi in modo indipendente e identico (ovvero) a caso dalla distribuzione
- La distribuzione è fissa: non cambia nel tempo
- Estraiamo sempre dalla stessa distribuzione, compresi set di addestramento, convalida e test