Questo modulo mostra come la regressione logistica può essere utilizzata per le attività di classificazione ed esplora come valutare l'efficacia dei modelli di classificazione.
Classificazione
Classificazione e regressione
- A volte, utilizziamo la regressione logistica per gli output di probabilità. Si tratta di una regressione in (0, 1).
- Altre volte, aggiungeremo la soglia al valore di una classificazione binaria discreta
- La scelta della soglia è una scelta importante e può essere ottimizzata
Metriche di valutazione: accuratezza
- Come valutiamo i modelli di classificazione?
Metriche di valutazione: accuratezza
- Come valutiamo i modelli di classificazione?
- Una possibile misura: accuratezza
- la frazione delle previsioni che abbiamo ottenuto correttamente
La precisione può essere fuorviante
- In molti casi, la precisione è scarsa o fuorviante
- Più spesso quando tipi diversi di errori hanno costi diversi
- Il caso tipico include lo squilibrio di classe, quando i positivi o i negativi sono estremamente rari
Veri positivi e falsi positivi
- Per i problemi con bilanciamento del corso, è utile per separare i diversi tipi di errore
Veri positivi Abbiamo chiamato correttamente lupo! Abbiamo salvato la città. |
Falsi positivi Errore: abbiamo chiamato wolf false. Tutti sono matti verso di noi. |
Falsi negativi Era presente un lupo, ma non è stato individuato. Mangiava tutti i nostri polli. |
Vero negativo Niente lupo, nessuna sveglia. Non c'è problema. |
Metriche di valutazione: precisione e richiamo
- Precisione: (veri positivi positivi)/ (tutte le previsioni positive)
- Quando il modello ha detto una classe "positiva", era giusto?
- Intuizione: il modello ha sentito il lupo troppo spesso?
Metriche di valutazione: precisione e richiamo
- Precisione: (veri positivi positivi)/ (tutte le previsioni positive)
- Quando il modello ha detto una classe "positiva", era giusto?
- Intuizione: il modello ha sentito il lupo troppo spesso?
- Richiama: (veri positivi positivi) / (tutti i positivi effettivi)
- Tra tutti i possibili positivi, quanti hanno identificato correttamente il modello?
- Intuizione: non ha capito i lupi?
Al termine, premi riproduci ▶ per continuare
Esplora le opzioni seguenti.
Valuta un modello di classificazione che separa le email in due categorie: "spam" o "non spam". Se aumenti la soglia di classificazione, cosa succederà alla precisione?
Sicuramente aumentare.
Aumentando la soglia di classificazione, in genere la precisione aumenta; tuttavia, la precisione non è garantita per aumentare monotonamente l'aumento della soglia.
Probabilmente aumenta.
In generale, l'aumento della soglia di classificazione riduce i falsi positivi, incrementando così la precisione.
Probabilmente diminuisci.
In generale, l'aumento della soglia di classificazione riduce i falsi positivi, incrementando così la precisione.
Sicuramente diminuisce.
In generale, l'aumento della soglia di classificazione riduce i falsi positivi, incrementando così la precisione.
Una curva ROC
Ogni punto corrisponde alla tariffa TP e FP su una sola soglia decisionale.
Metriche di valutazione: AUC
- AUC: "Area sotto la curva ROC"
Metriche di valutazione: AUC
- AUC: "Area sotto la curva ROC"
- Interpretazione:
- Se scegliamo un numero casuale positivo e uno casuale, qual è la probabilità che il mio modello li classifichi nell'ordine corretto?
Metriche di valutazione: AUC
- AUC: "Area sotto la curva ROC"
- Interpretazione:
- Se scegliamo un numero casuale positivo e uno casuale, qual è la probabilità che il mio modello li classifichi nell'ordine corretto?
- Intuizione: offre una misurazione aggregata del rendimento aggregato di tutte le possibili soglie di classificazione.
Differenza di previsione
- Le previsioni di regressione logistica devono essere imparziali.
- media delle previsioni == media delle osservazioni
Differenza di previsione
- Le previsioni di regressione logistica devono essere imparziali.
- media delle previsioni == media delle osservazioni
- Bias è una versione canary.
- Zero bias da solo non significa che tutti i tuoi sistemi siano perfetti.
- È comunque un buon controllo di salute.
Suggerimento di previsione (continua)
- Se hai bias, hai un problema.
- Set di funzionalità incompleto?
- Pipeline Buggy?
- Esempio di addestramento differenziato?
- Non correggere i bias con un livello di calibrazione, correggilo nel modello.
- Cerca i bias nelle sezioni di dati: questo può aiutare a migliorare.