Classificazione

Questo modulo mostra come la regressione logistica può essere utilizzata per le attività di classificazione ed esplora come valutare l'efficacia dei modelli di classificazione.

Classificazione

  • A volte, utilizziamo la regressione logistica per gli output di probabilità. Si tratta di una regressione in (0, 1).
  • Altre volte, aggiungeremo la soglia al valore di una classificazione binaria discreta
  • La scelta della soglia è una scelta importante e può essere ottimizzata
  • Come valutiamo i modelli di classificazione?
  • Come valutiamo i modelli di classificazione?
  • Una possibile misura: accuratezza
    • la frazione delle previsioni che abbiamo ottenuto correttamente
  • In molti casi, la precisione è scarsa o fuorviante
    • Più spesso quando tipi diversi di errori hanno costi diversi
    • Il caso tipico include lo squilibrio di classe, quando i positivi o i negativi sono estremamente rari
  • Per i problemi con bilanciamento del corso, è utile per separare i diversi tipi di errore
Veri positivi
Abbiamo chiamato correttamente lupo!
Abbiamo salvato la città.

Falsi positivi
Errore: abbiamo chiamato wolf false.
Tutti sono matti verso di noi.

Falsi negativi
Era presente un lupo, ma non è stato individuato. Mangiava tutti i nostri polli.
Vero negativo
Niente lupo, nessuna sveglia.
Non c'è problema.

  • Precisione: (veri positivi positivi)/ (tutte le previsioni positive)
    • Quando il modello ha detto una classe "positiva", era giusto?
    • Intuizione: il modello ha sentito il lupo troppo spesso?
  • Precisione: (veri positivi positivi)/ (tutte le previsioni positive)
    • Quando il modello ha detto una classe "positiva", era giusto?
    • Intuizione: il modello ha sentito il lupo troppo spesso?
  • Richiama: (veri positivi positivi) / (tutti i positivi effettivi)
    • Tra tutti i possibili positivi, quanti hanno identificato correttamente il modello?
    • Intuizione: non ha capito i lupi?

Esplora le opzioni seguenti.

Valuta un modello di classificazione che separa le email in due categorie: "spam" o "non spam". Se aumenti la soglia di classificazione, cosa succederà alla precisione?
Sicuramente aumentare.
Aumentando la soglia di classificazione, in genere la precisione aumenta; tuttavia, la precisione non è garantita per aumentare monotonamente l'aumento della soglia.
Probabilmente aumenta.
In generale, l'aumento della soglia di classificazione riduce i falsi positivi, incrementando così la precisione.
Probabilmente diminuisci.
In generale, l'aumento della soglia di classificazione riduce i falsi positivi, incrementando così la precisione.
Sicuramente diminuisce.
In generale, l'aumento della soglia di classificazione riduce i falsi positivi, incrementando così la precisione.

Ogni punto corrisponde alla tariffa TP e FP su una sola soglia decisionale.

Curva ROC che mostra il tasso di TP e il tasso di FP a soglie di classificazione diverse.
  • AUC: "Area sotto la curva ROC"
  • AUC: "Area sotto la curva ROC"
  • Interpretazione:
    • Se scegliamo un numero casuale positivo e uno casuale, qual è la probabilità che il mio modello li classifichi nell'ordine corretto?
  • AUC: "Area sotto la curva ROC"
  • Interpretazione:
    • Se scegliamo un numero casuale positivo e uno casuale, qual è la probabilità che il mio modello li classifichi nell'ordine corretto?
  • Intuizione: offre una misurazione aggregata del rendimento aggregato di tutte le possibili soglie di classificazione.
  • Le previsioni di regressione logistica devono essere imparziali.
    • media delle previsioni == media delle osservazioni
  • Le previsioni di regressione logistica devono essere imparziali.
    • media delle previsioni == media delle osservazioni
  • Bias è una versione canary.
    • Zero bias da solo non significa che tutti i tuoi sistemi siano perfetti.
    • È comunque un buon controllo di salute.
  • Se hai bias, hai un problema.
    • Set di funzionalità incompleto?
    • Pipeline Buggy?
    • Esempio di addestramento differenziato?
  • Non correggere i bias con un livello di calibrazione, correggilo nel modello.
  • Cerca i bias nelle sezioni di dati: questo può aiutare a migliorare.
Un grafico di calibrazione