Classificazione: soglia

La regressione logistica restituisce una probabilità. Puoi utilizzare la probabilità restituita "così com'è" (ad esempio, la probabilità che l'utente faccia clic su questo annuncio sia 0,00023) o convertire la probabilità restituita in un valore binario (ad esempio, questa email è spam).

Un modello di regressione logistica che restituisce 0,9995 per un determinato messaggio email prevede che molto probabilmente sarà spam. Al contrario, è molto probabile che un altro messaggio email con un punteggio di previsione pari a 0,0003 per lo stesso modello di regressione logistica non sia spam. Tuttavia, cosa succede a un messaggio email con un punteggio previsione pari a 0,6? Per mappare un valore di regressione logistica a una categoria binaria, devi definire una soglia di classificazione (detta anche soglia di decisione). Un valore superiore a questa soglia indica "spam"; un valore inferiore indica "non spam". Puoi provare a supporre che la soglia di classificazione debba essere sempre 0,5, ma le soglie dipendono dal problema e pertanto sono valori che devi regolare.

Le seguenti sezioni esaminano più da vicino le metriche che puoi utilizzare per valutare le previsioni di un modello di classificazione, nonché l'impatto della modifica della soglia di classificazione su queste previsioni.