Classificazione: accuratezza, richiamo, precisione e metriche correlate

I veri e falsi positivi e negativi vengono utilizzati per calcolare diverse metriche utili per valutare i modelli. Le metriche di valutazione più significative dipendono dal modello e dall'attività specifici, dal costo delle diverse classificazioni errate e dal fatto che il set di dati sia bilanciato o sbilanciato.

Tutte le metriche in questa sezione vengono calcolate in base a una singola soglia fissa e cambiano quando la soglia cambia. Molto spesso, l'utente regola la soglia per ottimizzare una di queste metriche.

Precisione

L'accuratezza è la proporzione di tutte le classificazioni corrette, positive o negative. È definita matematicamente come:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Nell'esempio di classificazione dello spam, l'accuratezza misura la frazione di tutte le email classificate correttamente.

Un modello perfetto avrebbe zero falsi positivi e zero falsi negativi e quindi un'accuratezza pari a 1,0 o 100%.

Poiché incorpora tutti e quattro i risultati della matrice di confusione (TP, FP, TN, FN), dato un set di dati bilanciato, con un numero simile di esempi in entrambe le classi, l'accuratezza può servire come misura approssimativa della qualità del modello. Per questo motivo, è spesso la metrica di valutazione predefinita utilizzata per i modelli generici o non specificati che svolgono attività generiche o non specificate.

Tuttavia, quando il set di dati è sbilanciato o quando un tipo di errore (FN o FP) è più costoso dell'altro, come accade nella maggior parte delle applicazioni reali, è meglio ottimizzare una delle altre metriche.

Per i set di dati molto sbilanciati, in cui una classe compare molto raramente, ad esempio l'1% del tempo, un modello che prevede il valore negativo il 100% delle volte otterrebbe un punteggio del 99% in termini di accuratezza, nonostante sia inutile.

Richiamo o percentuale di veri positivi

La percentuale di veri positivi (TPR), ovvero la proporzione di tutti i positivi effettivi che sono stati classificati correttamente come positivi, è nota anche come richiamo.

Il richiamo è definito matematicamente come:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

I falsi negativi sono positivi effettivi che sono stati classificati erroneamente come negativi, motivo per cui appaiono nel denominatore. Nell'esempio di classificazione dello spam, il richiamo misura la frazione di email di spam classificate correttamente come spam. Per questo motivo, un altro nome per il richiamo è probabilità di rilevamento: risponde alla domanda "Quale frazione di email di spam viene rilevata da questo modello?"

Un modello perfetto ipotetico avrebbe zero falsi negativi e quindi un richiamo (TPR) pari a 1, 0, ovvero un tasso di rilevamento del 100%.

In un set di dati sbilanciato in cui il numero di positivi effettivi è molto basso, il richiamo è una metrica più significativa dell'accuratezza perché misura la capacità del modello di identificare correttamente tutte le istanze positive. Per applicazioni come la previsione di malattie, l'identificazione corretta dei casi positivi è fondamentale. Un falso negativo in genere ha conseguenze più gravi di un falso positivo. Per un esempio concreto che confronta le metriche di richiamo e accuratezza, consulta le note nella definizione di richiamo.

Percentuale di falsi positivi

Il tasso di falsi positivi (FPR) è la proporzione di tutti i negativi effettivi che sono stati classificati erroneamente come positivi, noto anche come probabilità di falso allarme. È definita matematicamente come:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

I falsi positivi sono negativi effettivi che sono stati classificati erroneamente, motivo per cui appaiono nel denominatore. Nell'esempio di classificazione dello spam, il tasso di falsi positivi misura la frazione di email legittime classificate erroneamente come spam o il tasso di falsi allarmi del modello.

Un modello perfetto avrebbe zero falsi positivi e quindi un tasso di falsi positivi pari a 0,0, ovvero un tasso di falsi allarmi pari allo 0%.

Per un set di dati non bilanciato, il tasso di falsi positivi è in genere una metrica più informativa rispetto all'accuratezza. Tuttavia, se il numero di negativi effettivi è molto basso, il tasso di falsi positivi potrebbe non essere una scelta ideale, a causa della sua volatilità. Ad esempio, se in un set di dati sono presenti solo quattro negativi effettivi, una classificazione errata comporta un tasso di falsi positivi del 25%, mentre una seconda classificazione errata fa salire il tasso di falsi positivi al 50%. In casi come questo, la precisione (descritta di seguito) potrebbe essere una metrica più stabile per valutare gli effetti dei falsi positivi.

Precisione

Precisione è la proporzione di tutte le classificazioni positive del modello che sono effettivamente positive. È definita matematicamente come:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Nell'esempio di classificazione dello spam, la precisione misura la frazione di email classificate come spam che erano effettivamente spam.

Un modello perfetto ipotetico avrebbe zero falsi positivi e quindi una precisione pari a 1.0.

In un set di dati sbilanciato in cui il numero di positivi effettivi è molto basso, ad esempio 1-2 esempi in totale, la precisione è meno significativa e meno utile come metrica.

La precisione migliora man mano che i falsi positivi diminuiscono, mentre il richiamo migliora quando i falsi negativi diminuiscono. Tuttavia, come visto nella sezione precedente, l'aumento della soglia di classificazione tende a diminuire il numero di falsi positivi e aumentare il numero di falsi negativi, mentre la diminuzione della soglia ha gli effetti opposti. Di conseguenza, precisione e richiamo mostrano spesso una relazione inversa, in cui il miglioramento di uno peggiora l'altro.

Prova anche tu:

Scelta della metrica e compromessi

Le metriche che scegli di dare la priorità quando valuti il modello e scegli una soglia dipendono dai costi, dai vantaggi e dai rischi del problema specifico. Nell'esempio di classificazione dello spam, spesso è sensato dare la priorità al richiamo, intercettando tutte le email di spam, o alla precisione, cercando di garantire che le email etichettate come spam siano effettivamente spam, o a un equilibrio tra i due, al di sopra di un livello di accuratezza minimo.

Metrica Consulenza
Precisione

Utilizzalo come indicatore approssimativo dell'avanzamento/convergenza dell'addestramento del modello per i set di dati bilanciati.

Per il rendimento del modello, utilizza questa metrica solo in combinazione con altre.

Evita per i set di dati sbilanciati. Valuta la possibilità di utilizzare un'altra metrica.

Richiamo
(tasso di veri positivi)
Utilizza quando i falsi negativi sono più costosi dei falsi positivi.
Percentuale di falsi positivi Utilizza quando i falsi positivi sono più costosi dei falsi negativi.
Precisione Utilizza questa opzione quando è molto importante che le previsioni positive siano accurate.

Esercizio: verifica la tua comprensione

Un modello restituisce 5 TP, 6 TN, 3 FP e 2 FN. Calcola il richiamo.
0,714
Il richiamo viene calcolato come \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0,455
Il richiamo considera tutti i positivi effettivi, non tutte le classificazioni corrette. La formula per il richiamo è \(\frac{TP}{TP+FN}\).
0,625
Il richiamo considera tutti i positivi effettivi, non tutte le classificazioni positive. La formula per il richiamo è \(\frac{TP}{TP+FN}\)
Un modello restituisce 3 TP, 4 TN, 2 FP e 1 FN. Calcola la precisione.
0,6
La precisione viene calcolata come \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0,75
La precisione prende in considerazione tutte le classificazioni positive, non tutti i positivi effettivi. La formula per la precisione è \(\frac{TP}{TP+FP}\).
0,429
La precisione considera tutte le classificazioni positive, non tutte quelle corrette. La formula per la precisione è \(\frac{TP}{TP+FP}\)
Stai creando un classificatore binario che controlla le foto di trappole per insetti per verificare la presenza di una specie invasiva pericolosa. Se il modello rileva la specie, viene inviata una notifica all'entomologo (scienziato degli insetti) di turno. Il rilevamento precoce di questo insetto è fondamentale per prevenire un'infestazione. Un falso allarme (falso positivo) è facile da gestire: l'entomologo vede che la foto è stata classificata erroneamente e la contrassegna come tale. Supponendo un livello di precisione accettabile, per quale metrica dovrebbe essere ottimizzato questo modello?
Richiamo
In questo scenario, i falsi positivi (FP) sono a basso costo e i falsi negativi sono molto costosi, quindi è opportuno massimizzare il richiamo, ovvero la probabilità di rilevamento.
Percentuale di falsi positivi (FPR)
In questo scenario, i falsi positivi (FP) sono a basso costo. Tentare di ridurli al minimo a rischio di perdere i positivi effettivi non ha senso.
Precisione
In questo scenario, i falsi positivi (FP) non sono particolarmente dannosi, quindi non ha senso cercare di migliorare la correttezza delle classificazioni positive.