Classificazione: verifica delle informazioni (ROC e AUC)

ROC e AUC

Esplora le opzioni seguenti.

Quali delle seguenti curve ROC producono valori AUC maggiori di 0,5?
Una curva ROC con una linea verticale che va da (0,0) a (0,1) e un orizzontale da (0,1) a (1,1). La tariffa TP è 1,0 per tutte le tariffe FP.

Questa è la migliore curva ROC possibile, perché classifica tutti i positivi rispetto a tutti quelli negativi. Ha un'AUC di 1,0.

In pratica, se hai un classificatore "perfetto" con un AUC di 1,0, dovresti essere sospetto, in quanto probabilmente indica un bug nel tuo modello. Ad esempio, potresti avere un eccesso di dati di addestramento o i dati delle etichette potrebbero essere replicati in una delle tue funzionalità.

Una curva ROC con una linea orizzontale che va da (0,0) a (1,0) e una linea verticale da (1,0) a (1,1). La tariffa FP è 1,0 per tutte le tariffe TP
Questa è la peggiore curva ROC possibile; classifica tutti i negativi prima di tutti i positivi e ha un AUC di 0, 0. Se dovessi invertire tutte le previsioni (passa da negativi a positivi e posticivi a negativi), in realtà hai una categoria di classificazione perfetta!
Una curva ROC con una linea diagonale che va da (0,0) a (1,1). Le tariffe TP e FP
           aumentano in modo lineare alla stessa velocità.
Questa curva ROC ha un'AUC di 0,5, il che significa che ottiene un esempio casuale positivo superiore a un esempio negativo casuale il 50% delle volte. Di conseguenza, il corrispondente modello di classificazione non ha valore, perché la sua capacità predittiva non è migliore di quella casuale.
Una curva ROC che si ingrandisce e si sposta da destra a (1,1) da (0,0). La tariffa TP aumenta
           a una velocità maggiore rispetto alla tariffa FP.
Questa curva ROC ha un'AUC compresa tra 0,5 e 1,0, il che significa che un ranking di un esempio positivo casuale è superiore a un esempio negativo casuale più del 50% delle volte. I valori AUC di classificazione binari nel mondo reale rientrano in questo intervallo.
Una curva ROC che si ingrandisce a destra e passa da (0,0) a (1,1). La tariffa FP aumenta a
           una velocità maggiore rispetto alla tariffa TP.
Questa curva ROC ha un'AUC compresa tra 0 e 0,5, il che significa che un ranking di un esempio positivo casuale è superiore a un esempio negativo casuale inferiore al 50% delle volte. Il modello corrispondente ha di fatto risultati peggiori di quelli casuali. Se vedi una curva ROC come questa, è probabile che ci sia un bug nei tuoi dati.

AUC e previsioni di scalabilità

Esplora le opzioni seguenti.

Come moltiplichiamo tutte le previsioni di un determinato modello per 2,0 (ad esempio, se il modello prevede 0,4, moltiplichiamo il valore per 2,0 per ottenere una previsione di 0,8) che modificherà le prestazioni del modello misurate per AUC?
Nessuna modifica. AUC interessa solo i punteggi di previsione relativi.
Sì, l'AUC si basa sulle previsioni relative, per cui qualsiasi trasformazione delle previsioni che conserva il relativo ranking non ha effetto sull'AUC. Ovviamente, non è così per altre metriche come errore quadrato, perdita di log o bias di previsione (descritto in seguito).
e renderebbe AUC terribile, poiché i valori di previsione sono molto lontani.
È interessante notare che, anche se i valori delle previsioni sono diversi (e probabilmente più lontani dalla verità), moltiplicandoli tutti per 2,0 manterremo lo stesso ordinamento dei valori della previsione. Poiché AUC interessa solo i ranking relativi, non è interessata da alcuna semplice scalabilità delle previsioni.
L'AUC migliorerebbe perché i valori della previsione sono più distanti tra loro.
La quantità di diffusione tra le previsioni non influisce effettivamente sull'AUC. Anche un punteggio di previsione per un vero positivo disegnato casualmente è solo un piccolo epsilon maggiore di un negativo disegnato in modo casuale, che verrà considerato come un successo che ha contribuito al punteggio complessivo AUC.