Classificazione: verifica delle informazioni (ROC e AUC)
Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
ROC e AUC
Esplora le opzioni seguenti.
Quali delle seguenti curve ROC producono valori AUC maggiori di 0,5?
Questa è la migliore curva ROC possibile, perché classifica tutti i positivi rispetto a tutti quelli negativi. Ha un'AUC di 1,0.
In pratica, se hai un classificatore "perfetto" con un AUC di 1,0,
dovresti essere sospetto, in quanto probabilmente indica un bug nel tuo modello. Ad esempio, potresti avere un eccesso di dati di addestramento o i dati delle etichette potrebbero essere replicati in una delle tue funzionalità.
Questa è la peggiore curva ROC possibile; classifica tutti i negativi prima di tutti i positivi e ha un AUC di 0, 0. Se dovessi invertire tutte le previsioni (passa da negativi a positivi e posticivi a negativi), in realtà hai una categoria di classificazione perfetta!
Questa curva ROC ha un'AUC di 0,5, il che significa che ottiene un esempio casuale positivo superiore a un esempio negativo casuale il 50% delle volte. Di conseguenza, il corrispondente modello di classificazione non ha valore, perché la sua capacità predittiva non è migliore di quella casuale.
Questa curva ROC ha un'AUC compresa tra 0,5 e 1,0, il che significa che un ranking di un esempio positivo casuale è superiore a un esempio negativo casuale più del 50% delle volte. I valori AUC di classificazione binari nel mondo reale rientrano in questo intervallo.
Questa curva ROC ha un'AUC compresa tra 0 e 0,5, il che significa che un ranking di un esempio positivo casuale è superiore a un esempio negativo casuale inferiore al 50% delle volte.
Il modello corrispondente ha di fatto risultati peggiori di quelli casuali. Se
vedi una curva ROC come questa, è probabile che ci sia un bug nei tuoi dati.
AUC e previsioni di scalabilità
Esplora le opzioni seguenti.
Come moltiplichiamo tutte le previsioni di un determinato modello per 2,0 (ad esempio, se il modello prevede 0,4, moltiplichiamo il valore per 2,0 per ottenere una previsione di 0,8) che modificherà le prestazioni del modello misurate per AUC?
Nessuna modifica. AUC interessa solo i punteggi di previsione relativi.
Sì, l'AUC si basa sulle previsioni relative, per cui qualsiasi trasformazione delle previsioni che conserva il relativo ranking non ha effetto sull'AUC.
Ovviamente, non è così per altre metriche come errore quadrato, perdita di log o bias di previsione (descritto in seguito).
e renderebbe AUC terribile, poiché i valori di previsione sono molto lontani.
È interessante notare che, anche se i valori delle previsioni sono diversi (e probabilmente più lontani dalla verità), moltiplicandoli tutti per 2,0 manterremo lo stesso ordinamento dei valori della previsione. Poiché AUC interessa solo i ranking relativi, non è interessata da alcuna semplice scalabilità delle previsioni.
L'AUC migliorerebbe perché i valori della previsione sono più distanti tra loro.
La quantità di diffusione tra le previsioni non influisce effettivamente sull'AUC. Anche un punteggio di previsione per un vero positivo disegnato casualmente è solo un piccolo epsilon maggiore di un negativo disegnato in modo casuale, che verrà considerato come un successo che ha contribuito al punteggio complessivo AUC.