Classificação: verificar seu conhecimento (ROC e AUC)

ROC e AUC

Confira as opções abaixo.

Quais das curvas ROC a seguir geram valores de AUC maiores do que 0,5?
Uma curva ROC com uma linha vertical que vai de (0,0) a (0,1) e horizontal de (0,1) a (1,1). A taxa de VP é 1,0 para todas as taxas de FP.

Esta é a melhor curva ROC possível, já que classifica todos os positivos acima de todos os negativos. Ela tem uma AUC de 1,0.

Na prática, se você tiver um classificador "perfect" com uma AUC de 1.0, será suspeito, já que isso provavelmente indica um bug no seu modelo. Por exemplo, você pode ter overfitting nos dados de treinamento ou os dados do rótulo podem ser replicados em um dos recursos.

Uma curva ROC com uma linha horizontal em execução de (0,0) a (1,0) e uma linha vertical de (1,0) a (1,1). A taxa de FP é de 1,0 para todas as taxas de TP
Esta é a pior curva ROC possível.Ela classifica todos os negativos acima de todos os positivos e tem uma AUC de 0, 0. Se você inverter todas as previsões (voltar os negativos para positivos e os positivos para negativos), você terá um classificador perfeito!
Uma curva ROC com uma linha diagonal que vai de (0,0) a (1,1). As taxas de VP e FP
           aumentam linearmente com a mesma taxa.
Essa curva ROC tem uma AUC de 0,5, o que significa que ela classifica um exemplo positivo aleatório mais alto do que um exemplo negativo aleatório 50% das vezes. Assim, o modelo de classificação correspondente é basicamente inútil, porque sua capacidade preditiva não é melhor do que a suposição aleatória.
Uma curva ROC que se eleva para cima e para a direita de (0,0) a (1,1). A taxa de VP aumenta a uma taxa mais rápida
           do que a FP.
Essa curva ROC tem uma AUC entre 0,5 e 1,0, o que significa que ela classifica um exemplo positivo aleatório mais alto do que um exemplo negativo aleatório em mais de 50% das vezes. Os valores de AUC de classificação binária real geralmente se enquadram nesse intervalo.
Uma curva ROC que arquea para a direita e para cima de (0,0) a (1,1). A taxa de FP aumenta a
           uma taxa mais rápida que a TP.
Essa curva ROC tem uma AUC entre 0 e 0,5, o que significa que ela classifica um exemplo positivo positivo mais alto do que um exemplo negativo aleatório menos de 50% das vezes. Na verdade, o modelo correspondente é pior do que a suposição aleatória. Uma curva ROC como essa geralmente indica que há um bug nos seus dados.

AUC e previsões de escalonamento

Confira as opções abaixo.

Como multiplicar todas as previsões de um determinado modelo por 2,0 (por exemplo, se o modelo prevê 0,4, multiplicamos por 2,0 para ter uma previsão de 0,8) e alteramos o desempenho do modelo, medido pela AUC?
Não houve alterações. A AUC só se importa com pontuações de previsão relativas.
Sim, a AUC é baseada nas previsões relativas. Portanto, a transformação das previsões que preserva a classificação relativa não tem efeito na AUC. Isso claramente não é o caso de outras métricas, como erro quadrático, perda de registros ou viés de previsão (discutidos posteriormente).
Isso faria com que a AUC fosse terrível, já que os valores de previsão estão muito distantes.
O interessante é que, mesmo que os valores de previsão sejam diferentes (e provavelmente mais distantes da verdade), multiplicar todos eles por 2,0 manteria a ordem relativa dos valores de previsão iguais. Como a AUC se preocupa apenas com classificações relativas, ela não é afetada por nenhuma escala simples de previsões.
A AUC ficaria melhor, porque os valores de previsão estão mais distantes entre si.
A quantidade de propagação entre as previsões não afeta a AUC. Mesmo uma pontuação de previsão para um verdadeiro positivo exibido aleatoriamente é apenas um pequeno épsilon maior do que um negativo exibido aleatoriamente, o que contará como um sucesso que contribui para a pontuação AUC geral.