Os verdadeiros e falsos positivos e negativos são usados para calcular várias métricas úteis para avaliar modelos. As métricas de avaliação mais significativas dependem do modelo e da tarefa específicos, do custo de diferentes classificações incorretas e se o conjunto de dados é balanceado ou não.
Todas as métricas nesta seção são calculadas em um único limite fixo e mudam quando o limite muda. Muitas vezes, o usuário ajusta o limite para otimizar uma dessas métricas.
Precisão
A acurácia é a proporção de todas as classificações que estavam corretas, sejam elas positivas ou negativas. Ela é definida matematicamente como:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
No exemplo de classificação de spam, a acurácia mede a fração de todos os e-mails classificados corretamente.
Um modelo perfeito teria zero falso positivo e negativo e, portanto, uma acurácia de 1,0 ou 100%.
Como incorpora todos os quatro resultados da matriz de confusão (VP, FP, VN, FN), dado um conjunto de dados equilibrado, com números semelhantes de exemplos em ambas as classes, a acurácia pode servir como uma medida aproximada da qualidade do modelo. Por isso, ela costuma ser a métrica de avaliação padrão usada para modelos genéricos ou não especificados que realizam tarefas genéricas ou não especificadas.
No entanto, quando o conjunto de dados está desequilibrado ou quando um tipo de erro (FN ou FP) é mais caro que o outro, o que acontece na maioria das aplicações do mundo real, é melhor otimizar uma das outras métricas.
Em conjuntos de dados muito desequilibrados, em que uma classe aparece muito raramente, digamos, 1% das vezes, um modelo que prevê negativo 100% das vezes teria uma pontuação de 99% em precisão, apesar de ser inútil.
Recall ou taxa de verdadeiro positivo
A taxa de verdadeiro positivo (TVP), ou a proporção de todos os positivos reais que foram classificados corretamente como positivos, também é conhecida como recall.
O recall é definido matematicamente como:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Os falsos negativos são positivos reais que foram classificados incorretamente como negativos. Por isso, eles aparecem no denominador. No exemplo de classificação de spam, o recall mede a fração de e-mails de spam que foram classificados corretamente como spam. Por isso, outro nome para recall é probabilidade de detecção: ele responde à pergunta "Qual fração de e-mails de spam é detectada por este modelo?"
Um modelo perfeito hipotético teria zero falsos negativos e, portanto, um recall (TPR) de 1,0, ou seja, uma taxa de detecção de 100%.
Em um conjunto de dados desbalanceado em que o número de positivos reais é muito baixo, o recall é uma métrica mais significativa do que a acurácia, porque mede a capacidade do modelo de identificar corretamente todas as instâncias positivas. Para aplicativos como previsão de doenças, é fundamental identificar corretamente os casos positivos. Um falso negativo geralmente tem consequências mais graves do que um falso positivo. Para um exemplo concreto que compara as métricas de recall e precisão, consulte as notas na definição de recall.
Taxa de falso positivo
A taxa de falsos positivos (FPR) é a proporção de todos os negativos reais que foram classificados incorretamente como positivos, também conhecida como probabilidade de falso alarme. Ela é definida matematicamente como:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Falsos positivos são negativos reais que foram classificados incorretamente, e é por isso que eles aparecem no denominador. No exemplo de classificação de spam, a FPR mede a fração de e-mails legítimos que foram classificados incorretamente como spam ou a taxa de falsos alarmes do modelo.
Um modelo perfeito teria zero falso positivo e, portanto, uma FPR de 0,0, ou seja, uma taxa de falso alarme de 0%.
Para um conjunto de dados desequilibrado, a FPR geralmente é uma métrica mais informativa do que a acurácia. No entanto, se o número de negativos reais for muito baixo, a FPR poderá não ser uma escolha ideal devido à volatilidade. Por exemplo, se houver apenas quatro negativos reais em um conjunto de dados, uma classificação incorreta resultará em uma FPR de 25%, enquanto uma segunda classificação incorreta fará com que a FPR aumente para 50%. Nesses casos, a precisão (descrita a seguir) pode ser uma métrica mais estável para avaliar os efeitos dos falsos positivos.
Precisão
A precisão é a proporção de todas as classificações positivas do modelo que são realmente positivas. Ela é definida matematicamente como:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
No exemplo de classificação de spam, a precisão mede a fração de e-mails classificados como spam que realmente eram spam.
Um modelo perfeito hipotético teria zero falso positivo e, portanto, uma precisão de 1,0.
Em um conjunto de dados desequilibrado em que o número de positivos reais é muito, muito baixo, digamos, 1 a 2 exemplos no total, a precisão é menos significativa e menos útil como uma métrica.
A precisão melhora à medida que os falsos positivos diminuem, enquanto o recall melhora quando os falsos negativos diminuem. No entanto, como visto na seção anterior, aumentar o limiar de classificação tende a diminuir o número de falsos positivos e aumentar o número de falsos negativos, enquanto diminuir o limiar tem os efeitos opostos. Como resultado, a precisão e o recall geralmente mostram uma relação inversa, em que a melhoria de um piora o outro.
Faça um teste:
Escolha de métricas e compensações
As métricas que você escolhe priorizar ao avaliar o modelo e escolher um limite dependem dos custos, benefícios e riscos do problema específico. No exemplo de classificação de spam, muitas vezes faz sentido priorizar o recall, capturando todos os e-mails de spam, ou a precisão, tentando garantir que os e-mails rotulados como spam sejam de fato spam, ou algum equilíbrio dos dois, acima de um nível mínimo de acurácia.
| Métrica | Orientação |
|---|---|
| Precisão | Use como um indicador aproximado do progresso/convergência do treinamento do modelo para conjuntos de dados equilibrados. Para a performance do modelo, use apenas em combinação com outras métricas. Evite para conjuntos de dados desequilibrados. Considere usar outra métrica. |
| Recall (taxa de verdadeiro positivo) |
Use quando os falsos negativos forem mais caros do que os falsos positivos. |
| Taxa de falso positivo | Use quando os falsos positivos forem mais caros do que os falsos negativos. |
| Precisão | Use quando for muito importante que as previsões positivas sejam precisas. |