Classificação: acurácia

A acurácia é uma métrica para avaliar modelos de classificação. Internamente, a precisão é a fração das previsões que o modelo acertou. Formalmente, a precisão tem a seguinte definição:

$$\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$$

Para classificação binária, a acurácia também pode ser calculada em termos de positivos e negativos, da seguinte maneira:

$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN}$$

Em que TP = Verdadeiros positivos, TN = Verdadeiros negativos, FP = Falsos positivos e FN = Falsos negativos.

Vamos tentar calcular a acurácia do modelo a seguir que classificou 100 tumores como malignante (a classe positiva) ou benign (a classe negativa):

Verdadeiro positivo (VP):
  • Realidade: maligna
  • Modelo de ML previsto: maligno
  • Número de resultados de VP: 1
Falso positivo (FP):
  • Realidade: benigno
  • Modelo de ML previsto: maligno
  • Número de resultados de FP: 1
Falso negativo (FN):
  • Realidade: maligna
  • Modelo de ML previsto: Benign
  • Número de resultados de FN: 8
Verdadeiro negativo (VN):
  • Realidade: benigno
  • Modelo de ML previsto: Benign
  • Número de resultados de TN: 90
$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN} = \frac{1+90}{1+90+1+8} = 0.91$$

A acurácia é de 0,91, ou 91% (91 previsões corretas de 100 exemplos totais). Isso significa que o classificador de tumor está fazendo um ótimo trabalho para identificar malignidades, certo?

Na verdade, vamos fazer uma análise mais precisa dos positivos e negativos para obter mais insights sobre o desempenho do nosso modelo.

Dos 100 exemplos de tumor, 91 são benignos (90 TNs e 1 FP) e 9 são malignos (1 TP e 8 FNs).

Dos 91 tumores benignos, o modelo identifica corretamente 90 como beninos. Isso é positivo. No entanto, dos 9 tumores malignos, o modelo identifica apenas 1 como maligno, um resultado terrível, já que 8 de 9 malignidades não são diagnosticadas.

Embora a precisão de 91% possa parecer boa à primeira vista, outro modelo de classificador de tumor que sempre prevê o benigno alcançaria exatamente a mesma precisão (91/100 previsões corretas) nos nossos exemplos. Em outras palavras, nosso modelo não é melhor do que um que não tem capacidade preditiva de distinguir os tumors malignos dos tumores benignos.

A precisão por si só não conta a história completa quando você está trabalhando com um conjunto de dados desequilibrado, como este, em que há uma diferença significativa entre o número de rótulos positivos e negativos.

Na próxima seção, veremos duas métricas melhores para avaliar problemas de desequilíbrio de classes: precisão e recall.