Classificação

Este módulo mostra como a regressão logística pode ser usada em tarefas de classificação e explora como avaliar a eficácia dos modelos de classificação.

Classificação

  • Às vezes, usamos a regressão logística para as saídas de probabilidade. Esta é uma regressão em (0, 1)
  • Outras vezes, limitaremos o valor de uma classificação binária discreta
  • A escolha de limite é importante e pode ser ajustada
  • Como avaliamos os modelos de classificação?
  • Como avaliamos os modelos de classificação?
  • Uma medida possível: precisão
    • a fração de previsões que acertamos
  • Em muitos casos, a precisão é uma métrica ruim ou enganosa
    • Frequentemente, quando diferentes tipos de erros têm custos diferentes
    • O caso típico inclui desequilíbrio das classes, quando os positivos ou negativos são extremamente raros
  • Para problemas de desequilíbrio de classes, é útil separar tipos diferentes de erros
Verdadeiros positivos
Chamamos corretamente de lobo!
Salvamos a cidade.

Falsos positivos
Erro: chamamos o lobo de maneira falsa.
Todo mundo está bravo conosco.

Falsos negativos
Havia um lobo, mas não o identificamos. Comeu todas as nossas galinhas.
Verdadeiros negativos
Sem lobo, sem alarme.
Todos estão bem.

  • Precisão: (verdadeiros positivos) / (todas as previsões positivas)
    • Quando o modelo disse "classe positiva", ele estava correto?
    • Intuição: o modelo chorou com muita frequência?
  • Precisão: (verdadeiros positivos) / (todas as previsões positivas)
    • Quando o modelo disse "classe positiva", ele estava correto?
    • Intuição: o modelo chorou com muita frequência?
  • Recall: (verdadeiros positivos) / (todos os verdadeiros positivos)
    • De todos os possíveis positivos, quantos o modelo identificou corretamente?
    • Intuição: houve lobos?

Confira as opções abaixo.

Considere um modelo de classificação que separe os e-mails em duas categorias: "spam" ou "não é spam". Se você aumentar o limite de classificação, o que acontecerá com a precisão?
Com certeza aumentam.
O aumento do limite de classificação normalmente aumenta a precisão. No entanto, não há garantia de que a precisão aumentará monotonicamente conforme o aumento do limite.
Provavelmente aumentar.
Em geral, aumentar o limite de classificação reduz os falsos positivos, aumentando a precisão.
Provavelmente diminuir.
Em geral, aumentar o limite de classificação reduz os falsos positivos, aumentando a precisão.
Diminuir.
Em geral, aumentar o limite de classificação reduz os falsos positivos, aumentando a precisão.

Cada ponto é a taxa de VP e FP em um limite de decisão.

Curva ROC mostrando taxa de TP x taxa de FP em diferentes limites de classificação.
  • AUC: "Área sob a curva ROC"
  • AUC: "Área sob a curva ROC"
  • Interpretação:
    • Se escolhemos um positivo e um negativo aleatórios, que probabilidade meu modelo tem de classificá-los na ordem correta?
  • AUC: "Área sob a curva ROC"
  • Interpretação:
    • Se escolhemos um positivo e um negativo aleatórios, que probabilidade meu modelo tem de classificá-los na ordem correta?
  • Intuição: oferece uma medida agregada de desempenho agregado em todos os limiares de classificação possíveis
  • As previsões de regressão logística precisam ser imparciais.
    • média de previsões == média de observações
  • As previsões de regressão logística precisam ser imparciais.
    • média de previsões == média de observações
  • O viés é um canário.
    • O viés zero não significa que tudo no sistema seja perfeito.
    • Mas é uma boa verificação de integridade.
  • Se você tem um viés, isso significa que há um problema.
    • Conjunto de recursos incompleto?
    • Pipeline com problemas?
    • Amostra de treinamento tendenciosa?
  • Não corrija o viés com uma camada de calibração e faça isso no modelo.
  • Procure um viés nas fatias de dados para orientar as melhorias.
Um gráfico de calibração