Esta página foi traduzida pela API Cloud Translation.

Classificação

Este módulo mostra como a regressão logística pode ser usada em tarefas de classificação e explora como avaliar a eficácia dos modelos de classificação.

Classificação

Classificação x regressão

Às vezes, usamos a regressão logística para as saídas de probabilidade. Esta é uma regressão em (0, 1)
Outras vezes, limitaremos o valor de uma classificação binária discreta
A escolha de limite é importante e pode ser ajustada

Métricas de avaliação: precisão

Como avaliamos os modelos de classificação?

Métricas de avaliação: precisão

Como avaliamos os modelos de classificação?
Uma medida possível: precisão
- a fração de previsões que acertamos

A acurácia pode ser enganosa

Em muitos casos, a precisão é uma métrica ruim ou enganosa
- Frequentemente, quando diferentes tipos de erros têm custos diferentes
- O caso típico inclui desequilíbrio das classes, quando os positivos ou negativos são extremamente raros

Verdadeiros positivos e falsos positivos

Para problemas de desequilíbrio de classes, é útil separar tipos diferentes de erros

Verdadeiros positivos Chamamos corretamente de lobo! Salvamos a cidade.	Falsos positivos Erro: chamamos o lobo de maneira falsa. Todo mundo está bravo conosco.
Falsos negativos Havia um lobo, mas não o identificamos. Comeu todas as nossas galinhas.	Verdadeiros negativos Sem lobo, sem alarme. Todos estão bem.

Métricas de avaliação: precisão e recall

Precisão: (verdadeiros positivos) / (todas as previsões positivas)

Quando o modelo disse "classe positiva", ele estava correto?
Intuição: o modelo chorou com muita frequência?

Métricas de avaliação: precisão e recall

Precisão: (verdadeiros positivos) / (todas as previsões positivas)

Quando o modelo disse "classe positiva", ele estava correto?
Intuição: o modelo chorou com muita frequência?

Recall: (verdadeiros positivos) / (todos os verdadeiros positivos)

De todos os possíveis positivos, quantos o modelo identificou corretamente?
Intuição: houve lobos?

Quando terminar, pressione Tocar &#x25b6 para continuar

Confira as opções abaixo.

Considere um modelo de classificação que separe os e-mails em duas categorias: "spam" ou "não é spam". Se você aumentar o limite de classificação, o que acontecerá com a precisão?

Com certeza aumentam.

O aumento do limite de classificação normalmente aumenta a precisão. No entanto, não há garantia de que a precisão aumentará monotonicamente conforme o aumento do limite.

Provavelmente aumentar.

Em geral, aumentar o limite de classificação reduz os falsos positivos, aumentando a precisão.

Provavelmente diminuir.

Em geral, aumentar o limite de classificação reduz os falsos positivos, aumentando a precisão.

Diminuir.

Em geral, aumentar o limite de classificação reduz os falsos positivos, aumentando a precisão.

Uma curva ROC

Cada ponto é a taxa de VP e FP em um limite de decisão.

Curva ROC mostrando taxa de TP x taxa de FP em diferentes limites de classificação.

Métricas de avaliação: AUC

AUC: "Área sob a curva ROC"

Métricas de avaliação: AUC

AUC: "Área sob a curva ROC"
Interpretação:

Se escolhemos um positivo e um negativo aleatórios, que probabilidade meu modelo tem de classificá-los na ordem correta?

Métricas de avaliação: AUC

AUC: "Área sob a curva ROC"
Interpretação:

Se escolhemos um positivo e um negativo aleatórios, que probabilidade meu modelo tem de classificá-los na ordem correta?

Intuição: oferece uma medida agregada de desempenho agregado em todos os limiares de classificação possíveis

Viés da previsão

As previsões de regressão logística precisam ser imparciais.

média de previsões == média de observações

Viés da previsão

As previsões de regressão logística precisam ser imparciais.

média de previsões == média de observações

O viés é um canário.

O viés zero não significa que tudo no sistema seja perfeito.
Mas é uma boa verificação de integridade.

Viés da previsão (continuação)

Se você tem um viés, isso significa que há um problema.

Conjunto de recursos incompleto?
Pipeline com problemas?
Amostra de treinamento tendenciosa?

Não corrija o viés com uma camada de calibração e faça isso no modelo.
Procure um viés nas fatias de dados para orientar as melhorias.

Os gráficos de calibração mostram tendências em buckets

Central de Ajuda

Perda e regularização

Limite