Classificação: limite

A regressão logística retorna uma probabilidade. Você pode usar a probabilidade retornada "como está quot; (por exemplo, a probabilidade de o usuário clicar neste anúncio é 0,00023) ou converter a probabilidade retornada em um valor binário (por exemplo, este e-mail é spam).

Um modelo de regressão logística que retorna 0,9995 para uma mensagem de e-mail específica prevê que é muito provável que seja spam. Por outro lado, outra mensagem de e-mail com uma pontuação de previsão de 0,0003 nesse mesmo modelo de regressão logística provavelmente não é spam. No entanto, o que acontece com uma mensagem de e-mail com uma pontuação de previsão de 0,6? Para mapear um valor de regressão logística para uma categoria binária, é preciso definir um limite de classificação, também chamado de limite de decisão. Um valor acima desse limite indica "spam" um valor abaixo indica "não é spam." É tentador presumir que o limite de classificação sempre deve ser 0,5, mas os limites dependem do problema e, portanto, são valores que precisam ser ajustados.

As seções a seguir examinam melhor as métricas que podem ser usadas para avaliar as previsões de um modelo de classificação, bem como o impacto de alterar o limite de classificação nessas previsões.