Classificação: viés de previsão

O cálculo do vício de previsão é uma verificação rápida que pode sinalizar problemas com o modelo ou os dados de treinamento no início do processo.

O viés de previsão é a diferença entre a média das previsões de um modelo e a média dos rótulos de informações empíricas nos dados. Um modelo treinado em um conjunto de dados em que 5% dos e-mails são spam deve prever, em média, que 5% dos e-mails classificados são spam. Em outras palavras, a média dos rótulos no conjunto de dados de informações empíricas é 0,05, e a média das previsões do modelo também deve ser 0,05. Nesse caso, o modelo tem viés de previsão zero. É claro que o modelo ainda pode ter outros problemas.

Se o modelo prever 50% das vezes que um e-mail é spam, algo está errado com o conjunto de dados de treinamento, o novo conjunto de dados em que o modelo é aplicado ou com o próprio modelo. Qualquer diferença significativa entre as duas médias sugere que o modelo tem algum viés de previsão.

O viés de previsão pode ser causado por:

  • Vieses ou ruídos nos dados, incluindo amostragem enviesada para o conjunto de treinamento
  • Regularização muito forte, o que significa que o modelo foi simplificado demais e perdeu parte da complexidade necessária
  • Bugs no pipeline de treinamento do modelo
  • O conjunto de recursos fornecidos ao modelo é insuficiente para a tarefa.