Расчет смещения прогноза — это быстрая проверка, которая может выявить проблемы с моделью или обучающими данными на ранней стадии.
Смещение предсказания — это разница между средним значением предсказаний модели и средним значением меток , полученных с помощью реальных данных. Модель, обученная на наборе данных, содержащем 5% спама, должна в среднем предсказывать, что 5% классифицируемых ею писем являются спамом. Другими словами, среднее значение меток в наборе данных, полученных с помощью реальных данных, равно 0,05, и среднее значение предсказаний модели также должно быть равно 0,05. В этом случае смещение предсказания модели равно нулю. Конечно, у модели могут быть и другие проблемы.
Если же модель предсказывает, что письмо является спамом в 50% случаев, то проблема в обучающем наборе данных, новом наборе данных, к которому применяется модель, или в самой модели. Любая значимая разница между двумя средними значениями свидетельствует о наличии у модели некоторой систематической ошибки прогнозирования.
Ошибка прогнозирования может быть вызвана следующими причинами:
- Смещения или шум в данных, включая смещенную выборку для обучающего набора
- Слишком сильная регуляризация, в результате чего модель была чрезмерно упрощена и потеряла необходимую сложность.
- Ошибки в конвейере обучения модели
- Набор предоставленных модели признаков недостаточен для решения поставленной задачи