Tahmin yanlılığını hesaplamak, model veya eğitim verileriyle ilgili sorunları erken aşamada işaretleyebilecek hızlı bir kontrol yöntemidir.
Tahmin yanlılığı, bir modelin tahminlerinin ortalaması ile verilerdeki kesin referans etiketlerinin ortalaması arasındaki farktır. E-postaların% 5'inin spam olduğu bir veri kümesi üzerinde eğitilen bir model, sınıflandırdığı e-postaların ortalama% 5'inin spam olduğunu tahmin etmelidir. Diğer bir deyişle, kesin referans veri kümesindeki etiketlerin ortalaması 0,05'tir ve modelin tahminlerinin ortalaması da 0,05 olmalıdır. Bu durumda modelin tahmin önyargısı sıfırdır. Elbette modelde başka sorunlar da olabilir.
Model, e-postanın spam olduğunu% 50 oranında tahmin ediyorsa eğitim veri kümesinde, modelin uygulandığı yeni veri kümesinde veya modelin kendisinde bir sorun vardır. İkisi arasındaki herhangi bir önemli fark, modelde bir tahmin yanlılığı olduğunu gösterir.
Tahmin önyargısının nedenleri:
- Eğitim kümesi için önyargılı örnekleme de dahil olmak üzere verilerdeki önyargılar veya gürültü
- Çok güçlü düzenlileştirme: Modelin aşırı basitleştirilmesi ve gerekli karmaşıklığın bir kısmını kaybetmesi
- Model eğitimi ardışık düzenindeki hatalar
- Modele sağlanan özellikler kümesinin görev için yetersiz olması