Klasifikasi: Bias prediksi

Menghitung bias prediksi adalah pemeriksaan cepat yang dapat menandai masalah pada model atau data pelatihan sejak awal.

Bias prediksi adalah perbedaan antara rata-rata prediksi model dan rata-rata label kebenaran nyata dalam data. Model yang dilatih pada set data dengan 5% email adalah spam harus memprediksi, rata-rata, bahwa 5% email yang diklasifikasikannya adalah spam. Dengan kata lain, rata-rata label dalam set data kebenaran dasar adalah 0,05, dan rata-rata prediksi model juga harus 0,05. Jika demikian, model memiliki bias prediksi nol. Tentu saja, model mungkin masih memiliki masalah lain.

Jika model memprediksi 50% dari waktu bahwa email adalah spam, maka ada yang salah dengan set data pelatihan, set data baru yang diterapkan model, atau dengan model itu sendiri. Perbedaan signifikan antara kedua nilai tersebut menunjukkan bahwa model memiliki beberapa bias prediksi.

Bias prediksi dapat disebabkan oleh:

  • Bias atau derau dalam data, termasuk pengambilan sampel yang bias untuk set pelatihan
  • Regularisasi yang terlalu kuat, yang berarti model terlalu disederhanakan dan kehilangan beberapa kompleksitas yang diperlukan
  • Bug di pipeline pelatihan model
  • Kumpulan fitur yang diberikan ke model tidak cukup untuk tugas tersebut