Generalisasi mengacu pada kemampuan model untuk beradaptasi dengan baik terhadap data baru yang sebelumnya tidak terlihat, yang diambil dari distribusi yang sama seperti data yang digunakan untuk membuat model.
Generalisasi
Gambaran Besarnya
- Sasaran: memprediksi data baru yang diambil dari distribusi benar (tersembunyi) dengan baik.
- Masalah: kita tidak melihat kebenarannya.
- Kami hanya mengambil sampelnya.
Gambaran Besarnya
- Sasaran: memprediksi data baru yang diambil dari distribusi benar (tersembunyi) dengan baik.
- Masalah: kita tidak melihat kebenarannya.
- Kami hanya mengambil sampelnya.
- Jika model h sangat sesuai dengan sampel saat ini, bagaimana kita dapat yakin bahwa model h akan memprediksi sampel baru yang lain dengan baik?
Bagaimana Cara Mengetahui Apakah Model Kita Sudah Baik?
- Secara teoretis:
- Kolom yang menarik: teori umum
- Berdasarkan ide tentang mengukur kesederhanaan / kompleksitas model
- Intuisi: formalisasi prinsip Razor Ockham
- Semakin sederhana modelnya, semakin besar kemungkinan bahwa hasil empiris yang baik bukan hanya disebabkan oleh keunikan sampel kami.
Bagaimana Cara Mengetahui Apakah Model Kita Sudah Baik?
- Secara empiris:
- Tanyakan: apakah model kita akan berfungsi dengan baik pada sampel data baru?
- Evaluasi: dapatkan sampel baru dari data, sebut set pengujian
- Performa yang baik pada set pengujian adalah indikator yang berguna dari performa yang baik pada data baru secara umum:
- Jika set pengujian cukup besar
- Jika kita tidak melakukan curang dengan menggunakan set pengujian berulang kali
Persyaratan ML
Tiga asumsi dasar dalam semua hal di atas:
- Kita mengambil contoh d.i.i (secara independen dan identik) secara acak dari distribusi
- Distribusi ini tidak bergerak: Tidak berubah dari waktu ke waktu
- Kita selalu mengambil dari distribusi yang sama: Termasuk set pelatihan, validasi, dan pengujian