Generalisasi

Generalisasi mengacu pada kemampuan model untuk beradaptasi dengan baik terhadap data baru yang sebelumnya tidak terlihat, yang diambil dari distribusi yang sama seperti data yang digunakan untuk membuat model.

Generalisasi

Siklus model, prediksi, sampel, menemukan distribusi sesungguhnya, lebih banyak pengambilan sampel
  • Sasaran: memprediksi data baru yang diambil dari distribusi benar (tersembunyi) dengan baik.
  • Masalah: kita tidak melihat kebenarannya.
    • Kami hanya mengambil sampelnya.
Siklus model, prediksi, sampel, menemukan distribusi sesungguhnya, lebih banyak pengambilan sampel
  • Sasaran: memprediksi data baru yang diambil dari distribusi benar (tersembunyi) dengan baik.
  • Masalah: kita tidak melihat kebenarannya.
    • Kami hanya mengambil sampelnya.
  • Jika model h sangat sesuai dengan sampel saat ini, bagaimana kita dapat yakin bahwa model h akan memprediksi sampel baru yang lain dengan baik?
  • Secara teoretis:
    • Kolom yang menarik: teori umum
    • Berdasarkan ide tentang mengukur kesederhanaan / kompleksitas model
  • Intuisi: formalisasi prinsip Razor Ockham
    • Semakin sederhana modelnya, semakin besar kemungkinan bahwa hasil empiris yang baik bukan hanya disebabkan oleh keunikan sampel kami.
  • Secara empiris:
    • Tanyakan: apakah model kita akan berfungsi dengan baik pada sampel data baru?
    • Evaluasi: dapatkan sampel baru dari data, sebut set pengujian
    • Performa yang baik pada set pengujian adalah indikator yang berguna dari performa yang baik pada data baru secara umum:
      • Jika set pengujian cukup besar
      • Jika kita tidak melakukan curang dengan menggunakan set pengujian berulang kali

Tiga asumsi dasar dalam semua hal di atas:

  1. Kita mengambil contoh d.i.i (secara independen dan identik) secara acak dari distribusi
  2. Distribusi ini tidak bergerak: Tidak berubah dari waktu ke waktu
  3. Kita selalu mengambil dari distribusi yang sama: Termasuk set pelatihan, validasi, dan pengujian