Genelleştirme, modelinizin daha önce görülmemiş yeni verilere düzgün bir şekilde uyum sağlama özelliğini, modeli oluşturmak için kullanılanla aynı dağıtımdan alınır.
Genelleştirme
Genel Görünüm
- Hedef: (gizli) gerçek dağıtımdan alınan yeni verileri iyi tahmin etmek.
- Sorun: Doğruyu göremiyoruz.
- Biz yalnızca bundan örnek alırız.
Genel Görünüm
- Hedef: (gizli) gerçek dağıtımdan alınan yeni verileri iyi tahmin etmek.
- Sorun: Doğruyu göremiyoruz.
- Biz yalnızca bundan örnek alırız.
- H modeli mevcut örneğimize uygunsa, diğer yeni örneklerde iyi tahmin yapacağına nasıl güvenebiliriz?
Modelimizin İyi Olduğunu Nasıl Biliyoruz?
- Teorik olarak:
- İlginç alan: Genelleme teorisi
- Modelin basitliğini / karmaşıklığını ölçme fikirlerine dayalıdır
- Sezgi: Ockham's Jilet ilkesinin resmileştirilmesi
- Bir model ne kadar karmaşık olursa, iyi bir deneysel sonucun yalnızca örneğimizin özelliklerinden kaynaklanma olasılığı da o kadar artar
Modelimizin İyi Olduğunu Nasıl Biliyoruz?
- Geçici olarak:
- Sorma: Modelimiz yeni bir veri örneğinde başarılı olacak mı?
- Değerlendirme: Test grubu adı verilen yeni bir veri örneği alın
- Test kümesinde iyi performans, genel olarak yeni verilerde iyi performansın yararlı bir göstergesidir:
- Test grubu yeterince büyükse
- Test grubunu tekrar tekrar kullanarak hile yapmıyorsak
ML Fine Print
Yukarıdakilerin tümünde üç temel varsayım vardır:
- Dağıtımdan rastgele bağımsız ve aynı şekilde (ör.) örnekler alırız
- Dağılım durağan: Zaman içinde değişmez
- Eğitim, doğrulama ve test grupları dahil, her zaman aynı dağıtımdan yararlanırız