Örnekleme ve Bölme: Bilgilerinizi Anlayın

Aşağıdaki sorular için yanıtınızı kontrol etmek üzere istediğiniz oku tıklayın:

1:1000 pozitif negatif oranına sahip bir veri kümeniz olduğunu varsayalım. Maalesef modeliniz her zaman sınıfın büyük kısmını tahmin ediyor. Bu sorunu en iyi şekilde çözecek teknik hangisidir? Modelin kalibre edilmiş bir olasılığı raporlamasını istediğinizi unutmayın.
Negatif örneklerin örneğini hemen çıkarın.
Bu iyi bir başlangıçtır ancak bu modelin kalibre edilmesi için modelin taban ücretini değiştireceksiniz.
Negatif örneklere (çoğunlukla sınıf) daha düşük örnek verin. Ardından, aynı örnekten başlayarak aşağı örneklenmiş sınıfa ağırlık verin.
Bu, dengesiz verilerle başa çıkmanın ve etiketlerin gerçek dağıtımını elde etmenin etkili bir yoludur. Modelin kalibre edilmiş bir olasılık bildirip bildirmediğine önem vermeniz gerektiğini unutmayın. Kalibre edilmesi gerekmiyorsa taban fiyatı değiştirme konusunda endişelenmeniz gerekmez.
Aşağıdaki tekniklerden hangisi veri kümesinin kuyruğundan veri kaybeder? Geçerli olan tüm seçenekleri işaretleyin.
Kimliği tanımlayabilecek bilgiler (PII) filtreleme
Verilerinizden kimliği tanımlayabilecek bilgiler (PII) filtrelemek, genişlemenizi çarpıtarak kuyruktaki bilgileri kaldırabilir.
Ağırlıklandırma
Ağırlıklandırma, farklı örneklerin önem derecesini değiştirir ancak bilgi kaybetmez. Hatta kuyruk örneklerine ağırlık eklemek, modelinizin kuyrukla ilgili davranışı öğrenmesine yardımcı olabilir.
Örnek alma
Özellik dağılımları listesi, aşağı örnekleme sırasında bilgileri kaybeder. Ancak genellikle sınıfın çoğunu örneklendirdiğimizden bu kayıp genellikle büyük bir sorun değildir.
Normalleştirme
Normalleştirme tek tek örnekler üzerinde çalıştığı için örneklemede sapmaya neden olmaz.
Sınıflandırma sorunu üzerinde çalışıyorsunuz. Verileri eğitim, değerlendirme ve test kümelerine rastgele ayırıyorsunuz. Sınıflandırıcınız mükemmel çalışıyor! Ancak, üretimde sınıflandırıcı bir hatadır. Daha sonra sorunun rastgele bölmeden kaynaklandığını keşfedersiniz. Bu sorunla ne tür veriler karşılaşabilir?
Zaman serisi verileri
Rastgele bölme, her bir kümeyi test/eğitim bölmesine böler ve böylece, üretimde kullanılamayacak modele bir "önizleme" sağlar.
Zaman içinde fazla değişmeyen veriler
Verileriniz zaman içinde çok fazla değişmezse rastgele bir ayırmayla daha iyi şans elde edersiniz. Örneğin, fotoğraflarda köpek türünü ölçmek veya geçmiş biyometrik verilerine göre kalp kusuru riski taşıyan hastaları tahmin etmek isteyebilirsiniz. Her iki durumda da veriler genellikle zaman içinde değişmediğinden rastgele bölme işlemi soruna neden olmaz.
Veri gruplamaları
Test kümesi, veri kümesine her zaman çok benzer olacaktır çünkü benzer veri kümeleri her iki kümede de vardır. Bu model, olduğundan daha iyi bir tahmin gücüne sahip olacak.
Seri durumdaki veriler (sürekli akış yerine aralıklı seri hâlinde gelen veriler)
Benzer veri kümeleri (seri çekimler) hem eğitim hem de testlerde gösterilir. Model, testlerde yeni verilerden daha iyi tahminlerde bulunacaktır.