Örnekleme ve Bölme Verileri

Örneklemeye Giriş

Bu, genellikle bir makine öğrenimi projesi için yeterli veri toplama serüvenidir. Bununla birlikte, bazen çok fazla veri vardır ve eğitim için örneklerin bir alt kümesini seçmeniz gerekir.

Bu alt grubu nasıl seçersiniz? Örneğin, Google Arama'yı ele alalım. Muazzam miktarda veriyi ne kadar ayrıntılı şekilde örneklersiniz? Rastgele sorgular kullanır mıydınız? Rastgele oturumlar mı? Rastgele kullanıcılar mı?

Sonuç olarak, sorunun ne olacağıyla ilgili bir sorun var: Neyi tahmin etmek ve hangi özellikleri kullanmak istiyoruz?

  • Önceki sorgu özelliğini kullanmak için oturumlar bir dizi sorgu içerdiği için oturum düzeyinde örnekleme yapmanız gerekir.
  • Önceki günlere ait kullanıcı davranışı özelliğini kullanmak için kullanıcı düzeyinde örneklendirme yapmanız gerekir.

Kimliği tanımlayabilecek bilgilere göre filtreleme (Kimliği Tanımlayabilecek Bilgiler)

Verileriniz kimliği tanımlayabilecek bilgiler (kimliği tanımlayabilecek bilgiler) içeriyorsa verilerinizden filtrelemeniz gerekebilir. Örneğin, bir politika sık kullanılmayan özellikleri kaldırmanızı gerektirebilir.

Bu filtreleme, dağılımınızı çarpıtır. Sıradaki bilgileri kaybedersiniz. Bu durumda, dağılımın çok düşük değerlere sahip olan kısmı, ortalamanın çok dışındadır.

Çok nadir bulunan özelliklerin öğrenilmesi zor olduğundan, bu filtreleme yararlıdır. Ancak veri kümenizin, başın sorduğu sorulara eğilimli olacağını unutmamanız önemlidir. Sunum sırasında, eğitim verilerinizden filtrelenmiş örnekler olduğundan, sunum sırasında daha kötü sonuçlar elde edebilirsiniz. Bu sapmadan kaçınılamaz ancak analiz sırasında bunu göz önünde bulundurun.