Veri Kümenizi Oluşturmaya Giriş

Veri Kümenizi Oluşturma Adımları

Veri kümenizi oluşturmak için (ve veri dönüşümü yapmadan önce) şunları yapmalısınız:

  1. Ham verileri toplayın.
  2. Özellik ve etiket kaynaklarını tanımlayın.
  3. Bir örnekleme stratejisi seçin.
  4. Verileri bölme.

Bu adımlar makine öğrenimi sorununuzu nasıl çerçevelediğinize bağlı olarak farklılık gösterir. Sorun çerçeveleme hakkında hafızanızı yenilemek ve veri toplamayla ilgili varsayımlarınızı kontrol etmek için aşağıdaki kendi kendine kontrol özelliğini kullanın.

Sorun Çerçeveleme ve Veri Toplama Kavramları İçin öz kontrol

Aşağıdaki sorular için yanıtınızı kontrol etmek üzere istediğiniz oku tıklayın:

İlk özelliklerinizi seçmek üzere olan yeni bir makine öğrenimi projesi üzerindesiniz. Kaç özellik seçmeniz gerekir?
İyi tahmine sahip olan 1-3 özellik seçin.
Veri toplama hattınızın yalnızca bir veya iki özellikle başlaması en iyi seçenektir. Bu, makine öğrenimi modelinin beklendiği gibi çalıştığını onaylamanıza yardımcı olur. Ayrıca, birkaç özellikten bir temel oluşturduğunuzda, ilerleme kaydedeceğiniz hissine kapılacaksınız!
Tahmini gücü yüksek görünen 4-6 özellik seçin.
Sonuç olarak bu kadar çok özellik kullanabilirsiniz ancak daha azıyla başlamak daha iyidir. Daha az özellik, genellikle daha az gereksiz sorun demektir.
Mümkün olduğunca fazla özellik seçerek hangi özelliklerin en güçlü tahmin gücüne sahip olduğunu gözlemlemeye başlayabilirsiniz.
Daha küçük bir başlangıç yapın. Her yeni özellik, eğitim veri kümenize yeni bir boyut katar. Boyutsallık arttığında, alanın hacmi o kadar hızlı artar ki mevcut eğitim verileri yetersiz kalır. Verileriniz ne kadar geniş olursa, modelin gerçekten önemli özellikler ile etiket arasındaki ilişkiyi öğrenmesi o kadar zor olur. Bu fenomene "boyutallığın laneti" denir.
Arkadaşınız Sam, istatistiksel analizinin ilk sonuçlarından memnun kaldı. Verilere göre, uygulama indirme sayısı ile uygulama inceleme gösterimi sayısı arasında olumlu bir ilişki olduğunu belirtiyor. Ancak yorumu indirmeden de indirip indiremeyeceklerinden emin değil. Semra için en iyi yanıt hangisi olur?
Yorumu görmeyen kullanıcıların davranışını görmek için, yorumu gören kullanıcıların davranışını karşılaştırmak amacıyla bir deneme çalıştırabilirsiniz.
Doğru! Sam, olumlu yorumları gören kullanıcıların uygulamayı indirme olasılığının uygulamayı indiren kullanıcılardan daha yüksek olduğunu gözlemlerse bu olumlu yorumun kullanıcıları uygulamayı yüklemeye teşvik ettiğini kanıtlayan makul kanıta sahip olur.
Verilere güvenin. Kullanıcıların uygulamayı indirmelerinin nedeninin kusursuz yorum olduğu net bir şekilde belirtilmektedir.
Yanlış. Bu yanıt Cem'i doğru şekilde yönlendirmez. Nedenselliği yalnızca gözlemsel verilerden belirleyemezsiniz. Sam, bir ilişki (yani sayılar arasında istatistiksel bir bağımlılık) görür. Bu, neden belirtisini gösterebilecek veya etmeyebilir. Analizlerinizin sahte korelasyonlar sıralamasına düşmesine izin vermeyin.