Veri ve Özellik Hata Ayıklama

Düşük kaliteli veriler, modelinizin performansını önemli ölçüde etkiler. Modeliniz kötü tahmin ettikten sonra mevcut olup olmadığını tahmin etmek yerine düşük kaliteli verileri tespit etmek çok daha kolaydır. Bu bölümdeki önerileri uygulayarak verilerinizi izleyin.

Giriş Verilerini Veri Şeması Kullanarak Doğrulama

Verilerinizi izlemek için, verilerin karşılaması gereken kuralları yazarak, beklenen istatistiksel değerlere karşı sürekli olarak kontrol etmeniz gerekir. Bu kural koleksiyonuna veri şeması denir. Aşağıdaki adımları uygulayarak bir veri şeması tanımlayın:

  1. Özellik verileriniz için aralığı ve dağılımı anlayın. Kategorik özellikler için olası değer grubunu anlayın.
  2. Öğrendiklerinizi şemada tanımlanan kurallara göre kodlayın. Kural örnekleri:

    • Kullanıcıların gönderdiği puanların her zaman 1 ile 5 arasında olduğundan emin olun.
    • "The" ifadesinin en sık şekilde kullanıldığından emin olun (İngilizce metinler için).
    • Kategorik özelliklerin, sabit bir gruptan değerler içerip içermediğini kontrol edin.
  3. Verilerinizi veri şemasıyla test edin. Şemanız aşağıdaki gibi veri hatalarını yakalamalıdır:

    • anormallikler
    • kategorik değişkenlerin beklenmeyen değerleri
    • beklenmedik veri dağılımları

Bölmelerin İyi Kalitede olduğundan emin olun

Test ve eğitim bölmeleriniz, giriş verilerinizi eşit şekilde temsil etmelidir. Test ve eğitim bölmeleri istatistiksel olarak farklıysa eğitim verileri test verilerinin tahmin edilmesine yardımcı olmaz. Verileri nasıl örnekleyeceğinizi ve böleceğinizi öğrenmek için ML'de Veri Hazırlama ve Özellik Mühendisliği kursundaki Örnekleme ve Bölme Verileri bölümüne bakın.

Bölmelerinizin istatistiksel özelliklerini izleyin. Tesisler farklı ise bayrak yükselin. Ayrıca her bölümde örneklerin oranının sabit kaldığını test edin. Örneğin, verileriniz 80:20 olarak bölünmüşse bu oran değişmemelidir.

Test Edilmiş Veriler

Ham verileriniz geçerli olsa bile modeliniz yalnızca mühendislik özellikleri olan verileri görür. Mühendis verileri ham giriş verilerinden çok farklı göründüğünden, mühendislik verilerini ayrı olarak kontrol etmeniz gerekir. Yapılandırılmış verilerinizi anladığınıza göre birim testleri yazın. Örneğin, aşağıdaki koşulları kontrol etmek için birim testleri yazabilirsiniz:

  • Tüm sayısal özellikler, örneğin 0 ile 1 arasında ölçeklendirilir.
  • Tek sıcak kodlamalı vektörler, yalnızca tek bir 1 ve N-1 sıfır içerir.
  • Eksik veriler ortalama veya varsayılan değerlerle değiştirilir.
  • Dönüşümden sonraki veri dağıtımları beklentilere uygundur. Örneğin, z-puanı kullanarak normalleştirdiyseniz z puanlarının ortalaması 0 olur.
  • Aykırı değerler, örneğin ölçeklendirme veya kırpma yoluyla ele alınır.