Veri Kümesinin Boyutu ve Kalitesi

"Garip giriş, çöpü çıkar"

Önceki başlık, makine öğrenimi için geçerlidir. Sonuçta, modeliniz yalnızca verileriniz kadar iyidir. Peki veri kümenizin kalitesini nasıl ölçüyor ve nasıl iyileştiriyoruz? İşe yarar sonuçlar almak için ne kadar veriye ihtiyacınız var? Yanıtlar, çözmekte olduğunuz sorunun türüne bağlıdır.

Veri Kümesinin Boyutu

Genel bir kural olarak, modeliniz eğitilebilir parametrelerden en az bir büyüklük sırasına göre daha fazla örnek vermelidir. Büyük veri kümelerindeki basit modeller genellikle küçük veri kümelerinde gösterişli modelleri yenir. Google, büyük veri kümelerinde basit doğrusal regresyon modelleri geliştirerek büyük başarı elde etti.

Hangi veriler "çok fazla" sayılır? Projeye göre değişir. Bu veri kümelerinin göreli boyutunu göz önünde bulundurun:

Veri kümesi Boyut (örnek sayısı)
Mercek çiçek veri kümesi 150 (toplam set)
MovieLens (20 milyon veri kümesi) 20.000.263 (toplam set)
Google Gmail Akıllı Yanıt 238.000.000 (eğitim seti)
Google Kitaplar Ngramı 468.000.000.000 (toplam grup)
Google Çeviri trilyonlarca

Gördüğünüz gibi veri kümeleri çeşitli boyutlardadır.

Veri Kümesinin Kalitesi

Kötü veriyse çok fazla veriye sahip olmak mümkün değildir. Ayrıca kalite de önemlidir. Peki "kalite" olarak sayılan nedir? Belirsiz bir terim. Deney odaklı bir yaklaşım benimseyin ve en iyi sonucu veren seçeneği belirleyin. Bu anlayışta, kaliteli bir veri kümesi önem verdiğiniz işletme sorunuyla başarılı olmanızı sağlar. Diğer bir deyişle, amaçlanan görevi yerine getirmesi durumunda veriler iyidir.

Ancak, verileri toplarken kalitenin daha somut bir şekilde belirlenmesi yararlı olur. Kalitenin belirli yönleri daha iyi performans gösteren modellere karşılık gelir:

  • güvenilirlik
  • özellik temsili
  • sapmayı en aza indirme

Güvenilirlik

Güvenilirlik, verilerinize güvenebileceğiniz dereceyi ifade eder. Güvenilir bir veri kümesi üzerinde eğitilen bir modelin, güvenilir olmayan veriler üzerinde eğitilen bir modele kıyasla yararlı tahminler sunma olasılığı daha yüksektir. Güvenilirliği ölçerken şunları belirlemelisiniz:

  • Etiket hataları ne kadar yaygındır? Örneğin, verileriniz insanlar tarafından etiketleniyorsa bazen insanlar hata yapabilir.
  • Özellikleriniz gürültülü mü? Örneğin, GPS ölçümleri değişiklik gösterir. Biraz gürültü olabilir. Tüm gürültüleri tamamen silmeniz gerekmez. Daha fazla örnek de toplayabilirsiniz.
  • Verileriniz sorununuz için doğru şekilde filtrelendi mi? Örneğin, veri kümeniz bot'lardan gelen arama sorgularını içermelidir mi? Spam algılama sistemi oluşturuyorsanız bu yanıt büyük olasılıkla evettir ancak kullanıcılar için arama sonuçlarını iyileştirmeye çalışıyorsanız hayırdır.

Veriler neden güvenilir değil? Makine Öğrenimi Kilitlenme Kursu'nda veri kümelerindeki çoğu örneğin aşağıdaki durumlardan biri veya daha fazlası nedeniyle güvenilir olmadığını hatırlatmak isteriz:

  • Çıkarılan değerler. Örneğin, bir kişi evin yaşı için bir değer girmeyi unutmuştur.
  • Yinelenen örnekler. Örneğin, bir sunucu aynı günlükleri yanlışlıkla iki kez yüklemiştir.
  • Hatalı etiketler. Örneğin, bir kişi meşe ağacının resmini yanlış şekilde akçaağaç olarak etiketlemiştir.
  • Özellik değerleri hatalı. Örneğin, birisi fazladan bir rakam yazmış veya güneşte bir termometre dışarıda bırakılmış olabilir.

Google Çeviri, verilerinin "en iyi alt kümesini" seçmek için güvenilirliğine odaklanmıştır. Diğer bir deyişle, bazı veriler diğer parçalardan daha yüksek kaliteli etiketlere sahiptir.

Özellik Temsili

Makine Öğrenimi Kilitlenme Kuranı'nda verilerin kullanışlı özellikler ile eşlendiğini ifade edin. Aşağıdaki soruları dikkate almak isteyebilirsiniz:

Bu kursun Verilerinizi Dönüştürme bölümü, özellik temsiline odaklanacaktır.

Eğitim ve Tahmin

Çevrimdışıyken harika sonuçlar elde ettiğinizi varsayalım. Canlı denemenizde bu sonuçlar beklenmez. Bunun sebebi ne olabilir?

Bu sorun, eğitim veya sunum sapmasının göstergesidir. Diğer bir deyişle, eğitim sırasında metrikleriniz için eğitim süresi yerine farklı sonuçlar hesaplanır. Eğik çizginin nedenleri hafif olabilir, ancak sonuçlarınız üzerinde ölümcül etkileri olabilir. Tahmin sırasında modelinizin kullanabileceği verileri her zaman göz önünde bulundurun. Eğitim sırasında yalnızca sunumda kullanabileceğiniz özellikleri kullanın ve eğitim grubunuzun sunum trafiğinizi temsil ettiğinden emin olun.