Veri Dönüştürmeye Giriş

Özellik mühendisliği, bir modelin eğitilmesinde yararlı olacak özellikleri belirleme ve ardından günlük dosyalarında ve diğer kaynaklarda bulunan ham verileri dönüştürerek bu özellikleri oluşturma işlemidir. Bu bölümde, sayısal ve kategorik verilerin ne zaman ve nasıl dönüştürüleceğine ve farklı yaklaşımların ödünlerine odaklanıyoruz.

Veri Dönüşümünün Nedenleri

Özellikleri birincil olarak aşağıdaki nedenlerden dolayı dönüştürürüz:

  1. Veri uyumluluğu için zorunlu dönüşümler. Örnekler:

    • Sayısal olmayan özellikleri sayısala dönüştürme. Bir dizede matris çarpımı yapamazsınız. Bu nedenle, dizeyi sayısal bir temsile dönüştürmemiz gerekir.
    • Girişler sabit bir boyutta yeniden boyutlandırılır. Doğrusal modeller ve feed yönlendirme nöral ağları sabit sayıda giriş düğümüne sahiptir. Bu nedenle giriş verileriniz her zaman aynı boyutta olmalıdır. Örneğin, resim modellerinin veri kümelerindeki resimleri sabit bir boyutta yeniden şekillendirmesi gerekir.
  2. Modelin daha iyi performans göstermesine yardımcı olabilecek isteğe bağlı kalite dönüşümleri. Örnekler:

    • Metin özelliklerinin şifrelenmesi veya küçük/küçük harf kullanımı.
    • Normalleştirilmiş sayısal özellikler (çoğu model daha sonra daha iyi performans gösterir).
    • Doğrusal modellerin, özellik alanına doğrusal olmayan öğeler eklemesine izin verme.

Daha net ifade etmek gerekirse kalite dönüşümlerine gerek yok. Modeliniz de onlar olmadan da çalışmaya devam edebilir. Ancak bu tekniklerin kullanılması, modelin daha iyi sonuçlar vermesini sağlayabilir.

Nereden Dönüştürülür?

Dönüşümleri, diskte veri oluştururken veya model içinde uygulayabilirsiniz.

Eğitimden önce dönüşüm

Bu yaklaşımda, eğitimden önce dönüşüm gerçekleşir. Bu kod, makine öğrenimi modelinizden ayrıdır.

Artıları

  • Hesaplama yalnızca bir kez yapılır.
  • Hesaplama, dönüşümü belirlemek için veri kümesinin tamamına bakabilir.

Eksileri

  • Dönüşümlerin tahmin sırasında yeniden oluşturulması gerekir. Yamuklara dikkat edin
  • Tüm dönüşüm değişiklikleri, verilerin yeniden oluşturulmasını gerektirir. Bu da iterasyonların daha yavaş olmasına neden olur.

Çarpışma, çevrimiçi sunmayla ilgili durumlarda daha tehlikelidir. Çevrimdışı sunumda, eğitim verilerinizi oluşturan kodu yeniden kullanabilirsiniz. Online sunumda, veri kümenizi oluşturan kod ve canlı trafiği yönetmek için kullanılan kod neredeyse birbirinden farklıdır. Bu da sapmayı kolaylaştırır.

Model içinde dönüşüm

Bu yaklaşımda dönüşüm, model kodunun bir parçasıdır. Model, dönüştürülmemiş verileri giriş olarak alır ve model içinde dönüştürür.

Artıları

  • Kolay iterasyonlar. Dönüşümleri değiştirirseniz aynı veri dosyalarını kullanmaya devam edebilirsiniz.
  • Eğitim ve tahmin sırasında aynı dönüşümleri elde etmeniz garanti edilir.

Eksileri

  • Pahalı dönüşümler model gecikmesini artırabilir.
  • Dönüşümler toplu olarak yapılır.

Her grupta dönüşüm gerçekleştirmeyle ilgili dikkat edilmesi gereken birçok nokta vardır. Bir özelliği ortalama değerine göre normalleştirmek, diğer bir deyişle, özellik değerlerini ortalama 0 ve standart sapma 1 olacak şekilde değiştirmek istediğinizi varsayalım. Bu normalleştirme modelin içinde dönüşüm gerçekleştirirken veri kümesinin tamamına değil, tek bir veri kümesine erişim elde eder. Bir grup içindeki ortalama değere göre normalleştirebilirsiniz (gruplar çok değişkense tehlikelidir) veya ortalamayı önceden hesaplayıp modelde sabit olarak sabitleyebilirsiniz. Bir sonraki bölümde normalleştirmeyi keşfedeceğiz.

Verilerinizi Keşfedin, Temizleyin ve Görselleştirin

Herhangi bir dönüşüm gerçekleştirmeden önce verilerinizi inceleyip temizleyin. Veri kümenizi toplarken ve oluştururken aşağıdaki görevlerden bazılarını yapmış olabilirsiniz:

  • Birkaç veri satırını inceleyin.
  • Temel istatistikleri kontrol edin.
  • Eksik sayısal girişleri düzeltin.

Verilerinizi sık sık görselleştirin. Grafikler, sayısal istatistiklerden net olmayan anormallikleri veya kalıpları bulmanıza yardımcı olabilir. Bu nedenle, çok ayrıntılı bir analiz yapmadan önce, verilerinizi dağılım grafikleri veya histogramlar yoluyla grafik şeklinde inceleyin. Grafikleri yalnızca ardışık düzenin başında değil, dönüşüm boyunca görüntüleyin. Görselleştirmeler, varsayımlarınızı sürekli olarak kontrol etmenize ve önemli değişikliklerin etkilerini görmenize yardımcı olacaktır.