Dengesiz Veriler

Çarpışmış sınıf oranlarına sahip bir sınıflandırma veri kümesi, dengesiz olarak adlandırılır. Veri kümesinin büyük bir kısmını oluşturan sınıflara büyük sınıflar denir. Küçük bir kısmı oluşturanlar, azınlık dersleri.

Neler dengesiz olarak sayılır? Aşağıdaki tabloda gösterildiği gibi yanıt hafiften aşırıya doğru değişebilir.

Dengesizlik derecesi Azınlık Dersi Oranı
Ilımlı Veri kümesinin% 20-40'ı
Orta düzey Veri kümesinin% 1-20'si
Olağanüstü Veri kümesinin% 1'inden azı

Neden dengesiz verilere dikkat etmelisiniz? Dengeli olmayan bir veri kümesine sahip sınıflandırma göreviniz varsa belirli bir örnekleme tekniğini uygulamanız gerekebilir.

Sahtekarlığı tespit eden bir model örneğini aşağıda bulabilirsiniz. Bu veri kümesinde sahtekarlık örnekleri her 200 işlemde bir kez gerçekleşir.Bu nedenle gerçek dağıtımda verilerin yaklaşık% 0,5'i pozitiftir.

İki çubuklu çubuk grafik. Bir çubuk yaklaşık 200 negatif işlem gösterirken, diğer bir çubuk 1 olumlu işlem gösterir.

Bu neden sorunlu olabilir? Negatif modele kıyasla çok az sayıda pozitif sonuç içeren eğitim modeli, zamanının çoğunu negatif örneklere harcar ve olumlu örneklerden yeterince bilgi edinmez. Örneğin, toplu boyutunuz 128 ise birçok grubun pozitif örneği olmayacağından gradyanlar daha az bilgilendirici olur.

Dengesiz bir veri kümeniz varsa öncelikle gerçek dağıtımla ilgili eğitim almayı deneyin. Model iyi çalışıyor ve genelleşiyorsa işiniz bitti demektir. Aksi takdirde, aşağıdaki aşağı örnekleme ve ağırlıklandırma tekniğini deneyin.

Örnekleme ve Ağırlıklandırma

Dengesiz verileri işlemenin etkili yollarından biri, azalan örneklemeyi yapmak ve büyük sınıfa ağırlık vermektir. Bu iki yeni terimi tanımlayarak başlayalım:

  • Aşağı örnekleme (bu bağlamda), çoğu sınıf örneğinin orantısız olarak düşük bir alt kümesi üzerinde eğitim anlamına gelir.
  • Ağırlıklandırma, aşağı örneklenmiş sınıfa örnek ağırlık ekleme, alt örnekleme yaptığınız faktöre eşittir.

1. Adım: Çoğunlukla sınıfla ilgili örnek verin. 1-200 negatif ile sahte veri kümesi örneğimizi tekrar düşünün. 10 faktörüne göre aşağı örnekleme, bakiyeyi 1 pozitif ila 20 negatif (%5) olarak iyileştirir. Sonuçta ortaya çıkan eğitim grubu hâlâ kalan dengesiz olsa da pozitiflerin negatiflere oranı orijinal son derece dengesiz oranından (%0, 5) çok daha iyidir.

İki çubuklu çubuk grafik. Bir çubuk 20 negatif işlem, diğer çubuk ise 1 pozitif işlem gösterir.

2. Adım: Aşağı örneklenmiş sınıfa ağırlık verin: Son adım, aşağı örneklenmiş sınıfa örnek ağırlıkları eklemektir. 10'luk bir faktörden örneklem aldığımızdan örnek ağırlığı 10 olmalıdır.

Aşağı örnekleme ve ağırlıklandırmanın kavramsal şeması. 1. adım olan aşağı örnekleme, çoğu sınıfın veri kümesini temsil eden bir bloktan rastgele seçilen bir örneği çeker. Ağırlıklandırmanın 2. adımı, rastgele seçilen her örneğe bir ağırlık ekler.

Bir nöral ağdaki bağlantılar gibi model parametreleriyle ilgili olduğunda ağırlık terimini duymak isteyebilirsiniz. Burada, örnek ağırlıklarından bahsediyoruz. Bu, tek bir örneği eğitim sırasında daha önemli bir şekilde saymak anlamına gelir. Ağırlığın 10 olduğunu varsayalım. Bu durumda model, örneği 1 ağırlığının 10 katı kadar değerli kabul eder.

Ağırlık, alt örnekleme için kullandığınız faktöre eşit olmalıdır:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

Neden Düşük Örnekli ve Ağırlıklı?

Örnekleme sonrasında örnek ağırlıklar eklemek garip görünebilir. Modelimizi azınlık sınıfının daha iyi hale getirmesine çalışıyorduk. Neden önemi hafifletiyoruz? Bunun sonucunda şunlar gerçekleşir:

  • Daha hızlı yakınlaşma: Eğitim sırasında azınlık sınıfını daha sık görüyoruz. Bu da modelin daha hızlı bir şekilde birleşmesine yardımcı oluyor.
  • Disk alanı: Çoğu sınıfı daha büyük ağırlıklarla daha az örnek halinde birleştirerek daha az disk alanı harcarız. Bu tasarruflar, azınlık sınıfı için daha fazla disk alanı sağlayarak sınıftan daha fazla sayı ve daha geniş bir örnek koleksiyonu toplayabilmemize olanak tanır.
  • Kalibrasyon: Ağırlıklandırma, modelimizin kalibre edilmesini sağlar. Çıkışlar yine de olasılık olarak yorumlanabilir.