Adalet: Öğrendiklerinizi Kontrol Etme

Ön Yargı Türleri

Aşağıdaki seçenekleri keşfedin.

Aşağıdaki seçimlerin tahminleri, seçim sapmasından etkilendi mi?
Almanca el yazısı tanıma akıllı telefon uygulaması, çoğunlukla İngilizce dilindeki Amerikan el yazısı örneklerinin kitaplığında eğitildiği için ß (Eszett) karakterlerini sık sık B karakterleriyle sınıflandıran bir model kullanıyor.
Bu model, kapsam ön yargısı adı verilen bir seçim ön yargısı türünden etkilendi: Eğitim verileri (Amerikan İngilizcesi el yazısı), modelin hedef kitlesi tarafından sağlanan veri türünü temsil etmiyordu (Almanca el yazısı).
Mühendisler bir kişinin günlük yiyecek tüketimine göre diyabet hastası olma olasılığını tahmin etmek için bir model geliştirdi. Model, dünya çapında çeşitli yaş ve etnik köken, cinsiyet ve cinsiyetten oluşan rastgele seçilen bir gruptan toplanan 10.000 "yemek günlüğü" üzerine eğitildi. Ancak, model dağıtıldığında doğruluğu çok düşüktü. Daha sonra mühendisler, yiyecek günlüğü katılımcılarının sağlıksız yiyecekleri kabul etmekte tereddüt ettiğini ve besleyici gıda tüketimini belgeleme olasılığının daha düşük olan atıştırmalıklardan daha yüksek olduğunu keşfetti.
Bu modelde seçim ön yargısı yoktur; eğitim verilerini sağlayan katılımcılar kullanıcıların temsili bir örneklemidir ve rastgele seçilmiştir. Bunun yerine bu model raporlama sapmasından etkilendi. Sağlıksız gıda beslemesi, gerçek hayattan çok daha düşük sıklıkta gerçekleşti.
Bir şirketteki mühendisler, tüm çalışanlara gönderilen bir anketten elde edilen verilere dayanarak, personel değişim oranlarını (her yıl işlerinden ayrılan çalışanların yüzdesi) tahmin etmek için bir model geliştirdi. Mühendisler, birkaç yıllık kullanım süresinin ardından modelin ciro düzeyinin %20'den az olduğunu tespit etti. Şirketten ayrılan çalışanlarla yapılan çıkış görüşmelerinde, işlerinden memnun kalmayan kişilerin% 80'inden fazlasının anketi tamamlamamayı tercih ettiğini öğrendik. Bu oran, şirket genelindeki %15'lik bir kapsam dışında kalma oranıyla karşılaştırıldı.
Bu model, yanıt vermeme ön yargısı adlı bir seçim ön yargısı türünden etkilendi. İşlerinden memnun kalmayan kullanıcılar, şirket genelindeki anketi, çalışan popülasyonunun tamamından çok daha yüksek oranlarda devre dışı bıraktığından eğitim veri kümesinde yeterince temsil edilmedi.
Bir film öneri sistemi geliştiren mühendisler, korku filmlerini seven kişilerin de bilim kurgu filmlerini sevecekleri varsayımında bulunur. Ancak 50.000 kullanıcının izleme listeleri üzerinde bir modeli eğittiklerinde, korku tercihleri ile bilim kurgunun tercihleri arasında bu tür bir ilişki olduğunu göstermediler. Bunun yerine, korku tercihleri ile belgeseller arasında güçlü bir ilişki olduğunu gösterdiler. Bu onlara garip geldi. Bu yüzden modeli farklı hiperparametrelerle beş kez daha eğittiler. Eğitilen son modeli, korku ve bilim kurgu tercihleri arasında% 70'lik bir ilişki olduğunu gösterdi. Bu nedenle, video oyunu kesinlikle üretime sundular.
Seçim ön yargısının kanıtı yoktur, ancak mühendis mevcut hipotezini doğrulayana kadar modeli üzerinde çalışmayı sürdürdükleri için bu model deneyci ön yargısından etkilenmiş olabilir.

Ön Yargıyı Değerlendirme

Azama algılama modeli, 80.000 kısa mesaj üzerinde eğitildi: Yetişkinler (18 yaş ve üzeri) tarafından gönderilen 40.000 mesaj, küçükler (18 yaşından küçükler) tarafından gönderilen 40.000 mesaj. Daha sonra model, 10.000 mesaj yetişkinler ve 10.000 küçük çocuktan 20.000 mesajlık bir test grubunda değerlendirildi. Aşağıdaki karışıklık matrisleri, her bir grup için sonuçları gösterir (olumlu bir tahmin, "alaycı" sınıflandırmasının göstergesidir): Negatif tahmin, "alaycı değil" sınıflandırmasını belirtir):

Yetişkin sayısı

Gerçek Pozitifler (TPS): 512 Yanlış Pozitifler (FP'ler): 51
Yanlış Negatifler: 36 Gerçek Negatifler (TN'ler): 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

Küçükler

Gerçek Pozitifler (TP): 2147 Yanlış Pozitifler (FP'ler): 96
Yanlış Negatifler: 2.177 Gerçek Negatifler (TN'ler): 5.580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

Aşağıdaki seçenekleri keşfedin.

Modelin test kümesi performansıyla ilgili aşağıdaki ifadelerden hangisi doğrudur?
Genel olarak model, yetişkinlerden alınan örneklere kıyasla küçük örneklerden daha iyi performans gösterir.

Bu model, yetişkinlerin gönderdiği kısa mesajlardaki alayları algılarken hem% 90'ın üzerinde kesinlik hem de geri çağırma oranlarına ulaşır.

Model, küçükler için yetişkinlerden biraz daha yüksek bir kesinlik oranına ulaşsa da geri çağırma oranı küçükler için çok daha düşük olduğundan bu grup için daha az güvenilir tahminler sunulur.

Bu model, küçüklerin yaklaşık% 50'sinin alaycı mesajlarını sınıflandırırken "alaycı" olarak sınıflandırmıyor.
Küçükler için 0,497'lik geri çağırma oranı, modelin küçüklerin yaklaşık% 50'si için alaycı metinleri tahmin ettiğini belirtir.
Küçükler tarafından gönderilen iletilerin yaklaşık% 50'si yanlış bir şekilde "alaycı" olarak sınıflandırılmaktadır.
0,957'lik hassasiyet oranı, küçük yaştakilerin% 95'inden fazlasının "alaycı" olarak sınıflandırılan mesajlarının gerçekten alaycı olduğunu göstermektedir.
Yetişkinlerin gönderdiği 10.000 mesaj,sınıf dengesiz veri kümesidir.
Yetişkinlerden gelen ve gerçekten alaycı olmayan (TP+FN = 548) mesajların sayısını, alaycı olmayan (TN + FP = 9452) mesajların sayısıyla karşılaştırırsak "srctics&quot:etiket sayısının yaklaşık "&";
Küçükler tarafından gönderilen 10.000 mesaj,sınıf dengesiz veri kümesidir.
Kendisinden alaycı olmayan (TN + FP = 5676) mesajların sayısı ile küçüklerin gönderdiği mesajların sayısını alaycı olmayan (TN + FP = 5676) sayısıyla karşılaştırdığımızda, "&"; İki sınıf arasındaki plak dağılımının 50/50'ye çok yakın olduğu göz önüne alındığında bu, sınıf dengesiz bir veri kümesi değildir.

Aşağıdaki seçenekleri keşfedin.

Mühendisler, bu modeli yaş demografileri arasındaki alay tespitindeki tutarsızlıklarla başa çıkmak için bu modeli yeniden eğitmeye çalışıyor, ancak model halihazırda üretim kanalına yayınlandı. Aşağıdaki geçici stratejilerden hangisi, modelin tahminlerindeki hataları azaltmaya yardımcı olur?
Modelin kullanımını yetişkinler tarafından gönderilen kısa mesajlarla sınırlandırın.

Bu model, yetişkinlerden gelen kısa mesajlarda (hem %90'ın üzerinde kesinlik hem de geri çağırma oranlarıyla) iyi performans gösterir. Bu nedenle, bu grupla kısıtlanması, kısa mesajların sınıflandırılmasındaki sistematik hataları ortadan kaldırır.

Model, küçükler tarafından gönderilen kısa mesajlar için "alaycı değil" tahminde bulunduğunda, çıkışı, modelin bunun yerine "emin değilim" değerini döndürecek şekilde ayarlayın.

Küçükler tarafından gönderilen kısa mesajlar için hassasiyet oranı yüksektir. Bu da, modelin bu grup için "alaycı" olduğunu tahmin ettiği durumlarda neredeyse her zaman doğru olduğu anlamına gelir.

Sorun, küçüklerin hatırlanabilirliğinin çok düşük olmasıdır. Model, örneğin yaklaşık% 50'sinde iğnelemeyi tespit edemiyor. Modelin küçükler için negatif tahminlerinin rastgele tahminlerden daha iyi olmadığı göz önünde bulundurulduğunda böyle durumlarda bir tahmin sunmamak suretiyle bu hataları önleyebiliriz.

Modelin kullanımını küçüklerin gönderdiği kısa mesajlarla sınırlandırın.

Bu modeldeki sistematik hatalar, küçüklerin gönderdiği kısa mesajlara özeldir. Modelin kullanımını hataya daha açık olacak şekilde kısıtlamak işe yaramaz.

Model çıktısını, modelin başlangıçta tahmin ettiği her ne olursa olsun, küçükler tarafından gönderilen tüm kısa mesajlara "alaveç" döndürecek şekilde ayarlayın.

Kısa mesajların her zaman "alaycı" olduğunu tahmin etmek, kısa mesajları 0,497'den 1,0'a çıkarır. Böylece model, mesajları artık alaycı olarak tanımlamayabilir. Ancak hatırlanabilirlikteki bu artış kesinliği tehlikeye atacaktır. Tüm doğru negatifler yanlış pozitif olarak değiştirilir:

Gerçek Pozitifler (TPS): 4324 Yanlış Pozitifler (FP'ler): 5676
False Negatifler (FN): 0 Gerçek Negatifler (TN'ler): 0

Bu, hassasiyet oranını 0,957'den 0,432'ye düşürecektir. Dolayısıyla bu kalibrasyonun eklenmesi hatanın türünü değiştirir ancak hatanın boyutunu hafifletmez.