Adalet: Tarafsızlık tespiti

Modelinizi en iyi şekilde temsil etmek için verilerinizi keşfederken, adalet sorunlarını göz önünde bulundurmanız ve önyargılı olabilecek olası kaynakları proaktif bir şekilde denetlemeniz de önemlidir.

Taraflılık nerede gizlenebilir? Veri kümenizde dikkat etmeniz gereken üç kırmızı işaret vardır.

Özellik Özellikleri Eksik

Veri kümenizde çok sayıda örnek için eksik değerlere sahip bir veya daha fazla özellik varsa bu durum, veri kümenizin bazı temel özelliklerinin yeterli düzeyde temsil edilmediğinin bir göstergesi olabilir.

Örneğin, aşağıdaki tabloda Kaliforniya Konutları veri kümesindeki bir özellik alt kümesi için önemli istatistiklerin bir özeti, DataFrame pandalarla DataFrame konumunda depolanıp DataFrame.describe ile oluşturulmuştur. Tüm özelliklerin count değerinin 17.000 olduğunu, eksik değer olmadığını unutmayın:

longitude latitude toplam_odalar nüfus haneler ortanca_gelir medyan_ev_değeri
adet 17.000,0 17.000,0 17.000,0 17.000,0 17.000,0 17.000,0 17.000,0
ortalama -119,6 35,6 2643,7 1.429,6 501,2 3,9 207,3
std 2,0 2.1 2.179,9 1.147,9 384,5 1.9 116,0
dak -124,3 32,5 2,0 3,0 1,0 0.5 15,0
%25 -121,8 33,9 1.462,0 790,0 282,0 2.6 119,4
%50 -118,5 34,2 2.127,0 1.167,0 409,0 3,5 180,4
%75 -118,0 37,7 3151,2 1.721,0 605,2 4.8 265,0
maks. -114,3 42,0 37937,0 35682,0 6.082,0 15,0 500,0

Bunun yerine üç özelliğin (population, households ve median_income) yalnızca 3000 sayıldığını, diğer bir deyişle her özelliğin 14.000 eksik değer içerdiğini varsayalım:

longitude latitude toplam_odalar nüfus haneler ortanca_gelir medyan_ev_değeri
adet 17.000,0 17.000,0 17.000,0 3.000,0 3.000,0 3.000,0 17.000,0
ortalama -119,6 35,6 2643,7 1.429,6 501,2 3,9 207,3
std 2,0 2.1 2.179,9 1.147,9 384,5 1.9 116,0
dak -124,3 32,5 2,0 3,0 1,0 0.5 15,0
%25 -121,8 33,9 1.462,0 790,0 282,0 2.6 119,4
%50 -118,5 34,2 2.127,0 1.167,0 409,0 3,5 180,4
%75 -118,0 37,7 3151,2 1.721,0 605,2 4.8 265,0
maks. -114,3 42,0 37937,0 35682,0 6.082,0 15,0 500,0

Bu 14.000 eksik değerin,hane gelirlerinin ortanca ev fiyatlarıyla doğru şekilde ilişkilendirilmesi çok daha zor hale gelir. Bu veriler üzerinde model eğitmeden önce, eksik gelir ve popülasyon verilerinden sorumlu ön yargılar olmadığından emin olmak için bu eksik değerlerin nedenini araştırmak akıllıca olacaktır.

Beklenmeyen Özellik Değerleri

Verileri keşfederken, özellikle ayırt edici olmayan veya olağan dışı özellik olarak öne çıkan özellik değerleri içeren örneklere de bakmanız gerekir. Beklenmeyen özellik değerleri, veri toplama sırasında ortaya çıkan sorunları veya sapmaya yol açabilecek diğer yanlışlıkları gösterebilir.

Örneğin, Kaliforniya'daki konutlardan alınan veri kümesinden alınan aşağıdaki örneklere göz atın:

longitude latitude toplam_odalar nüfus haneler ortanca_gelir medyan_ev_değeri
1 -121,7 38,0 7.105,0 3523,0 1.088,0 5,0 0.2
2 -122,4 37,8 2.479,0 1.816,0 496,0 3.1 0,3
3 -122,0 37,0 2.813,0 1.337,0 477,0 3,7 0,3
4 -103,5 43,8 2.212,0 803,0 144,0 5.3 0.2
5 -117,1 32,8 2.963,0 1.162,0 556,0 3.6 0.2
6 -118,0 33,7 3.396,0 1.542,0 472,0 7.4 0,4

Beklenmedik özellik değerlerini tespit edebilir misiniz?

Veri Sapması

Verilerinizde belirli grupların veya özelliklerin gerçek dünyadaki yaygınlıklarına kıyasla yetersiz veya fazla temsil edilen sapmalar, modelinize ağırlık verebilir.

Doğrulama programlama egzersizini tamamladıysanız, eğitim ve doğrulama kümelerine ayırmadan önce Kaliforniya konut veri kümesini rastgele hale getirmenin başarısız olmasının veri sapmasının nasıl ortaya çıktığını keşfettiğinizi hatırlayabilirsiniz. Şekil 1'de, yalnızca Kaliforniya'nın kuzeybatısını temsil eden tam veri kümesinden alınan bir veri alt kümesi görselleştirilmiştir.

Kaliforniya Konut veri kümesinden gelen verilerle yer paylaşımlı bir Kaliforniya eyalet haritası.
          Her nokta bir yapı taşını temsil eder. Noktalar, Kaliforniya'nın kuzeybatısında yer alır. Güney Kaliforniya'da ise hiçbir nokta yoktur ve verilerin coğrafi sapmaları gösterilir

Şekil 1. Kaliforniya Konut veri kümesinden gelen verilerle yer paylaşımlı Kaliforniya eyalet haritası. Her nokta, bir konut blokunu temsil eder. Renkler maviden kırmızıya doğru ve sırasıyla düşükten yükseğe doğru ortanca ev fiyatına karşılık gelir.

Bu temsili örnek, bir modeli eyalet genelinde Kaliforniya'daki konutların fiyatlarını tahmin etmek üzere eğitmek için kullanılmışsa Kaliforniya'nın güney kısımlarındaki konut verilerinin eksikliği sorun teşkil ederdi. Modelde kodlanan coğrafi ön yargı, temsil edilmeyen topluluklardaki ev alıcılarını olumsuz etkileyebilir.