Taraflı

Jigsaw ekibi Perspective API'nin kirlilik modelini ilk kez değerlendirdiğinde test verisi kümesinde iyi performans gösterdiğini tespit etti. Ancak eğitim verilerinde herhangi bir sistem hatası olması durumunda, ön yargının modelin tahminlerinde görünme ihtimalinin olduğu konusunda endişeliydiler. Eğitim veri kalitesini sağlamak amacıyla, gerçek kişilerden oluşan derecelendirmelerin doğru olup olmadığını kontrol etmek için bu etiketleri denetlemek gibi ek bir adım attılar.

Yine de modelin eğitim verilerindeki sapmaları ortadan kaldırmak için bu proaktif adımlara rağmen kullanıcılar kimlik terimlerini içeren yorumlarda yanlış pozitif bir sorun ortaya çıkardı. Bu nasıl oldu?

Eğitim grubunun ikinci bir denetiminde, ırk, din ve cinsiyet için kimlik terimleri içeren yorumların çoğunun zehirli olarak etiketlendiği ortaya çıktı. Bu etiketler doğruydu; bu kimlik terimlerini içeren çoğu online yorum gerçekten zehirliydi. Ancak bu sapmanın sonucunda, model bu kimlik terimlerinin varlığı ile zehirlilik arasında bir bağlantı olduğunu ve bu durumun terimlerin kendi nötr çağrışımlarını doğru bir şekilde yansıtmadığını öğrendi.

Ekip, modelin eğitim verilerinde kritik bir boşluk olduğunu fark etti: Gerçekliğin temel bir yönünü temsil etmek için yeterli eğitim verisinin olmadığı bir alan. Eğitim grubu, terimlerin tarafsız olduğunu ve önemli olduğu bağlamın hangi bağlamda kullanıldığını öğrenmek için modelin toksik olmayan kimlik yorumlarına yeterli miktarda örnek içermiyor.