Koleksiyonlar ile düzeninizi koruyun
İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.
Eğitim verilerinde bir önyargı kaynağı belirlendikten sonra, etkilerini azaltmak için proaktif adımlar atabiliriz. Makine öğrenimi (ML) mühendislerinin genellikle yanlılığı gidermek için uyguladığı iki ana strateji vardır:
Eğitim verilerini artırma.
Modelin kayıp işlevini ayarlama
Eğitim verilerini genişletme
Eğitim verilerinin denetlenmesi eksik, yanlış veya çarpıtılmış verilerle ilgili sorunlar ortaya çıkardıysa, sorunu çözmenin en kolay yolu genellikle ek veri toplamaktır.
Ancak eğitim verilerini artırmak ideal olabilir. Bununla birlikte, bu yaklaşımın dezavantajı, mevcut veri eksikliği veya veri toplamayı engelleyen kaynak kısıtlamaları nedeniyle uygulanamayabilmesidir. Örneğin, daha fazla veri toplamak çok maliyetli, çok zaman alıcı olabilir ya da yasal kısıtlamalar/gizlilik kısıtlamaları nedeniyle uygun olmayabilir.
Modelin optimizasyon işlevini ayarlama
Ek eğitim verileri toplanamadığında, önyargıyı azaltmak için izlenebilecek başka bir yaklaşım da model eğitimi sırasında kaybın nasıl hesaplanacağını ayarlamaktır. Yanlış model tahminlerini cezalandırmak için genellikle log kaybı gibi bir optimizasyon işlevi kullanırız. Ancak günlük kaybı, alt grup üyeliğini dikkate almaz. Bu nedenle, günlük kaybı kullanmak yerine, hataları adalete duyarlı bir şekilde cezalandırmak için tasarlanmış ve eğitim verilerimizde tespit ettiğimiz dengesizlikleri gideren bir optimizasyon işlevi seçebiliriz.
TensorFlow Model Düzeltme Kitaplığı, model eğitimi sırasında iki farklı önyargı azaltma tekniği uygulamak için yardımcı programlar sağlar:
MinDiff:
MinDiff, iki farklı veri dilimindeki (erkek/kadın öğrenciler ve cinsiyeti belirtmeyen öğrenciler) hataları dengelemek için iki grubun tahmin dağılımları arasındaki farklılıklara ceza ekleyerek çalışır.
Karşıt gerçeklik mantık eşleştirme:
Karşıt gerçeklik mantık eşleştirme (CLP), belirli bir örneğin hassas bir özelliğinin değiştirilmesinin, modelin söz konusu örnek için yaptığı tahmini değiştirmemesini sağlamayı amaçlar. Örneğin, bir eğitim veri kümesi, özellik değerleri aynı olan iki örnek içeriyorsa ancak bunlardan birinin gender değeri male, diğerinin gender değeri nonbinary ise bu iki örnek için tahminler farklıysa CLP bir ceza ekler.
Optimizasyon işlevini ayarlamak için seçtiğiniz teknikler, modelin kullanım alanlarına bağlıdır. Bir modeli adalet açısından değerlendirme görevine bu kullanım alanlarını göz önünde bulundurarak nasıl yaklaşacağınızı sonraki bölümde daha ayrıntılı olarak inceleyeceğiz.
Alıştırma: Anladığınızdan emin olun
Yanlılığı azaltma teknikleriyle ilgili aşağıdaki ifadelerden hangisi doğrudur?
Hem MinDiff hem de CLP, hassas özelliklere bağlı model performansındaki tutarsızlıkları cezalandırır
Her iki teknik de hassas özelliklerin eğitim verilerinde temsil edilme şekliyle ilgili dengesizliklerden kaynaklanan tahmin hatalarını cezalandırarak sapmayı azaltmayı amaçlar.
MinDiff, farklı veri dilimleri için tahminlerin genel dağılımındaki farklılıkları gözetirken CLP, tek tek örnek çiftleri için tahminlerdeki tutarsızlıklara ceza verir.
MinDiff, iki alt grubun puan dağılımını uyumlu hale getirerek önyargıyı giderir. CLP, tek tek örneklerin yalnızca alt grup üyelikleri nedeniyle farklı şekilde ele alınmamasını sağlayarak önyargıyı ortadan kaldırır.
Eğitim veri kümesine daha fazla örnek eklemek, modelin tahminlerindeki önyargıları gidermeye her zaman yardımcı olur.
Daha fazla eğitim örneği eklemek, yanlılığı azaltmak için etkili bir stratejidir ancak yeni eğitim verilerinin bileşimi önemlidir. Ek eğitim örnekleri, orijinal verilerle benzer dengesizlikler gösteriyorsa muhtemelen mevcut sapmanın azaltılmasına yardımcı olmayacaktır.
Daha fazla eğitim verisi ekleyerek önyargıyı azaltıyorsanız eğitim sırasında MinDiff veya CLP'yi de uygulamamanız gerekir.
Eğitim verilerini artırmak ve MinDiff veya CLP gibi teknikleri uygulamak birbirini tamamlayabilir. Örneğin, bir makine öğrenimi mühendisi, performanstaki tutarsızlığı %30 azaltmak için yeterli ek eğitim verisi toplayabilir ve daha sonra MinDiff'i kullanarak bu tutarsızlığı %50 daha azaltabilir.
[[["Anlaması kolay","easyToUnderstand","thumb-up"],["Sorunumu çözdü","solvedMyProblem","thumb-up"],["Diğer","otherUp","thumb-up"]],[["İhtiyacım olan bilgiler yok","missingTheInformationINeed","thumb-down"],["Çok karmaşık / çok fazla adım var","tooComplicatedTooManySteps","thumb-down"],["Güncel değil","outOfDate","thumb-down"],["Çeviri sorunu","translationIssue","thumb-down"],["Örnek veya kod sorunu","samplesCodeIssue","thumb-down"],["Diğer","otherDown","thumb-down"]],["Son güncelleme tarihi: 2024-11-10 UTC."],[[["Machine learning engineers use two primary strategies to mitigate bias in models: augmenting training data and adjusting the model's loss function."],["Augmenting training data involves collecting additional data to address missing, incorrect, or skewed data, but it can be infeasible due to data availability or resource constraints."],["Adjusting the model's loss function involves using fairness-aware optimization functions like MinDiff or Counterfactual Logit Pairing to penalize errors based on sensitive attributes and counteract imbalances in training data."],["MinDiff aims to balance errors between different data slices by penalizing differences in prediction distributions, while Counterfactual Logit Pairing penalizes discrepancies in predictions for similar examples with different sensitive attribute values."],["Choosing the right bias-mitigation technique depends on the specific use case of the model, and augmenting training data and adjusting the loss function can be used in conjunction for optimal bias reduction."]]],[]]