Sınıflandırma: Doğruluk, geri çağırma, hassasiyet ve ilgili metrikler

Doğru ve yanlış pozitifler ile negatifler, modelleri değerlendirmek için çeşitli faydalı metrikleri hesaplamak amacıyla kullanılır. Hangi değerlendirme metriklerinin en anlamlı olduğu; modele, göreve, farklı yanlış sınıflandırmaların maliyetine ve veri kümesinin dengeli ya da dengesiz olmasına bağlıdır.

Bu bölümdeki tüm metrikler tek bir sabit eşikte hesaplanır ve eşik değiştiğinde değişir. Kullanıcı, genellikle bu metriklerden birini optimize etmek için eşiği ayarlar.

Doğruluk

Doğruluk, pozitif veya negatif olsun, doğru olan tüm sınıflandırmaların oranıdır. Matematiksel olarak şu şekilde tanımlanır:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Spam sınıflandırma örneğinde doğruluk, doğru sınıflandırılan tüm e-postaların oranını ölçer.

Mükemmel bir modelde sıfır yanlış pozitif ve sıfır yanlış negatif sonuç bulunur.Bu nedenle, doğruluk oranı 1, 0 veya %100 olur.

Karmaşıklık matrisindeki (TP, FP, TN, FN) dört sonucu da içerdiğinden, dengeli bir veri kümesi verildiğinde (her iki sınıfta da benzer sayıda örnekle) doğruluk, model kalitesinin kaba ölçüsü olarak kullanılabilir. Bu nedenle, genellikle genel veya belirtilmemiş görevleri gerçekleştiren genel ya da belirtilmemiş modeller için kullanılan varsayılan değerlendirme metriğidir.

Ancak veri kümesi dengesiz olduğunda veya bir tür hata (FN ya da FP) diğerinden daha maliyetli olduğunda (bu durum çoğu gerçek dünya uygulamasında geçerlidir) bunun yerine diğer metriklerden biri için optimizasyon yapmak daha iyidir.

Bir sınıfın çok nadiren (ör. zamanın %1'i) göründüğü, dengesiz veri kümelerinde, her zaman olumsuz tahmin yapan bir model, işe yaramamasına rağmen doğruluk açısından %99 puan alır.

Geri çağırma veya gerçek pozitif oranı

Gerçek pozitif oranı (TPR) veya tüm gerçek pozitiflerin doğru şekilde pozitif olarak sınıflandırılma oranı, geri çağırma olarak da bilinir.

Geri çağırma matematiksel olarak şu şekilde tanımlanır:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Yanlış negatifler, negatif olarak yanlış sınıflandırılmış gerçek pozitiflerdir. Bu nedenle paydada görünürler. Spam sınıflandırma örneğinde, hatırlama doğru şekilde spam olarak sınıflandırılan spam e-postaların oranını ölçer. Bu nedenle, hatırlama için kullanılan diğer ad algılama olasılığıdır. Bu metrik, "Bu model tarafından spam e-postaların ne kadarı algılanıyor?" sorusunu yanıtlar.

İdeal bir modelde sıfır yanlış negatif olur ve bu nedenle hatırlama (TPR) değeri 1,0 olur.Yani algılama oranı% 100'dür.

Gerçek pozitiflerin sayısının çok düşük olduğu dengesiz bir veri kümesinde, modelin tüm pozitif örnekleri doğru şekilde tanımlama becerisini ölçtüğü için hatırlama, doğruluktan daha anlamlı bir metriktir. Hastalık tahmini gibi uygulamalarda pozitif vakaların doğru şekilde tanımlanması çok önemlidir. Yanlış negatif genellikle yanlış pozitiften daha ciddi sonuçlara yol açar. Geri çağırma ve doğruluk metriklerini karşılaştıran somut bir örnek için geri çağırma tanımındaki notlara bakın.

Yanlış pozitif oranı

Yanlış pozitif oranı (YPO), yanlış bir şekilde pozitif olarak sınıflandırılan tüm gerçek negatiflerin oranıdır. Bu oran, yanlış alarm olasılığı olarak da bilinir. Matematiksel olarak şu şekilde tanımlanır:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Yanlış pozitifler, yanlış sınıflandırılmış gerçek negatiflerdir. Bu nedenle paydada görünürler. Spam sınıflandırması örneğinde, FPR yanlışlıkla spam olarak sınıflandırılan geçerli e-postaların oranını veya modelin yanlış alarm oranını ölçer.

Mükemmel bir modelde yanlış pozitif sonuç olmaz ve bu nedenle FPR değeri 0,0 olur.Bu da% 0 yanlış alarm oranı anlamına gelir.

Dengesiz bir veri kümesi için yanlış pozitif oranı (FPR) genellikle doğruluktan daha bilgilendirici bir metriktir. Ancak gerçek negatiflerin sayısı çok düşükse FPR, değişkenliği nedeniyle ideal bir seçenek olmayabilir. Örneğin, bir veri kümesinde yalnızca dört gerçek negatif varsa bir yanlış sınıflandırma %25 FPR ile sonuçlanır. İkinci bir yanlış sınıflandırma ise FPR'nin %50'ye yükselmesine neden olur. Bu gibi durumlarda, yanlış pozitiflerin etkilerini değerlendirmek için kesinlik (bir sonraki bölümde açıklanmıştır) daha dengeli bir metrik olabilir.

Hassasiyet

Kesinlik, modelin tüm pozitif sınıflandırmalarının gerçekte pozitif olanlarının oranıdır. Matematiksel olarak şu şekilde tanımlanır:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Spam sınıflandırması örneğinde, kesinlik spam olarak sınıflandırılan e-postaların gerçekte spam olan kısmını ölçer.

İdeal bir modelde yanlış pozitif sonuçlar olmaz ve bu nedenle hassasiyet 1,0 olur.

Gerçek pozitiflerin sayısının çok çok düşük olduğu dengesiz bir veri kümesinde (ör. toplamda 1-2 örnek) kesinlik, bir metrik olarak daha az anlamlı ve daha az kullanışlıdır.

Yanlış pozitifler azaldıkça hassasiyet artar. Yanlış negatifler azaldıkça ise geri çağırma artar. Ancak önceki bölümde görüldüğü gibi, sınıflandırma eşiğinin artırılması yanlış pozitif sayısını azaltma ve yanlış negatif sayısını artırma eğilimindeyken eşiğin düşürülmesi tam tersi etkilere neden olur. Bu nedenle, kesinlik ve hatırlama arasında genellikle ters bir ilişki vardır. Bunlardan birini iyileştirmek diğerini kötüleştirir.

Kendiniz deneyin:

Metrik seçimi ve denge unsurları

Modeli değerlendirirken ve eşik seçerken öncelik vermeyi tercih ettiğiniz metrikler, söz konusu sorunun maliyetlerine, faydalarına ve risklerine bağlıdır. Spam sınıflandırma örneğinde, tüm spam e-postaları yakalayarak geri çağırmaya veya spam olarak etiketlenen e-postaların gerçekten spam olmasını sağlamaya çalışarak kesinliğe ya da ikisinin bir dengesine, minimum doğruluk düzeyinin üzerinde öncelik vermek genellikle mantıklıdır.

Metrik Yönerge
Doğruluk

Dengeli veri kümeleri için model eğitiminin ilerleme durumunu/yakınsamayı kabaca gösteren bir gösterge olarak kullanılır.

Model performansı için yalnızca diğer metriklerle birlikte kullanın.

Dengesiz veri kümeleri için kaçının. Başka bir metrik kullanmayı deneyin.

Geri çağırma
(Gerçek pozitif oranı)
Yanlış negatifler, yanlış pozitiflerden daha maliyetli olduğunda kullanılır.
Yanlış pozitif oranı Yanlış pozitif sonuçlar, yanlış negatif sonuçlardan daha maliyetli olduğunda kullanılır.
Hassasiyet Pozitif tahminlerin doğru olması çok önemli olduğunda kullanın.

Alıştırma: Öğrendiklerinizi test etme

Bir model 5 DO, 6 GD, 3 YDO ve 2 YD çıkışı veriyor. Geri çağırmayı hesaplayın.
0,714
Geri çağırma şu şekilde hesaplanır: \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0,455
Geri çağırma, tüm doğru sınıflandırmaları değil, tüm gerçek pozitifleri dikkate alır. Geri çağırma formülü \(\frac{TP}{TP+FN}\)şeklindedir.
0,625
Geri çağırma, tüm pozitif sınıflandırmaları değil, tüm gerçek pozitifleri dikkate alır. Geri çağırma formülü şöyledir: \(\frac{TP}{TP+FN}\)
Bir model 3 TP, 4 TN, 2 FP ve 1 FN çıkışı veriyor. Hassasiyeti hesaplayın.
0,6
Hassasiyet, \(\frac{TP}{TP+FP}=\frac{3}{5}\)olarak hesaplanır.
0,75
Kesinlik, tüm pozitif sınıflandırmaları dikkate alır, tüm gerçek pozitifleri değil. Kesinlik formülü şöyledir: \(\frac{TP}{TP+FP}\).
0,429
Hassasiyet, tüm doğru sınıflandırmaları değil, tüm pozitif sınıflandırmaları dikkate alır. Kesinlik formülü şöyledir: \(\frac{TP}{TP+FP}\)
Zararlı istilacı türlerin varlığını kontrol etmek için böcek tuzaklarının fotoğraflarını inceleyen bir ikili sınıflandırıcı oluşturuyorsunuz. Model türü algılarsa görevdeki entomolog (böcek bilimci) bilgilendirilir. Bu böceğin erken tespit edilmesi, istilayı önlemek için kritik öneme sahiptir. Yanlış alarm (yanlış pozitif) kolayca ele alınabilir: Entomolog, fotoğrafın yanlış sınıflandırıldığını görür ve bunu işaretler. Kabul edilebilir bir doğruluk seviyesi olduğunu varsayarsak bu model hangi metrik için optimize edilmelidir?
Geri çağırma
Bu senaryoda yanlış alarmlar (FP) düşük maliyetli, yanlış negatifler ise yüksek maliyetlidir. Bu nedenle, hatırlamayı veya algılama olasılığını en üst düzeye çıkarmak mantıklıdır.
Yanlış pozitif oranı (FPR)
Bu senaryoda yanlış alarmlar (FP) düşük maliyetlidir. Gerçek pozitifleri kaçırma riskiyle bunları en aza indirmeye çalışmak mantıklı değildir.
Hassasiyet
Bu senaryoda, yanlış pozitifler (FP) özellikle zararlı değildir. Bu nedenle, pozitif sınıflandırmaların doğruluğunu artırmaya çalışmak mantıklı değildir.