Makine Öğrenimi Terimleri Sözlüğü: Metrikler

Bu sayfada, Metrikler sözlüğündeki terimler yer almaktadır. Tüm terimler için burayı tıklayın.

A

doğruluk

#fundamentals
#Metric

Doğru sınıflandırma tahminlerinin toplam tahmin sayısına bölünmesiyle elde edilen değer. Yani:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Örneğin, 40 doğru ve 10 yanlış tahminde bulunan bir modelin doğruluk oranı şöyle olur:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

İkili sınıflandırma, doğru tahminler ve yanlış tahminler kategorileri için belirli adlar sağlar. Dolayısıyla, ikili sınıflandırma için doğruluk formülü aşağıdaki gibidir:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Bu örnekte:

Doğruluğu hassasiyet ve geri çağırma ile karşılaştırın.

Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Sınıflandırma: Doğruluk, geri çağırma, hassasiyet ve ilgili metrikler bölümüne bakın.

PR eğrisinin altındaki alan

#Metric

PR AUC (PR Eğrisinin altındaki alan) başlıklı makaleyi inceleyin.

ROC eğrisinin altındaki alan

#Metric

AUC (ROC eğrisinin altındaki alan) konusuna bakın.

AUC (ROC eğrisinin altındaki alan)

#fundamentals
#Metric

İkili sınıflandırma modelinin pozitif sınıfları negatif sınıflardan ayırma yeteneğini gösteren 0,0 ile 1,0 arasında bir sayı. AUC ne kadar 1, 0'a yakınsa modelin sınıfları birbirinden ayırma yeteneği o kadar iyidir.

Örneğin, aşağıdaki görselde pozitif sınıfları (yeşil ovaller) negatif sınıflardan (mor dikdörtgenler) mükemmel şekilde ayıran bir sınıflandırıcı modeli gösterilmektedir. Gerçekçi olmayan bu mükemmel modelin AUC değeri 1,0'dur:

Bir tarafında 8 olumlu örnek, diğer tarafında 9 olumsuz örnek bulunan bir sayı çizgisi.

Buna karşılık, aşağıdaki görselde rastgele sonuçlar oluşturan bir sınıflandırıcı modelinin sonuçları gösterilmektedir. Bu modelin AUC değeri 0,5'tir:

6 pozitif ve 6 negatif örnek içeren bir sayı çizgisi.
          Örneklerin sırası şu şekildedir: olumlu, olumsuz, olumlu, olumsuz, olumlu, olumsuz, olumlu, olumsuz, olumlu, olumsuz, olumlu, olumsuz.

Evet, önceki modelin AUC değeri 0,0 değil 0,5'tir.

Çoğu model bu iki uç nokta arasındadır. Örneğin, aşağıdaki model pozitifleri negatiflerden bir derece ayırdığından AUC değeri 0,5 ile 1,0 arasındadır:

6 pozitif ve 6 negatif örnek içeren bir sayı çizgisi.
          Örneklerin sırası şu şekildedir: negatif, negatif, negatif, negatif, olumlu, negatif, olumlu, olumlu, negatif, olumlu, olumlu, olumlu.

AUC, sınıflandırma eşiği için ayarladığınız tüm değerleri yoksayar. Bunun yerine AUC, olası sınıflandırma eşiklerinin tümünü dikkate alır.

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Sınıflandırma: ROC ve AUC bölümüne bakın.

k değerinde ortalama hassasiyet

#language
#Metric

Bir modelin, sıralanmış sonuçlar (ör. kitap önerilerinin numaralandırılmış listesi) oluşturan tek bir istemdeki performansını özetleyen metrik. k değerinde ortalama hassasiyet, her ilgili sonuç için k değerinde hassasiyet değerlerinin ortalamasıdır. Bu nedenle, k için ortalama hassasiyet formülü şu şekildedir:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

Bu örnekte:

  • \(n\) , listedeki alakalı öğelerin sayısıdır.

k'de hatırla ile karşılaştırın.

B

referans değer

#Metric

Başka bir modelin (genellikle daha karmaşık bir model) ne kadar iyi performans gösterdiğini karşılaştırmak için referans noktası olarak kullanılan bir model. Örneğin, mantıksal regresyon modeli, derin model için iyi bir referans değer olabilir.

Belirli bir sorun için referans değer, model geliştiricilerin yeni modelin yararlı olması için yeni modelin elde etmesi gereken minimum beklenen performansı ölçmesine yardımcı olur.

C

maliyet

#Metric

Kayıp ile eş anlamlıdır.

karşıt gerçeklik adaleti

#fairness
#Metric

Bir sınıflandırıcının, bir veya daha fazla hassas özellik dışında, bir kişi için ilk kişiyle aynı olan başka bir kişi için aynı sonucu verip vermediğini kontrol eden bir adaletlilik metriği. Bir sınıflandırıcıyı karşıt gerçeklik adaleti açısından değerlendirmek, bir modeldeki olası önyargı kaynaklarını ortaya çıkarmanın yöntemlerinden biridir.

Daha fazla bilgi için aşağıdakilerden birini inceleyin:

çapraz entropi

#Metric

Log kaybının çok sınıflı sınıflandırma sorunları için genelleştirilmiş hali. Çapraz entropi, iki olasılık dağılımı arasındaki farkı ölçer. Ayrıca şaşkınlık konusuna da bakın.

Kümülatif dağılım işlevi (KDF)

#Metric

Hedef değere eşit veya hedef değerden küçük örneklerin sıklığını tanımlayan bir işlev. Örneğin, sürekli değerlerin normal dağılımını düşünün. CDF, örneklerin yaklaşık% 50'sinin ortalamanın altında veya ortalamaya eşit, örneklerin yaklaşık% 84'ünün ise ortalamanın bir standart sapma üzerinde veya ortalamaya eşit olması gerektiğini gösterir.

D

demografik eşitlik

#fairness
#Metric

Bir modelin sınıflandırmasının sonuçları belirli bir hassas özelliğe bağlı değilse karşılanan bir adaletlilik metriği.

Örneğin, hem Lilliputlular hem de Brobdingnaglılar Glubbdubdrib Üniversitesi'ne başvurursa, bir grubun diğerinden ortalama olarak daha nitelikli olup olmadığına bakılmaksızın, kabul edilen Lilliputlular yüzdesi ile kabul edilen Brobdingnaglılar yüzdesi aynı olduğunda demografik eşitlik sağlanır.

Eşit olasılıklar ve fırsat eşitliği ile karşılaştırıldığında, toplu sınıflandırma sonuçlarının hassas özelliklere bağlı olmasına izin verir ancak belirli belirtilen gerçek doğruluk etiketlerinin sınıflandırma sonuçlarının hassas özelliklere bağlı olmasına izin vermez. Demografik eşitlik için optimizasyon yaparken yapılan trade-off'ları gösteren bir görselleştirme için "Daha akıllı makine öğrenimiyle ayrımcılığa karşı mücadele etme" başlıklı makaleyi inceleyin.

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Adil olma: demografik eşitlik bölümüne bakın.

E

toprak işleyicinin mesafesi (EMD)

#Metric

İki dağılımın göreli benzerliğinin ölçümüdür. Toprağı hareket ettiren aracın mesafesi ne kadar düşükse dağılımlar o kadar benzer olur.

mesafeyi düzenleme

#language
#Metric

İki metin dizesinin birbirine ne kadar benzediğinin ölçümü. Makine öğrenimindeki düzenleme mesafesi şu nedenlerle yararlıdır:

  • Düzenleme mesafesinin hesaplanması kolaydır.
  • Düzenleme mesafesi, birbirine benzer olduğu bilinen iki dizeyi karşılaştırabilir.
  • Düzenleme mesafesi, farklı dizelerin belirli bir dizeye ne kadar benzediğini belirleyebilir.

Düzenleme mesafesinin her biri farklı dize işlemleri kullanan birkaç tanımı vardır. Örnek için Levenshtein mesafesi başlıklı makaleyi inceleyin.

deneysel kümülatif dağılım işlevi (eCDF veya EDF)

#Metric

Gerçek bir veri kümesinden alınan deneysel ölçümlere dayalı bir kümülatif dağılım fonksiyonu. x eksenindeki herhangi bir noktada işlevin değeri, veri kümesindeki gözlemlerin belirtilen değerden az veya eşit olan kesridir.

entropi

#df
#Metric

Bilgi teorisinde, olasılık dağılımının ne kadar tahmin edilemez olduğunun açıklaması. Alternatif olarak entropi, her örnek'in ne kadar bilgi içerdiği olarak da tanımlanır. Bir rastgele değişkenin tüm değerlerinin olasılığı eşit olduğunda dağılım mümkün olan en yüksek entropi değerine sahiptir.

"0" ve "1" olmak üzere iki olası değere sahip bir kümenin entropisi (örneğin, ikili sınıflandırma problemindeki etiketler) aşağıdaki formüle sahiptir:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Bu örnekte:

  • H entropidir.
  • p, "1" örneklerinin kesridir.
  • q, "0" örneklerinin kesridir. q = (1 - p) olduğunu unutmayın.
  • log genellikle log2'dir. Bu durumda entropi birimi bittir.

Örneğin, aşağıdakileri varsayalım:

  • 100 örnek "1" değerini içerir
  • 300 örnek "0" değerini içeriyor

Bu nedenle, entropi değeri:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = örnek başına 0,81 bit

Mükemmel şekilde dengelenmiş bir kümenin (örneğin, 200 "0" ve 200 "1") örnek başına entropisi 1,0 bit olur. Bir küme daha dengeli hale geldikçe entropisi 0, 0'a doğru hareket eder.

Karar ağaçlarında entropi, sınıflandırma karar ağacının büyümesi sırasında ayırıcı'nın koşulları seçmesine yardımcı olmak için bilgi kazancını formüle etmeye yardımcı olur.

Entropiyi şu verilerle karşılaştırın:

Entropi genellikle Shannon entropisi olarak adlandırılır.

Daha fazla bilgi için Karar Ağaçları kursunda Sayısal özelliklere sahip ikili sınıflandırma için tam bölücü bölümüne bakın.

fırsat eşitliği

#fairness
#Metric

Bir modelin, hassas bir özelliğin tüm değerleri için istenen sonucu eşit derecede iyi tahmin edip etmediğini değerlendirmek üzere kullanılan bir adaletlilik metriği. Diğer bir deyişle, bir model için istenen sonuç pozitif sınıf ise hedef, gerçek pozitif oranının tüm gruplar için aynı olmasını sağlamaktır.

Fırsat eşitliği, eşitleştirilmiş olasılıklar ile ilgilidir. Bu, hem gerçek pozitif oranlarının hem de yanlış pozitif oranlarının tüm gruplar için aynı olmasını gerektirir.

Glubbdubdrib Üniversitesi'nin hem Lilliputluları hem de Brobdingnaglıları titiz bir matematik programına kabul ettiğini varsayalım. Lilliput'un ortaokullarında zengin bir matematik müfredatı sunulur ve öğrencilerin büyük çoğunluğu üniversite programına uygundur. Brobdingnag'ın ortaokullarında matematik dersleri hiç verilmez. Bu nedenle, öğrencilerinin çok azı bu programa uygundur. Uygun öğrencilerin Lilliputian veya Brobdingnagian olmalarından bağımsız olarak kabul edilme olasılıkları eşitse, vatandaşlığa göre tercih edilen "kabul edildi" etiketi için fırsat eşitliği sağlanır.

Örneğin, Glubbdubdrib Üniversitesi'ne 100 Lilliput ve 100 Brobdingnag öğrenci başvurduğunu ve kabul kararlarının aşağıdaki gibi verildiğini varsayalım:

Tablo 1. Lilliputian başvuru sahipleri (%90'ı uygundur)

  Uygun Uygun Değil
Kabul edildi 45 3
Reddedildi 45 7
Toplam 90 10
Kabul edilen uygun öğrencilerin yüzdesi: 45/90 =%50
Kabul edilmeyen uygun olmayan öğrencilerin yüzdesi: 7/10 =%70
Kabul edilen Lilliputian öğrencilerin toplam yüzdesi: (45+3)/100 = %48

 

Tablo 2. Dev başvuru sahipleri (%10'u uygundur):

  Uygun Uygun Değil
Kabul edildi 5 9
Reddedildi 5 81
Toplam 10 90
Kabul edilen uygun öğrencilerin yüzdesi: 5/10 =%50
Kabul edilmeyen uygun olmayan öğrencilerin yüzdesi: 81/90 =%90
Kabul edilen Brobdingnagian öğrencilerin toplam yüzdesi: (5+9)/100 = %14

Yukarıdaki örneklerde, uygun Lilliput ve Brobdingnag vatandaşlarının kabul edilme şansı% 50 olduğundan uygun öğrencilerin kabulü için fırsat eşitliği sağlanmaktadır.

Fırsat eşitliği sağlanmış olsa da aşağıdaki iki adalet metriği sağlanmamıştır:

  • Demografik eşitlik: Lilliput ve Brobdingnag sakinleri üniversiteye farklı oranlarda kabul edilir. Lilliput sakinlerinin% 48'i, Brobdingnag sakinlerinin ise yalnızca% 14'ü kabul edilir.
  • Eşit olasılıklar: Uygun Lilliput ve Brobdingnag öğrencilerinin kabul edilme şansı aynı olsa da, uygun olmayan Lilliput ve Brobdingnag öğrencilerinin reddedilme şansının da aynı olması koşulu karşılanmaz. Uygun olmayan Lilliputian'ların ret oranı% 70 iken uygun olmayan Brobdingnag'ların ret oranı% 90'tır.

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Adil olma: Fırsat eşitliği bölümüne bakın.

eşitlenmiş oranlar

#fairness
#Metric

Bir modelin, yalnızca bir sınıfa değil, hem pozitif sınıf hem de negatif sınıf ile ilgili olarak hassas bir özelliğin tüm değerleri için sonuçları eşit derecede iyi tahmin edip etmediğini değerlendirmek üzere kullanılan adalet metriği. Diğer bir deyişle, hem doğru pozitif oranı hem de yanlış negatif oranı tüm gruplar için aynı olmalıdır.

Eşitlenmiş oranlar, yalnızca tek bir sınıfın (pozitif veya negatif) hata oranlarına odaklanan fırsat eşitliği ile ilgilidir.

Örneğin, Glubbdubdrib Üniversitesi'nin hem Lilliputluları hem de Brobdingnaglıları sıkı bir matematik programına kabul ettiğini varsayalım. Lilliputians'ın ortaokullarında zengin bir matematik müfredatı sunulur ve öğrencilerin büyük çoğunluğu üniversite programına uygundur. Brobdingnag'ın ortaokullarında hiç matematik dersi verilmez. Bu nedenle, öğrencilerinin çok azı bu programa uygundur. Eşitlenmiş olasılıklar, başvuru sahibinin Lilliputian veya Brobdingnagian olması fark etmeksizin, uygun olan adayların programa kabul edilme olasılığının eşit olması ve uygun olmayan adayların reddedilme olasılığının eşit olması koşuluyla sağlanır.

Glubbdubdrib Üniversitesi'ne 100 Lilliput ve 100 Brobdingnag öğrenci başvurduğunu ve kabul kararlarının aşağıdaki şekilde alındığını varsayalım:

Tablo 3. Lilliputian başvuru sahipleri (%90'ı uygundur)

  Uygun Uygun Değil
Kabul edildi 45 2
Reddedildi 45 8
Toplam 90 10
Kabul edilen uygun öğrencilerin yüzdesi: 45/90 =%50
Kabul edilmeyen uygunsuz öğrencilerin yüzdesi: 8/10 =%80
Kabul edilen Lilliputian öğrencilerin toplam yüzdesi: (45+2)/100 = %47

 

Tablo 4. Dev başvuru sahipleri (%10'u uygundur):

  Uygun Uygun Değil
Kabul edildi 5 18
Reddedildi 5 72
Toplam 10 90
Kabul edilen uygun öğrencilerin yüzdesi: 5/10 =%50
Kabul edilmeyen uygun olmayan öğrencilerin yüzdesi: 72/90 =%80
Kabul edilen Brobdingnagian öğrencilerin toplam yüzdesi: (5+18)/100 = %23

Uygun Lilliput ve Brobdingnag öğrencilerinin kabul edilme şansı% 50, uygun olmayan Lilliput ve Brobdingnag öğrencilerinin reddedilme şansı ise% 80 olduğundan eşitlenmiş olasılıklar sağlanır.

Eşitlenmiş olasılıklar, "Gözetimli Öğrenmede Fırsat Eşitliği" başlıklı makalede şu şekilde tanımlanmıştır: "Ŷ ve A bağımsızsa, Y koşuluyla Ŷ öngörücüsü, korunan özellik A ve sonuç Y ile ilgili eşitlenmiş olasılıkları karşılar."

evals

#language
#generativeAI
#Metric

Öncelikle LLM değerlendirmeleri için kısaltma olarak kullanılır. Daha geniş bir açıdan bakıldığında evals, değerlendirme biçimlerinin kısaltmasıdır.

değerlendirme

#language
#generativeAI
#Metric

Bir modelin kalitesini ölçme veya farklı modelleri birbiriyle karşılaştırma işlemi.

Bir gözetimli makine öğrenimi modelini değerlendirmek için genellikle doğrulama kümesi ve test kümesi ile karşılaştırırsınız. LLM'yi değerlendirme genellikle daha kapsamlı kalite ve güvenlik değerlendirmelerini içerir.

C

F1

#Metric

Hem hassasiyet hem de geri çağırma metriklerini temel alan bir "toplama" ikili sınıflandırma metriği. Formül şu şekildedir:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

adalet metriği

#fairness
#Metric

"Adalet"in ölçülebilir olan matematiksel bir tanımı. Yaygın olarak kullanılan adalet metriklerinden bazıları şunlardır:

Birçok adalet metriği birbirini dışlar. Adalet metriklerinin uyumsuzluğu başlıklı makaleyi inceleyin.

yanlış negatif (FN)

#fundamentals
#Metric

Modelin yanlışlıkla negatif sınıfı tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta mesajının spam olmadığını (negatif sınıf) tahmin ediyor ancak söz konusu e-posta mesajı aslında spam.

yanlış negatif oranı

#Metric

Modelin yanlışlıkla negatif sınıfı tahmin ettiği gerçek pozitif örneklerin oranı. Aşağıdaki formül, yanlış negatif oranı hesaplar:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Eşikler ve karışıklık matrisi bölümüne bakın.

yanlış pozitif (FP)

#fundamentals
#Metric

Modelin yanlışlıkla pozitif sınıfı tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta mesajının spam (pozitif sınıf) olduğunu tahmin eder ancak söz konusu e-posta mesajı aslında spam değildir.

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Eşikler ve karışıklık matrisi bölümüne bakın.

yanlış pozitif oranı (FPR)

#fundamentals
#Metric

Modelin yanlışlıkla pozitif sınıfı tahmin ettiği gerçek negatif örneklerin oranı. Aşağıdaki formül, yanlış pozitif oranını hesaplar:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Yanlış pozitif oranı, ROC eğrisinde x eksenidir.

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Sınıflandırma: ROC ve AUC bölümüne bakın.

özellik önem düzeyleri

#df
#Metric

Değişken önemleri için eş anlamlı.

başarı oranı

#generativeAI
#Metric

Bir yapay zeka modelinin oluşturulan metnini değerlendirmek için kullanılan bir metriktir. Başarı oranı, oluşturulan "başarılı" metin çıktılarının toplam oluşturulan metin çıktısı sayısına bölünmesiyle elde edilir. Örneğin, bir büyük dil modeli 10 kod bloğu oluşturduysa ve bunların beşi başarılı olduysa başarı oranı %50 olur.

Başarı oranı, istatistikler genelinde geniş bir şekilde faydalı olsa da makine öğrenimi kapsamında bu metrik, öncelikle kod oluşturma veya matematik problemleri gibi doğrulanabilir görevleri ölçmek için faydalıdır.

G

gini safsızlık

#df
#Metric

Entropy'ye benzer bir metrik. Bölücüler, sınıflandırma karar ağaçları için koşullar oluşturmak amacıyla gini safsızlık veya entropi değerlerinden türetilen değerleri kullanır. Bilgi kazancı entropi temellidir. Gini safsızlıktan türetilen metrik için evrensel olarak kabul edilen eşdeğer bir terim yoktur. Ancak bu adsız metrik, bilgi kazancı kadar önemlidir.

Gini safsızlık oranı, gini endeksi veya kısaca gini olarak da bilinir.

H

menteşe kaybı

#Metric

Sınıflandırma için karar sınırını her eğitim örneğinden mümkün olduğunca uzakta bulmak üzere tasarlanmış bir kayıp işlevi ailesidir. Böylece, örnekler ile sınır arasındaki marjı en üst düzeye çıkarır. KSVM'ler, menteşe kaybını (veya kare menteşe kaybı gibi ilgili bir işlevi) kullanır. İkili sınıflandırma için menteşe kaybı işlevi aşağıdaki gibi tanımlanır:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

Burada y, -1 veya +1 olan gerçek etiket, y' ise sınıflandırıcı modelinin ham çıkışıdır:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Sonuç olarak, menteşe kaybının (y * y') ile karşılaştırmalı grafiği aşağıdaki gibi görünür:

İki birleştirilmiş çizgi segmentinden oluşan Kartezyen nokta grafiği. İlk çizgi segmenti (-3, 4) ile başlar ve (1, 0) ile biter. İkinci çizgi segmenti (1, 0) noktasında başlar ve eğimi 0 olan bir çizgiyle sonsuza kadar devam eder.

I

adalet metriklerinin uyumsuzluğu

#fairness
#Metric

Bazı adalet kavramlarının birbirine uymadığı ve aynı anda karşılanamayacağı fikri. Sonuç olarak, tüm makine öğrenimi sorunlarına uygulanabilecek, adaleti ölçmek için tek bir evrensel metrik yoktur.

Bu durum cesaret kırıcı görünse de adalet metriklerinin uyumsuzluğu, adalet çabalarının sonuçsuz olduğu anlamına gelmez. Bunun yerine, adalet kavramının bağlamsal olarak tanımlanması gerektiğini, böylece kullanım alanlarına özgü zararların önlenmesi gerektiğini öne sürüyor.

Adil olma metriklerinin uyumsuzluğu hakkında daha ayrıntılı bir tartışma için "Adil olmanın (im)mkansızlığı hakkında" başlıklı makaleyi inceleyin.

Bireysel adalet

#fairness
#Metric

Benzer kişilerin benzer şekilde sınıflandırılıp sınıflandırılmadığını kontrol eden bir adalet metriği. Örneğin, Brobdingnagian Akademisi, aynı notlara ve standartlaştırılmış sınav puanlarına sahip iki öğrencinin kabul edilme olasılığının eşit olmasını sağlayarak bireysel adaleti sağlamak isteyebilir.

Bireysel adaletin tamamen "benzerlik"i (bu durumda notlar ve sınav puanları) nasıl tanımladığınıza bağlı olduğunu ve benzerlik metriğiniz önemli bilgileri (ör. bir öğrencinin müfredatının titizliği) göz ardı ederse yeni adalet sorunları ortaya çıkarma riskiyle karşı karşıya kalabileceğinizi unutmayın.

Bireysel adalet hakkında daha ayrıntılı bilgi için "Farkındalık

bilgi kazancı

#df
#Metric

Karar ağaçlarında, bir düğümün entropisi ile alt düğümlerinin entropisinin ağırlıklı (örnek sayısına göre) toplamı arasındaki farktır. Bir düğümün entropisi, söz konusu düğümdeki örneklerin entropisidir.

Örneğin, aşağıdaki entropi değerlerini ele alalım:

  • Üst düğümün entropisi = 0,6
  • 16 alakalı örnek içeren bir alt düğümün entropisi = 0,2
  • 24 alakalı örnek içeren başka bir alt düğümün entropisi = 0,1

Dolayısıyla örneklerin% 40'ı bir alt düğümde, %60'ı ise diğer alt düğümdedir. Bu nedenle:

  • Alt düğümlerin ağırlıklı entropi toplamı = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Dolayısıyla bilgi kazancı şu şekildedir:

  • bilgi kazancı = üst öğenin entropisi - alt öğelerin ağırlıklı entropi toplamı
  • Bilgi kazancı = 0,6 - 0,14 = 0,46

Çoğu ayırıcı, bilgi kazanımını en üst düzeye çıkaran koşullar oluşturmaya çalışır.

değerlendiriciler arası anlaşma

#Metric

İnsan puanlayıcıların bir görevi yaparken ne sıklıkta anlaştığının ölçümü. Değerlendiriciler aynı fikirde değilse görev talimatlarının iyileştirilmesi gerekebilir. Bazen notlandırıcılar arası anlaşma veya değerlendiriciler arası güvenilirlik olarak da adlandırılır. Ayrıca, en popüler değerlendiriciler arası anlaşma ölçümlerinden biri olan Cohen kappasına da bakın.

Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Kategorik veriler: Sık karşılaşılan sorunlar bölümüne bakın.

L

L1 kaybı

#fundamentals
#Metric

Gerçek etiket değerleri ile bir modelin tahmin ettiği değerler arasındaki farkın mutlak değerini hesaplayan bir kayıp işlevi. Örneğin, beş örnek içeren bir grup için L1 kaybının hesaplanması aşağıda verilmiştir:

Örneğin gerçek değeri Modelin tahmini değeri Deltanın mutlak değeri
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 mağlubiyeti

L1 kaybı, L2 kaybına kıyasla aykırı değerlere karşı daha az hassastır.

Ortalama Mutlak Hata, örnek başına ortalama L1 kaybıdır.

Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Doğrusal regresyon: Kayıp bölümüne bakın.

L2 kaybı

#fundamentals
#Metric

Gerçek etiket değerleri ile bir modelin tahmin ettiği değerler arasındaki farkın karesini hesaplayan bir kayıp işlevi. Örneğin, beş örnek içeren bir grup için L2 kaybının hesaplanması aşağıda verilmiştir:

Örneğin gerçek değeri Modelin tahmini değeri Deltanın karesi
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 mağlubiyet

Kare alma işlemi nedeniyle L2 kaybı, aykırı değerlerin etkisini artırır. Yani L2 kaybı, kötü tahminlere L1 kaybına kıyasla daha güçlü tepki verir. Örneğin, önceki toplu işlem için L1 kaybı 16 yerine 8 olur. Tek bir aykırı değerin 16 değerin 9'unu oluşturduğuna dikkat edin.

Regresyon modelleri genellikle kayıp işlevi olarak L2 kaybını kullanır.

Ortalama Karesel Hata, örnek başına ortalama L2 kaybıdır. Kare kaybı, L2 kaybının başka bir adıdır.

Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Mantıksal regresyon: Kayıp ve normalleştirme bölümüne bakın.

LLM değerlendirmeleri (evals)

#language
#generativeAI
#Metric

Büyük dil modellerinin (LLM'ler) performansını değerlendirmeye yönelik bir dizi metrik ve karşılaştırma. Genel olarak LLM değerlendirmeleri:

  • Araştırmacıların, LLM'lerin iyileştirilmesi gereken alanlarını belirlemesine yardımcı olun.
  • Farklı LLM'leri karşılaştırmak ve belirli bir görev için en iyi LLM'yi belirlemek için yararlıdır.
  • LLM'lerin güvenli ve etik bir şekilde kullanılmasına yardımcı olma

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Büyük dil modelleri (LLM'ler) bölümüne bakın.

mağlubiyet

#fundamentals
#Metric

Gözetimli bir modelin eğitimi sırasında, modelin tahmininin etiketinden ne kadar uzak olduğunu gösteren bir ölçümdür.

Kayıp işlevi, kaybı hesaplar.

Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Doğrusal regresyon: Kayıp bölümüne bakın.

kayıp fonksiyonu

#fundamentals
#Metric

Eğitim veya test sırasında, bir toplu örnekteki kaybı hesaplayan matematiksel işlev. Kayıp işlevi, iyi tahminler yapan modeller için kötü tahminler yapan modellere kıyasla daha düşük bir kayıp döndürür.

Eğitimin amacı genellikle bir kayıp işlevinin döndürdüğü kaybı en aza indirmektir.

Birçok farklı kayıp fonksiyonu vardır. Oluşturduğunuz model türü için uygun kayıp işlevini seçin. Örneğin:

M

Ortalama Mutlak Hata (MAE)

#Metric

L1 kaybı kullanıldığında örnek başına ortalama kayıp. Ortalama mutlak hatayı aşağıdaki gibi hesaplayın:

  1. Bir toplu işlem için L1 kaybını hesaplama
  2. L1 kaybını, gruptaki örneklerin sayısına bölün.

Örneğin, aşağıdaki beş örnekten oluşan grupta L1 kaybının hesaplamasını ele alalım:

Örneğin gerçek değeri Modelin tahmini değeri Kayıp (gerçek ve tahmin edilen arasındaki fark)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 mağlubiyeti

Dolayısıyla L1 kaybı 8 ve örnek sayısı 5'tir. Bu nedenle, ortalama mutlak hata:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Ortalama mutlak hatayı ortalama karesel hata ve kök ortalama karesel hata ile karşılaştırın.

k değerinde ortalama hassasiyet (mAP@k)

#language
#generativeAI
#Metric

Doğrulama veri kümesinde tüm k için ortalama hassasiyet puanlarının istatistiksel ortalaması. k değerinde ortalama hassasiyetin bir kullanım alanı, öneri sistemi tarafından oluşturulan önerilerin kalitesini değerlendirmektir.

"Ortalama ortalama" ifadesi gereksiz görünse de metriğin adı uygundur. Sonuçta bu metrik, birden fazla k değerinde ortalama kesinlik değerinin ortalamasını bulur.

Ortalama Karesel Hata (MSE)

#Metric

L2 kaybı kullanıldığında örnek başına ortalama kayıp. Ortalama karesel hatayı aşağıdaki gibi hesaplayın:

  1. Bir toplu işlem için L2 kaybını hesaplama
  2. L2 kaybını, gruptaki örneklerin sayısına bölün.

Örneğin, aşağıdaki beş örnekten oluşan gruptaki kaybı ele alalım:

Gerçek değer Modelin tahmini Kayıp Kare kaybı
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 mağlubiyet

Bu nedenle, ortalama karesel hata:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Ortalama Karesel Hata, özellikle doğrusal regresyon için popüler bir eğitim optimizasyon aracıdır.

Ortalama karesel hatayı ortalama mutlak hata ve kök ortalama kare hatasıyla karşılaştırın.

TensorFlow Playground, kayıp değerlerini hesaplamak için Ortalama Kare Hata değerini kullanır.

metrik

#TensorFlow
#Metric

Önemsediğiniz bir istatistik.

Hedef, bir makine öğrenimi sisteminin optimize etmeye çalıştığı bir metriktir.

Metrics API (tf.metrics)

#Metric

Modelleri değerlendirmek için bir TensorFlow API'si. Örneğin, tf.metrics.accuracy, bir modelin tahminlerinin etiketlerle ne sıklıkta eşleştiğini belirler.

minimax kaybı

#Metric

Oluşturulan verilerin dağılımı ile gerçek verilerin dağılımı arasındaki çapraz entropi değerine dayalı üretici zıt ağlar için kayıp işlevi.

Minimax kaybı, üretken zıt ağları açıklamak için ilk makalede kullanılır.

Daha fazla bilgi için Üretken Düşman Ağlar kursundaki Kayıp İşlevleri bölümüne bakın.

model kapasitesi

#Metric

Bir modelin öğrenebileceği sorunların karmaşıklığı. Bir modelin öğrenebileceği sorunların karmaşıklığı arttıkça modelin kapasitesi de artar. Bir modelin kapasitesi genellikle model parametrelerinin sayısıyla artar. Sınıflandırıcı kapasitesinin resmi tanımı için VC boyutu başlıklı makaleyi inceleyin.

H

negatif sınıf

#fundamentals
#Metric

İkili sınıflandırmada bir sınıf pozitif, diğeri ise negatif olarak adlandırılır. Pozitif sınıf, modelin test ettiği şey veya etkinliktir ve negatif sınıf diğer olasılıktır. Örneğin:

  • Bir tıbbi testteki negatif sınıf "tümör değil" olabilir.
  • Bir e-posta sınıflandırıcısındaki negatif sınıf "spam değil" olabilir.

Pozitif sınıf ile karşılaştırın.

O

hedef

#Metric

Algoritmanızın optimize etmeye çalıştığı bir metrik.

hedef işlevi

#Metric

Bir modelin optimize etmeyi amaçladığı matematiksel formül veya metrik. Örneğin, doğrusal regresyon için hedef işlevi genellikle ortalama kare kaybıdır. Bu nedenle, doğrusal regresyon modeli eğitilirken eğitim, ortalama kare kaybını en aza indirmeyi amaçlar.

Bazı durumlarda amaç, hedef işlevi maksimuma çıkarmaktır. Örneğin, hedef işlevi doğruluk ise hedef, doğruluğu en üst düzeye çıkarmaktır.

Ayrıca loss özelliğine bakın.

P

k'da geçiş (pass@k)

#Metric

Büyük dil modelinin oluşturduğu kodun (ör. Python) kalitesini belirlemek için kullanılan metrik. Daha ayrıntılı olarak belirtmek gerekirse, k değerinde geçme, k adet oluşturulan kod bloğundan en az birinin tüm birim testlerini geçme olasılığını belirtir.

Büyük dil modelleri, karmaşık programlama sorunları için genellikle iyi kod oluşturmakta zorlanır. Yazılım mühendisleri, büyük dil modelinden aynı sorun için birden fazla (k) çözüm üretmesini isteyerek bu soruna uyum sağlar. Ardından yazılım mühendisleri, çözümlerin her birini birim testleriyle test eder. k değerinde geçmenin hesaplanması, birim testlerinin sonucuna bağlıdır:

  • Bu çözümlerden en az biri birim testini geçerse LLM, kod oluşturma zorluğunu geçer.
  • Çözümlerin hiçbiri birim testini geçemezse LLM, kod oluşturma mücadelesini başarısız olur.

k'ta geçiş için formül aşağıdaki gibidir:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

Genel olarak, k değerleri ne kadar yüksek olursa k puanları da o kadar yüksek olur. Ancak k değerleri ne kadar yüksek olursa o kadar büyük dil modeli ve birim testi kaynağı gerekir.

performans

#Metric

Aşağıdaki anlamlara sahip olan aşırı yüklenmiş terim:

  • Yazılım mühendisliğindeki standart anlam. Yani: Bu yazılım ne kadar hızlı (veya verimli) çalışıyor?
  • Makine öğrenimindeki anlamı. Burada performans, şu soruya yanıt verir: Bu model ne kadar doğru? Yani, modelin tahminleri ne kadar iyi?

permütasyon değişkeni önemleri

#df
#Metric

Özelliğin değerlerini permütasyona tabi tuttuktan sonra bir modelin tahmin hatasındaki artışı değerlendiren bir değişken önemi türü. Permütasyon değişkeni önemi, modelden bağımsız bir metriktir.

şaşkınlık

#Metric

Bir modelin görevini ne kadar iyi yerine getirdiğini gösteren bir ölçümdür. Örneğin, kullanıcının telefon klavyesinde yazdığı bir kelimenin ilk birkaç harfini okumak ve kelimeyi tamamlamak için kullanılabilecek kelimelerin listesini sunmak göreviniz olduğunu varsayalım. Bu görev için kafa karışıklığı (P), listenizin kullanıcının yazmaya çalıştığı gerçek kelimeyi içermesi için sunmanız gereken tahmin sayısına yaklaşık olarak eşittir.

Kafa karışıklığı, çapraz entropi ile aşağıdaki şekilde ilişkilidir:

$$P= 2^{-\text{cross entropy}}$$

pozitif sınıf

#fundamentals
#Metric

Test ettiğiniz sınıf.

Örneğin, bir kanser modelindeki pozitif sınıf "tümör" olabilir. Bir e-posta sınıflandırıcısındaki pozitif sınıf "spam" olabilir.

Negatif sınıf ile karşılaştırın.

PR AUC (PR eğrisinin altındaki alan)

#Metric

Sınıflandırma eşiğinin farklı değerleri için noktaların (geri çağırma, hassasiyet) çizilmesiyle elde edilen, hassasiyet/geri çağırma eğrisinin altındaki alan.

precision

#Metric

Aşağıdaki soruyu yanıtlayan sınıflandırma modelleri için bir metrik:

Model pozitif sınıfı tahmin ettiğinde tahminlerin yüzde kaçı doğruydu?

Formül şu şekildedir:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

Bu örnekte:

  • Gerçek pozitif, modelin pozitif sınıfı doğru tahmin ettiği anlamına gelir.
  • Yanlış pozitif, modelin pozitif sınıfı yanlışlıkla tahmin ettiği anlamına gelir.

Örneğin, bir modelin 200 pozitif tahminde bulunduğunu varsayalım. Bu 200 olumlu tahminden:

  • 150'i gerçek pozitifti.
  • 50'si yanlış pozitifti.

Bu durumda:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Doğruluk ve geri çağırma ile karşılaştırın.

Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Sınıflandırma: Doğruluk, geri çağırma, hassasiyet ve ilgili metrikler bölümüne bakın.

k değerinde hassasiyet (precision@k)

#language
#Metric

Sıralı (sıralı) bir öğe listesini değerlendirmek için kullanılan bir metrik. k değerinde hassasiyet, söz konusu listedeki ilk k öğenin "alakalı" olan kısmını tanımlar. Yani:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

k değerinin, döndürülen listenin uzunluğundan az veya buna eşit olması gerekir. Döndürülen listenin uzunluğunun hesaplamaya dahil edilmediğini unutmayın.

Alaka düzeyi genellikle özneldir. Uzman değerlendiriciler bile hangi öğelerin alakalı olduğu konusunda genellikle aynı fikirde değildir.

Şununla karşılaştır:

hassasiyet/geri çağırma eğrisi

#Metric

Farklı sınıflandırma eşiklerinde hassasiyet ve geri çağırma arasındaki ilişkiyi gösteren eğri.

Tahmin önyargısı

#Metric

Tahminlerin ortalamasının, veri kümesindeki etiketlerin ortalamasından ne kadar uzak olduğunu gösteren bir değer.

Makine öğrenimi modellerindeki önyargı terimi veya etik ve adaletle ilgili önyargı ile karıştırılmamalıdır.

tahmini eşleşme

#fairness
#Metric

Belirli bir sınıflandırıcı için hassasiyet oranlarının, ele alınan alt gruplar için eşdeğer olup olmadığını kontrol eden bir adaletlilik metriği.

Örneğin, üniversite kabulünü tahmin eden bir model, Lilliputians ve Brobdingnagians için doğruluk oranı aynıysa vatandaşlık için tahmini eşitliği karşılar.

Tahmini eşleşme bazen tahmini ücret eşleşmesi olarak da adlandırılır.

Tahmini eşitlik hakkında daha ayrıntılı bilgi için "Adil Oluş Tanımları Açıklandı" başlıklı makaleyi (3.2.1 numaralı bölüm) inceleyin.

tahmini ücret dengesi

#fairness
#Metric

Tahmini eşleşme için başka bir ad.

olasılık yoğunluk fonksiyonu

#Metric

Tam olarak belirli bir değere sahip veri örneklerinin sıklığını tanımlayan bir işlev. Bir veri kümesinin değerleri kesintisiz kayan noktalı sayılar olduğunda tam eşleşmeler nadiren gerçekleşir. Ancak, olasılık yoğunluk işlevini x değerinden y değerine entegrasyonu, x ile y arasındaki veri örneklerinin beklenen sıklığını verir.

Örneğin, ortalaması 200 ve standart sapması 30 olan normal bir dağılımı ele alalım. 211,4 ile 218,7 aralığına düşen veri örneklerinin beklenen sıklığını belirlemek için 211,4 ile 218,7 arasındaki normal dağılım için olasılık yoğunluk işlevini entegre edebilirsiniz.

K

hatırlanabilirlik

#Metric

Aşağıdaki soruyu yanıtlayan sınıflandırma modelleri için bir metrik:

Kesin referans pozitif sınıf olduğunda model, tahminlerin yüzde kaçında pozitif sınıfı doğru olarak tanımladı?

Formül şu şekildedir:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

Bu örnekte:

  • Gerçek pozitif, modelin pozitif sınıfı doğru tahmin ettiği anlamına gelir.
  • Yanlış negatif, modelin negatif sınıfı yanlışlıkla tahmin ettiği anlamına gelir.

Örneğin, modelinizin kesin referansı pozitif sınıf olan örneklerde 200 tahmin yaptığını varsayalım. Bu 200 tahminden:

  • 180'i gerçek pozitifti.
  • 20 tanesi yanlış negatifti.

Bu durumda:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Daha fazla bilgi için Sınıflandırma: Doğruluk, geri çağırma, hassasiyet ve ilgili metrikler başlıklı makaleyi inceleyin.

k değerinde geri çağırma (recall@k)

#language
#Metric

Sıralı (sıralı) bir öğe listesi yayınlayan sistemleri değerlendirmek için kullanılan bir metrik. k'ta geri çağırma, listelenen ilk k öğedeki alakalı öğelerin, döndürülen toplam alakalı öğe sayısına oranını tanımlar.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

k değerinde hassasiyet ile kontrast.

ROC (alıcı çalışma özelliği) eğrisi

#fundamentals
#Metric

İkili sınıflandırmada farklı sınıflandırma eşikleri için gerçek pozitif oranı ve yanlış pozitif oranı grafiği.

ROC eğrisinin şekli, ikili sınıflandırma modelinin pozitif sınıfları negatif sınıflardan ayırma yeteneğini gösterir. Örneğin, bir ikili sınıflandırma modelinin tüm negatif sınıfları tüm pozitif sınıflardan mükemmel şekilde ayırdığını varsayalım:

Sağ tarafta 8 pozitif örnek ve solda 7 negatif örnek içeren bir sayı çizgisi.

Önceki modelin ROC eğrisi aşağıdaki gibi görünür:

ROC eğrisi. X ekseni yanlış pozitif oranı, y ekseni ise gerçek pozitif orandır. Eğri, ters L şeklindedir. Eğri (0,0,0) ile başlar ve doğrudan (0,0,1) değerine gider. Ardından eğri (0,0; 1,0) noktasından (1,0; 1,0) noktasına gider.

Buna karşılık, aşağıdaki görselde, negatif sınıfları pozitif sınıflardan ayıramayan kötü bir modelin ham mantıksal regresyon değerleri grafik halinde gösterilmektedir:

Pozitif örneklerin ve negatif sınıfların tamamen birbirine karıştığı bir sayı çizgisi.

Bu modelin ROC eğrisi aşağıdaki gibi görünür:

Aslında (0,0) ile (1,1) arasında bir doğru olan ROC eğrisi.

Bu arada gerçek dünyada, çoğu ikili sınıflandırma modeli pozitif ve negatif sınıfları bir dereceye kadar ayırır ancak genellikle mükemmel bir şekilde ayırmaz. Bu nedenle, tipik bir ROC eğrisi iki uç nokta arasında bir yere düşer:

ROC eğrisi. X ekseni yanlış pozitif oranı, y ekseni ise gerçek pozitif orandır. ROC eğrisi, pusulayı batıdan kuzeye doğru kesen sarsıntılı bir yayın yaklaşık bir temsilidir.

ROC eğrisinde (0,0; 1,0) noktasına en yakın nokta, teorik olarak ideal sınıflandırma eşiğini tanımlar. Ancak gerçek dünyadaki diğer bazı sorunlar, ideal sınıflandırma eşiğinin seçimini etkiler. Örneğin, yanlış negatifler yanlış pozitiflerden çok daha fazla soruna yol açıyor olabilir.

AUC adlı sayısal metrik, ROC eğrisini tek bir kayan nokta değeri olarak özetler.

Kök ortalama kare hatası (RMSE)

#fundamentals
#Metric

Ortalama Karesel Hatanın karekökü.

ROUGE (Tahmin Değerlendirmesi İçin Hatırlama Odaklı Yardımcı)

#language
#Metric

Otomatik özetleme ve makine çevirisi modellerini değerlendiren bir metrik ailesi. ROUGE metrikleri, bir referans metninin bir yapay zeka modelinin oluşturulan metniyle örtüşme derecesini belirler. ROUGE ailesinin her üyesi, çakışma ölçümlerini farklı bir şekilde gerçekleştirir. Daha yüksek ROUGE puanları, referans metin ile oluşturulan metin arasında daha düşük ROUGE puanlarına kıyasla daha fazla benzerlik olduğunu gösterir.

Her ROUGE aile üyesi genellikle aşağıdaki metrikleri oluşturur:

  • Hassasiyet
  • Geri çağırma
  • F1

Ayrıntılar ve örnekler için:

ROUGE-L

#language
#Metric

Referans metin ve oluşturulan metin içindeki en uzun ortak alt dizinin uzunluğuna odaklanan ROUGE ailesinin bir üyesidir. Aşağıdaki formüller, ROUGE-L için geri çağırma ve kesinliği hesaplar:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Ardından, ROUGE-L geri çağırma ve ROUGE-L doğruluğunu tek bir metriğe toplamak için F1 kullanabilirsiniz:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L, referans metin ve oluşturulan metindeki tüm yeni satırları yoksayar. Bu nedenle, en uzun ortak alt dize birden fazla cümleyi kapsayabilir. Referans metin ve oluşturulan metin birden fazla cümle içeriyorsa genellikle ROUGE-L'nin ROUGE-Lsum adlı bir varyasyonu daha iyi bir metriktir. ROUGE-Lsum, bir pasajdaki her cümle için en uzun ortak alt dizeyi belirler ve ardından bu en uzun ortak alt dizilerin ortalamasını hesaplar.

ROUGE-N

#language
#Metric

ROUGE ailesindeki bir metrik grubu. Referans metin ile oluşturulan metin arasındaki belirli boyuttaki ortak N-gramları karşılaştırır. Örneğin:

  • ROUGE-1, referans metin ile oluşturulan metinde paylaşılan jetonların sayısını ölçer.
  • ROUGE-2, referans metin ile oluşturulan metinde paylaşılan bigramların (2 gram) sayısını ölçer.
  • ROUGE-3, referans metin ile oluşturulan metinde ortak üçlü grupların (üçlü gruplar) sayısını ölçer.

ROUGE-N ailesinin herhangi bir üyesi için ROUGE-N geri çağırma ve ROUGE-N hassasiyetini hesaplamak üzere aşağıdaki formülleri kullanabilirsiniz:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Ardından, ROUGE-N geri çağırma ve ROUGE-N doğruluğunu tek bir metriğe toplamak için F1 kullanabilirsiniz:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROGUE-S

#language
#Metric

Skip-gram eşlemesini etkinleştiren, ROUGE-N'in hoşgörülü bir biçimidir. Yani ROUGE-N yalnızca tam olarak eşleşen N-gramları sayarken ROUGE-S bir veya daha fazla kelimeyle ayrılmış N-gramları da sayar. Örneğin aşağıdakileri göz önünde bulundurabilirsiniz:

ROUGE-N hesaplanırken 2 gramlık Beyaz bulutlar, Beyaz bulutlar ile eşleşmez. Ancak ROUGE-S hesaplanırken Beyaz bulutlar, Beyaz bulutlar ile eşleşir.

R-kare

#Metric

Bir etiketteki varyasyonun ne kadarının tek bir özellikten veya özellik grubundan kaynaklandığını gösteren bir regresyon metriği. R-kare, 0 ile 1 arasında bir değerdir ve aşağıdaki şekilde yorumlanabilir:

  • 0 olan R-kare değeri, etiketin varyasyonlarının hiçbirinin özellik grubundan kaynaklanmadığı anlamına gelir.
  • 1 olan R-kare değeri, bir etiketin tüm varyasyonunun özellik grubundan kaynaklandığı anlamına gelir.
  • 0 ile 1 arasında bir R-kare değeri, etiketin varyasyonunun belirli bir özellikten veya özellik grubundan ne kadar tahmin edilebileceğini gösterir. Örneğin, 0,10'luk bir R-kare değeri, etiketteki varyansın yüzde 10'unun özellik grubundan kaynaklandığı anlamına gelir. 0,20'lik bir R-kare değeri ise yüzde 20'sinin özellik grubundan kaynaklandığı anlamına gelir.

R kare, bir modelin tahmin ettiği değerler ile kesin referans arasındaki Pearson korelasyon katsayısının karesidir.

S

puanlama

#recsystems
#Metric

Öneri sisteminin, aday oluşturma aşamasında üretilen her öğe için bir değer veya sıralama sağlayan kısmı.

benzerlik ölçümü

#clustering
#Metric

Gruplandırma algoritmalarında, iki örneğin birbirine ne kadar benzediğini (ne kadar benzer olduğunu) belirlemek için kullanılan metrik.

seyreklik

#Metric

Bir vektör veya matriste sıfır (veya boş) olarak ayarlanan öğelerin sayısının, söz konusu vektör veya matristeki toplam giriş sayısına bölünmesiyle elde edilen değer. Örneğin, 98 hücresinin sıfır içerdiği 100 öğeli bir matrisi düşünün. Seyrekliğin hesaplanması aşağıdaki gibidir:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Özellik seyrekliği, bir özellik vektörünün seyrekliğini ifade eder. Model seyrekliği ise model ağırlıklarının seyrekliğini ifade eder.

kareli menteşe kaybı

#Metric

Mengene kaybının karesi. Kare eklem kaybı, aykırı değerleri normal eklem kaybına kıyasla daha sert şekilde cezalandırır.

kare kaybı

#fundamentals
#Metric

L2 kaybı ile eş anlamlıdır.

T

test kaybı

#fundamentals
#Metric

Bir modelin test veri kümesine göre kayıp değerini temsil eden bir metrik. Model oluştururken genellikle test kaybını en aza indirmeye çalışırsınız. Bunun nedeni, düşük test kaybının düşük eğitim kaybı veya düşük doğrulama kaybı olduğundan daha güçlü bir kalite sinyali olmasıdır.

Test kaybı ile eğitim kaybı veya doğrulama kaybı arasındaki büyük bir fark, bazen normalleştirme oranını artırmanız gerektiğini gösterir.

en iyi k doğruluğu

#language
#Metric

Oluşturulan listelerin ilk k konumunda bir "hedef etiketinin" görünme yüzdesi. Listeler, kişiselleştirilmiş öneriler veya softmax'e göre sıralanmış öğelerin listesi olabilir.

En yüksek k doğruluğu, k doğruluğu olarak da bilinir.

toksik

#language
#Metric

İçeriğin kötüye kullanım amaçlı, tehdit edici veya rahatsız edici olma derecesi. Birçok makine öğrenimi modeli, toksisiteyi tespit edip ölçebilir. Bu modellerin çoğu, toksikliği kötüye kullanım amaçlı dil ve tehdit edici dil düzeyi gibi birden fazla parametreyle tanımlar.

eğitim kaybı

#fundamentals
#Metric

Belirli bir eğitim iterasyonunda modelin kayıp değerini temsil eden bir metrik. Örneğin, kayıp işlevinin ortalama kare hatası olduğunu varsayalım. 10.iterasyon için eğitim kaybı (ortalama kare hata) 2,2 ve 100.iterasyon için eğitim kaybı 1,9 olabilir.

Kayıp eğrisi, eğitim kaybını iterasyon sayısına göre gösterir. Kayıp eğrisi, eğitimle ilgili aşağıdaki ipuçlarını sağlar:

  • Aşağı doğru bir eğim, modelin iyileştiğini gösterir.
  • Yukarı doğru bir eğim, modelin kötüye gittiğini gösterir.
  • Düz bir eğim, modelin yakınsamaya ulaştığını gösterir.

Örneğin, aşağıdaki biraz idealize edilmiş kayıp eğrisi şunu gösterir:

  • İlk iterasyonlar sırasında hızlı bir model iyileşmesi anlamına gelen dik bir aşağı eğim.
  • Eğitimin sonuna yakın bir zamana kadar kademeli olarak düzleşen (ancak yine de aşağı doğru) bir eğim. Bu, modelin ilk iterasyonlara kıyasla biraz daha yavaş bir hızda iyileşmeye devam ettiğini gösterir.
  • Eğimin eğitim sonuna doğru düzleşmesi, yakınsama olduğunu gösterir.

Eğitim kaybının yinelemelere göre grafiği. Bu kayıp eğrisi, dik bir aşağı eğimle başlar. Eğim, sıfır olana kadar kademeli olarak düzleşir.

Eğitim kaybı önemli olsa da genelleştirme konusuna da göz atın.

Doğru negatif (TN)

#fundamentals
#Metric

Modelin negatif sınıfı doğru tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta mesajının spam olmadığını tahmin eder ve bu e-posta mesajı gerçekten spam değildir.

gerçek pozitif (TP)

#fundamentals
#Metric

Modelin pozitif sınıfı doğru tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta iletisinin spam olduğunu tahmin eder ve bu e-posta iletisi gerçekten spam olur.

gerçek pozitif oranı (TPR)

#fundamentals
#Metric

Hatırlama ile eş anlamlıdır. Yani:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Gerçek pozitif oran, ROC eğrisinde y eksenidir.

V

doğrulama kaybı

#fundamentals
#Metric

Belirli bir iterasyonda modelin doğrulama kümesindeki kayıp değerini temsil eden bir metrik.

Genelleştirme eğrisi konusuna da göz atın.

değişken önemleri

#df
#Metric

Her bir özelliğin modele göreli önemini gösteren bir puan grubu.

Örneğin, ev fiyatlarını tahmin eden bir karar ağacını düşünün. Bu karar ağacında üç özellik kullanıldığını varsayalım: beden, yaş ve stil. Üç özellik için değişken önem değerleri {beden=5,8, yaş=2,5, stil=4,7} olarak hesaplanırsa beden, karar ağacı için yaş veya stilden daha önemlidir.

ML uzmanlarını modellerin farklı yönleri hakkında bilgilendirebilecek farklı değişken önem metrikleri vardır.

W

Wasserstein kaybı

#Metric

Oluşturulan verilerin dağılımı ile gerçek veriler arasındaki yer değiştirici mesafesini temel alan, üretici zıt ağlarda yaygın olarak kullanılan kayıp işlevlerinden biridir.