Bu sayfa, Cloud Translation API ile çevrilmiştir.

Makine Öğrenimi Sözlüğü

Bu sözlükte, genel makine öğrenimi terimleri ve TensorFlow'a özgü terimler açıklanmaktadır.

CEVAP

çıkarma

Bir özelliğin veya bileşenin önemini, onu bir modelden geçici olarak kaldırarakdeğerlendiren bir tekniktir. Daha sonra, modeli bu özellik veya bileşen olmadan yeniden eğitiyorsunuz ve yeniden eğitilen modelin performansı çok daha kötüyse kaldırılan özellik veya bileşen muhtemelen önemli bir unsurdur.

Örneğin, 10 özellik üzerinde bir sınıflandırma modeli eğittiğinizi ve test kümesinde% 88 kesinlik elde ettiğinizi varsayalım. İlk özelliğin önemini kontrol etmek için yalnızca diğer dokuz özelliği kullanarak modeli yeniden eğitebilirsiniz. Yeniden eğitilen model önemli ölçüde daha kötü performans gösteriyorsa (örneğin, %55 hassasiyet) kaldırılan özellik muhtemelen önemli olmuştur. Tersine, yeniden eğitilen modelin performansı eşit düzeydeyse bu özellik muhtemelen o kadar önemli değildir.

Ablasyon, şunların önemini belirlemeye de yardımcı olabilir:

Daha büyük bir ML sisteminin alt sisteminin tamamı gibi daha büyük bileşenler
Verilerin ön işleme adımı gibi işlemler veya teknikler

Her iki durumda da, bileşeni kaldırdıktan sonra sistem performansının nasıl değiştiğini (veya değişmediğini) gözlemlersiniz.

A/B testi

İki (veya daha fazla) teknik olan A ve B tekniklerini karşılaştırmanın istatistiksel bir yolu. Genellikle A mevcut bir teknik, B ise yeni bir tekniktir. A/B testi yalnızca hangi tekniğin daha iyi performans gösterdiğini belirlemekle kalmaz, aynı zamanda aradaki farkın istatistiksel açıdan anlamlı olup olmadığını da belirler.

A/B testi genellikle iki teknikte tek bir metriği karşılaştırır. Örneğin, iki teknikte model doğruluğu nasıl karşılaştırılır? Ancak A/B testi, sınırlı sayıda metrikleri de karşılaştırabilir.

hızlandırıcı çipi

#GoogleCloud

Derin öğrenme algoritmaları için gereken anahtar hesaplamalarını yapmak üzere tasarlanmış özel donanım bileşenleri kategorisi.

Hızlandırıcı çipler (veya kısaca hızlandırıcılar), genel amaçlı bir CPU'ya kıyasla eğitim ve çıkarım görevlerinin hızını ve verimliliğini önemli ölçüde artırabilir. Nöral ağları ve benzer işlem odaklı görevleri eğitmek için idealdir.

Hızlandırıcı çiplerine örnek olarak aşağıdakiler verilebilir:

Google'ın derin öğrenmeye yönelik özel donanıma sahip Tensor İşlem Birimleri (TPU'lar).
NVIDIA'nın GPU'ları, başlangıçta grafik işleme için tasarlanmış olsa da işlem hızını önemli ölçüde artırabilecek paralel işlemeyi mümkün kılacak şekilde tasarlanmıştır.

doğruluk

#fundamentals

Doğru sınıflandırma tahminlerinin sayısının toplam tahmin sayısına bölünmesiyle elde edilen değer. Yani:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Örneğin, 40 doğru ve 10 yanlış tahminde bulunan bir model aşağıdaki doğruluk oranına sahip olur:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

İkili sınıflandırma, farklı doğru tahmin ve yanlış tahmin kategorileri için özel adlar sağlar. Dolayısıyla, ikili sınıflandırmanın doğruluk formülü aşağıdaki gibidir:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Bu örnekte:

TP, doğru pozitiflerin sayısıdır (doğru tahminler).
TN, doğru negatiflerin (doğru tahminler) sayısıdır.
FP, yanlış pozitiflerin (yanlış tahminler) sayısıdır.
FN, yanlış negatiflerin (yanlış tahminler) sayısıdır.

Hassasiyet ve geri çağırma özellikleriyle doğrulukları karşılaştırın.

Ek notlar için simgeyi tıklayın.

Bazı durumlar için değerli bir metrik olsa da doğruluk oranı diğerleri için çok yanıltıcı olabilir. Özellikle doğruluk, sınıf dengesiz veri kümelerini işleyen sınıflandırma modellerini değerlendirirken genellikle zayıf bir metriktir.

Örneğin, belirli bir subtropikal şehirde her yüzyılda yalnızca 25 gün kar düştüğünü varsayalım. Kar bulunmayan gün sayısı (negatif sınıf) karlı günlerin sayısı (pozitif sınıf) çoktan fazla olduğundan bu şehrin karla ilgili veri kümesi sınıf dengeli değildir. Her gün kar yağışı ya da hiç kar olmadığını tahmin etmesi gerekirken yalnızca her gün "kar yok" tahmininde bulunan bir ikili sınıflandırma modeli düşünün. Bu modelin doğruluk oranı çok yüksek olsa da tahmin gücü yoktur. Aşağıdaki tabloda, bir asırlık tahmine ait sonuçlar özetlenmektedir:

Kategori	Sayı
TP	0
TN	36500
FP	25
FN	0

Dolayısıyla bu modelin doğruluğu:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

%99, 93 doğruluk oranı çok etkileyici gibi görünse de modelin henüz tahmin gücü yoktur.

Hassasiyet ve geri çağırma, sınıf dengeli veri kümelerinde eğitilen modellerin değerlendirilmesinde genellikle doğruluktan daha faydalı metriklerdir.

işlem

#rl

Pekiştirmeli öğrenmede, aracının ortam durumları arasında geçişini sağlayan mekanizma. Temsilci, bir politika kullanarak işlemi seçer.

aktivasyon fonksiyonu

#fundamentals

Nöral ağların, özellikler ile etiket arasındaki doğrusal olmayan (karmaşık) ilişkileri öğrenmesini sağlayan bir işlev.

Popüler etkinleştirme işlevleri şunlardır:

ReLU
Sigmoid

Aktivasyon fonksiyonlarının grafikleri hiçbir zaman tek düz çizgiler değildir. Örneğin, ReLU aktivasyon işlevinin grafiği iki düz çizgiden oluşur:

İki çizginin kartezyen grafiği. İlk çizginin y sabit değeri 0'dır. Bu değer, x ekseni boyunca -sonsuzluktan 0'a,0,-0'a kadar devam eder.
İkinci satır 0,0'dan başlar. Bu çizginin eğimi +1'dir. Dolayısıyla 0,0 ile +sonsuz ve sonsuz arasında değişir.

Sigmoid aktivasyon işlevinin grafiği aşağıdaki gibi görünür:

-sonsuz ile +pozitif alan arasında, y değerleri ise neredeyse 0 ile neredeyse 1 aralığında yer alan x değerlerine sahip iki boyutlu eğri grafik. x 0 olduğunda y 0, 5'tir. Eğrinin eğimi her zaman pozitiftir.En yüksek eğim 0, 0,5 olur ve x'in mutlak değeri arttıkça eğimleri de kademeli olarak azalır.

Bir örnek görmek için simgeyi tıklayın.

Bir sinir ağında, aktivasyon işlevleri tüm girişlerin ağırlıklı toplamını bir nörona değiştirir. Nöron, ağırlıklı bir toplam hesaplamak için ilgili değerler ve ağırlıkların ürünlerini toplar. Örneğin, bir nöronla ilgili girişin aşağıdakilerden oluştuğunu varsayalım:

giriş değeri	giriş ağırlığı
2	-1,3
-1	0,6
3	0,4

Dolayısıyla, ağırlıklı toplam şu şekilde olur:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Bu nöral ağın tasarımcısının sigmoid işlevini etkinleştirme işlevi olarak seçtiğini varsayalım. Bu durumda nöron, -2,0 olan sigmoidi yaklaşık olarak 0,12 olarak hesaplar. Bu nedenle, nöron nöral ağdaki bir sonraki katmana 0,12 (-2,0 yerine) geçirir. Aşağıdaki şekilde sürecin ilgili bölümü gösterilmektedir:

aktif öğrenim

Algoritmanın öğrendiği verilerin bir kısmını seçtiği eğitim yaklaşımıdır. Aktif öğrenim, özellikle etiketli örnekler nadir veya pahalı olduğunda değerlidir. Etkin bir öğrenme algoritması, körü körüne farklı etiketlenmiş örnekleri aramak yerine, öğrenmek için ihtiyaç duyduğu belirli örnek aralığını seçerek arar.

AdaGrad

Her bir parametrenin gradyanlarını yeniden ölçeklendiren ve her parametreye etkili şekilde bağımsız bir öğrenme hızı veren gelişmiş bir gradyan iniş algoritması. Tam açıklama için bu AdaGrad makalesine bakın.

temsilci

#rl

Pekiştirmeli öğrenmede, ortamın durumları arasında geçişten elde edilen beklenen getiriyi en üst düzeye çıkarmak için bir politika kullanan varlık.

Daha genel anlamda, aracı, bir hedef doğrultusunda bir dizi eylemi otomatik olarak planlayan ve yürüten, ayrıca çevresindeki değişikliklere uyum sağlayabilme yeteneğine sahip olan bir yazılımdır. Örneğin, LLM tabanlı aracılar, pekiştirmeli öğrenme politikası uygulamak yerine bir plan oluşturmak için LLM'yi kullanabilir.

toplu kümeleme

#clustering

Hiyerarşik kümeleme bölümünü inceleyin.

anormallik algılama

aykırı değerleri belirleme süreci. Örneğin, belirli bir özelliğin ortalama değeri 100 ve standart sapma 10 ise anormallik algılama, 200 değerini şüpheli olarak işaretlemelidir.

AR

Artırılmış gerçeklik'in kısaltması.

PR eğrisinin altındaki alan

PR AUC (PR Eğrinin altındaki alan) bölümüne bakın.

ROC eğrisinin altındaki alan

AUC (ROC eğrisinin altındaki alan) konusunu inceleyin.

yapay genel zeka

Çok çeşitli problem çözme, yaratıcılık ve uyum becerileri gösteren, insanlara özgü olmayan bir mekanizma. Örneğin, yapay genel zekayı gösteren bir program metinleri çevirebilir, senfoniler yazabilir ve henüz icat edilmemiş oyunlarda uzmanlaşabilir.

yapay zeka

#fundamentals

Karmaşık görevleri çözebilen, insan kaynaklı olmayan bir program veya model. Örneğin, metinleri çeviren bir program veya model ya da hastalıkları radyolojik görüntülerle tespit eden program veya modellerin her ikisi de yapay zeka sergiler.

Makine öğrenimi, resmi olarak yapay zekanın bir alt alanıdır. Ancak son yıllarda bazı kuruluşlar yapay zeka ve makine öğrenimi terimlerini birbirinin yerine kullanmaya başladı.

dikkat

#language

Nöral ağda kullanılan ve belirli bir kelimenin veya bir kelimenin bir kısmının önemini gösteren mekanizma. Dikkat, bir modelin bir sonraki jetonu/kelimeyi tahmin etmek için ihtiyaç duyduğu bilgi miktarını sıkıştırır. Tipik bir dikkat mekanizması, bir dizi giriş üzerinde ağırlıklı toplamdan oluşur. Bu yöntemde her bir girişin ağırlığı, nöral ağın başka bir bölümü tarafından hesaplanır.

Transformer'ın yapı taşları olan kendi kendine dikkat ve çok başlı kendine dikkat özelliklerini de inceleyin.

özellik

#fairness

feature ile eş anlamlı.

Makine öğrenimi adaletinde, özellikler genellikle bireylerle ilişkili özellikleri ifade eder.

özellik örnekleme

#df

Her karar ağacının durumu öğrenirken yalnızca olası özelliklerin rastgele bir alt kümesini dikkate aldığı bir karar ormanı eğitme taktiği. Genellikle her düğüm için farklı bir özellik alt kümesi örneklenir. Öte yandan, özellik örnekleme olmadan bir karar ağacını eğitirken her düğüm için olası tüm özellikler dikkate alınır.

AUC (ROC eğrisinin altındaki alan)

#fundamentals

İkili sınıflandırma modelinin pozitif sınıfları negatif sınıflardan ayırma becerisini temsil eden 0,0 ile 1,0 arasında bir sayı. AUC 1, 0'a ne kadar yakın olursa modelin sınıfları birbirinden ayırma becerisi de o kadar iyi olur.

Örneğin, aşağıdaki çizimde pozitif sınıfları (yeşil oval) negatif sınıflardan (mor dikdörtgenler) mükemmel şekilde ayıran bir sınıflandırıcı modeli gösterilmektedir. Bu gerçekçi olmayan mükemmel modelin EYO'su 1,0'dır:

Bir tarafta 8 pozitif, diğer tarafta 9 negatif örnek içeren bir sayı doğrusu.

Buna karşılık, aşağıdaki resimde rastgele sonuçlar üreten bir sınıflandırıcı modelinin sonuçları gösterilmektedir. Bu modelin AUC'si 0,5'tir:

6 pozitif ve 6 negatif örnek içeren bir sayı doğrusu.
Örnek dizisi pozitif, negatif, pozitif, negatif, pozitif, negatif, pozitif, negatif, pozitif negatif, pozitif, negatiftir.

Evet, önceki modelin AUC'si 0,0 değil 0,5'tir.

Çoğu model, iki uç nokta arasında bir yerdedir. Örneğin, aşağıdaki model pozitifleri negatiflerden bir şekilde ayırır ve bu nedenle AUC'si 0,5 ile 1,0 arasında bir değere sahiptir:

6 pozitif ve 6 negatif örnek içeren bir sayı doğrusu.
Örnek dizisi negatif, negatif, negatif, negatif, pozitif, negatif, pozitif, pozitif, negatif, pozitif, pozitif, pozitiftir.

AUC, sınıflandırma eşiği için belirlediğiniz tüm değerleri yoksayar. Bunun yerine, AUC olası tüm sınıflandırma eşiklerini dikkate alır.

AUC ve ROC eğrileri arasındaki ilişki hakkında bilgi edinmek için simgeyi tıklayın.

AUC, ROC eğrisinin altındaki alanı temsil eder. Örneğin, pozitifleri negatiflerden mükemmel bir şekilde ayıran bir modelin ROC eğrisi aşağıdaki gibi görünür:

AUC, önceki resimde gri bölgenin alanıdır. Normal olmayan bu durumda alan, gri bölgenin uzunluğunun (1,0) gri bölgenin genişliğiyle (1,0) çarpımıdır. Dolayısıyla 1,0 ve 1,0 çarpımı sonucunda tam olarak 1,0'lık bir AUC elde edilir. Bu, mümkün olan en yüksek EUC puanıdır.

Tersine, sınıfları hiç ayıramayan bir sınıflandırıcının ROC eğrisi aşağıdaki gibidir. Bu gri bölgenin alanı 0,5'tir.

Daha tipik bir ROC eğrisi yaklaşık olarak şöyle görünür:

Bu eğrinin altındaki alanı manuel olarak hesaplamak zahmetli olabilir. Bu nedenle, bir program genellikle çoğu AUC değerini hesaplar.

AUC'nin daha resmi tanımı için simgeyi tıklayın.

EAA, bir sınıflandırıcının rastgele seçilen bir pozitif örneğin pozitif bir örneğin pozitif olduğundan daha emin olma olasılığıdır.

artırılmış gerçeklik

#image

Bilgisayar tarafından oluşturulmuş bir görüntüyü kullanıcının gerçek dünyaya bakışının üzerine bindirerek birleşik bir görünüm sunan teknoloji.

otomatik kodlayıcı

#language

#image

Girişten en önemli bilgileri çıkarmayı öğrenen bir sistem. Otomatik kodlayıcılar, kodlayıcı ve kod çözücü kombinasyonundan oluşur. Otomatik kodlayıcılar aşağıdaki iki adımlı süreci kullanır:

Kodlayıcı, girişi (tipik olarak) kayıplı düşük boyutlu (orta) bir biçime eşler.
Kod çözücü, düşük boyutlu biçimi orijinal daha yüksek boyutlu giriş biçimiyle eşleyerek orijinal girişin kayıplı bir sürümünü oluşturur.

Otomatik kodlayıcılar, kod çözücünün orijinal girişi kodlayıcının ara biçiminden mümkün olduğunca yakından yeniden oluşturmaya çalışmasıyla uçtan uca eğitilir. Ara biçim, orijinal biçimden daha küçük (düşük boyutlu) olduğundan, otomatik kodlayıcı girişteki hangi bilgilerin gerekli olduğunu öğrenmeye zorlanır ve çıktı, girişle tamamen aynı olmaz.

Örneğin:

Girdi verileri grafikse tam olmayan kopya, orijinal grafiğe benzese de biraz değiştirilmiş olur. Tam olmayan kopya, orijinal grafikteki gürültüyü giderebilir veya bazı eksik pikselleri doldurabilir.
Giriş verileri metinse otomatik kodlayıcı, orijinal metni taklit eden (ancak onunla aynı olmayan) yeni metin oluşturur.

Ayrıca çeşitli otomatik kodlayıcılar bölümünü inceleyin.

otomasyon önyargısı

#fairness

Otomatik karar verme sistemi hata yapsa bile insan karar verme yetkisine sahip bir kişinin otomatik karar alma sistemi tarafından yapılan önerileri otomasyon olmadan elde edilen bilgiler yerine tercih etmesi.

AutoML

Makine öğrenimi modelleri derlemeye yönelik her türlü otomatik süreç. AutoML, aşağıdakiler gibi görevleri otomatik olarak gerçekleştirebilir:

En uygun modeli arayın.
Hiperparametreleri ayarlayın.
Veri hazırlama (özellik mühendisliği gerçekleştirme dahil).
Ortaya çıkan modeli dağıtın.

AutoML, makine öğrenimi ardışık düzenleri geliştirmede zamandan ve emekten tasarruf edip tahmin doğruluğunu iyileştirdiğinden veri bilimciler için kullanışlıdır. Karmaşık makine öğrenimi görevlerini daha erişilebilir hale getirerek uzman olmayan kişiler için de faydalıdır.

otomatik regresif model

#language

#image

#üretken yapay zeka

Bir tahminde kendi önceki tahminlerine göre sonuç veren bir model. Örneğin, otomatik regresif dil modelleri, önceden tahmin edilen jetonlara dayanarak bir sonraki jetonu tahmin eder. Transformer tabanlı tüm büyük dil modelleri otomatik regresiftir.

Buna karşılık, GAN tabanlı görüntü modelleri ise görüntüyü adımlar halinde yinelemeli olarak değil, tek bir ileri geçişte oluşturdukları için genellikle otomatik regresif değildir. Ancak belirli görüntü oluşturma modelleri, birkaç adımda bir görüntü oluşturdukları için otomatik regresif olur.

yardımcı kayıp

Ağırlıklar rastgele başlatıldığında ilk iterasyonlar sırasında eğitimin hızlandırılmasına yardımcı olan bir nöral ağ modelinin ana kayıp işleviyle birlikte kullanılan bir kayıp işlevi.

Yardımcı kayıp işlevleri, etkili gradyanları önceki katmanlara aktarır. Bu, kaybolan gradyan sorunu ile mücadele ederek eğitim sırasında yakınlaşmayı kolaylaştırır.

ortalama hassasiyet

Sıralı sonuç dizisinin performansını özetleyen bir metrik. Ortalama hassasiyet, ilgili her bir sonuç için hassasiyet değerlerinin ortalaması alınarak hesaplanır (her bir sonuç, önceki sonuca göre geri çağırmanın arttığı sıralı listede yer alır).

Ayrıca PR Eğrisi altındaki alan konusuna bakın.

eksene ayarlı koşul

#df

Karar ağacında yalnızca tek bir özellik içeren koşul. Örneğin, alan bir özellikse eksene hizalı bir koşul aşağıdaki gibidir:

area > 200

Eğik koşulla kontrast oluşturun.

B

geri yayılma

#fundamentals

Nöral ağlarda gradyan inişi uygulayan algoritma.

Bir sinir ağının eğitilmesi, aşağıdaki iki geçişli döngünün birçok iterasyonunu gerektirir:

İleriye doğru geçiş sırasında sistem, tahminlerde bulunmak için bir örnek topluluğu işler. Sistem her tahmini her label değeriyle karşılaştırır. Tahmin ile etiket değeri arasındaki fark, söz konusu örnekteki loss'dur. Sistem, geçerli toplu işlem için toplam kaybı hesaplamak amacıyla tüm örneklerdeki kayıpları toplar.
Geriye doğru aktarım (geri yayılım) sırasında sistem, tüm gizli katmanlardaki tüm nöronların ağırlıklarını ayarlayarak kaybı azaltır.

Nöral ağlar genellikle birçok gizli katmanda çok sayıda nöron içerir. Bu nöronların her biri genel kayba farklı şekillerde katkıda bulunur. Geri yayılım, belirli nöronlara uygulanan ağırlıkların artırılıp azaltılmayacağını belirler.

Öğrenme hızı, her geriye doğru aktarımın her bir ağırlığı artırma veya azaltma derecesini kontrol eden bir çarpandır. Yüksek bir öğrenme hızı, her ağırlığı küçük bir öğrenme hızından daha fazla artırır veya azaltır.

Geri yayılma, kalkülüs kapsamında hesaplamadan zincir kuralını uygular. Yani geri yayılma, her bir parametreye bağlı olarak hatanın kısmi türevini hesaplar.

Yıllar önce, makine öğrenimi uzmanları geri yayılmayı uygulamak için kod yazmak zorunda kaldı. TensorFlow gibi modern ML API'leri artık geri yaymayı sizin için uyguluyor. Bora

bagaj hazırlama

#df

Her bir bileşen modelin değiştirilerek örneklenmiş rastgele bir eğitim örneği alt kümesi üzerinde eğitildiği bir topluluğu eğitme yöntemi. Örneğin, rastgele orman, çuvallama ile eğitilmiş bir karar ağacı koleksiyonudur.

bagaj terimi, bootstrap aggregating kelimesinin kısaltmasıdır.

kelime paketi

#language

Sıradan bağımsız olarak, kelime öbeği veya pasajdaki kelimelerin temsili. Örneğin, kelime çantası aşağıdaki üç ifadeyi aynı şekilde temsil eder:

köpek zıplıyor
köpeği zıplatıyor
zıplayan köpek

Her kelime, seyrek vektör içindeki bir dizine eşlenir. Bu vektörde, sözlükteki her kelime için bir dizin bulunur. Örneğin, köpek atlar ifadesi, bir, köpek ve atlama kelimelerine karşılık gelen üç dizinde sıfır olmayan değerlere sahip bir özellik vektörüne eşlenir. Sıfır olmayan değer aşağıdakilerden herhangi biri olabilir:

Bir kelimenin varlığını belirtmek için 1.
Bir kelimenin çantada kaç kez geçtiğinin sayısı. Örneğin, bordo köpek bordo tüylü bir köpektir ifadesi kullanıldığında, hem bordo hem de köpek 2 olarak, diğer kelimeler ise 1 olarak gösterilir.
Bir kelimenin pakette kaç kez göründüğünün logaritması gibi başka bir değer.

referans değer

Başka bir modelin (genellikle daha karmaşık olan) performansını karşılaştırmak için referans noktası olarak kullanılan bir model. Örneğin, mantıksal regresyon modeli, derin model için iyi bir temel oluşturabilir.

Belirli bir sorun söz konusu olduğunda referans değer, model geliştiricilerinin yeni modelin yeni modelin işe yaraması için ulaşması gereken minimum beklenen performansı ölçmesine yardımcı olur.

grup

#fundamentals

Tek bir eğitim yinelemesinde kullanılan örnek kümesi. Grup boyutu, bir toplu işteki örnek sayısını belirler.

Bir grubun dönem ile ilişkisi hakkında açıklama için epoch (sıfır) maddesini inceleyin.

toplu çıkarım

#TensorFlow

#GoogleCloud

Daha küçük alt kümelere ("gruplar") bölünmüş birden fazla etiketlenmemiş örnekte tahminleri çıkarma işlemi.

Toplu çıkarım, hızlandırıcı çiplerinin paralelleştirme özelliklerinden yararlanabilir. Yani birden fazla hızlandırıcı, etiketlenmemiş farklı örnek gruplarıyla ilgili tahminleri aynı anda tahmin edebilir. Bu da saniyedeki çıkarım sayısını önemli ölçüde artırır.

toplu normalleştirme

Etkinleştirme işlevlerinin girişini veya çıkışını gizli katman içindeki normalleştirme. Toplu normalleştirme aşağıdaki avantajları sağlayabilir:

Nöral ağları aykırı ağırlıklara karşı koruyarak daha kararlı hale getirin.
Eğitimi hızlandıran daha yüksek öğrenme hızlarını etkinleştirin.
Fazla uyumu azaltın.

grup boyutu

#fundamentals

Bir topludaki örneklerin sayısı. Örneğin grup boyutu 100 ise model, yineleme başına 100 örnek işler.

Popüler toplu boyut stratejileri aşağıda verilmiştir:

Grup boyutunun 1 olduğu Olasılıksal Gradyan İniş (SGD).
Tam grup (grup boyutu, tüm eğitim kümesi'ndeki örneklerin sayısıdır). Örneğin, eğitim kümesi bir milyon örnek içeriyorsa grup boyutu bir milyon örnek olur. Tam grup genellikle verimsiz bir stratejidir.
Grup boyutunun genellikle 10 ile 1.000 arasında olduğu mini toplu işlem. Mini toplu işlem genellikle en etkili stratejidir.

Bayes nöral ağı

Ağırlıklar ve çıkışlardaki belirsizliği hesaba katan olası bir nöral ağ. Standart bir nöral ağı regresyon modeli genellikle skaler bir değeri tahmin eder. Örneğin, standart bir model 853.000 tutarındaki bir ev fiyatını tahmin eder. Buna karşılık, bir Bayes nöral ağı değerlerin dağılımını tahmin eder. Örneğin, bir Bayes modeli 67.200'lük bir standart sapmayla 853.000 tutarında bir ev fiyatı tahmin eder.

Bir Bayes nöral ağı, ağırlıklar ve tahminlerdeki belirsizlikleri hesaplamak için Bayes Teoremi'ne dayanır. Bir Bayes nöral ağı, belirsizliğin nicel olarak belirlenebilmesinin önemli olduğu durumlarda (örneğin, farmasötik ürünlerle ilgili modeller gibi) yararlı olabilir. Bayes nöral ağları da aşırı uyumu önlemeye yardımcı olabilir.

Bayes optimizasyonu

Bayes öğrenme tekniği kullanarak belirsizliği ölçen bir vekil optimize ederek, hesaplama açısından pahalı olan nesnesel işlevleri optimize etmeye yönelik olası regresyon modeli tekniği. Bayes optimizasyonunun kendisi çok pahalı olduğundan, genellikle hiperparametre seçmek gibi az sayıda parametre içeren değerlendirilmesi pahalı görevleri optimize etmek için kullanılır.

Bellman denklemi

#rl

Pekiştirmeli öğrenmede optimum Q işlevi ile aşağıdaki kimlik karşılanır:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Pekiştirmeli öğrenme algoritmaları, bu kimliği aşağıdaki güncelleme kuralı aracılığıyla Q-learning oluşturmak için uygular:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Bellman denklemi, pekiştirmeli öğrenmenin ötesinde dinamik programlama için de kullanılabilir. Belman denklemi için Wikipedia girişine bakın.

BERT (Dönüştürücülerden Çift Yönlü Kodlayıcı Gösterimleri)

#language

Metin temizleme için model mimari. Eğitilmiş bir BERT modeli, metin sınıflandırma veya diğer makine öğrenimi görevleri için daha büyük bir modelin parçası olarak çalışabilir.

BERT aşağıdaki özelliklere sahiptir:

Transformer mimarisini kullandığı için kendine dikkat etme yöntemini de kullanır.
Dönüştürücü'nün kodlayıcı bölümünü kullanır. Kodlayıcının işi, sınıflandırma gibi belirli bir görevi gerçekleştirmek yerine iyi metin sunumları üretmektir.
İki yönlü.
Gözetimsiz eğitim için maskeleme kullanılır.

BERT'in varyantları:

ALBERT: A Light BERT'in kısaltmasıdır.
LaBSE.

BERT'e genel bakış için Open Sourcing BERT: Doğal Dil İşleme için Son Teknoloji Ürünü Ön Eğitimi sayfasını inceleyin.

önyargı (etik/adalet)

#fairness

#fundamentals

1. Bazı şeylere, kişilere veya gruplara karşı klişeler, önyargılar ya da ayrımcılık. Bu önyargılar verilerin toplanıp yorumlanmasını, sistem tasarımını ve kullanıcıların sistemle etkileşimini etkileyebilir. Bu tür önyargı biçimleri şunları içerir:

otomasyon ön yargısı
onay yanlılığı
deneycinin ön yargısı
grup ilişkilendirme ön yargısı
örtülü önyargı
grup içi ön yargı
grup dışı homojenlik ön yargısı

2. Örnekleme veya raporlama prosedüründen kaynaklanan sistematik hatalar. Bu tür önyargı biçimleri şunları içerir:

kapsam yanlılığı
yanıt vermeme eğilimi
katılım ön yargısı
raporlama yanlılığı
örnekleme yanlılığı
seçim yanlılığı

Makine öğrenimi modellerindeki yanlılık terimi veya tahmin yanlılığı ile karıştırılmamalıdır.

önyargı (matematik) veya önyargı terimi

#fundamentals

Bir başlangıç noktasından kesişme veya uzaklık. Ön yargı, makine öğrenimi modellerindeki bir parametredir ve aşağıdakilerden biri ile simgelenir:

b
h₀

Örneğin, ön yargı aşağıdaki formülde b'dir:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Basit bir iki boyutlu çizgide, önyargı yalnızca "y kesim noktası" anlamına gelir. Örneğin, aşağıdaki çizimdeki çizginin eğimi 2'dir.

Eğimi 0,5 ve eğimi (y kesim noktası) 2 olan bir doğrunun grafiği.

Tüm modellerin başlangıç noktasından başlamaması (0,0) nedeniyle yanlılık vardır. Örneğin, bir lunaparka giriş ücretinin 2 euro olduğunu ve müşterinin konakladığı her saat için ek 0,5 euro olduğunu varsayalım. Bu nedenle, en düşük maliyet 2 avro olduğu için toplam maliyeti eşleyen bir model 2 sapmaya sahip olur.

Ön yargı, etik ve adaletteki ön yargılar veya tahmin yanlılığı ile karıştırılmamalıdır.

iki yönlü

#language

Metnin hem önünden geçen hem de takip eden metni değerlendiren bir sistemi tanımlamak için kullanılan terim. Öte yandan, tek yönlü bir sistem, yalnızca metnin hedef bölümünden öne gelen metni değerlendirir.

Örneğin, aşağıdaki sorudaki alt çizgiyi temsil eden kelime veya kelimelerin olasılıklarını belirlemesi gereken bir maskelenmiş dil modelini ele alalım:

_____ nedir?

Tek yönlü bir dil modelinin olasılıklarını yalnızca "Ne", "eşittir" ve "bir" kelimelerinin sağladığı bağlama dayandırması gerekir. Buna karşılık, çift yönlü dil modeli "birlikte" ve "siz" ifadelerinden bağlam da elde edebilir ve bu da modelin daha iyi tahminler oluşturmasına yardımcı olabilir.

iki yönlü dil modeli

#language

Belirli bir jetonun, önceki ve sonraki metne dayanarak metin alıntısında belirli bir konumda bulunma olasılığını belirleyen dil modeli.

Bigram

#seq

#language

N=2 olan bir N-gram.

ikili sınıflandırma

#fundamentals

Bağdaşmayan iki sınıftan birini tahmin eden bir sınıflandırma görevi türü:

pozitif sınıf
negatif sınıfı

Örneğin, aşağıdaki iki makine öğrenimi modelinin her biri ikili sınıflandırma gerçekleştirir:

E-posta iletilerinin spam (pozitif sınıf) veya spam değil (negatif sınıf) olduğunu belirleyen bir model.
Bir kişinin belirli bir hastalığı olup olmadığını (pozitif sınıf) veya o hastalığa sahip olup olmadığını (negatif sınıf) belirlemek için tıbbi semptomları değerlendiren bir model.

Çok sınıflı sınıflandırmayla kontrast oluşturun.

Mantıksal regresyon ve sınıflandırma eşiği bölümlerini de inceleyin.

ikili koşul

#df

Karar ağacında genellikle yes veya no olmak üzere yalnızca iki olası sonucu olan bir koşul. Örneğin, aşağıdaki ikili bir koşuldur:

temperature >= 100

İkili olmayan koşullarla zıtlık.

Binning

Paketleme ile eş anlamlı.

BLEU (İki Dilli Değerlendirme Alt Çalışması)

#language

İki insan dili arasındaki çevirinin kalitesini (örneğin, İngilizce ve Rusça arasında) belirten 0, 0 ile 1, 0 (dahil) arasındaki bir puan. 1,0 olan BLEU puanı mükemmel çeviriyi, 0,0 olan BLEU puanı ise çok kötü bir çeviriyi belirtir.

enerji verme

Modelin şu anda yanlış sınıflandırdığı örnekleri yukarı ağırlıklandırarak, bir grup basit ve çok doğru olmayan sınıflandırıcıları ("zayıf" sınıflandırıcılar olarak adlandırılır) tekrarlı bir şekilde yüksek doğruluk oranına sahip bir sınıflandırıcı ("güçlü" sınıflandırıcı) ile birleştiren makine öğrenimi tekniğidir.

sınırlayıcı kutu

#image

Bir resimde, aşağıdaki resimde bulunan köpek gibi bir alanın etrafındaki dikdörtgenin (x, y) koordinatları.

Koltukta oturan bir köpeğin fotoğrafı. Köpeğin vücudunu çevreleyen, sol üst koordinatları (275, 1271) ve sağ alt koordinatları (2954, 2761) olan yeşil bir sınırlayıcı kutu

yayınlama

Bir matris matematik işlemindeki bir işlenenin şeklinin, bu işlemle uyumlu boyutlara genişletilmesi. Örneğin, doğrusal cebir, bir matris ekleme işlemindeki iki işlenenin aynı boyutlara sahip olmasını gerektirir. Sonuç olarak, n uzunluğunda bir vektöre (m; n) şekil matrisini ekleyemezsiniz. Yayınlama, n uzunluk vektörünü her sütunda aynı değerleri çoğaltarak (m, n) şekil matrisine sanal bir şekilde genişleterek bu işlemi mümkün kılar.

Örneğin, aşağıdaki tanımlar verildiğinde, doğrusal cebir A+B'yi yasaklar çünkü A ve B farklı boyutlara sahiptir:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Ancak yayınlama, B'yi sanal olarak şuraya genişleterek A+B işlemini etkinleştirir:

 [[2, 2, 2],
  [2, 2, 2]]

Bu nedenle, A+B artık geçerli bir işlemdir:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Daha ayrıntılı bilgi için aşağıdaki NumPy'de yayın açıklamasına bakın.

paketleme

#fundamentals

Tek bir özelliği, genellikle bir değer aralığına dayanarak paket veya binler adı verilen birden fazla ikili özelliğe dönüştürme. Doğranmış özellik genellikle sürekli bir özelliktir.

Örneğin, sıcaklığı tek bir sürekli kayan nokta özelliği olarak göstermek yerine, sıcaklık aralıklarını farklı kovalara ayırabilirsiniz. Örneğin:

<= 10 Santigrat derece ise "soğuk" veri grubu anlamına gelir.
11-24 santigrat derece sıcaklık ise "ılıman" olarak kabul edilir.
>= 25 santigrat derece ise "sıcak" paket olur.

Model, aynı paketteki her değeri aynı şekilde ele alır. Örneğin, 13 ve 22 değerlerinin ikisi de ılıman pakette yer aldığından model iki değeri de aynı şekilde ele alır.

Ek notlar için simgeyi tıklayın.

Sıcaklığı sürekli bir özellik olarak temsil ediyorsanız model, sıcaklığı tek bir özellik olarak ele alır. Sıcaklığı üç grup olarak temsil ederseniz model her bir paketi ayrı bir özellik olarak değerlendirir. Yani bir model, her paketin etiket ile ayrı ilişkilerini öğrenebilir. Örneğin, doğrusal regresyon modeli, her paket için ayrı ağırlıklar öğrenebilir.

Paket sayısını artırmak, modelinizin öğrenmesi gereken ilişkilerin sayısını artırarak modelinizi daha karmaşık hale getirir. Örneğin, soğuk, ılıman ve sıcak paketler temelde modelinizin üzerinde eğitileceği üç ayrı özelliktir. Örneğin, iki paket daha eklemeye karar verirseniz, modelinizin artık beş ayrı özellikle eğitilmesi gerekir.

Kaç paket oluşturulacağını veya her bir paket için aralıkların ne olması gerektiğini nasıl bileceksiniz? Yanıtlar için genellikle bir miktar deneme yapılması gerekir.

C

kalibrasyon katmanı

Genellikle tahmin yanlılığını hesaba katmak için yapılan tahmin sonrası düzenleme. Ayarlanan tahminler ve olasılıklar, gözlemlenen bir etiket grubunun dağılımıyla eşleşmelidir.

aday oluşturma

#recsystems

Bir öneri sistemi tarafından seçilen ilk öneri grubu. Örneğin, 100.000 kitap satan bir kitapçıyı düşünelim. Aday oluşturma aşamasında belirli bir kullanıcıya uygun kitapların (örneğin 500) çok daha küçük bir listesi oluşturulur. Ancak 500 kitap bile bir kullanıcıya önerilemeyecek kadar çok fazla demektir. Öneri sisteminin sonraki ve daha pahalı hale gelen aşamaları (ör. puanlama ve sıralama), bu 500 öneriyi çok daha küçük ve daha faydalı bir öneri grubuna indirir.

aday örnekleme

Tüm pozitif etiketler için softmax kullanarak, ancak yalnızca rastgele bir negatif etiket örneği için bir olasılık hesaplayan eğitim zamanı optimizasyonu. Örneğin, ata ve köpek etiketli bir örnekte aday örnekleme, aşağıdakiler için tahmin edilen olasılıkları ve ilgili kayıp terimlerini hesaplar:

ata
köpek
kalan negatif sınıfların rastgele bir alt kümesi (örneğin, kedi, lolipop, çit).

Buradaki düşünce, pozitif sınıflar her zaman uygun şekilde pozitif pekiştirme aldığı sürece olumsuz sınıfların daha seyrek negatif pekiştirmeden bir şeyler öğrenebilmesidir ve bu gerçekten de deneysel olarak gözlemlenmiştir.

Aday örnekleme, özellikle de negatif sınıfların sayısı çok büyük olduğunda tüm negatif sınıflar için tahminleri hesaplayan eğitim algoritmalarından işlem açısından daha verimlidir.

kategorik veri

#fundamentals

Belirli bir olası değerler grubuna sahip özellikler. Örneğin, aşağıdaki üç olası değerden yalnızca birine sahip olabilen traffic-light-state adlı kategorik bir özelliği ele alalım:

red
yellow
green

Modeller, traffic-light-state'yi kategorik özellik olarak göstererek red, green ve yellow özelliklerinin sürücü davranışı üzerindeki farklı etkilerini öğrenebilir.

Kategorik özellikler bazen ayrı özellikler olarak adlandırılır.

Sayısal verilerle kontrast.

nedensel dil modeli

#language

Tek yönlü dil modeli ile eş anlamlı.

Dil modellemedeki farklı yönlü yaklaşımları ayırt etmek için iki yönlü dil modeli konusuna bakın.

merkez

#clustering

k-ortalamalar veya k-ortanca algoritmasıyla belirlenen küme merkezi. Örneğin, k 3 ise k-ortalaması veya k-ortanca algoritması, 3 merkezi bulur.

merkez tabanlı kümeleme

#clustering

Verileri hiyerarşik olmayan kümeler halinde düzenleyen bir kümeleme algoritması. k ortalaması, en yaygın kullanılan merkez tabanlı kümeleme algoritmasıdır.

Hiyerarşik kümeleme algoritmalarıyla kontrast oluşturun.

düşünme zinciri

#language

#üretken yapay zeka

Büyük dil modelini (LLM) gerekçesini adım adım açıklamaya teşvik eden bir istem mühendisliği tekniğidir. Örneğin, ikinci cümleye özellikle dikkat ederek aşağıdaki istemi inceleyin:

7 saniyede saatte 0'dan 96 km hıza giden bir arabada bir sürücü kaç g'lik kuvvetle karşılaşır? Yanıtta alakalı tüm hesaplamaları gösterin.

LLM'nin yanıtı muhtemelen:

Uygun yerlere 0, 60 ve 7 değerlerini ekleyerek bir fizik formülleri dizisi gösterin.
Formülleri neden seçtiğini ve çeşitli değişkenlerin ne anlama geldiğini açıklayın.

Düşünce zincirinde yönlendirme, LLM'yi tüm hesaplamaları yapmaya zorlar. Bu da daha doğru bir yanıt sağlayabilir. Buna ek olarak, düşünce zinciriyle yönlendirme, kullanıcının LLM'nin adımlarını inceleyerek yanıtın mantıklı olup olmadığını belirlemesini sağlar.

sohbet

#language

#üretken yapay zeka

Genellikle büyük bir dil modeli olan bir ML sistemiyle karşılıklı diyalogların içeriği. Bir sohbetteki önceki etkileşim (yazdığınız şey ve büyük dil modelinin yanıtı), sohbetin sonraki bölümlerinin bağlamı olur.

Chatbot, büyük dil modelinin bir uygulamasıdır.

kontrol noktası

Belirli bir eğitim yinelemesinde bir modelin parametrelerinin durumunu yakalayan veriler. Kontrol noktaları, model ağırlıklarını dışa aktarmaya veya birden çok oturumda eğitim gerçekleştirmeyi sağlar. Kontrol noktaları, eğitimin geçmişteki hataların (örneğin, geçici işlerin) devam etmesi için de olanak tanır.

İnce ayar yaparken yeni modelin eğitimin başlangıç noktası, önceden eğitilmiş modelin belirli bir kontrol noktası olur.

sınıf

#fundamentals

Bir etiketin ait olabileceği kategori. Örneğin:

Spam'i algılayan ikili sınıflandırma modelinde bu iki sınıf spam ve spam olabilir.
Köpek türlerini tanımlayan bir çok sınıflı sınıflandırma modelinde sınıflar kaniş, ayı, pug vb. olabilir.

Sınıflandırma modeli bir sınıfı tahmin eder. Buna karşılık, regresyon modeli bir sınıf yerine bir sayıyı tahmin eder.

sınıflandırma modeli

#fundamentals

Tahmini bir sınıf olan bir model. Örneğin, aşağıda tüm sınıflandırma modelleri verilmiştir:

Bir giriş cümlesinin dilini tahmin eden bir model (Fransızca? İspanyolca? İtalyanca?) girin.
Ağaç türlerini tahmin eden bir model ( Oak? Baobab?).
Belirli bir tıbbi durumun pozitif veya negatif sınıfını tahmin eden bir model.

Buna karşılık, regresyon modelleri sınıflar yerine sayıları tahmin eder.

Yaygın olarak kullanılan iki sınıflandırma modeli türü şunlardır:

ikili sınıflandırma
çok sınıflı sınıflandırma

sınıflandırma eşiği

#fundamentals

İkili sınıflandırmada, mantıksal regresyon modelinin ham çıktısını pozitif sınıf veya negatif sınıf tahminine dönüştüren 0 ile 1 arasındaki bir sayı. Sınıflandırma eşiğinin model eğitimi tarafından seçilen bir değer değil, insanın seçtiği bir değer olduğunu unutmayın.

Mantıksal regresyon modeli, 0 ile 1 arasında bir ham değer üretir. Ardından:

Bu işlenmemiş değer, sınıflandırma eşiğinden büyükse pozitif sınıf tahmin edilir.
Bu ham değer, sınıflandırma eşiğinden küçükse negatif sınıf tahmin edilir.

Örneğin, sınıflandırma eşiğinin 0,8 olduğunu varsayalım. Ham değer 0, 9 ise model pozitif sınıfı tahmin eder. Ham değer 0,7 ise model, negatif sınıfı tahmin eder.

Sınıflandırma eşiği seçimi, yanlış pozitif ve yanlış negatif sayılarını önemli ölçüde etkiler.

Ek notlar için simgeyi tıklayın.

Modeller veya veri kümeleri geliştikçe, mühendisler bazen sınıflandırma eşiğini de değiştirir. Sınıflandırma eşiği değiştiğinde pozitif sınıf tahminleri aniden negatif sınıflara ve negatif sınıf tahminleri de aniden negatif sınıflara dönüşebilir.

Örneğin, ikili sınıflandırmalı hastalık tahmin modelini düşünün. Sistemin birinci yıl çalıştığında aşağıdakilerin geçerli olduğunu varsayalım:

Belirli bir hasta için ham değer 0,95'tir.
Sınıflandırma eşiği 0,94'tür.

Dolayısıyla, sistem pozitif sınıfı teşhis eder. (Hasta fısıltıyla "Hay aksi! Hastayım!")

Bir yıl sonra değerler şu şekilde görünebilir:

Aynı hastanın ham değeri 0,95 olarak kalır.
Sınıflandırma eşiği 0,97 olarak değişir.

Bu nedenle sistem artık bu hastayı negatif sınıf olarak yeniden sınıflandırır. ("İyi günler! Hasta değilim.") Aynı hasta. Ayrı teşhisler.

sınıf dengesiz veri kümesi

#fundamentals

Her sınıfın toplam etiket sayısının önemli ölçüde farklılık gösterdiği bir sınıflandırma sorunu için veri kümesi. Örneğin, iki etiketi aşağıdaki gibi bölünen bir ikili sınıflandırma veri kümesini ele alalım:

1.000.000 negatif etiket
10 pozitif etiket

Negatif etiketlerin pozitife oranı 100.000'e 1'dir. Bu nedenle bu, sınıf dengesiz bir veri kümesidir.

Öte yandan, negatif etiketlerin pozitif etiketlere oranı 1'e görece yakın olduğu için aşağıdaki veri kümesinde sınıf dengeli değildir:

517 negatif etiket
483 pozitif etiket

Çok sınıflı veri kümelerinde sınıf dengesi de dengesiz olabilir. Örneğin, aşağıdaki çok sınıflı sınıflandırma veri kümesinde de bir etiket diğer ikisinden çok daha fazla örnek bulunduğu için sınıf dengesizdir:

"Yeşil" sınıfıyla 1.000.000 etiket
"Mor" sınıfı 200 etiket
"Turuncu" sınıfına sahip 350 etiket

Ayrıca entropi, çoğunluk sınıfı ve azınlık sınıfı konularına da bakın.

kırpma

#fundamentals

Aşağıdakilerden birini veya her ikisini birden yaparak aykırı değerleri ele alan bir teknik:

Bir maksimum eşiğin üzerindeki özellik değerlerini, söz konusu maksimum eşiğe kadar azaltma.
Minimum eşiğin altında olan özellik değerlerini söz konusu minimum eşiğe kadar yükseltme.

Örneğin, belirli bir özellik için değerlerin% 0,5'inden azının 40–60 aralığının dışında olduğunu varsayalım. Bu durumda, aşağıdakileri yapabilirsiniz:

60'ın (maksimum eşik) üzerindeki tüm değerleri tam olarak 60 olacak şekilde ayarlayın.
40'ın (minimum eşik) altındaki tüm değerleri tam olarak 40 olacak şekilde ayarlayın.

Aykırı değerler, modellere zarar vererek bazen eğitim sırasında ağırlıkların taşmasına neden olabilir. Bazı aykırı değerler de doğruluk gibi metrikleri büyük ölçüde bozabilir. Kırpma, hasarı sınırlandırmak için sık kullanılan bir tekniktir.

Renk geçişi, gradyan değerlerini eğitim sırasında belirtilen bir aralıkta zorlar.

Cloud TPU

#TensorFlow

#GoogleCloud

Google Cloud'da makine öğrenimi iş yüklerini hızlandırmak için tasarlanmış özel bir donanım hızlandırıcı.

kümeleme

#clustering

Özellikle gözetimsiz öğrenme sırasında alakalı örnekleri gruplandırma. Tüm örnekler gruplandırıldıktan sonra, bir insan isteğe bağlı olarak her kümeyi anlamlandırabilir.

Birçok kümeleme algoritması mevcuttur. Örneğin, k-ortalamalar algoritma kümesi örnekleri, aşağıdaki şemada olduğu gibi bir merkez merkezine yakınlıklarına göre belirlenir:

X ekseninin ağaç genişliği ve y ekseninin ağaç yüksekliği olarak etiketlendiği iki boyutlu bir grafik. Grafikte iki merkez
ve birkaç düzine veri noktası bulunmaktadır. Veri noktaları, yakınlıklarına göre kategorize edilir. Yani bir merkeze en yakın veri noktaları küme 1, diğer merkeze en yakın veri noktaları ise küme 2 olarak sınıflandırılır.

Daha sonra gerçek bir araştırmacı, kümeleri inceleyebilir ve örneğin, küme 1'i "cüce ağaçlar" ve küme 2'yi "tam boyutlu ağaçlar" olarak etiketleyebilir.

Başka bir örnek olarak, bir örneğin merkez noktasından uzaklığına dayanan, aşağıdaki şekilde gösterilen bir kümeleme algoritmasını ele alalım:

Düzinelerce veri noktası, neredeyse dart tahtasının merkezindeki delikler gibi eşmerkezli daireler halinde düzenlenmiştir. Veri noktalarının en iç halkası küme 1, orta halka 2 ve en dıştaki halka küme 3 olarak sınıflandırılır.

ortak uyarlama

Nöronlar, ağın tamamının davranışlarına bağlı kalmak yerine, neredeyse tamamen belirli diğer nöronların çıkışlarına dayanarak eğitim verilerindeki kalıpları tahmin ettiğinde. Birlikte uyarlamaya neden olan kalıplar, doğrulama verilerinde mevcut olmadığında birlikte uyarlama, fazla uyuma neden olur. Ayrılma, nöronların yalnızca belirli diğer nöronlara bağlı kalmamasını sağladığı için devre dışı bırakma normalleştirmesi birlikte uyarlamayı azaltır.

ortak çalışmaya dayalı filtreleme

#recsystems

Bir kullanıcının ilgi alanları hakkında, diğer birçok kullanıcının ilgi alanlarına dayalı tahminlerde bulunma. İş birliğine dayalı filtreleme, genellikle öneri sistemlerinde kullanılır.

kavramsal kayma

Özellikler ve etiket arasındaki ilişkide kayma. Kavram kayması zaman içinde modelin kalitesini düşürür.

Eğitim sırasında model, özellikler ile eğitim kümesindeki etiketleri arasındaki ilişkiyi öğrenir. Eğitim kümesindeki etiketler gerçek dünyaya örnek teşkil ediyorsa modelin gerçek dünyada doğru tahminlerde yapması gerekir. Ancak, kavram kayması nedeniyle modelin tahminleri zaman içinde bozulma eğilimindedir.

Örneğin, belirli bir araba modelinin "yakıt tasarruflu" olup olmadığını tahmin eden bir ikili sınıflandırma modelini ele alalım. Yani özellikler:

arabanın ağırlığı
motor sıkıştırma
iletim türü

ise etiket:

yakıt verimliliği yüksek
yakıt verimliliği yüksek değil

Ancak "yakıt tasarruflu araba" kavramı sürekli değişiyor. 1994'te yakıt tasarruflu etiketine sahip bir araba modelinin 2024'te yakıt verimliliği yok olarak etiketlenmesi neredeyse kesindir. Kavram kayması sorunu yaşayan bir model, zaman içinde gitgide daha az faydalı tahminlerde bulunur.

Hareketsizliği kıyaslayın.

Ek notlar için simgeyi tıklayın.

Kavram kaymasını telafi etmek için modelleri, kavramsal kayma hızından daha hızlı bir şekilde yeniden eğitin. Örneğin, kavram kayması model hassasiyetini iki ayda bir anlamlı bir şekilde azaltırsa modelinizi iki ayda bir olduğundan daha sık yeniden eğitin.

koşul

#df

Karar ağacında, bir ifadeyi değerlendiren herhangi bir düğüm. Örneğin, karar ağacının aşağıdaki kısmı iki koşul içerir:

İki koşuldan oluşan bir karar ağacı: (x > 0) ve (y > 0).

Koşula, bölünme veya test de denir.

Yaprak ile kontrast durumu.

Şuna da bakabilirsiniz:

ikili koşul
olmayan koşul olarak tanımlayabilirsiniz.
eksen-hizalı-durumu
eğik-durum

konfeksiyon

#language

halüsinasyon ile eş anlamlı.

Zihin bulanıklığı muhtemelen halüsinasyondan daha doğru teknik bir terimdir. Ancak halüsinasyon ilk başta popüler oldu.

yapılandırma

Aşağıdakiler dahil olmak üzere, bir modeli eğitmek için kullanılan ilk özellik değerlerini atama süreci:

oluşturulan katmanlar
verilerin konumu
hiperparametreler, aşağıdakiler gibi:

Makine öğrenimi projelerinde yapılandırma, özel bir yapılandırma dosyasıyla veya aşağıdaki gibi yapılandırma kitaplıkları kullanılarak yapılabilir:

doğrulama önyargısı

#fairness

Bilgiyi kişinin önceden var olan inançlarını veya hipotezlerini doğrulayacak şekilde arama, yorumlama, tercih etme ve hatırlama eğilimi. Makine öğrenimi geliştiricileri, mevcut inançlarını destekleyen bir sonucu etkileyecek şekilde istemeden veri toplayabilir veya etiketleyebilir. Doğrulama yanlılığı bir örtülü önyargı biçimidir.

Deneyci ön yargısı, deneycinin önceden var olan bir hipotez onaylanana kadar modelleri eğitmeye devam ettiği bir onay yanlılığı biçimidir.

karışıklık matrisi

#fundamentals

Bir sınıflandırma modelinin yaptığı doğru ve yanlış tahminlerin sayısını özetleyen NxN tablosu. Örneğin, ikili sınıflandırma modeli için aşağıdaki karışıklık matrisini ele alalım:

	Tümör (tahmini)	Tümör Olmayan (tahmini)
Tümör (kesin referans)	18 (TP)	1 (FN)
Tümör Olmayan (kesin referans)	6 (FP)	452 (TN)

Önceki karışıklık matrisinde aşağıdakiler gösterilmektedir:

Model, kesin referansın Tümör olduğu 19 tahminden 18'ini doğru şekilde sınıflandırdı ve 1'ini yanlış sınıflandırdı.
Kesin referansın Tüm Olmayan veriler olduğu 458 tahminden 452'si doğru sınıflandırıldı ve 6'sı yanlış sınıflandırıldı.

Çok sınıflı sınıflandırma problemi için karışıklık matrisi, hata kalıplarını belirlemenize yardımcı olabilir. Örneğin, üç farklı iris türünü (Virginica, Versicolor ve Setosa) sınıflandıran 3 sınıflı çok sınıflı bir sınıflandırma modeli için aşağıdaki karışıklık matrisini ele alalım. Kesin referans Virginica olduğunda, kafa karışıklığı matrisi modelin Versicolor'ı yanlışlıkla Setosa'ya göre çok daha fazla tahmin ettiğini gösteriyor:

	Setosa (tahmini)	Çok renkli (tahmini)	Virginica (tahmin edilen)
Setosa (kesin referans)	88	12	0
Çok renkli (kesin referans)	6	141	7
Virginica (kesin referans)	2	27	109

Başka bir örnek olarak, karışıklık matrisi, elle yazılmış rakamları tanıyacak şekilde eğitilen bir modelin yanlışlıkla 4 yerine 9 veya yanlışlıkla 7 yerine 1 tahmininde bulunduğunu ortaya çıkarabilir.

Karışıklık matrisleri, kesinlik ve geri çağırma dahil olmak üzere çeşitli performans metriklerini hesaplamak için yeterli bilgi içerir.

seçim bölgesi ayrıştırma

#language

Bir cümleyi daha küçük gramer yapılarına ("bileşenler") bölme. ML sisteminin doğal dil anlama modeli gibi ileri bir sürümü, bileşenleri orijinal cümleden daha kolay bir şekilde ayrıştırabilir. Örneğin, aşağıdaki cümleyi ele alalım:

Arkadaşım iki kedi sahiplendi.

Bir seçim bölgesi ayrıştırıcı, bu cümleyi aşağıdaki iki bileşene ayırabilir:

Arkadaşım bir ad öbeğidir.
bir kedi sahiplenmek fiili bir ifadedir.

Bu bileşenler, daha küçük bileşenlere ayrılabilir. Örneğin, fiil ifadesi

iki kedi sahiplendi

daha fazla alt bölüme ayrılabilir:

adopted bir fiildir.
iki kedi başka bir isim öbeğidir.

bağlama dayalı dil yerleştirme

#language

#üretken yapay zeka

Kelimeleri ve kelime öbeklerini ana dili olarak konuşan kişilerin anlayabileceği şekilde "anlamaya" yakın bir yerleştirme. Bağlamsallaştırılmış dil yerleştirmeleri karmaşık söz dizimini, anlamları ve bağlamı anlayabilir.

Örneğin, İngilizce cow kelimesinin yerleştirilmiş öğeleri ele alalım. word2vec gibi daha eski yerleştirme öğeleri, İngilizce kelimeleri temsil edebilir. Bu durumda, yerleştirme alanındaki inek ile boğa arasındaki mesafe, ewe (dişi koyun) ile ram (erkek koyun) veya kadın ile erkek arasındaki mesafeye benzerdir. Bağlamsallaştırılmış dil yerleştirmeleri, İngilizce konuşanların bazen inek kelimesini bazen inek veya boğa anlamına gelecek şekilde kullandığını fark ederek bir adım ileri gidebilir.

bağlam penceresi

#language

#üretken yapay zeka

Bir modelin belirli bir istemde işleyebileceği jeton sayısı. Bağlam penceresi ne kadar büyük olursa model, isteme tutarlı ve tutarlı yanıtlar vermek için o kadar fazla bilgi kullanabilir.

sürekli özellik

#fundamentals

Sıcaklık veya ağırlık gibi sınırsız olası değer aralığına sahip bir kayan nokta özellik.

Ayrı özellik ile kontrast.

uygun örnekleme

Hızlı denemeler yapmak için bilimsel olarak toplanmamış bir veri kümesini kullanma. Daha sonra, bilimsel olarak toplanmış bir veri kümesine geçmek önemlidir.

yakınsaklık

#fundamentals

loss değerleri her iterasyonda çok az değiştiğinde veya hiç değişmediğinde ulaşılan bir durumdur. Örneğin, aşağıdaki kayıp eğrisi yaklaşık 700 iterasyonda yakınlaşmayı önerir:

Kartezyen grafik. X ekseni kayıptır. Y ekseni, eğitim iterasyonlarının sayısıdır. Kayıp, ilk birkaç iterasyonda çok yüksektir ancak ani bir şekilde düşer. Yaklaşık 100 yinelemeden sonra kayıp azalmaya devam eder ancak çok daha yavaş yavaş devam eder. Yaklaşık 700 yinelemeden sonra kayıp sabit kalır.

Ek eğitim modeli iyileştirmediğinde model yakınlaştırılır.

Derin öğrenme'de, kayıp değerleri bazen sabit kalır veya son olarak azalmadan önce birçok iterasyon için neredeyse aynı kalır. Sürekli sabit kayıp değerleri içeren uzun bir dönem boyunca geçici olarak geçici bir yakınlık hissi yaratabilirsiniz.

Ayrıca erken durdurma bölümünü de inceleyin.

dışbükey fonksiyonu

Fonksiyon grafiğinin üzerindeki bölgenin dışbükey küme olduğu bir fonksiyon. Prototipik dışbükey işlevi U harfine benzer. Örneğin, aşağıdakilerin tümü tüm dışbükey işlevlerdir:

Her biri tek bir minimum noktaya sahip U şekilli eğriler.

Buna karşılık, aşağıdaki işlev dışbükey değildir. Grafiğin üstündeki bölgenin dışbükey küme olmadığına dikkat edin:

İki farklı yerel minimum noktası olan W şekilli bir eğri.

Kesin şekilde dışbükey işlevinde, tam olarak bir yerel minimum nokta bulunur. Bu, aynı zamanda genel minimum noktadır. U şekilli klasik fonksiyonlar kesinlikle dışbükey fonksiyonlardır. Bununla birlikte, bazı dışbükey işlevler (örneğin, düz çizgiler) U şeklinde değildir.

Matematik hakkında daha ayrıntılı bilgi edinmek için simgeyi tıklayın.

Aşağıdakiler dahil olmak üzere yaygın kayıp işlevlerinin çoğu dışbükey işlevlerdir:

L₂ kaybı
Günlük Kaybı
L₁ normalleştirmesi
L₂ normalleştirmesi

Birçok gradyan iniş varyasyonunun minimum düzeyde dışbükey işlev değerine yakın bir nokta bulması garanti edilir. Benzer şekilde, birçok olasılıksal gradyan iniş varyasyonu, kesinlikle dışbükey fonksiyonun minimum değerine yakın bir nokta bulma olasılığı yüksektir (yine de bu olasılık garanti değildir).

İki dışbükey fonksiyonun toplamı (ör. L₂ kayıp + L₁ normalleştirmesi), bir dışbükey fonksiyonudur.

Derin modeller hiçbir zaman dışbükey işlevler değildir. Dikkat çekici bir şekilde, dönüştürme optimizasyonu için tasarlanan algoritmalar, derin ağlarda her durumda makul ölçüde iyi çözümler bulma eğilimindedir. Bununla birlikte, bu çözümlerin küresel minimum olmaları garanti edilmez.

dışbükey optimizasyonu

Bir dışbüküm işlevinin minimum değerini bulmak için gradyan iniş gibi matematiksel teknikler kullanma süreci. Makine öğrenimiyle ilgili yapılan birçok araştırma, çeşitli problemleri dışbükey optimizasyon problemleri olarak formüle etmeye ve bu problemleri daha verimli bir şekilde çözmeye odaklanmıştır.

Daha ayrıntılı bilgi için Boyd ve Vandenberghe'nin Convex Optimization'a göz atın.

dışbükey kümesi

Öklid uzayının, alt kümedeki herhangi iki nokta arasına çizilen bir çizginin tamamen alt küme içinde kaldığı bir alt küme. Örneğin, aşağıdaki iki şekil dışbükey kümedir:

Bir dikdörtgen çizimi. Başka bir oval çizimi.

Buna karşılık, aşağıdaki iki şekil dışbükey küme değildir:

Eksik dilim bir pasta grafiğin çizimi.
Son derece düzensiz bir çokgenin başka bir çizimi.

konvolüsyon

#image

Matematikte, normal ifade etmek gerekirse iki işlevin karışımıdır. Makine öğreniminde, bir evrim, ağırlıkları eğitmek için evrimsel filtre ile giriş matrisini karıştırır.

Makine öğrenimindeki "kıvrım" terimi, genellikle evrimsel işlem veya evrimsel katman için kullanılan kısa bir ifadedir.

Konvolüsyonlar olmasaydı makine öğrenimi algoritmasının büyük bir tensördeki her hücre için ayrı bir ağırlık öğrenmesi gerekirdi. Örneğin, 2.000 x 2.000 görüntü üzerinde eğitilen bir makine öğrenimi algoritmasının 4 milyon ayrı ağırlık bulması gerekir. Konvolüsyonlar sayesinde, bir makine öğrenimi algoritmasının yalnızca evrimsel filtredeki her hücre için ağırlıkları bulması yeterli olur. Böylece, modeli eğitmek için gereken bellek önemli ölçüde azalır. Kıvrımlı filtre uygulandığında, filtreler hücreler arasında kolayca çoğaltılır ve her biri filtreyle çarpılır.

kıvrımlı filtre

#image

Bir evrimsel operasyontaki iki oyuncudan biri. (Diğer aktör, giriş matrisinin bir dilimidir.) Kıvrımlı filtre, girdi matrisiyle aynı sıralamaya sahip ancak daha küçük bir şekle sahip bir matristir. Örneğin, 28x28 boyutlarında bir giriş matrisi söz konusu olduğunda filtre, 28x28'den daha küçük herhangi bir 2D matris olabilir.

Fotoğrafik manipülasyonda, kıvrımlı bir filtredeki tüm hücreler genellikle sabit bir ve sıfır desenine ayarlanır. Makine öğreniminde, evrimsel filtreler genellikle rastgele sayılarla başlatılır ve ardından ağ, ideal değerleri etirir.

kıvrımlı katman

#image

Bir giriş matrisinden evrimsel filtrenin geçtiği bir derin sinir ağı katmanı. Örneğin, aşağıdaki 3x3 evrimsel filtreyi ele alalım:

Şu değerlere sahip 3x3 bir matris: [[0,1,0], [1,0,1], [0,1,0]]

Aşağıdaki animasyonda, 5x5 giriş matrisini içeren 9 evrişimsel işlemden oluşan kıvrımlı bir katman gösterilmektedir. Her evrişimsel işlemin giriş matrisinin 3x3'lük farklı bir bölümünde çalıştığına dikkat edin. Ortaya çıkan 3x3 matris (sağda), 9 evrimsel işlemin sonuçlarından oluşur:

İki matrisin gösterildiği bir animasyon. İlk matris 5x5
matrisidir: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,170]1717,17.17.17.
İkinci matris 3x3 boyutundaki matristir:
[[181,303,618], [115,338,605], [169,351,560]].
İkinci matris, 5x5 matrisin farklı 3x3 alt kümelerinde evrişimsel filtre [[0, 1, 0], [1, 0, 1], [0, 1, 0]] uygulanarak hesaplanır.

konvolüsyonel nöral ağ

#image

En az bir katmanın evrimsel katman olduğu bir nöral ağ. Tipik bir evrişimsel nöral ağ, aşağıdaki katmanların bir miktar kombinasyonundan oluşur:

evrimsel katmanlar
havuz katmanları
yoğun katmanlar

Konvolüsyonel nöral ağlar, görüntü tanıma gibi belirli problem türlerinde çok başarılı olmuştur.

konvolüsyonel işlem

#image

Aşağıdaki iki adımlı matematik işlemi:

Evrimsel filtrenin ve bir giriş matrisi diliminin öğe bazında çarpımı. (Giriş matrisinin dilimi, kıvrımlı filtre ile aynı sıralamaya ve boyuta sahiptir.)
Ortaya çıkan ürün matrisindeki tüm değerlerin toplamı.

Örneğin, aşağıdaki 5x5 giriş matrisini ele alalım:

5x5 matrisi: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,75,179], [10,0]

Şimdi aşağıdaki 2x2 kıvrımlı filtresini düşünün:

2x2 matrisi: [[1, 0], [0, 1]]

Her evrişimsel işlem, giriş matrisinin 2x2'lik tek bir dilimini içerir. Örneğin, giriş matrisinin sol üst kısmında 2x2'lik dilimi kullandığımızı varsayalım. Dolayısıyla, bu dilimdeki evrişim işlemi aşağıdaki gibi görünür:

[[128,97], [35,22]] olan giriş matrisinin sol üstteki 2x2 bölümüne kıvrımlı filtre [[1, 0], [0, 1]] uygulanıyor.
Konvolüsyonel filtre, 128 ve 22 değerlerini olduğu gibi bırakır ancak 97 ve 35 değerlerini sıfırlar. Sonuç olarak, evrişim işlemi 150 (128+22) değerini verir.

Dönüşlü katman, her biri giriş matrisinin farklı bir dilimi üzerinde hareket eden bir dizi kıvrımlı işlemden oluşur.

maliyet

loss ile eş anlamlı.

ortak eğitim

Yarı gözetimli öğrenim yaklaşımı özellikle aşağıdaki koşulların tamamı doğru olduğunda yararlıdır:

Veri kümesinde etiketlenmemiş örneklerin etiketli örneklere oranı yüksektir.
Bu bir sınıflandırma sorunudur (ikili veya çok sınıflı).
Veri kümesinde, birbirinden bağımsız ve tamamlayıcı olan iki farklı tahmine dayalı özellik grubu bulunur.

Ortak eğitim, bağımsız sinyalleri daha güçlü bir sinyale dönüştürür. Örneğin, ikinci el araçları İyi veya Kötü olarak sınıflandıran bir sınıflandırma modelini ele alalım. Tahmine dayalı özelliklerden biri arabanın yılı, markası ve modeli gibi toplu özelliklere, bir diğer tahmine dayalı özellik ise önceki araba sahibinin sürüş kaydına ve arabanın bakım geçmişine odaklanabilir.

Ortak eğitim konusundaki özgün makale Blum ve Mitchell tarafından hazırlanan Etiketli ve Etiketlenmemiş Verileri Ortak Eğitimle Birleştirme başlıklı makaledir.

karşı olgusal adalet

#fairness

Bir sınıflandırıcının, bir veya daha fazla hassas özellik açısından hariç olmak üzere, ilkiyle bire bir aynı olan bir kişi için aynı sonucu üretip üretmediğini kontrol eden bir adalet metriği. Sınıflandırıcıyı karşıt görüşlere dayalı adalet açısından değerlendirmek, bir modelde potansiyel önyargı kaynaklarını ortaya çıkarmanın bir yöntemidir.

Karşı olgusal adalet hakkında daha ayrıntılı bir tartışma için "Dünyalar Çarpıştığında: Farklı Karşıtsal Varsayımları Adalette Entegre Etme" bölümüne bakın.

kapsam önyargısı

#fairness

Seçim ağırlıklandırması bölümünü inceleyin.

kaza çiçeği

#language

Anlamı belirsiz bir cümle veya ifade. Çökme çiçekleri doğal dil anlama açısından önemli bir sorun teşkil eder. Örneğin, Kırmızı Bant Dikey Tutur başlığı, NLU modeli başlığı olduğu gibi veya mecazi olarak yorumlayabileceği için çarpışma çiçekleri anlamına gelir.

Ek notlar için simgeyi tıklayın.

Bu gizemli başlığı açıklığa kavuşturmak gerekirse:

Kırmızı Bant aşağıdakilerden birine işaret ediyor olabilir:
- Yapışkan
- Aşırı bürokrasi
Bekletme ifadesi aşağıdakilerden birine işaret edebilir:
- Yapısal destek
- Gecikmeler

eleştirmen

#rl

Derin Q-Ağı ile eş anlamlı.

çapraz entropi

Log Loss'un çok sınıflı sınıflandırma problemlerine yönelik genelleştirilmesi. Çapraz entropi, iki olasılık dağılımı arasındaki farkı ölçer. Pozitiflik konusunu da inceleyin.

çapraz doğrulama

Bir model model ayrılmış bir veya daha fazla örtüşmeyen veri alt kümesiyle karşılaştırılarak test ederek yeni verilere ne kadar iyi genelleştireceğini tahmin eden bir mekanizma.

kümülatif dağılım işlevi (CDF)

Bir hedef değerden küçük veya hedef değere eşit olan örneklerin sıklığını tanımlayan işlev. Örneğin, sürekli değerlerin normal dağılımını düşünün. Bir CDF, örneklerin yaklaşık% 50'sinin ortalama değerden küçük veya bu değere eşit olması ve örneklerin yaklaşık% 84'ünün ortalamanın üzerindeki bir standart sapmadan az ya da buna eşit olması gerektiğini bildirir.

D

veri analizi

Örnekleri, ölçümü ve görselleştirmeyi göz önünde bulundurarak verileri anlama. Veri analizi, özellikle bir veri kümesi ilk alındığında, ilk model oluşturulmadan önce yararlı olabilir. Denemeleri anlamak ve sistemdeki sorunları ayıklamak için de son derece önemlidir.

veri genişletme

#image

Ek örnekler oluşturmak için mevcut örnekleri dönüştürerek eğitim örneklerinin kapsamını ve sayısını yapay olarak artırma. Örneğin, görüntülerin özelliklerinizden biri olduğunu ancak veri kümenizin, modelin faydalı ilişkilendirmeleri öğrenmesi için yeterli resim örneği içermediğini varsayalım. İdeal olarak, modelinizin düzgün bir şekilde eğitilmesi için veri kümenize yeterli sayıda etiketli görüntü eklemeniz gerekir. Bu mümkün değilse veri genişletme, orijinal resmin birçok varyantını üretmek için her resmi döndürebilir, genişletebilir ve yansıtabilir. Bu da, mükemmel bir eğitim için muhtemelen yeterli miktarda etiketli veri sağlayabilir.

DataFrame

#fundamentals

Veri kümelerini bellekte temsil eden popüler bir pandas veri türüdür.

DataFrame, tablo veya e-tabloya benzer. DataFrame'in her sütununun bir adı (başlık) vardır ve her satır benzersiz bir sayıyla tanımlanır.

DataFrame'deki her sütun 2D dizi gibi yapılandırılır. Tek fark, her sütuna kendi veri türü atanabilmesidir.

Ayrıca, resmi pandas.DataFrame referans sayfasına da bakın.

veri paralelliği

Bir modelin tamamını birden fazla cihaza çoğaltan ve ardından giriş verilerinin bir alt kümesini her bir cihaza geçiren eğitim veya çıkarımı ölçeklendirme yöntemidir. Veri paralelliği, çok büyük grup boyutlarında eğitim ve çıkarım yapılmasını sağlayabilir. Ancak veri paralelliği, modelin tüm cihazlara sığacak kadar küçük olmasını gerektirir.

Veri paralelliği genellikle eğitimi ve çıkarımı hızlandırır.

Paralelliği modelleme bölümünü de inceleyin.

veri kümesi veya veri kümesi

#fundamentals

Genellikle (ancak özel olarak değil) aşağıdaki biçimlerden birinde düzenlenmiş ham veri koleksiyonu:

e-tablo
CSV (virgülle ayrılmış değerler) biçimindeki bir dosya

Veri Kümesi API'sı (tf.data)

#TensorFlow

Verileri okumak ve makine öğrenimi algoritmasının gerektirdiği forma dönüştürmek için kullanılan üst düzey TensorFlow API. tf.data.Dataset nesnesi, her öğenin bir veya daha fazla Tensör içerdiği bir öğe dizisini temsil eder. tf.data.Iterator nesnesi, Dataset öğelerine erişim sağlar.

Dataset API hakkında ayrıntılı bilgi için TensorFlow Programmer's Guide'da (TensorFlow Programcı Kılavuzu) tf.data: Build TensorFlow giriş ardışık düzenleri bölümüne bakın.

karar sınırı

İkili sınıf veya çok sınıflı sınıflandırma problemlerindeki bir model tarafından öğrenilen sınıflar arasındaki ayırıcı. Örneğin, ikili sınıflandırma problemini temsil eden aşağıdaki resimde, karar sınırı turuncu sınıf ile mavi sınıf arasındaki sınırdır:

Sınıflar ile diğer sınıflar arasında iyi tanımlanmış sınır.

karar ormanı

#df

Birden fazla karar ağacından oluşturulan bir model. Bir karar ormanı, karar ağaçlarından gelen tahminleri birleştirerek bir tahminde bulunur. Popüler karar ormanı türleri arasında rastgele ormanlar ve gradyan güçlendirilmiş ağaçlar bulunur.

karar eşiği

Sınıflandırma eşiği ile eş anlamlı.

karar ağacı

#df

Bir dizi conditions ve conditions hiyerarşik olarak düzenlenmiş, gözetimli bir öğrenme modeli. Örneğin, aşağıda bir karar ağacı verilmiştir:

Hiyerarşik olarak düzenlenmiş dört koşuldan oluşan ve beş yaprak oluşturan bir karar ağacı.

kod çözücü

#language

Genel olarak, işlenmiş, yoğun veya dahili bir gösterimden daha ham, seyrek veya harici bir gösterime dönüşen tüm ML sistemleri.

Kod çözücüler, genellikle kodlayıcı ile eşlenen daha büyük bir modelin bileşenidir.

Adım sırası görevlerinde kod çözücü, bir sonraki adım sırasını tahmin etmek için kodlayıcı tarafından oluşturulan dahili durumla başlar.

Dönüştürücü mimarisi içindeki bir kod çözücü tanımı için Dönüştürücü'ye bakın.

derin model

#fundamentals

Birden fazla gizli katman içeren bir nöral ağ.

Derin model, derin sinir ağı olarak da adlandırılır.

Geniş model ile kontrast.

derin sinir ağı : derin nöral ağ

Derin model ile eş anlamlı.

Derin Q-Ağı (DQN)

#rl

Q-learning'de Q işlevlerini tahmin eden derin bir nöral ağ.

Eleştirmen, Derin Q-Network ile eş anlamlıdır.

demografik denklik

#fairness

Bir modelin sınıflandırmasının sonuçları, belirli bir hassas özelliğe bağlı olmadığında sağlanan adalet metriği.

Örneğin, hem Lilliputians hem de Brobdingnagians'ın Glubbdubdrib Üniversitesi'ne başvurması durumunda, bir grubun ortalama olarak diğerinden daha nitelikli olup olmadığına bakılmaksızın, kabul edilen Lilliputyalıların yüzdesi kabul edilen Brobdingnagililerin yüzdesiyle aynı olduğunda demografik denklik sağlanmış olur.

Sınıflandırma sonuçlarının topluca hassas özelliklere bağlı olmasına izin veren ancak belirtilen belirli kesin referans etiketlerinin sınıflandırma sonuçlarının hassas özelliklere bağlı olmasına izin vermeyen eşit oranlar ve fırsat eşitliği ile zıtlıktır. Demografik denklik için optimizasyon yaparken dengeleri keşfeden bir görselleştirme için "Daha akıllı makine öğrenimiyle ayrımcılığa meydan okuma" bölümüne bakın.

gürültü giderme

#language

Kendi kendine gözetimli öğrenmeye yönelik yaygın bir yaklaşımdır.

Gürültü, veri kümesine yapay olarak eklenir.
model gürültüyü kaldırmaya çalışır.

Parazit giderme, etiketlenmemiş örneklerden öğrenmeyi sağlar. Orijinal veri kümesi, hedef veya etiket olarak, gürültülü veri de giriş olarak kullanılır.

Bazı maskelenmiş dil modelleri gürültü gidermeyi aşağıdaki gibi kullanır:

Bazı jetonları maskeleyerek etiketlenmemiş cümleye yapay olarak gürültü eklenir.
Model, orijinal jetonları tahmin etmeye çalışır.

yoğun özellik

#fundamentals

Değerlerinin çoğunun veya tümünün sıfır olmadığı bir özellik, genellikle kayan nokta değerlerinin Tensörü. Örneğin, aşağıdaki 10 öğeli Tensor, değerlerinin 9'u sıfır olmadığı için yoğundur:

Seyrek özellikle kontrast oluşturun.

yoğun katman

Tamamen bağlı katman ile eş anlamlı.

derinlik

#fundamentals

Nöral ağda aşağıdakilerin toplamı:

Gizli katmanların sayısı
çıkış katmanlarının sayısı (genellikle 1)
yerleştirme katmanlarının sayısı

Örneğin, beş gizli katmanı ve bir çıkış katmanı olan bir nöral ağının derinliği 6'dır.

Giriş katmanının derinliği etkilemediğine dikkat edin.

derinlik olarak ayrılabilir konvolüsyonel nöral ağ (sepCNN)

#image

Inception'ı temel alan, ancak Inception modüllerinin derinlemesine ayrılabilen evrimlerle değiştirildiği bir evrimsel nöral ağ mimarisi. Xception olarak da bilinir.

Derinle ayrılabilir konvolüsyon (ayrılabilir konvolüsyon olarak da kısaltılır), standart bir 3D evrimi, işlem açısından daha verimli olan iki ayrı evrişim işlemine dahil eder. Birincisi, derinlik olarak 1 derinlikte (n, uzunlukta ve derinlikte 1, yok 1 acağını 1 nokta şeklinde) ve sonra ikinci olarak, bir nokta şeklinde, bir derinlik olarak evrim

Daha fazla bilgi için Xception: Depthwise Reparable Convolutions ile Derin Öğrenme bölümüne bakın.

türetilmiş etiket

Proxy etiketi ile eş anlamlı.

cihaz

#TensorFlow

#GoogleCloud

Aşağıdaki iki olası tanımı içeren aşırı yüklenmiş bir terim:

CPU'lar, GPU'lar ve TPU'lar dahil olmak üzere TensorFlow oturumu çalıştırabilen bir donanım kategorisi.
Bir ML modelini hızlandırıcı çipler (GPU'lar veya TPU'lar) üzerinde eğitirken sistemin tensörleri ve yerleştirmeleri gerçekten değiştiren kısmıdır. Cihaz hızlandırıcı çiplerle çalışır. Buna karşılık, ana makine genellikle bir CPU üzerinde çalışır.

diferansiyel gizlilik

Makine öğreniminde, bir modelin eğitim grubunda yer alan hassas verilerin (ör. kişinin kişisel bilgileri) açığa çıkmasını önlemek için kullanılan anonimleştirme yaklaşımıdır. Bu yaklaşım, model belirli bir kişi hakkında çok fazla bilgi edinmemesini veya hatırlamamasını sağlar. Bu, tek tek veri noktalarını gizlemek ve hassas eğitim verilerinin açığa çıkma riskini azaltmak için model eğitimi sırasında örnekleme ve gürültü ekleme yoluyla gerçekleştirilir.

Diferansiyel gizlilik, makine öğreniminin dışında da kullanılır. Örneğin veri bilimciler, bazen farklı demografik gruplar için ürün kullanım istatistiklerini hesaplarken bireysel gizliliği korumak amacıyla diferansiyel gizlilik kullanırlar.

boyut azaltma

Bir özellik vektöründe, genellikle yerleştirme vektöre dönüştürerek belirli bir özelliği temsil etmek için kullanılan boyutların sayısını azaltma.

boyutlar

Aşağıdaki tanımlardan herhangi birine sahip aşırı yüklenmiş terim:

Bir Tensör içindeki koordinat seviyelerinin sayısı. Örneğin:
- Skalerin boyutu sıfırdır; örneğin, ["Hello"].
- Bir vektörün tek bir boyutu vardır; örneğin, [3, 5, 7, 11].
- Matrisin iki boyutu vardır; örneğin, [[2, 4, 18], [5, 7, 14]].
Belirli bir hücreyi, tek boyutlu bir vektörte tek koordinatla benzersiz bir şekilde belirtebilirsiniz; belirli bir hücreyi iki boyutlu bir matriste benzersiz bir şekilde belirtmek için iki koordinat gerekir.
Bir özellik vektöründeki giriş sayısıdır.
Bir yerleştirme katmanındaki öğe sayısı.

doğrudan isteme

#language

#üretken yapay zeka

Sıfır çekimli istem ile eş anlamlı.

ayrı özellik

#fundamentals

Sınırlı sayıda olası değer içeren bir özellik. Örneğin, değerleri yalnızca hayvan, sebze veya mineral olabilen bir özellik ayrı (veya kategorik) bir özelliktir.

Sürekli özellik ile kontrast.

ayrımcı model

Bir veya daha fazla özellik grubundan etiketleri tahmin eden bir model. Daha resmi olan ayrımlı modeller, özelliklere ve ağırlıklara göre bir çıktının koşullu olasılığını tanımlar. Diğer bir deyişle:

p(output | features, weights)

Örneğin, bir e-postanın özellik ve ağırlıklardan kaynaklanan spam olup olmadığını tahmin eden bir model ayrımcı bir modeldir.

Sınıflandırma ve regresyon modelleri dahil olmak üzere, gözetimli öğrenme modellerinin büyük çoğunluğu ayrımcı modellerdir.

Üretken model ile kontrast oluşturun.

ayrımcı

Örneklerin gerçek veya sahte olduğunu belirleyen sistem.

Alternatif olarak, jeneratör tarafından oluşturulan örneklerin gerçek veya sahte olduğunu belirleyen, üretken çelişkili bir ağ içinde yer alan alt sistem.

eşit düzeyde etki

#fairness

Farklı nüfus alt gruplarını orantısız bir şekilde etkileyen insanlarla ilgili kararlar almak. Bu genellikle algoritmik bir karar verme sürecinin bazı alt gruplara diğerlerinden daha çok zarar verdiği veya fayda sağladığı durumları ifade eder.

Örneğin, Lilliputian'ın bir minyatür ev kredisine uygun olup olmadığını belirleyen bir algoritmanın, posta adresi belirli bir posta kodu içeriyorsa o müşteriyi "uygun değil" olarak sınıflandırma olasılığının daha yüksek olduğunu varsayalım. Big-Endian Lilliputians'larının da bu posta koduna sahip posta adreslerine sahip olma olasılığı, Little-Endian Lilliputians'a göre daha yüksekse bu algoritmanın farklı bir etkisi olabilir.

Alt grup özelliklerinin algoritmik bir karar verme sürecine açıkça girdiler olması durumunda ortaya çıkan eşitsizliklere odaklanan farklı değerlendirmelerin aksine.

ayrı muamele

#fairness

Öznelerin hassas özelliklerini, farklı insan alt gruplarına farklı şekilde davranacak şekilde algoritmik bir karar verme sürecinde dikkate alma.

Örneğin, Lilliputians'ın kredi başvurularında sağladıkları verilere dayanarak minyatür ev kredisi için uygun olup olmadıklarını belirleyen bir algoritmayı düşünelim. Algoritma, bir Lilliputian'ın Big-Endian veya Little-Endian olarak ilişkisini giriş olarak kullanırsa bu boyut boyunca birbirine farklı muamele uygular.

Algoritmaya dayalı kararların alt gruplardaki toplumsal etkilerindeki eşitsizliklere odaklanan farklı etki ile kıyaslar. Bu alt grupların model için girdiler olup olmadığına bakılmaz.

damıtma

#üretken yapay zeka

Bir model (model olarak bilinir) boyutunu, orijinal modelin tahminlerini olabildiğince güvenilir şekilde simüle eden daha küçük bir modele (model olarak bilinir) dönüştürme işlemi. Damıtma, küçük modelin büyük modele (öğretmen) kıyasla iki önemli avantajı olduğundan yararlıdır:

Daha hızlı çıkarım süresi
Bellek ve enerji kullanımı azaltıldı

Ancak öğrencinin tahminleri genellikle öğretmenin tahminleri kadar iyi olmaz.

Damıtma, öğrenci ve öğretmen modellerine ait tahminlerin çıktıları arasındaki farkı temel alarak kayıp işlevini en aza indirecek şekilde öğrenci modelini eğitir.

Arıtma işlemini aşağıdaki terimlerle karşılaştırın:

ince ayarlama
isteme dayalı öğrenim

distribution

Belirli bir özellik veya etiket için farklı değerlerin sıklığı ve aralığı. Dağılım, belirli bir değerin ne kadar olası olduğunu gösterir.

Aşağıdaki resimde, iki farklı dağılımın histogramları gösterilmektedir:

Sol tarafta, zenginlik ile bu zenginliğe sahip olan kişi sayısının güç yasası dağılımı.
Sağda, normal yükseklik dağılımıyla bu boya sahip kişi sayısı.

Her bir özelliği ve etiketin dağılımını anlamak, değerleri nasıl normalleştireceğinizi ve aykırı değerleri nasıl tespit edeceğinizi belirlemenize yardımcı olabilir.

Dağıtım dışı ifadesi, veri kümesinde görünmeyen veya çok nadir bulunan bir değeri ifade eder. Örneğin, Satürn gezegenine ait bir görüntünün, kedi resimlerinden oluşan bir veri kümesi için dağıtılmadığı kabul edilir.

bölme

#clustering

Hiyerarşik kümeleme bölümünü inceleyin.

aşağı örnekleme

#image

Aşağıdakilerden biri olabilen aşırı yüklenmiş terim:

Bir modeli daha verimli bir şekilde etirmek için bir özellikteki bilgi miktarını azaltma. Örneğin, bir görüntü tanıma modelini eğitmeden önce, yüksek çözünürlüklü görüntülerin daha düşük çözünürlüklü bir biçimde örneklemesi kullanılabilir.
Yeterince temsil edilmeyen sınıflarda model eğitimini iyileştirmek için yeterince temsil edilmeyen sınıf örneklerinden orantısız şekilde düşük oranda eğitim. Örneğin, sınıf dengesiz bir veri kümesinde modeller, çoğunluk sınıfı hakkında çok fazla bilgi edinme eğilimindedir ancak azınlık sınıfı hakkında yeterli bilgi vermez. Aşağı örnekleme, çoğunluk ve azınlık sınıflarıyla ilgili eğitim miktarını dengelemeye yardımcı olur.

VKN

#rl

Derin Q-Network'ün kısaltmasıdır.

bırakma normalleştirmesi

Nöral ağların eğitiminde faydalı olan bir düzenleme biçimi. Ayrılma normalleştirmesi, tek bir renk geçişi adımı için bir ağ katmanındaki sabit sayıda birimin rastgele seçimini kaldırır. Çıkarılan birim sayısı ne kadar fazlaysa düzenleme de o kadar güçlü olur. Bu, ağı, katlanarak büyük bir topluluk emüle edecek şekilde eğitmeye benzer. Daha ayrıntılı bilgi için Dropout: A Simple Way to sınırlandır Nöral Networks'ün (Nöral Ağların Aşırı Uyum Sağlamasını Önlemenin Basit Yolu) bölümüne göz atın.

dinamik

#fundamentals

Sık veya sürekli yapılan bir şey. Dinamik ve online terimleri, makine öğreniminde eş anlamlıdır. Makine öğreniminde dinamik ve online'ın yaygın kullanımları aşağıda belirtilmiştir:

Dinamik model (veya online model) sık sık veya sürekli olarak yeniden eğitilen bir modeldir.
Dinamik eğitim (veya online eğitim), sık veya sürekli eğitim sürecidir.
Dinamik çıkarım (veya online çıkarım), isteğe bağlı tahmin oluşturma işlemidir.

dinamik model

#fundamentals

Sık sık (hatta sürekli olarak) yeniden eğitilen bir model. Dinamik model, sürekli değişen verilere uyum sağlayan "yaşam boyu öğrenci"dir. Dinamik model, online model olarak da bilinir.

Statik model ile kontrast oluşturun.

E

anında yürütme

#TensorFlow

operations hemen çalıştırıldığı TensorFlow programlama ortamı. Öte yandan, grafik yürütme özelliğinde çağrılan işlemler, açık bir şekilde değerlendirilene kadar çalışmaz. Eşikli yürütme, çoğu programlama dilindeki koda benzer şekilde zorunlu bir arayüzdür. Hızlıca yürütme programlarında hata ayıklamak, grafik yürütme programlarına kıyasla genellikle çok daha kolaydır.

erken durdurma

#fundamentals

Eğitim kaybının azalması tamamlanmadan önce eğitimin sonlandırılmasını içeren bir düzenleme yöntemidir. Erken durdurmada, bir doğrulama veri kümesindeki kayıp artmaya başladığında, yani genelleştirme performansı kötüleştiğinde modeli eğitmeyi kasıtlı olarak durdurursunuz.

Ek notlar için simgeyi tıklayın.

Erken durdurmak mantıksız gelebilir. Sonuçta, bir modele kayıp azalırken eğitimi durdurmasını söylemek, şefe tatlı tam olarak pişmeye başlamadan önce pişirmeyi bırakmasını söylemek gibi görünebilir. Bununla birlikte, bir modelin çok uzun süre eğitilmesi, aşırı uyuma yol açabilir. Yani bir modeli çok uzun süre eğitirseniz model, eğitim verilerine yeni örneklerle ilgili iyi tahminlerde bulunamayacak kadar yakın sığabilir.

yer nakliyecisinin mesafesi (EMD)

İki dağılımın göreli benzerliğinin ölçüsü. Toprak hareketini yapan kişinin mesafesi ne kadar düşükse, dağılımlar da o kadar benzerdir.

mesafeyi düzenle

#language

İki metin dizesinin birbirine ne kadar benzer olduğunun ölçümü. Makine öğreniminde, düzenleme mesafesi yararlıdır. Bunun nedeni, hesaplamanın basit olması ve benzer olduğu bilinen iki dizeyi karşılaştırmanın veya belirli bir dizeye benzer dizeleri bulmanın etkili bir yoludur.

Düzenleme mesafesinin, her biri farklı dize işlemleri kullanan birkaç tanımı vardır. Örneğin, Levenshtein mesafesi en az sayıda silme, ekleme ve değiştirme işlemlerini dikkate alır.

Örneğin, Levenshtein'da "kalp" ve "dart" kelimeleri arasındaki mesafe 3'tür, çünkü aşağıdaki 3 düzenleme bir kelimeyi diğerine dönüştüren en az değişikliktir:

kalp → deart ("h" yerine "d")
deart → dart (sil "e")
dart → dart ("s" ekleyin)

Einsum gösterimi

İki tensörün nasıl birleştirileceğini açıklamak için etkili bir gösterim. Tensörler, bir tensörün elemanlarıyla diğer tensörün elemanları çarpılarak ve ürünler toplanarak birleştirilir. Einsum gösterimi, her bir tensörün eksenlerini tanımlamak için semboller kullanır ve aynı semboller, yeni ortaya çıkan tensörün şeklini belirtecek şekilde yeniden düzenlenir.

NumPy, yaygın bir Einsum uygulaması sağlar.

yerleştirme katmanı

#language

#fundamentals

Daha düşük boyutlu bir yerleştirme vektörünü kademeli olarak öğrenmek için yüksek boyutlu kategorik özellik üzerinde çalışan özel gizli katman. Yerleştirme katmanı, bir nöral ağın sadece yüksek boyutlu kategorik özellik üzerinde eğitimden çok daha verimli bir şekilde eğitilmesini sağlar.

Örneğin, Earth şu anda yaklaşık 73.000 ağaç türünü desteklemektedir. Ağaç türünün modelinizdeki bir özellik olduğunu ve modelinizin giriş katmanında 73.000 öğe uzunluğunda bir tek sıcak vektör bulunduğunu varsayalım. Örneğin, baobab aşağıdaki gibi temsil edilebilir:

73.000 öğeden oluşan dizi. İlk 6.232 öğe 0 değerini barındırır. Bir sonraki öğe 1 değerini tutar. Son 66.767 öğe sıfır değerini tutar.

73.000 öğeli bir dizi çok uzun. Modele bir yerleştirme katmanı eklemezseniz 72.999 sıfırın çarpımı nedeniyle eğitim çok zaman alır. Belki de yerleştirme katmanını 12 boyuttan oluşacak şekilde seçersiniz. Bunun sonucunda, yerleştirme katmanı kademeli olarak her bir ağaç türü için yeni bir gömme vektörü öğrenecektir.

Belirli durumlarda, yerleştirme katmanına makul bir alternatif olarak karma oluşturma kullanılabilir.

yerleştirme alanı

#language

Daha yüksek boyutlu bir vektör uzayından özellikler içeren d boyutlu vektör uzayı eşlenir. İdeal olarak yerleştirme alanı, anlamlı matematiksel sonuçlar veren bir yapı içerir. Örneğin, ideal bir yerleştirme alanında, yerleştirilmiş öğeler eklemek ve çıkarmak kelime analojisi görevlerini çözebilir.

İki yerleştirmenin nokta çarpımı, benzerliklerinin bir ölçüsüdür.

gömme vektörü

#language

Genel anlamda, herhangi bir gizli katmandan alınan ve söz konusu gizli katmandaki girişleri açıklayan bir dizi kayan nokta sayısıdır. Genellikle yerleştirme vektörü, bir yerleştirme katmanında eğitilen kayan nokta sayıları dizisidir. Örneğin, yerleştirilmiş bir katmanın Dünya'daki 73.000 ağaç türünün her biri için bir gömme vektörü öğrenmesi gerektiğini varsayalım. Aşağıdaki dizi, bir baobab ağacının gömme vektörü olabilir:

Her biri 0,0 ile 1,0 arasında bir kayan nokta sayısına sahip 12 öğeden oluşan dizi.

Gömme vektörü, bir dizi rastgele sayı değildir. Bu değerler, eğitim sırasında bir nöral ağın diğer ağırlıkları öğrenmesine benzer şekilde, eğitim aracılığıyla da yerleştirilmiş olur. Dizinin her öğesi, bir ağaç türünün bazı özelliklerine göre verilen bir derecelendirmedir. Hangi öğe hangi ağaç türünün özelliğini temsil eder? İnsanların bunu belirlemesi çok zordur.

Gömme vektörünün matematiksel olarak en önemli yanı, benzer öğelerin benzer kayan nokta sayılarına sahip olmasıdır. Örneğin, benzer ağaç türleri, farklı ağaç türlerine kıyasla daha benzer kayan nokta sayıları kümesine sahiptir. Kızılağaçlar ve sekoyalar birbiriyle alakalı ağaç türleridir, bu nedenle sekoya ve hindistan cevizi palmiyelerine kıyasla daha benzer kayan nokta sayılarına sahiptir. Aynı girdiyle modeli yeniden eğitseniz bile, yerleştirme vektöründeki sayılar modeli her yeniden eğittiğinizde değişir.

deneysel kümülatif dağılım işlevi (eCDF veya EDF)

Gerçek bir veri kümesindeki deneysel ölçümlere dayanan bir kümülatif dağılım işlevi. X ekseni boyunca herhangi bir noktada işlevin değeri, veri kümesindeki belirtilen değerden küçük veya bu değere eşit gözlemlerin oranıdır.

deneysel risk minimuma alma (ERM)

Eğitim veri kümesindeki kaybı en aza indiren işlev seçiliyor. Yapısal risk azaltma ile kontrast oluşturun.

kodlayıcı

#language

Genel olarak, ham, seyrek veya harici bir gösterimden daha işlenmiş, yoğun veya daha çok dahili bir temsile dönüşen tüm ML sistemleri.

Kodlayıcılar, genellikle kod çözücü ile eşlenen daha büyük bir modelin bileşenidir. Bazı Dönüştürücüler, kodlayıcıları kod çözücülerle eşler. Diğer Dönüştürücüler ise yalnızca kodlayıcıyı veya yalnızca kod çözücüyü kullanır.

Bazı sistemler, sınıflandırma veya regresyon ağına giriş olarak kodlayıcının çıkışını kullanır.

Diziden sıraya ekleme görevlerinde kodlayıcı, bir giriş dizisi alıp bir dahili durum (vektör) döndürür. Ardından kod çözücü, bu dahili durumu kullanarak bir sonraki diziyi tahmin eder.

Dönüştürücü mimarisindeki bir kodlayıcının tanımı için Dönüştürücü bölümüne bakın.

topluluk

Tahminlerinin ortalaması veya toplandığı bağımsız olarak eğitilmiş bir model koleksiyonu. Çoğu durumda, bir topluluk tek bir modelden daha iyi tahminler üretir. Örneğin, rastgele orman, birden fazla karar ağacından oluşturulmuş bir topluluktur. Tüm karar ormanlarının topluluk olmadığını unutmayın.

entropi

#df

Bilgi teorisinde, olasılık dağılımının ne kadar öngörülemez olduğuna dair bir açıklamadır. Alternatif olarak entropi, her bir örneğin ne kadar bilgi içerdiği olarak da tanımlanır. Rastgele bir değişkenin tüm değerlerinin eşit olasılığa sahip olduğu durumlarda dağılım mümkün olan en yüksek entropiye sahip olur.

İki olası değere ("0" ve "1") sahip bir kümenin entropisi (örneğin, ikili sınıflandırma problemindeki etiketler) aşağıdaki formüle sahiptir:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Bu örnekte:

H, entropidir.
p, "1" örneklerin oranıdır.
q, "0" örneklerinin oranıdır. q = (1 - p) değerine dikkat edin.
log, genellikle log₂'dir. Bu örnekte entropi birimi biraz olsun.

Örneğin, aşağıdaki durumu varsayalım:

"1" değerini içeren 100 örnek
"0" değerini içeren 300 örnek

Bu durumda entropi değeri şöyle olur:

k = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = Örnek başına 0,81 bit

Tam dengeli bir kümenin (örneğin, 200 "0" ve 200 "1") entropisi örnek başına 1,0 bit olur. Bir küme daha dengesizleştiğinde entropi 0, 0'a doğru ilerler.

Karar ağaçlarında entropi, bilgi kazanımı oluşturarak sınıflandırma karar ağacının gelişimi sırasında bölen kişinin koşulları seçmesine yardımcı olur.

Entropiyi şununla karşılaştır:

cinsiyetini bozulması
entropiler arası kayıp fonksiyonu

Entropi genellikle Shannon entropisi olarak adlandırılır.

ortam

#rl

Pekiştirmeli öğrenmede, aracıyı içeren ve temsilcinin söz konusu devleti gözlemlemesine olanak tanıyan dünya kullanılır. Örneğin, temsil edilen dünya satranç gibi bir oyun veya labirent gibi fiziksel bir dünya olabilir. Aracı, ortama bir işlem uyguladığında, ortam durumlar arasında geçiş yapar.

bölüm

#rl

Pekiştirmeli öğrenmede, temsilcinin bir ortam öğrenmesi için tekrarlanan denemelerin her biri.

sıfır zaman

#fundamentals

Tüm eğitim setinin tamamını kapsayan, her örnek bir kez işlenmiş olan tam bir eğitim pasosu.

Dönem, N/toplu boyutu eğitim yinelemelerini temsil eder. Burada N, toplam örnek sayısıdır.

Örneğin, aşağıdaki durumu varsayalım:

Veri kümesi 1.000 örnekten oluşur.
Grup boyutu 50 örnektir.

Bu nedenle, tek bir dönem için 20 yineleme gerekir:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

epsilon greedy politikası

#rl

Pekiştirmeli öğrenmede, epsilon olasılık içeren rastgele bir politikayı veya aksi halde aç gözlülük politikasını izleyen bir politika söz konusudur. Örneğin, epsilon 0,9 ise politika% 90 rastgele bir politika, %10 oranında açgözlü politika uygular.

Algoritma, birbirini takip eden bölümler üzerinden rastgele bir politika uygulamaktan açgözlü politika uygulamaya geçmek için epsilon'un değerini düşürür. Aracı, politikayı değiştirerek önce ortamı rastgele keşfeder ve rastgele keşif sonuçlarını aç gözle kullanır.

fırsat eşitliği

#fairness

Bir modelin, bir hassas özelliğin tüm değerleri için istenen sonucu eşit ölçüde iyi tahmin edip etmediğini değerlendirmek üzere kullanılan adalet metriği. Diğer bir deyişle, bir model için istenen sonuç pozitif sınıf ise hedef, gerçek pozitif oranın tüm gruplar için aynı olması olur.

Fırsat eşitliği, eşit şanslar ile ilgilidir. Bu durum, tüm gruplar için hem gerçek pozitif oranların hem de yanlış pozitif oranlarının aynı olmasını gerektirir.

Glubbdubdrib Üniversitesi'nin hem Lilliputyalıları hem de Brobdingnagi'leri titiz bir matematik programına kabul ettiğini varsayalım. Lilliputians'ın ortaokulları, matematik sınıflarından oluşan güçlü bir müfredat sunar ve öğrencilerin büyük çoğunluğu üniversite programına katılmaya hak kazanır. Brobdingnagians'ın ortaokullarında hiç matematik dersi verilmiyor ve bu sayede öğrencileriniz çok daha az sayıda öğrenci tarafından karşılanıyor. Uygun niteliklere sahip öğrencilerin bir Lilliputian ya da Brobdingnagian olmalarına bakılmaksızın kabul edilme olasılıkları eşitse, uyruk açısından tercih edilen "kabul edildi" etiketi (Lilliputian veya Brobdingnagian) için fırsat eşitliği sağlanmış olur.

Örneğin, 100 Lilliputian ve 100 Brobdingnagia'nın Glubbdubdrib Üniversitesi'ne başvurduğunu ve kabul kararlarının aşağıdaki gibi alındığını varsayalım:

Tablo 1. Lilliputianus'taki başvuru sahipleri (%90'ı gerekli)

	Uygun	Uygun Değil
Kabul edildi	45	3
Reddedildi	45	7
Toplam	90	10
Kabul edilen nitelikli öğrencilerin yüzdesi: 45/90 =%50 Reddedilen öğrencilerin yüzdesi: 7/10 =%70 Kabul edilen Lilliputian öğrencilerinin toplam yüzdesi: (45+3)/100 = %48

Tablo 2. Brobdingnagian başvuru sahipleri (%10 uygun):

	Uygun	Uygun Değil
Kabul edildi	5	9
Reddedildi	5	81
Toplam	10	90
Kabul edilen nitelikli öğrencilerin yüzdesi: 5/10 =%50 Reddedilen öğrencilerin yüzdesi: 81/90 =%90 Kabul edilen Brobdingnagian öğrencilerinin toplam yüzdesi: (5+9)/100 = %14

Yukarıdaki örneklerde nitelikli Lilliputyalıların ve Brobdingnagialıların kabul edilme şansı% 50 olduğundan, yukarıdaki örneklerde nitelikli öğrencilerin kabul edilmesinde fırsat eşitliği bulunmaktadır.

Fırsat eşitliği sağlansa da aşağıdaki iki adalet metriği karşılanmaz:

demografik eşitlik: Lilliputians ve Brobdingnagians öğrencileri üniversiteye farklı oranlarda kabul edilmektedir. Lilliputyalı öğrencilerin% 48'i kabul edilirken, Brobdingnagian öğrencilerinin yalnızca% 14'ü kabul edilmektedir.
eşit şansa sahip olma: Uygun Lilliputian ve Brobdingnagian öğrencilerinin kabul edilme şansı aynı olsa da, kalifiye olmayan Lilliputian ve Brobdingnagian öğrencilerinin aynı reddedilme şansının aynı olması gibi ek kısıtlama karşılanmaz. Uygun olmayan Lilliputian'ların ret oranı% 70, nitelikli olmayan Brobdingnagis'ler ise% 90'dır.

Fırsat eşitliği konusunda daha ayrıntılı bir tartışma için "Gözetimli Öğrenimde Fırsat Eşitliği" bölümüne bakın. Fırsat eşitliği için optimizasyon yaparken dengeleri keşfeden bir görselleştirme için "Daha akıllı makine öğrenimiyle ayrımcılığa karşı mücadele" bölümüne de bakın.

eşitlenmiş olasılıklar

#fairness

Bir modelin, hassas özelliğin tüm değerleri için sonuçları hem pozitif sınıfa hem de negatif sınıfa (yalnızca bir sınıfa veya yalnızca bir sınıfa) göre eşit ölçüde iyi tahmin edip etmediğini değerlendirmek için kullanılan bir adalet metriğidir. Diğer bir deyişle, tüm gruplar için hem gerçek pozitif oranı hem de yanlış negatif oranı aynı olmalıdır.

Eşitlenmiş şanslar, yalnızca tek bir sınıfın (pozitif veya negatif) hata oranlarına odaklanan fırsat eşitliği ile ilgilidir.

Örneğin, Glubbdubdrib Üniversitesi'nin titiz bir matematik programına hem Lilliputyalıları hem de Brobdingnagianslıları kabul ettiğini varsayalım. Lilliputians'ın ortaokulları, matematik sınıflarından oluşan sağlam bir müfredat sunar ve öğrencilerin büyük çoğunluğu üniversite programına katılmaya hak kazanır. Brobdingnagians'ın ortaokullarında hiç matematik dersi verilmiyor ve bu nedenle öğrencilerinden çok daha azı nitelikli hale geliyor. Başvuru sahibinin Lilliputian veya Brobdingnagian olması önemli olmaksızın, programa kabul edilme olasılıklarının eşit olduğu ve kalifiye değillerse reddedilme ihtimallerinin de eşit olduğu durumlar eşittir.

100 Lilliputian ve 100 Brobdingnagia'nın Glubbdubdrib Üniversitesi'ne başvurduğunu ve başvuru kararlarının aşağıdaki gibi alındığını varsayalım:

Tablo 3. Lilliputianus'taki başvuru sahipleri (%90'ı gerekli)

	Uygun	Uygun Değil
Kabul edildi	45	2
Reddedildi	45	8
Toplam	90	10
Kabul edilen nitelikli öğrencilerin yüzdesi: 45/90 =%50 Reddedilen öğrencilerin oranı: 8/10 =%80 Kabul edilen Lilliputian öğrencilerinin toplam yüzdesi: (45+2)/100 = %47

Tablo 4. Brobdingnagian başvuru sahipleri (%10 uygun):

	Uygun	Uygun Değil
Kabul edildi	5	18
Reddedildi	5	72
Toplam	10	90
Kabul edilen nitelikli öğrencilerin yüzdesi: 5/10 =%50 Reddedilen öğrencilerin oranı: 72/90 =%80 Kabul edilen Brobdingnagian öğrencilerinin toplam yüzdesi: (5+18)/100 = %23

Gerekli niteliklere sahip olan Lilliputian ve Brobdingnagian öğrencilerinin kabul edilme şansı% 50, kalifiye olmayan Lilliputian ve Brobdingnagian öğrencilerinin ise% 80 oranında reddedilme şansı olduğundan, eşitleştirilmiş şanslar kabul edilir.

Eşitlenmiş şanslar resmi olarak "Gözetimli Öğrenimde Fırsat Eşitliği" bölümünde şu şekilde tanımlanır: "tahmincisi, Ŷ ve A bağımsızysa, Y'de koşula bağlı olarak korumalı A özelliğine ve Y sonucuna göre eşit oranlı olasılıkları karşılar."

Tahmin Aracı

#TensorFlow

Kullanımdan kaldırılmış bir TensorFlow API. Predictions yerine tf.keras alanını kullanın.

değerlendirme

Bir makine öğrenimi modelinin tahminlerinin kalitesini ölçme süreci. Bir model geliştirirken değerlendirme metriklerini genellikle yalnızca eğitim grubuna değil, doğrulama grubuna ve test kümesine de uygularsınız. Farklı modelleri birbiriyle karşılaştırmak için değerlendirme metriklerini de kullanabilirsiniz.

örnek

#fundamentals

Bir features satırının ve muhtemelen bir label satırının değerleri. Gözetimli öğrenme kapsamındaki örnekler iki genel kategoriye ayrılır:

Etiketli örnek, bir veya daha fazla özellik ve bir etiketten oluşur. Etiketli örnekler eğitim sırasında kullanılır.
Etiketlenmemiş örnek bir veya daha fazla özellikten oluşur ancak etiket içermez. Çıkarım sırasında etiketlenmemiş örnekler kullanılır.

Örneğin, hava koşullarının öğrencilerin sınav puanları üzerindeki etkisini belirlemek üzere bir modele eğitim verdiğinizi varsayalım. Etiketlenmiş üç örneği burada bulabilirsiniz:

Özellikler			Şirket
Sıcaklık	Nem	Basınç	Test puanı
15	47	998	İyi
19	34	1020	Mükemmel
18	92	1012	Yetersiz

Aşağıda etiketlenmemiş üç örnek verilmiştir:

Sıcaklık	Nem	Basınç
12	62	1014
21	47	1017
19	41	1021

Bir veri kümesinin satırı genellikle bir örneğin ham kaynağıdır. Yani bir örnek, genellikle veri kümesindeki sütunların bir alt kümesinden oluşur. Dahası, bir örnekteki özellikler özellik çaprazı gibi sentetik özellikleri de içerebilir.

deneyimi tekrar oynatma

#rl

Pekiştirmeli öğrenmede, eğitim verilerindeki zamansal korelasyonları azaltmak için kullanılan bir DQN tekniği kullanılır. Aracı, durum geçişlerini bir tekrar oynatma arabelleğinde depolar. Daha sonra, eğitim verileri oluşturmak için tekrar oynatma arabelleğindeki geçişleri örnekler.

deneycinin ön yargısı

#fairness

Onay yanlılığı bölümünü inceleyin.

patlayan gradyan sorunu

#seq

Derin nöral ağlardaki (özellikle yinelenen nöral ağlardaki) gradyanların şaşırtıcı derecede dik (yüksek) olma eğilimi. Dik gradyanlar genellikle derin bir sinir ağındaki her bir düğümin ağırlıklarında çok büyük güncellemelere neden olur.

Patlayan gradyan sorunundan muzdarip olan modellerin eğitilmesi zor veya imkansız hale gelir. Renk geçişi kırpma bu sorunu azaltabilir.

Yok olan gradyan sorunuyla karşılaştırın.

F

F₁

Hem hassas hem de geri çağırma tabanlı "toplayıcı" bir ikili sınıflandırma metriğidir. Formülü aşağıda bulabilirsiniz:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Örneğin:

kesinlik = 0,6
geri çağırma = 0,4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Hassasiyet ve geri çağırma oldukça benzer olduğunda (önceki örnekte olduğu gibi) F₁ ortalamalarına yakındır. Hassasiyet ve geri çağırma arasında önemli farklar olduğunda F₁, daha düşük değere daha yakındır. Örneğin:

kesinlik = 0,9
geri çağırma = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

adalet kısıtlaması

#fairness

Bir veya daha fazla adalet tanımının karşılandığından emin olmak için algoritmaya kısıtlama uygulama. Adalet kısıtlamalarına örnek olarak aşağıdakiler verilebilir:

Modelinizin çıkışını işleme sonrası.
Adalet metriğini ihlal ettiği için ceza uygulamak amacıyla kayıp işlevini değiştirme.
Bir optimizasyon problemine doğrudan matematiksel sınırlama ekleme.

adalet metriği

#fairness

"Adaletin" ölçülebilen matematiksel tanımı. Sık kullanılan adalet metriklerinden bazıları şunlardır:

eşit şanslar
tahmini parite
karşı bilgiye dayalı adalet
demografik benzerlik

Birçok adalet metriği birbirini dışlar. Adalet metriklerinin uyumsuzluğu bölümüne bakın.

yanlış negatif (FN)

#fundamentals

Modelin yanlışlıkla negatif sınıfı tahmin ettiği bir örnek. Örneğin model, belirli bir e-posta iletisinin spam (negatif sınıf) olmadığını ancak bu e-posta iletisinin gerçekten spam olduğunu tahmin eder.

yanlış negatif oranı

Modelin negatif sınıfı yanlışlıkla tahmin ettiği gerçek pozitif örneklerin oranı. Aşağıdaki formül yanlış negatif oranını hesaplar:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

yanlış pozitif (FP)

#fundamentals

Modelin yanlışlıkla pozitif sınıfı tahmin ettiği bir örnek. Örneğin model, belirli bir e-posta iletisinin spam (pozitif sınıf) olduğunu ancak bu e-posta iletisinin aslında spam olmadığını tahmin eder.

yanlış pozitif oranı (FPR)

#fundamentals

Modelin pozitif sınıfı yanlışlıkla tahmin ettiği gerçek olumsuz örneklerin oranı. Aşağıdaki formül yanlış pozitif oranını hesaplar:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Yanlış pozitif oranı, ROC eğrisinin x eksenidir.

özellik

#fundamentals

Makine öğrenimi modelindeki bir giriş değişkenidir. Örnek, bir veya daha fazla özellikten oluşur. Örneğin, hava koşullarının öğrencilerin sınav puanları üzerindeki etkisini belirlemek üzere bir modele eğitim verdiğinizi varsayalım. Aşağıdaki tabloda, her biri üç özellik ve bir etiket içeren üç örnek gösterilmektedir:

Özellikler			Şirket
Sıcaklık	Nem	Basınç	Test puanı
15	47	998	92
19	34	1020	84
18	92	1012	87

Etiket ile kontrast.

özellik çaprazı

#fundamentals

"Geçiş" kategorik veya paketlenmiş özelliklerden oluşan sentetik özellik.

Örneğin, aşağıdaki dört gruptan birinde sıcaklığı temsil eden bir "ruh hali tahmini" modelini ele alalım:

freezing
chilly
temperate
warm

Ayrıca, aşağıdaki üç gruptan birinde rüzgar hızını gösterir:

still
light
windy

Özellik kesişimleri olmadığında, doğrusal model önceki yedi farklı paketin her birinde bağımsız olarak eğitilir. Bu nedenle model, örneğin windy ile ilgili eğitimden bağımsız olarak freezing üzerinde eğitilir.

Alternatif olarak, sıcaklık ve rüzgar hızı arası bir özellik değeri oluşturabilirsiniz. Bu sentetik özellik aşağıdaki 12 olası değere sahip olabilir:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Model, özellikler arası geçişler sayesinde freezing-windy gün ile freezing-still gün arasındaki ruh hali farklılıklarını öğrenebilir.

Her biri birçok farklı pakete sahip iki özellikten sentetik bir özellik oluşturursanız, ortaya çıkan özellik çaprazı çok sayıda olası kombinasyona sahip olacaktır. Örneğin, bir özellik 1.000 pakete ve diğer özellik 2.000 pakete sahipse, ortaya çıkan özellik arası 2.000.000 paket olur.

Çapraz işareti, resmi olarak Kartezyen üründür.

Özellik çaprazları çoğunlukla doğrusal modellerle, nöral ağlarla ise nadiren kullanılır.

özellik mühendisliği

#fundamentals

#TensorFlow

Aşağıdaki adımları içeren bir süreç:

Bir modeli eğitirken faydalı olabilecek özellikleri belirlemek.
Veri kümesindeki ham verileri bu özelliklerin verimli sürümlerine dönüştürme.

Örneğin, temperature yararlı bir özellik olabilir. Ardından modelin farklı temperature aralıklarından öğrenebileceği şeyleri optimize etmek için paketleme ile denemeler yapabilirsiniz.

Özellik mühendisliği bazen özellik çıkarma veya özellik belirleme olarak da adlandırılır.

TensorFlow hakkında ek notlar için simgeyi tıklayın.

TensorFlow'da özellik mühendisliği, genellikle ham günlük dosyası girişlerini tf.Example protokol arabelleklerine dönüştürmek anlamına gelir. Ayrıca bkz. tf.Transform.

özellik çıkarma

Aşağıdaki tanımlardan birine sahip aşırı yüklenmiş terim:

Başka bir modelde giriş olarak kullanmak üzere denetlenmeyen veya önceden eğitilmiş bir model tarafından hesaplanan ara özellik gösterimlerini alma (ör. sinir ağındaki gizli katman değerleri).
Özellik mühendisliği ile eş anlamlı.

özelliğin önem düzeyi

#df

Değişken önemler ile eş anlamlı.

özellik grubu

#fundamentals

Makine öğrenimi modelinizin eğitildiği özellikler grubu. Örneğin posta kodu, mülk boyutu ve mülk durumu verileri, konut fiyatlarını tahmin eden bir model için basit bir özellik grubundan oluşabilir.

özellik spesifikasyonu

#TensorFlow

tf.Example protokol arabelleğinden özellikler verilerini ayıklamak için gereken bilgileri açıklar. tf.Example protokol arabelleği yalnızca bir veri kapsayıcısı olduğundan aşağıdakileri belirtmeniz gerekir:

Çıkarılacak veriler (yani özelliklerin anahtarları)
Veri türü (ör. kayan nokta veya int)
Uzunluk (sabit veya değişken)

özellik vektörü

#fundamentals

Örnek oluşturan feature değerleri dizisi. Özellik vektörü, eğitim ve çıkarım sırasında girilir. Örneğin, iki ayrı özelliğe sahip bir modelin özellik vektörü şöyle olabilir:

[0.92, 0.56]

Dört katman: Giriş katmanı, iki gizli katman ve bir çıkış katmanı.
Giriş katmanında biri 0,92, diğeri 0,56 değerini içeren iki düğüm bulunur.

Her örnek, özellik vektörü için farklı değerler sağlar. Bu nedenle, sonraki örnekteki özellik vektörü aşağıdaki gibi olabilir:

[0.73, 0.49]

Özellik mühendisliği, özelliklerin özellik vektöründe nasıl temsil edileceğini belirler. Örneğin, beş olası değere sahip olan kategorik bir özellik, tek sıcak kodlama ile temsil edilebilir. Bu durumda, belirli bir örnek için özellik vektörünün bölümü, aşağıdaki gibi dört sıfır ve üçüncü konumda tek bir 1,0'dan oluşur:

[0.0, 0.0, 1.0, 0.0, 0.0]

Başka bir örnek olarak, modelinizin üç özellik içerdiğini varsayalım:

tek sıcak kodlamayla temsil edilen beş olası değere sahip ikili kategorik bir özellik; örneğin: [0.0, 1.0, 0.0, 0.0, 0.0]
tek sıcak kodlamayla temsil edilen üç olası değere sahip başka bir ikili kategorik özellik; örneğin: [0.0, 0.0, 1.0]
bir kayan nokta özelliğidir. örneğin: 8.3.

Bu durumda, her bir örnek için özellik vektörü dokuz değerle temsil edilir. Yukarıdaki listede yer alan örnek değerler göz önüne alındığında, özellik vektörü şöyle olur:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

özellikler

Doküman veya video gibi bir giriş kaynağından özellikleri çıkarma ve bu özellikleri bir özellik vektörü ile eşleme işlemidir.

Bazı makine öğrenimi uzmanları, özellikleri özellik mühendisliği veya özellik çıkarma ile eş anlamlı olarak kullanır.

birleşik öğrenim

Akıllı telefon gibi cihazlarda bulunan merkezi olmayan örnekler kullanarak makine öğrenimi modellerini eğiten dağıtılmış bir makine öğrenimi yaklaşımı. Birleşik öğrenimde, cihazların bir alt kümesi mevcut modeli merkezi bir koordinasyon sunucusundan indirir. Cihazlar, modelde iyileştirmeler yapmak için cihazlarda depolanan örnekleri kullanır. Ardından cihazlar, model iyileştirmelerini (eğitim örneklerini değil) koordinasyon sunucusuna yükler ve burada iyileştirilmiş bir global model oluşturmak için diğer güncellemelerle birleştirilir. Toplama işleminin ardından, cihazlar tarafından hesaplanan model güncellemelerine artık gerek kalmaz ve bu güncellemeler silinebilir.

Eğitim örnekleri hiçbir zaman yüklenmediğinden birleşik öğrenim, odaklı veri toplama ve minimum veri toplama gizlilik ilkelerini izler.

Birleşik öğrenim hakkında daha fazla bilgi için bu eğitime bakın.

geri bildirim döngüsü

#fundamentals

Makine öğreniminde, bir modelin tahminlerinin aynı modele veya başka bir modele yönelik eğitim verilerini etkilediği durum. Örneğin, film öneren bir model kullanıcıların gördüğü filmleri etkiler. Bu da sonraki film önerisi modellerini etkiler.

ileri beslemeli nöral ağ (FFN)

Döngüsel veya yinelemeli bağlantıları olmayan bir nöral ağ. Örneğin, geleneksel derin sinir ağları feed-ileri nöral ağlardır. Döngüsel olan yinelenen nöral ağlar ile zıtlık oluşturun.

birkaç çekimle öğrenme

Genellikle nesne sınıflandırmak için kullanılan bir makine öğrenimi yaklaşımı, yalnızca az sayıda eğitim örneğinden etkili sınıflandırıcıları eğitmek için tasarlanmıştır.

Ayrıca tek seferlik öğrenim ve sıfırla öğrenme bölümlerini inceleyin.

birkaç çekimlik istem

#language

#üretken yapay zeka

Büyük dil modelinin nasıl yanıt vermesi gerektiğini gösteren birden fazla ("birkaç") örnek içeren bir istem. Örneğin, aşağıdaki uzun istemde bir sorgunun nasıl yanıtlanacağı büyük bir dil modelinin nasıl yanıtlanacağını gösteren iki örnek bulunmaktadır.

Tek bir istemin bölümleri	Notlar
`Belirtilen ülkenin resmi para birimi nedir?`	LLM'nin cevaplamasını istediğiniz soru.
`Fransa: avro`	Bir örnek.
`Birleşik Krallık: GBP`	Başka bir örnek.
`Hindistan:`	Gerçek sorgu.

Az sayıda çekim istemi, genellikle sıfır çekim isteme ve tek seferlik istem işlemlerinden daha istenen sonuçlar verir. Ancak birkaç çekim için istemde daha uzun bir istem gerekir.

Az çekimli istem, isteme dayalı öğrenim için uygulanan bir birkaç aşamadan öğrenme biçimidir.

Keman

#language

İstilacı kod veya altyapı olmadan işlevlerin ve sınıfların değerlerini ayarlayan Python öncelikli bir yapılandırma kitaplığı. Pax ve diğer makine öğrenimi kod tabanları söz konusu olduğunda bu işlevler ve sınıflar, modelleri ve eğitim hiperparametrelerini temsil eder.

Fiddle, makine öğrenimi kod tabanlarının genellikle şu bölümlere ayrıldığını varsayar:

Katmanları ve optimize edicileri tanımlayan kitaplık kodu.
Kitaplıkları çağıran ve kabloları birbirine bağlayan veri kümesi "yapışkan" kodu.

Fiddle, yapıştırıcı kodunun çağrı yapısını değerlendirilmemiş ve değişken bir biçimde yakalar.

ince ayar

#language

#image

#üretken yapay zeka

Önceden eğitilmiş bir model üzerinde gerçekleştirilen göreve özel ikinci bir eğitim kartı, modelin parametrelerini belirli bir kullanım alanına göre hassaslaştırır. Örneğin, bazı büyük dil modelleri için tam eğitim sırası aşağıdaki gibidir:

Ön eğitim: İngilizce dilindeki tüm Wikipedia sayfaları gibi büyük bir genel veri kümesinde büyük bir dil modelini eğitin.
Hassas ayar: Önceden eğitilmiş modeli tıbbi sorgulara yanıt verme gibi belirli bir görevi gerçekleştirecek şekilde eğitin. İnce ayarlar genellikle belirli bir göreve odaklanan yüz veya binlerce örnek içerir.

Başka bir örnek olarak, büyük resim modeli için tam eğitim sırası aşağıdaki gibidir:

Ön eğitim: Wikimedia Commons'daki tüm resimler gibi büyük bir genel görüntü veri kümesinde büyük bir görüntü modelini eğitin.
Hassas ayarlama: Önceden eğitilmiş modeli, orkaların görüntülerini oluşturma gibi belirli bir görevi gerçekleştirecek şekilde eğitin.

Hassas ayarlamalar için aşağıdaki stratejilerin herhangi bir kombinasyonu gerekebilir:

Önceden eğitilmiş modelin mevcut parametrelerinin tümünü değiştirme. Bu bazen tam ince ayar olarak da adlandırılır.
Önceden eğitilmiş modelin mevcut parametrelerinden sadece bazılarını değiştirirken (genellikle çıkış katmanına en yakın katmanlarda değişiklik yaparken) diğer mevcut parametreleri değiştirmeyin (tipik olarak, katmanlar giriş katmanına en yakın olanı yapın). Parametre açısından verimli ayarlama bölümünü inceleyin.
Genellikle çıkış katmanına en yakın mevcut katmanların üzerine daha fazla katman ekleme.

Hassas ayarlama, bir öğrenme aktarma biçimidir. Bu nedenle ince ayarda, önceden eğitilmiş modeli eğitmek için kullanılanlardan farklı bir kayıp işlevi veya farklı bir model türü kullanılabilir. Örneğin, bir giriş görüntüsündeki kuş sayısını döndüren bir regresyon modeli oluşturmak için, önceden eğitilmiş büyük bir görüntü modelinde ince ayar yapabilirsiniz.

İnce ayarları aşağıdaki terimlerle karşılaştırın:

damıtma
isteme dayalı öğrenim

Keten

#language

JAX üzerine inşa edilmiş, derin öğrenme için yüksek performanslı, açık kaynaklı bir kitaplık. Flax, performanslarını değerlendirme yöntemlerinin yanı sıra eğitim nöral ağları için işlevler sunar.

Keten Şekillendirici

#language

Flax üzerinde oluşturulmuş, açık kaynaklı bir Transformer kitaplığı, özellikle doğal dil işleme ve çok modlu araştırma için tasarlanmıştır.

unutma kapısı

#seq

Uzun Kısa Süreli Bellek hücresinin, hücredeki bilgi akışını düzenleyen bölümü. Kapılar, hücre durumundan hangi bilgilerin silineceğine karar vererek bağlamı korur.

tam softmax

softmax ile eş anlamlı.

Aday örnekleme ile kontrast oluşturun.

tamamen bağlı katman

Her bir düğümün sonraki gizli katmandaki her düğüme bağlandığı gizli katman.

Tamamen bağlı bir katman, yoğun katman olarak da bilinir.

işlev dönüşümü

Bir işlevi girdi olarak alıp çıkış olarak dönüştürülmüş bir işlev döndüren işlev. JAX işlev dönüşümlerini kullanır.

G

Çekişmeli sistem (GAN)

Üretken şüpheli ağ'ın kısaltması.

genelleme

#fundamentals

Bir modelin yeni, daha önce görülmemiş veriler hakkında doğru tahminlerde bulunabilme özelliği. Genelleştirme yapabilen bir model, aşırı uyumu olan bir modelin tam tersidir.

Ek notlar için simgeyi tıklayın.

Eğitim kümesindeki örneklerden bir model eğitirsiniz. Sonuç olarak model, eğitim veri kümesindeki verilerin özelliklerini öğrenir. Genelleştirme esasen, modelinizin eğitim kümesinde olmayan örnekler hakkında iyi tahminler yapıp yapamayacağını sorar.

Normalleştirme, genelleştirmeyi teşvik etmek için bir modelin, eğitim kümesindeki verilerin özelliklerini tam olarak daha az eğitmesine yardımcı olur.

genelleştirme eğrisi

#fundamentals

Yinelemelerin sayısının işlevi olarak hem eğitim kaybının hem de doğrulama kaybının grafiği.

Genelleme eğrisi, olası fazla uyumu tespit etmenize yardımcı olabilir. Örneğin, aşağıdaki genelleme eğrisi fazla uyumu önerir çünkü doğrulama kaybı, eğitim kaybından önemli ölçüde daha yüksek olur.

Y ekseninin kayıp, x ekseninin de iterasyonlar olarak etiketlendiği bir Kartezyen grafik. İki çizim görünür. Bir grafik, eğitim kaybını, diğeri ise doğrulama kaybını gösterir.
İki grafik de benzer şekilde başlar ancak eğitim kaybı nihayetinde doğrulama kaybından çok daha düşük bir düzeye düşer.

genelleştirilmiş doğrusal model

Gauss gürültüsüne dayanan en az kare regresyon modellerinin, Poisson gürültüsü veya kategorik gürültü gibi diğer gürültü türlerine dayanan diğer model türlerine genelleştirilmesi. Genelleştirilmiş doğrusal modellere örnek olarak aşağıdakiler verilebilir:

mantıksal regresyon
çok sınıflı regresyon
en küçük kareler regresyon

Genelleştirilmiş doğrusal model parametreleri, dışbükey optimizasyonu aracılığıyla bulunabilir.

Genelleştirilmiş doğrusal modeller aşağıdaki özellikleri sergiler:

Optimum en küçük kareler regresyon modelinin ortalama tahmini, eğitim verilerindeki ortalama etikete eşittir.
Optimum mantıksal regresyon modelinin tahmin ettiği ortalama olasılık, eğitim verilerindeki ortalama etikete eşittir.

Genelleştirilmiş doğrusal modelin gücü, özellikleriyle sınırlıdır. Derin modelin aksine, genelleştirilmiş doğrusal model "yeni özellikler öğrenemez".

üretken rakip ağ (GAN)

Oluşturucunun veri oluşturduğu ve bir ayırıcının, oluşturulan verinin geçerli mi yoksa geçersiz mi olduğunu belirlediği yeni veri oluşturma sistemi.

üretken yapay zeka

#language

#image

#üretken yapay zeka

Resmi tanımı olmayan, dönüştürücü bir alan. Bununla birlikte, çoğu uzman, üretken yapay zeka modellerinin aşağıdakilerin tümünü barındıran içerikler oluşturabileceği konusunda hemfikirdir:

karmaşık
tutarlı
orijinal

Örneğin, üretken yapay zeka modeli karmaşık makaleler veya görseller oluşturabilir.

LSTM ve RNN'ler gibi önceki bazı teknolojiler orijinal ve tutarlı içerik oluşturabilir. Bazı uzmanlar bu eski teknolojileri üretken yapay zeka olarak görürken diğerleri gerçek üretken yapay zekanın önceki teknolojilerin üretebileceğinden daha karmaşık çıktılar gerektirdiğini düşünüyor.

Tahmine dayalı makine öğrenimi ile kontrast oluşturun.

üretken model

Pratikte aşağıdakilerden birini yapan bir model:

Eğitim veri kümesinden yeni örnekler oluşturur. Örneğin, üretken bir model, şiirlerden oluşan bir veri kümesiyle ilgili eğitimden sonra şiir üretebilir. Üretken saldırgan ağın jeneratörü bölümü bu kategoriye girer.
Yeni bir örneğin eğitim grubundan gelme veya eğitim kümesini oluşturan mekanizmadan oluşturulma olasılığını belirler. Örneğin, İngilizce cümlelerden oluşan bir veri kümesiyle ilgili eğitimden sonra üretken bir model, yeni girdinin geçerli bir İngilizce cümle olma olasılığını belirleyebilir.

Üretken bir model, teorik olarak veri kümesindeki örneklerin veya belirli özelliklerin dağılımını tespit edebilir. Yani:

p(examples)

Gözetimsiz öğrenme modelleri üretkendir.

Ayırt edici modellerle zıtlık oluşturun.

oluşturma aracı

Üretken tartışmalı ağ içinde, yeni örnekler oluşturan alt sistem.

Ayrımcı modelle zıtlık oluşturun.

cinsi saflık

#df

Entropi'ye benzer bir metrik. Ayırıcılar, karar ağaçları için koşulları oluşturmak amacıyla gini bozulmasından veya entropiden türetilen değerleri kullanır. Bilgi edinme entropiden türetilir. Gini saflığından türetilen metrik için dünya genelinde kabul gören bir eşdeğer terim yoktur; ancak bu adsız metrik, en az bilgi kazancı kadar önemlidir.

Gini bozulması, gini endeksi veya kısaca gini olarak da adlandırılır.

Gini saflığıyla ilgili matematiksel ayrıntılar için simgeyi tıklayın.

Gini bozulması, aynı dağıtımdan alınan yeni bir veri parçasının yanlış sınıflandırılması olasılığıdır. İki olası değere ("0" ve "1") sahip bir kümenin (örneğin, ikili sınıflandırma sorunundaki etiketler) gini safsızlığı aşağıdaki formülle hesaplanır:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

Bu örnekte:

I, gini bozulmasını ifade eder.
p, "1" örneklerin oranıdır.
q, "0" örneklerinin oranıdır. q = 1-p değerine dikkat edin.

Örneğin, aşağıdaki veri kümesini ele alalım:

100 etiket (veri kümesinin 0,25'i) "1" değerini içerir
300 etiket (veri kümesinin 0,75'i) "0" değerini içerir

Bu nedenle, gini saflığı:

k = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Sonuç olarak, aynı veri kümesinden rastgele bir etiketin yanlış sınıflandırılma olasılığı% 37,5, düzgün şekilde sınıflandırılma olasılığı ise% 62,5 olacaktır.

Mükemmel dengeli bir etikette (örneğin, 200 "0" ve 200 "1") gini saflığı 0,5 olur. Son derece dengesiz bir etikette 0,0'a yakın bir gini karışımları bulunur.

altın veri kümesi

Kesin gerçeği yakalayan ve manuel olarak seçilen bir dizi veri. Ekipler bir modelin kalitesini değerlendirmek için bir veya daha fazla altın veri kümesi kullanabilir.

Bazı altın veri kümeleri, kesin referansın farklı alt alanlarını yakalar. Örneğin, görüntü sınıflandırma için altın bir veri kümesi, aydınlatma koşullarını ve görüntü çözünürlüğünü yakalayabilir.

GPT (Üretken Önceden Eğitilmiş Dönüştürücü)

#language

OpenAI tarafından geliştirilen, Transformer tabanlı bir büyük dil modelleri ailesi.

GPT varyantları, aşağıdakiler de dahil olmak üzere birden fazla ürüne uygulanabilir:

resim oluşturma (örneğin, ImageGPT)
metinden görsele dönüştürme (örneğin, DALL-E).

gradyan

Tüm bağımsız değişkenlere göre kısmi türevlerin vektörü. Makine öğreniminde gradyan, model işlevinin kısmi türevlerinin vektörüdür. Gradyan en dik çıkış yönünü işaret eder.

gradyan birikmesi

Parametreleri yineleme başına bir kez yerine dönem başına yalnızca bir kez güncelleyen bir geri yayılım tekniği. Her mini toplu işlendikten sonra, gradyan birikmesi yalnızca çalışan toplam renk geçişini günceller. Ardından, dönemdeki son mini grubu işledikten sonra sistem, parametreleri nihayet tüm renk geçişi değişikliklerinin toplamına göre günceller.

Gradyan birikmesi, grup boyutu, eğitim için kullanılabilen bellek miktarına kıyasla çok büyük olduğunda yararlıdır. Bellek sorun olduğunda, doğal eğilim grup boyutunu azaltmaktır. Bununla birlikte, normal geri yayılmada grup boyutunun azaltılması parametre güncellemelerinin sayısını artırır. Gradyan birikmesi, modelin bellek sorunlarını önlemesine rağmen yine de verimli bir şekilde eğitilmesini sağlar.

gradyan artırılmış (karar) ağaçları (GBT)

#df

Aşağıdakilerin içinde bulunduğu bir karar ormanı türü:

Eğitim, gradyan artırmayı temel alır.
Zayıf model karar ağacıdır.

gradyan artırma

#df

Zayıf modellerin, güçlü bir modelin kalitesini yinelemeli olarak iyileştirmek (kaybı azaltmak) için eğitildiği bir eğitim algoritması. Örneğin, zayıf bir model, doğrusal veya küçük bir karar ağacı modeli olabilir. Güçlü model, önceden eğitilmiş tüm zayıf modellerin toplamı haline gelir.

En basit gradyan artırma biçiminde, her iterasyonda güçlü modelin kayıp gradyanını tahmin etmek için zayıf bir model eğitilir. Daha sonra, güçlü modelin çıkışı, gradyan azalmaya benzer şekilde tahmin edilen gradyan çıkarılarak güncellenir.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Bu örnekte:

$F_{0}$ başlangıç için güçlü modeldir.
$F_{i+1}$ bir sonraki güçlü model.
$F_{i}$ şu anki güçlü modeldir.
$\xi$, 0,0 ile 1,0 arasında bir değerdir ve daraltma olarak adlandırılır. Bu, gradyan inişteki öğrenme hızına benzer.
$f_{i}$, $F_{i}$ tutarındaki kayıp gradyanını tahmin etmek için eğitilmiş zayıf modeldir.

Gradyan güçlendirmenin modern varyasyonları, hesaplamalarında kaybın ikinci türevini (Hessian) da içerir.

Karar ağaçları, gradyan artırma işleminde genellikle zayıf modeller olarak kullanılır. Renk geçişi artırılmış (karar) ağaçları konusuna bakın.

gradyan kırpma

#seq

Patlayan gradyan sorununu hafifletmek amacıyla, bir modeli eğitmek için gradyan iniş kullanılırken maksimum renk geçişi değerini yapay bir şekilde sınırlandırarak (kırparak) yaygın olarak kullanılan bir mekanizma.

gradyan azalma

#fundamentals

Kaybı en aza indirmek için kullanılan matematiksel bir teknik. Gradyan iniş, ağırlıkları ve yanlıkları tekrarlı şekilde ayarlayarak kaybı en aza indirmek için en iyi kombinasyonu kademeli olarak bulur.

Gradyan iniş, makine öğrenimine kıyasla çok daha eskidir.

grafik

#TensorFlow

TensorFlow'da bir hesaplama spesifikasyonu. Grafikteki düğümler işlemleri gösterir. Kenarlar yönlendirilir ve bir işlemin sonucunu (Tensör) başka bir işleme işlenen olarak geçirmeyi temsil eder. Grafiği görselleştirmek için TensorBoard'u kullanın.

grafik yürütme

#TensorFlow

Programın önce bir grafik oluşturduğu ve ardından grafiğin tamamını veya bir kısmını yürüttüğü TensorFlow programlama ortamı. Grafik yürütme, TensorFlow 1.x'te varsayılan yürütme modudur.

İsteğe bağlı yürütme ile kontrast oluşturun.

açgözlü politika

#rl

Pekiştirmeli öğrenmede, her zaman beklenen getiri en yüksek işlemi seçen bir politika kullanılır.

gerçek doğru

#fundamentals

Realite.

Gerçekte olan şey.

Örneğin, üniversitenin ilk yılındaki bir öğrencinin altı yıl içinde mezun olup olmayacağını tahmin eden bir ikili sınıflandırma modelini düşünün. Bu modeldeki esas gerçek, öğrencinin altı yıl içinde mezun olup olmadığıdır.

Ek notlar için simgeyi tıklayın.

Model kalitesini kesin referansla karşılaştırarak değerlendiririz. Ancak kesin referans her zaman her zaman eksiksiz, doğru ve gerçek olmayabilir. Örneğin, kesin referanstaki olası kusurlara ilişkin aşağıdaki örnekleri inceleyin:

Mezuniyet örneğinde, her öğrencinin mezuniyet kayıtlarının her zaman doğru olduğundan emin miyiz? Üniversitenin kayıt tutma sistemi kusursuz mu?
Etiketin, aletlerle (örneğin, barometreler) ölçülen bir kayan nokta değeri olduğunu varsayalım. Her aracın aynı şekilde kalibre edildiğinden veya her bir ölçümün aynı koşullarda yapıldığından nasıl emin olabiliriz?
Etiketin konusu kişilerin görüşleriyse her bir değerlendiricinin etkinlikleri aynı şekilde değerlendirdiğinden nasıl emin olabiliriz? Tutarlılığı artırmak için bazen uzman gerçek kişilerden oluşan derecelendirme görevlileri müdahale eder.

grup ilişkilendirme yanlılığı

#fairness

Bir kişi için doğru olanın, o gruptaki herkes için de doğru olduğunu varsayar. Veri toplama için kullanışlılık örneklemesi kullanılırsa grup ilişkilendirme yanlılığının etkileri daha da ciddileşebilir. Temsil edici olmayan bir örnekte, atıflar gerçeği yansıtmayan şekilde yapılabilir.

Grup dışı homojenlik önyargısı ve grup içi önyargı bölümlerini de inceleyin.

VR

halüsinasyon

#language

Gerçek dünya hakkında iddiada bulunuyormuş gibi görünen bir üretken yapay zeka modeli tarafından akla yatkın görünen ama gerçeklere uygun olmayan bir sonuç üretilmesi. Örneğin, Barack Obama'nın 1865'te öldüğünü iddia eden üretken yapay zeka modeli halüsinasyon sürecindedir.

karma oluşturma

Makine öğreniminde, özellikle kategori sayısının fazla olduğu ancak veri kümesinde görünen kategori sayısının görece az olduğu durumlarda, kategorik verileri gruplandırmak için kullanılan bir mekanizma.

Örneğin, Dünya yaklaşık 73.000 ağaç türüne ev sahipliği yapmaktadır. 73.000 ağaç türünün her birini 73.000 ayrı kategorik grupta temsil edebilirsiniz. Alternatif olarak, bir veri kümesinde bu ağaç türlerinden yalnızca 200 tanesi görünüyorsa, ağaç türlerini belki 500 kovaya bölmek için karma işlemi kullanabilirsiniz.

Tek bir pakette birden fazla ağaç türü bulunabilir. Örneğin, karma oluşturma işlemi, genetik olarak farklı iki tür olan baobab ve kırmızı akçaağaç'ı aynı pakete yerleştirebilir. Yine de, karma oluşturma işlemi, büyük kategorik grupları seçilen sayıda paketle eşlemek için iyi bir yöntemdir. Karma oluşturma işlemi, çok sayıda olası değere sahip kategorik bir özelliği, değerleri belirli bir şekilde gruplandırarak çok daha az sayıda değere dönüştürür.

bulgusal

Bir soruna basit ve hızlı uygulanan bir çözüm. Örneğin, "Sezgisel bir yöntemle% 86 doğruluğa ulaştık. Derin sinir ağına geçiş yaptığımızda doğruluk oranı %98'e yükseldi."

gizli katman

#fundamentals

Bir nöral ağda, giriş katmanı (özellikler) ile çıkış katmanı (tahmin) arasında bulunan katman. Her bir gizli katman, bir veya daha fazla nörondan oluşur. Örneğin, aşağıdaki nöral ağ, birincisinde üç nöron, ikincisinde ise iki nöron bulunan iki gizli katman içermektedir:

Derin sinir ağı birden fazla gizli katman içerir. Örneğin, önceki çizimde model iki gizli katman içerdiği için derin bir nöral ağ gösterilmiştir.

hiyerarşik kümeleme

#clustering

Kümeler ağacı oluşturan bir kümeleme algoritması kategorisi. Hiyerarşik kümeleme, botanik sınıflandırmalar gibi hiyerarşik veriler için çok uygundur. İki tür hiyerarşik kümeleme algoritması vardır:

Toplama kümeleme, öncelikle her örneği kendi kümesine atar ve en yakın kümeleri yinelemeli olarak birleştirerek bir hiyerarşik ağaç oluşturur.
Bölmeli kümeleme, önce tüm örnekleri tek bir kümede gruplandırır ve ardından kümeyi tekrarlı bir şekilde hiyerarşik bir ağaca böler.

Merkez tabanlı kümeleme ile kontrast oluşturun.

menteşe kaybı

Sınıflandırma için bir loss işlevleri ailesi, her eğitim örneğinden karar sınırını mümkün olduğunca uzak tutmak ve böylece örnekler ile sınır arasındaki boşluğu en üst düzeye çıkarmak için tasarlanmıştır. KSVM'ler menteşe kaybını (veya kare menteşe kaybı gibi ilgili bir işlevi) kullanır. İkili program sınıflandırması için menteşe kaybı işlevi aşağıdaki gibi tanımlanır:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

Burada y gerçek etikettir (-1 veya +1); y' ise sınıflandırıcı modelinin ham çıktısıdır:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Sonuç olarak, menteşe kaybı grafiği (y * y') ile karşılaştırıldığında aşağıdaki gibi görünür:

İki birleştirilmiş doğru parçasından oluşan Kartezyen grafik. İlk çizgi segmenti (-3, 4) ile başlar ve (1, 0) noktasında biter. İkinci çizgi segmenti (1 ve 0) noktasında başlar ve 0 eğimi ile süresiz olarak devam eder.

geçmiş önyargı

#fairness

Dünyada zaten mevcut olan ve veri kümesine dönüşen bir tür taraf. Bu ön yargılar, belirli sosyal gruplara karşı var olan kültürel klişeleri, demografik eşitsizlikleri ve ön yargıları yansıtma eğilimindedir.

Örneğin, bir kredi başvurusu sahibinin kredisini temerrüt edip etmeyeceğini tahmin eden bir sınıflandırma modelini ele alalım. Bu modelde, iki farklı topluluktaki yerel bankaların 1980'lerde elde ettiği geçmiş kredi tecil verileri kullanılarak eğitilmiştir. A Topluluğu'ndaki eski başvuru sahiplerinin kredilerini borcunu ödememe olasılığı B Topluluğu'ndan gelenlere göre altı kat daha fazlaysa model, geçmişe dönük bir önyargıyı öğrenebilir ve bu durumda modelin, A Topluluğu'ndaki yüksek tedavüle ilişkin oranlarla sonuçlanan tarihsel koşullar artık geçerli olmasa bile, A Topluluğu'ndaki kredileri onaylama ihtimali daha düşük olabilir.

muhafaza verileri

Eğitim sırasında kasıtlı olarak kullanılmayan ("gösterilmesi") Örnekler. Doğrulama veri kümesi ve test veri kümesi, kontrol grubu verilerine örnek olarak verilebilir. Bekletme verileri, modelinizin eğitildiği veriler dışındaki verilere genelleştirme kabiliyetini değerlendirmenize yardımcı olur. Bekleme kümesindeki kayıp, görülmeyen bir veri kümesindeki kayıp hakkında eğitim kümesindeki kayıptan daha iyi bir tahmin sağlar.

düzenleyen

#TensorFlow

#GoogleCloud

Hızlandırıcı çiplerinde (GPU'lar veya TPU'lar) ML modeli eğitilirken, sistemin aşağıdakilerden ikisini de kontrol eden bölümü:

Kodun genel akışı.
Giriş ardışık düzeninin ayıklanması ve dönüştürülmesi.

Ana makine genellikle hızlandırıcı çip üzerinde değil, CPU üzerinde çalışır. Cihaz, hızlandırıcı çipleri üzerindeki tensörleri manipüle eder.

hiperparametre

#fundamentals

Sizin veya bir hiperparametre ayarlama hizmetinin bir modelin ardışık olarak eğitilmesi sırasında ayarladığı değişkenler. Örneğin, öğrenme hızı bir hiperparametredir. Bir eğitim oturumundan önce öğrenme hızını 0,01 olarak ayarlayabilirsiniz. 0,01'in çok yüksek olduğunu belirlerseniz bir sonraki eğitim oturumu için öğrenme hızını 0,003 olarak ayarlayabilirsiniz.

Buna karşın parametreler, modelin eğitim sırasında öğrendiği çeşitli ağırlıklar ve yanlıklardır.

hiper düzlem

Bir boşluğu iki alt alana ayıran sınır. Örneğin, bir çizgi iki boyutlu bir hiper düzlem ve düzlem, üç boyutlu bir hiper düzlemdir. Makine öğreniminde daha tipik bir şekilde, hiper düzlem, yüksek boyutlu bir alanı ayıran sınırdır. Çekirdek Destekli Vektör Makineleri, pozitif sınıfları negatif sınıflardan ayırmak için genellikle çok yüksek boyutlu bir alanda hiper düzlemleri kullanır.

İ

i.i.d.

Bağımsız ve aynı şekilde dağıtılmış ifadesinin kısaltmasıdır.

resim tanıma

#image

Bir resimdeki nesneleri, desenleri veya kavramları sınıflandıran işlem. Görüntü tanıma, görüntü sınıflandırma olarak da bilinir.

Daha fazla bilgi için ML Pratiği: Görüntü Sınıflandırma bölümüne bakın.

dengesiz veri kümesi

Sınıf dengesiz veri kümesi ile eş anlamlı.

örtülü önyargı

#fairness

Kişinin zihin modelleri ve anılarıyla otomatik olarak ilişkilendirme veya varsayımda bulunma. Örtülü önyargı aşağıdakileri etkileyebilir:

Verilerin toplanma ve sınıflandırılma şekli.
Makine öğrenimi sistemlerinin tasarlanma ve geliştirilme şekli

Örneğin, düğün fotoğraflarını tanımlamak için bir sınıflandırıcı oluştururken bir mühendis, bir fotoğrafta beyaz bir elbisenin bulunmasını özellik olarak kullanabilir. Ancak beyaz elbiseler yalnızca belirli dönemlerde ve kültürlerde gelenekseldir.

Onay yanlılığı bölümünü de inceleyin.

tahmin

Değer tahmininin kısa biçimi.

adalet metriklerinin uyumsuzluğu

#fairness

Bazı adalet kavramlarının karşılıklı olarak uyumsuz olduğu ve eş zamanlı olarak gerçekleştirilemediği düşüncesi. Sonuç olarak, adaleti nicelleştirmek için tüm makine öğrenimi problemlerine uygulanabilecek tek bir evrensel metrik yoktur.

Bu cesaret kırıcı gibi görünse de adalet metriklerinin uyumsuzluğu, adalet çabalarının verimsiz olduğu anlamına gelmez. Bunun yerine, belirli bir makine öğrenimi problemi için adaletin bağlamsal olarak tanımlanması gerektiğini ve kullanım durumlarına özgü zararların önlenmesini önerir.

Bu konuyla ilgili daha ayrıntılı bir tartışma için "Adaletin imkansızlığı hakkında" bölümüne bakın.

bağlam içi öğrenme

#language

#üretken yapay zeka

Birkaç çekim istem ile eş anlamlı.

bağımsız ve özdeş şekilde dağıtılmış (ör.)

#fundamentals

Değişmeyen bir dağılımdan alınan ve çizilen hiçbir değerin daha önce çizilen değerlere bağlı olmadığı veriler. Bir i.i.d., makine öğreniminin ideal gazıdır. Yararlı bir matematiksel yapıdır, ancak gerçek dünyada neredeyse hiçbir zaman bulunamamaktadır. Örneğin, bir web sayfasına gelen ziyaretçilerin dağılımı, ör. kısa bir zaman dilimi içinde olabilir. Yani, bu kısa zaman arasında dağıtım değişmez ve bir kişinin ziyareti genellikle başka bir kişinin ziyaretinden bağımsızdır. Ancak, bu zaman aralığını genişletirseniz web sayfasının ziyaretçilerindeki mevsimsel farklılıklar görülebilir.

Ayrıca bkz. durağanlık.

bireysel adalet

#fairness

Benzer kişilerin benzer şekilde sınıflandırılıp sınıflandırılmadığını kontrol eden adalet metriği. Örneğin, Brobdingnagian Academy, aynı notlara ve standart test puanlarına sahip iki öğrencinin kabul edilme olasılığının eşit olmasını sağlayarak bireysel adaleti sağlamak isteyebilir.

Bireysel adalet tamamen "benzerliği" nasıl tanımladığınıza (bu örnekte, notlar ve test puanları) bağlıdır ve benzerlik metriğinizde önemli bilgiler (ör. öğrencinin müfredatının kalitesi) gözden kaçarsa yeni adalet problemleri ortaya çıkma riskiyle karşı karşıya kalabilirsiniz.

Bireysel adalet hakkında daha ayrıntılı bir tartışma için "Farkındalık Sayesinde Adalet" bölümüne bakın.

çıkarım

#fundamentals

Makine öğreniminde, etiketlenmemiş örneklere eğitilmiş bir model uygulayarak tahmin yapma işlemi.

Çıkarım, istatistiklerde biraz daha farklı bir anlama sahiptir. Ayrıntılı bilgi için istatistiksel çıkarımla ilgili Wikipedia makalesine bakın.

çıkarım yolu

#df

Bir karar ağacında, çıkarım sırasında belirli bir örneğin kökten diğer koşullara giden ve bir yaprak ile sonlandırılan rota. Örneğin, aşağıdaki karar ağacındaki daha kalın oklar, aşağıdaki özellik değerlerine sahip bir örnek için çıkarım yolunu gösterir:

x = 7
y = 12
z = -3

Aşağıdaki çizimde gösterilen çıkarım yolu, yaprağa (Zeta) ulaşmadan önce üç koşuldan geçer.

Dört koşul ve beş yapraktan oluşan bir karar ağacı.
Kök koşulu (x > 0) şeklindedir. Yanıt Evet olduğundan, çıkarım yolu kökten sonraki koşula doğru ilerler (y > 0).
Yanıt Evet olduğundan, çıkarım yolu bir sonraki koşula gider (z > 0). Yanıt "Hayır" olduğundan çıkarım yolu, yaprak olan (Zeta) terminal düğümüne gider.

Çıkarım yolunu gösteren üç kalın ok.

bilgi kazancı

#df

Karar ormanlarında, bir düğümün entropisi ile alt düğümlerinin entropisinin ağırlıklı (örnek sayısına göre) toplamı arasındaki fark. Bir düğümün entropisi, o düğümdeki örneklerin entropisidir.

Örneğin, aşağıdaki entropi değerlerini dikkate alın:

üst düğümün entropisi = 0,6
16 ilgili örnekle birlikte bir alt düğümün entropisi = 0,2
24 ilgili örnekle birlikte başka bir alt düğümün entropisi = 0,1

Dolayısıyla, örneklerin% 40'ı bir alt düğümde, %60'ı ise diğer bir alt düğümdedir. Bu nedenle:

alt düğümlerin ağırlıklı entropi toplamı = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Bu durumda, elde edilecek bilgi şudur:

bilgi kazancı = üst düğümün entropisi - alt düğümlerin ağırlıklı entropi toplamı
bilgi kazancı = 0,6 - 0,14 = 0,46

Çoğu bölücü, bilgi kazancını en üst düzeye çıkaran koşullar oluşturmaya çalışır.

grup içi önyargı

#fairness

Bir kişinin kendi grubuna veya kendi özelliklerine kısmen benzetme. Test kullanıcıları veya değerlendiriciler makine öğrenimi geliştiricisinin arkadaşları, ailesi ya da iş arkadaşlarından oluşuyorsa grup içi ağırlıklandırma, ürün testini veya veri kümesini geçersiz kılabilir.

Grup içi ön yargı, bir grup ilişkilendirme ön yargısı biçimidir. Grup dışı homojenlik önyargısı bölümünü de inceleyin.

giriş oluşturucu

Verilerin nöral ağa yüklenmesini sağlayan bir mekanizmadır.

Giriş oluşturucu, eğitim, değerlendirme ve çıkarım için gruplar oluşturmak üzere ham verilerin tensörler halinde işlenmesinden sorumlu bir bileşen olarak düşünülebilir.

giriş katmanı

#fundamentals

Özellik vektörünü barındıran bir nöral ağın katmanı. Yani giriş katmanı, eğitim veya çıkarım için örnekler sağlar. Örneğin, aşağıdaki nöral ağda bulunan giriş katmanı iki özellikten oluşur:

Dört katman: Giriş katmanı, iki gizli katman ve bir çıkış katmanı.

belirlenen koşul

#df

Karar ağacında, bir öğe grubundaki bir öğenin varlığını test eden bir koşul. Örneğin, aşağıda belirtilmiş bir koşul gösterilmektedir:

  house-style in [tudor, colonial, cape]

Çıkarım sırasında ev stili özellik değeri tudor, colonial veya cape olursa bu koşul Evet olarak değerlendirilir. Ev tarzı özelliğin değeri başka bir şeyse (örneğin, ranch) bu koşul Hayır olarak değerlendirilir.

Ayarlanmış koşullar, genellikle tek sıcak kodlanmış özellikleri test eden koşullardan daha verimli karar ağaçları sağlar.

örnek

example ile eş anlamlı.

talimat ayarlama

#üretken yapay zeka

Üretken yapay zeka modelinin talimatları uygulama becerisini geliştiren bir ince ayar şeklidir. Öğretim ayarlaması, genellikle çok çeşitli görevleri kapsayan bir dizi talimat istemine göre bir modeli eğitmeyi içerir. Ardından, talimata göre ayarlanmış olarak elde edilen model, çeşitli görevlerde sıfır çekimli istemlere yararlı yanıtlar oluşturma eğilimindedir.

Şunlarla karşılaştırın:

parametre açısından verimli ayarlama
istem ayarlama

yorumlanabilirlik

#fundamentals

Bir makine öğrenimi modelinin akıl yürütmesini, anlaşılabilir terimlerle bir insana açıklama veya sunma becerisi.

Örneğin, çoğu doğrusal regresyon modeli, yüksek oranda yorumlanabilir. (Tek yapmanız gereken her özellik için eğitilmiş ağırlıklara bakmaktır.) Karar ormanları da oldukça yorumlanabilir. Ancak bazı modellerin yorumlanabilir olması için karmaşık görselleştirmeler gerekir.

ML modellerini yorumlamak için Learning Interpretability Tool'u (LIT) kullanabilirsiniz.

değerlendiriciler arası sözleşme

Gerçek kişi olan değerlendirmecilerin bir görevi yaparken ne sıklıkta hemfikir olduğunun ölçümü. Derecelendirme yapan kişiler aynı fikirde değilse görev talimatlarının iyileştirilmesi gerekebilir. Bazen ek açıklama yapanlar arası sözleşme veya değerlendiriciler arası güvenilirlik olarak da adlandırılır. Derecelendirmeler arası sözleşme ölçümlerinin en popülerlerinden biri olan Cohen's kappa'yı da inceleyin.

birden fazla kavşak (IoU)

#image

İki kümenin kesişiminin birleşimine bölümü. Makine öğrenimi görüntü algılama görevlerinde IoU, modelin tahmin edilen sınırlayıcı kutusunun kesin referans sınırlayıcı kutusuna göre doğruluğunu ölçmek için kullanılır. Bu durumda, iki kutunun IoU'su, çakışan alan ile toplam alan arasındaki orandır ve değeri 0 (tahmin edilen sınırlayıcı kutu ve kesin referans sınır kutusu çakışmaz) ile 1 (tahmin edilen sınırlayıcı kutu ve kesin referans sınır kutusu tam olarak aynı koordinatlara sahiptir) arasında değişir.

Örneğin, aşağıdaki resimde:

Tahmin edilen sınırlayıcı kutu (modelin, boyadaki komodinin konumunu tahmin ettiği koordinatlar) mor renkle gösterilir.
Kesin referans sınırlayıcı kutusu (resimdeki gece masasının gerçekte bulunduğu yeri sınırlayan koordinatlar) yeşil renkle gösterilmiştir.

Van Gogh, Arles'teki Vincent'ın Yatak Odası'nı, yatağın yanındaki komodin etrafında iki farklı sınırlayıcı kutuyla gösteriyor. Kesin referans kutusu (yeşil renkli), komodin takımını mükemmel şekilde çevreler. Tahmin edilen sınırlayıcı kutu (mor renkli), %50 aşağıya ve kesin referans sınır kutusunun sağına kaydırılır; komodin sağ alt çeyreğini içine alır ancak tablonun geri kalanını kaçırır.

Burada, tahmin ve kesin referans için sınırlayıcı kutuların (soldan altında) kesişimi 1'dir. Tahmin ile kesin referans için sınırlayıcı kutuların birleşimi (sağda) 7'dir. Dolayısıyla IoU $\frac{1}{7}$'dir.

Yukarıdakiyle aynı görüntü, ancak her sınırlayıcı kutu dört çeyreğe bölünmüş şekilde. Kesin referans sınır kutusunun sağ alt çeyreği ile tahmin edilen sınırlayıcı kutunun sol üst çeyreğinin sağ alt kısmı birbiriyle çakıştığından toplam yedi çeyrek vardır. Çakışan bu bölüm (yeşil renkle vurgulanmıştır) kavşağı temsil eder ve 1'lik bir alana sahiptir.

IoU

intersection over union (kesişim ve bütünleşim) ifadesinin kısaltması.

öğe matrisi

#recsystems

Öneri sistemlerinde, her bir öğe hakkında gizli sinyaller barındıran matrisi çarpanlara ayırma tarafından oluşturulan bir yerleştirme vektörleri matrisi. Öğe matrisinin her satırı, tüm öğeler için tek bir gizli özelliğin değerini içerir. Örneğin, bir film öneri sistemi düşünün. Öğe matrisindeki her sütun tek bir filmi temsil eder. Gizli sinyaller türleri temsil edebilir veya tür, yıldızlar, film yaşı veya diğer faktörler arasındaki karmaşık etkileşimler içeren, anlaşılması daha zor sinyaller olabilir.

Öğe matrisi, çarpanlara ayrılmış hedef matrisle aynı sayıda sütuna sahiptir. Örneğin, 10.000 film adını değerlendiren bir film önerisi sisteminde öğe matrisinde 10.000 sütun olur.

items

#recsystems

Öneri sisteminde, sistemin önerdiği varlıklardır. Örneğin, videolar bir video mağazasının önerdiği öğeler, kitaplar ise bir kitabevinin önerdiği öğelerdir.

iterasyon

#fundamentals

Eğitim sırasında bir modelin parametrelerinin (modelin ağırlıkları ve önemleri) tek bir güncellemesi. Toplu işlem boyutu, modelin tek bir yinelemede kaç örnek işleyeceğini belirler. Örneğin, grup boyutu 20 ise model, parametreleri ayarlamadan önce 20 örneği işler.

Bir sinir ağını eğitirken tek bir iterasyon aşağıdaki iki geçişi içerir:

Tek bir gruptaki kaybı değerlendirmek için ileriye doğru hesaplama.
Modelin parametrelerini kayba ve öğrenme hızına göre düzenlemek için geriye doğru hesaplama (geriye yayılma).

J

JAK

Yüksek performanslı sayısal bilgi işlem için XLA'yı (Accelerated Doğrusal Cebir) ve otomatik farklılaştırmayı bir araya getiren bir dizi bilişim kitaplığı. JAX, composable dönüşümlerle hızlandırılmış sayısal kod yazmak için basit ve güçlü bir API sunar. JAX, aşağıdakilere benzer özellikler sunar:

grad (otomatik farklılaştırma)
jit (tam zamanında derleme)
vmap (otomatik vektörleştirme veya toplu işleme)
pmap (paralelleştirme)

JAX, Python'un NumPy kitaplığına benzer (ancak kapsamı çok daha büyük) sayısal kod dönüşümlerini ifade etmek ve oluşturmak için kullanılan bir dildir. (Aslında, JAX altındaki .numpy kitaplığı, Python NumPy kitaplığının işlevsel olarak eşdeğeri, ancak tamamen yeniden yazılmış bir sürümüdür.)

JAX, özellikle modelleri ve verileri GPU ve TPU hızlandırıcı çiplerinde, modelleri ve verileri paralelliğe uygun bir forma dönüştürerek birçok makine öğrenimi görevini hızlandırmaya uygundur.

Flax, Optax, Pax ve daha birçok kitaplık JAX altyapısı üzerinde derlenmiştir.

K

Keras

Popüler bir Python makine öğrenimi API'si. Keras, tf.keras olarak kullanıma sunulduğu TensorFlow da dahil olmak üzere çeşitli derin öğrenme çerçeveleri üzerinde çalışmaktadır.

Çekirdek Desteği Vektör Makineleri (KSVM'ler)

Giriş verisi vektörlerini daha yüksek boyutlu bir alana eşleyerek pozitif ve negatif sınıflar arasındaki boşluğu en üst düzeye çıkarmayı amaçlayan bir sınıflandırma algoritması. Örneğin, giriş veri kümesinde yüz özellik içeren bir sınıflandırma problemini ele alalım. Pozitif ve negatif sınıflar arasındaki marjı en üst düzeye çıkarmak için KSVM, bu özellikleri dahili olarak bir milyon boyutlu alanla eşleyebilir. KSVM'ler, menteşe kaybı adı verilen bir kayıp işlevi kullanır.

önemli noktalar

#image

Bir resimdeki belirli özelliklerin koordinatları. Örneğin, çiçek türlerini ayırt eden bir görüntü tanıma modeli için anahtar noktalar her bir yaprağın merkezi, sapı, erkegi vb. olabilir.

k katlama çapraz doğrulaması

Bir modelin yeni verilere genelleştirme özelliğini tahmin eden bir algoritmadır. K katındaki k, bir veri kümesinin örneklerini böldüğünüz eşit grupların sayısını ifade eder. Yani, modelinizi k kez eğitip test edersiniz. Her eğitim ve test turu için farklı bir grup, test kümesi olur. Geri kalan tüm gruplar ise eğitim kümesi haline gelir. Binlerce eğitim ve test turundan sonra, seçilen test metriklerinin ortalamasını ve standart sapmasını hesaplıyorsunuz.

Örneğin, veri kümenizin 120 örnekten oluştuğunu varsayalım. Ayrıca, k'yi 4 olarak ayarlamaya karar verdiğinizi varsayalım. Bu nedenle, örnekleri karıştırdıktan sonra veri kümesini 30 örneklik dört eşit gruba bölüyor ve dört eğitim/test turu gerçekleştiriyorsunuz:

Dört eşit örnek grubuna ayrılmış veri kümesi. 1. Turda, ilk üç grup eğitim için, son grup ise test için kullanılır. 2. turda ilk iki grup ve son grup eğitim için kullanılır. Üçüncü grup ise test için kullanılır. 3. Turda, ilk ve son iki grup eğitim için, ikinci grup ise test için kullanılır.
4. Turda ilk grup test için, son üç grup ise eğitim için kullanılır.

Örneğin, Ortalama Kare Hata (MSE), doğrusal bir regresyon modeli için en anlamlı metrik olabilir. Bu nedenle, dört turda MSE'nin ortalamasını ve standart sapmasını bulabilirsiniz.

k-ortalaması

#clustering

Gözetimsiz öğrenmede örnekleri gruplandıran popüler bir kümeleme algoritması. K-ortalaması algoritması temel olarak aşağıdakileri yapar:

En iyi k merkez noktalarını (centroid olarak bilinir) yinelemeli bir şekilde belirler.
Her örneği en yakın merkeze atar. Aynı merkeze en yakın örnekler de aynı gruba aittir.

K-ortalaması algoritması, her bir örnekten en yakın merkeze olan mesafelerin kümülatif karesini en aza indirmek için merkez konumlarını seçer.

Örneğin, köpek boyunun köpeğin genişliğine göre aşağıdaki grafiğini inceleyin:

Birkaç düzine veri noktası içeren Kartezyen grafik.

k=3 ise k-ortalamalar algoritması üç merkezi nokta belirler. Her örnek en yakın merkezine atanır ve üç grup elde edilir:

Üç sentroit eklenmiş dışında, önceki çizimdekiyle aynı Kartezyen grafik.
Önceki veri noktaları, her biri belirli bir merkeze en yakın veri noktalarını temsil eden üç farklı gruba ayrılmıştır.

Bir üreticinin köpekler için küçük, orta ve büyük kazaklar için ideal bedenleri belirlemek istediğini hayal edin. Üç merkez, bu kümedeki her bir köpeğin ortalama yüksekliğini ve ortalama genişliğini tanımlar. Dolayısıyla, üretici muhtemelen kazak bedenlerini bu üç sentroite dayandırmalıdır. Bir kümenin merkezi genellikle kümenin bir örneği olmadığını unutmayın.

Yukarıdaki resimlerde, yalnızca iki özelliğe (yükseklik ve genişlik) sahip örnekler için k-ortalaması gösterilmektedir. K ortalamalarının örnekleri birçok özellikte gruplandırabildiğini unutmayın.

k-ortanca değeri

#clustering

k-ortalamalar ile yakından ilişkili bir kümeleme algoritması. Bu ikisi arasındaki pratik fark şudur:

K ortalamalarında, sentroidler, bir merkez adayı ile örneklerinin her biri arasındaki mesafenin karelerinin toplamının en aza indirilmesiyle belirlenir.
K-ortasında, sentroidler, bir merkez adayı ile örneklerinin her biri arasındaki mesafe toplamının en aza indirilmesiyle belirlenir.

Uzaklık tanımlarının da farklı olduğunu unutmayın:

k-ortalaması, merkezin örneğe olan Öklid uzaklığı temel alınarak belirlenir. (İki boyutta Öklid uzaklığı, hipotenüsü hesaplamak için Pisagor teoreminin kullanılması anlamına gelir.) Örneğin, (2,2) ile (5,-2) arasındaki k-ortalama mesafe şöyle olur:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-ortanca değeri, merkezin örneğe göre Manhattan mesafesini temel alır. Bu mesafe, her bir boyuttaki mutlak deltaların toplamıdır. Örneğin, (2,2) ile (5,-2) arasındaki k-ortanca mesafesi şöyle olur:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L₀ normalleştirmesi

#fundamentals

Bir modelde sıfır olmayan ağırlıkların toplam sayısını cezalandıran bir normalleştirme türü. Örneğin, sıfır olmayan 11 ağırlığa sahip bir model, 10 farklı ağırlığa sahip benzer bir modele göre daha fazla cezaya tabi tutulur.

L₀ normalleştirmesi bazen L0norm normalleştirmesi olarak da adlandırılır.

Ek notlar için simgeyi tıklayın.

L₀ normalleştirmesi, büyük modellerde genellikle kullanışlı değildir. Çünkü L₀ normalleştirmesi, eğitimi bir dönüştürme optimizasyon sorununa dönüştürür.

L₁ kaybı

#fundamentals

Gerçek label değerleri ile bir modelin tahmin ettiği değerler arasındaki farkın mutlak değerini hesaplayan bir kayıp işlevi. Örneğin, beş örnekten oluşan bir grup için L₁ kaybının hesaplanması şu şekildedir:

Örneğin gerçek değeri	Modelin tahmini değeri	Deltanın mutlak değeri
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ kaybı

L₁ kaybı, aykırı değerlere karşı L₂ kaybına göre daha az duyarlıdır.

Ortalama Mutlak Hata, örnek başına ortalama L₁ kaybıdır.

Resmi matematiği görmek için simgeyi tıklayın.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

Bu örnekte:

$n$ örnek sayısıdır.
$y$, etiketin gerçek değeridir.
$\hat{y}$, modelin $y$ için tahmin ettiği değerdir.

L₁ normalleştirmesi

#fundamentals

Ağırlıkların, ağırlıkların mutlak değerinin toplamıyla orantılı olarak cezalandıran bir normalleştirme türü. L₁ normalleştirmesi, alakasız veya çok az alakalı özelliklerin ağırlıklarını tam olarak 0'a çekmeye yardımcı olur. Ağırlığı 0 olan bir özellik, modelden etkin bir şekilde kaldırılır.

L₂ normalleştirmesiyle kontrast oluşturun.

L₂ kaybı

#fundamentals

Gerçek label değerleri ile bir modelin tahmin ettiği değerler arasındaki farkın karesini hesaplayan bir kayıp işlevi. Örneğin, beş örnekten oluşan bir grup için L₂ kaybının hesaplanması şu şekildedir:

Örneğin gerçek değeri	Modelin tahmini değeri	Deltanın karesi
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ kaybı

Kareleme nedeniyle L₂ kaybı, aykırı değerlerin etkisini artırır. Yani L₂ kaybı, kötü tahminlere L₁ kaybından daha güçlü tepki verir. Örneğin, önceki toplu işlem için L₁ kaybı 16 yerine 8 olur. Tek bir aykırı değerin 16'nın 9'unu oluşturduğuna dikkat edin.

Regresyon modelleri genellikle kayıp işlevi olarak L₂ kaybını kullanır.

Ortalama Kare Hata, örnek başına ortalama D₂ kaybıdır. Karesel kayıp, L₂ kaybının diğer adıdır.

Resmi matematiği görmek için simgeyi tıklayın.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

Bu örnekte:

$n$ örnek sayısıdır.
$y$, etiketin gerçek değeridir.
$\hat{y}$, modelin $y$ için tahmin ettiği değerdir.

L₂ normalleştirmesi

#fundamentals

Ağırlıklara ağırlıkların karelerinin toplamıyla orantılı olarak ceza veren bir normalleştirme türü. L₂ normalleştirmesi, aykırı ağırlıkların (yüksek pozitif veya düşük negatif değerlere sahip) 0'a yaklaşmasına ancak 0'a tam olarak yaklaşmamasına yardımcı olur. Değerleri 0'a çok yakın olan özellikler modelde kalır ancak modelin tahminini çok fazla etkilemez.

L₂ normalleştirmesi, doğrusal modellerde genelleştirmeyi her zaman iyileştirir.

L₁ normalleştirmesiyle kontrast.

etiket

#fundamentals

Gözetimli makine öğreniminde, bir örneğin "yanıt" veya "sonuç" kısmı.

Her etiketli örnek, bir veya daha fazla özellikten ve bir etiketten oluşur. Örneğin, bir spam algılama veri kümesinde, etiket muhtemelen "spam" veya "spam değil" olacaktır. Bir yağış veri kümesinde etiket, belirli bir dönemde düşen yağmur miktarı olabilir.

etiketli örnek

#fundamentals

Bir veya daha fazla özellik ve bir etiket içeren bir örnek. Örneğin, aşağıdaki tabloda her biri üç özellik ve bir etiket içeren, ev değerleme modelinden etiketli üç örnek gösterilmektedir:

Yatak odası sayısı	Banyo sayısı	Ev yaşı	Dahili fiyat (etiket)
3	2	15	345.000 $
2	1	72	179.000 $
4	2	34	392.000 $

Gözetimli makine öğreniminde modeller, etiketli örnekler üzerinde eğitilir ve etiketlenmemiş örnekler üzerinde tahminlerde bulunur.

Etiketsiz örneklerle kontrast etiketli örnek.

etiket sızıntısı

Bir özelliğin etiket için temsili olduğu bir model tasarım hatası. Örneğin, potansiyel bir müşterinin belirli bir ürünü satın alıp almayacağını tahmin eden ikili sınıflandırma modelini düşünün. Modelin özelliklerinden birinin SpokeToCustomerAgent adlı bir Boole olduğunu varsayalım. Ayrıca müşteri temsilcisinin, yalnızca potansiyel müşteri ürünü gerçekten satın aldıktan sonra atandığını varsayalım. Eğitim sırasında model, SpokeToCustomerAgent ve etiket arasındaki ilişkilendirmeyi hızlı bir şekilde öğrenir.

Lambda

#fundamentals

Normalleştirme oranı ile eş anlamlı.

Lambda terimi aşırı yüklü. Burada terimin düzenleme içindeki tanımına odaklanıyoruz.

LaMDA (Diyalog Uygulamaları İçin Dil Modeli)

#language

Google tarafından geliştirilen ve gerçekçi diyaloglar oluşturabilen büyük bir diyalog veri kümesi kullanılarak eğitilmiş Transformer tabanlı bir büyük dil modeli.

LaMDA: Çığır açan konuşma teknolojimiz bu konuda genel bir bakış sunuyor.

önemli noktalar

#image

keypoints ile eş anlamlı.

dil modeli

#language

Bir jetonun veya jeton dizisinin daha uzun bir jeton dizisinde gerçekleşme olasılığını tahmin eden bir model.

Ek notlar için simgeyi tıklayın.

Mantığa aykırı gibi görünse de, metni değerlendiren birçok model dil modelleri değildir. Örneğin, metin sınıflandırma modelleri ve yaklaşım analizi modelleri dil modelleri değildir.

büyük dil modeli

#language

Genellikle çok sayıda parametre içeren bir dil modelini ifade eden, kesin bir tanımı olmayan gayriresmi bir terim. Bazı büyük dil modelleri 100 milyardan fazla parametre içerir.

Ek notlar için simgeyi tıklayın.

Bir dil modelinin ne zaman büyük dil modeli olarak adlandırılacak kadar büyüdüğünü merak ediyor olabilirsiniz. Şu anda, parametre sayısı için üzerinde anlaşmaya varılmış bir tanımlayıcı satır yoktur.

Güncel büyük dil modellerinin çoğu (ör. GPT) Transformer mimarisine dayanır.

gizli uzay

#language

Yerleştirme alanı ile eş anlamlı.

katman

#fundamentals

Nöral ağdaki bir nöron kümesi. Yaygın olarak kullanılan üç katman türü şunlardır:

Tüm özellikler için değer sağlayan giriş katmanı.
Özellikler ile etiket arasındaki doğrusal olmayan ilişkileri bulan bir veya daha fazla gizli katman.
Tahmini sağlayan çıkış katmanı.

Örneğin, aşağıdaki çizimde bir giriş katmanı, iki gizli katman ve bir çıkış katmanı olan bir nöral ağ gösterilmektedir:

Bir giriş katmanı, iki gizli katmanı ve bir çıkış katmanı olan bir nöral ağ. Giriş katmanı iki özellikten oluşur. İlk gizli katman üç nörondan, ikinci gizli katman ise iki nörondan oluşur. Çıkış katmanı tek bir düğümden oluşur.

TensorFlow'da katmanlar, girdi olarak Tensörler ve yapılandırma seçeneklerini alıp çıkış olarak başka tensörler oluşturan Python işlevleridir.

Katmanlar API'sı (tf.layers)

#TensorFlow

Katman bileşimi olarak derin bir nöral ağ oluşturmak için kullanılan bir TensorFlow API. Katmanlar API'si, aşağıdakiler gibi farklı türlerde katmanlar oluşturmanıza olanak tanır:

Tamamen bağlı bir katman için tf.layers.Dense.
kıvrımlı bir katman için tf.layers.Conv2D.

Katmanlar API'si, Keras katmanları API kurallarını izler. Diğer bir deyişle, farklı önekler dışında, Katmanlar API'deki tüm işlevler Keras layers API'sindeki eşdeğerleriyle aynı adlara ve imzalara sahiptir.

yaprak

#df

Karar ağacındaki herhangi bir uç nokta. Koşul'un aksine, yaprak test yapmaz. Daha ziyade, yaprak olası bir tahmindir. Yaprak aynı zamanda çıkarım yolunun terminal düğümüdür.

Örneğin, aşağıdaki karar ağacı üç yaprak içerir:

Üç yaprak sağlayan iki koşul içeren bir karar ağacı.

Öğrenim Yorumlanabilirliği Aracı (LIT)

Görsel, etkileşimli bir model anlama ve veri görselleştirme aracı.

Modelleri yorumlamak ya da metin, resim ve tablo verilerini görselleştirmek için açık kaynaklı LIT'yi kullanabilirsiniz.

öğrenme hızı

#fundamentals

gradyan iniş algoritmasına her bir iterasyon için ağırlıkların ve ağırlıkların ne kadar güçlü ayarlanması gerektiğini bildiren bir kayan nokta sayısı. Örneğin, 0,3'lük bir öğrenme hızı, ağırlıkları ve ön yargıları 0,1'lik bir öğrenme hızından üç kat daha etkili şekilde ayarlar.

Öğrenme hızı önemli bir hiperparametredir. Öğrenme hızını çok düşük bir değere ayarlarsanız eğitim çok uzun sürer. Öğrenme hızını çok yüksek ayarlarsanız gradyan azalması genellikle yakınlaşmaya ulaşmada sorun yaşar.

Daha fazla matematiksel açıklama için simgeyi tıklayın.

Her iterasyonda gradyan iniş algoritması, öğrenme hızını gradyanla çarpar. Ortaya çıkan ürüne gradyan adımı denir.

en küçük kareler regresyon

L₂ Kaybı en aza indirilerek eğitilen bir doğrusal regresyon modeli.

doğrusal

#fundamentals

İki veya daha fazla değişken arasındaki, yalnızca toplama ve çarpma yoluyla temsil edilebilen ilişki.

Doğrusal bir ilişkinin grafiği çizgidir.

Doğrusal olmayan öğelerle kontrast oluşturun.

doğrusal model

#fundamentals

Tahmin yapmak için her özellik başına bir ağırlık atayan bir model. (Doğrusal modeller de bir yanlılık içerir.) Buna karşılık, derin modellerdeki tahminlerle özelliklerin ilişkisi genellikle doğrusal değildir.

Doğrusal modellerin eğitilmesi genellikle daha kolay olur ve derin modellere kıyasla daha yorumlanabilir. Bununla birlikte, derin modeller özellikler arasındaki karmaşık ilişkileri öğrenebilir.

Doğrusal regresyon ve mantıksal regresyon, iki doğrusal model türüdür.

Hesaplamayı görmek için simgeyi tıklayın.

Bir doğrusal model şu formüle uyar:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Bu örnekte:

y' ham tahmindir. (Belirli doğrusal model türlerinde, bu ham tahmin daha fazla değiştirilir. Örneğin mantıksal regresyon bölümünü inceleyin.)
b, yanlı taraftır.
w bir ağırlık olduğundan, w₁ ilk özelliğin ağırlığıdır, w₂ ikinci özelliğin ağırlığıdır.
x bir özelliktir. Dolayısıyla, x₁ ilk özelliğin değeridir, x₂ ikinci özelliğin değeridir.

Örneğin, üç özelliğe sahip bir doğrusal modelin aşağıdaki ön yargıları ve ağırlıkları öğrendiğini varsayalım:

b = 7
w₁ = -2,5
w₂ = -1,2
g₃ = 1,4

Bu nedenle, üç özellik (x₁, x₂ ve x₃) göz önünde bulundurulduğunda doğrusal model, her bir tahmini oluşturmak için aşağıdaki denklemi kullanır:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Belirli bir örneğin aşağıdaki değerleri içerdiğini varsayalım:

x₁ = 4
x₂ = -10
x₃ = 5

Bu değerleri formüle eklediğinizde aşağıdaki örnekle ilgili bir tahmin elde edersiniz:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Doğrusal modeller, yalnızca tahminde bulunmak için doğrusal bir denklem kullanan modelleri değil, aynı zamanda tahminde bulunan formülün yalnızca bir bileşeni olarak doğrusal denklem kullanan daha geniş bir model grubunu da içerir. Örneğin, mantıksal regresyon, ham tahmini (y') sonradan işleyerek 0 ile 1 arasında bir nihai tahmin değeri oluşturur.

doğrusal regresyon

#fundamentals

Aşağıdaki koşulların her ikisinin de geçerli olduğu bir makine öğrenimi modeli türü:

Model, doğrusal model olmalıdır.
Tahmin, bir kayan nokta değeridir. (Bu, doğrusal regresyonun regresyon kısmıdır.)

Doğrusal regresyonu mantıksal regresyonla karşılaştırın. Ayrıca, sınıflandırma ile regresyonu karşılaştırabilirsiniz.

LIT

Daha önce Language Translateability Tool olarak bilinen Learning Translateability Tool (LIT)'nin kısaltmasıdır.

Geniş kapsamlı dil modeli

#language

large dil modeli için kısaltma.

mantıksal regresyon

#fundamentals

Bir olasılığı tahmin eden regresyon modeli türüdür. Mantıksal regresyon modelleri aşağıdaki özelliklere sahiptir:

Etiket kategoriktir. Mantıksal regresyon terimi genellikle ikili mantıksal regresyonu, yani iki olası değere sahip etiketlerin olasılıklarını hesaplayan bir modeli ifade eder. Daha az yaygın bir değişken olan çok terimli mantıksal regresyon, ikiden fazla olası değere sahip etiketlerin olasılıklarını hesaplar.
Eğitim sırasında kayıp işlevi Log Loss'tur. (İkiden fazla olası değere sahip etiketler için paralel olarak birden çok Günlük Kaybı birimi yerleştirilebilir.)
Model, derin bir nöral ağa değil, doğrusal bir mimariye sahip olmalıdır. Ancak bu tanımın geri kalanı, kategorik etiketlerin olasılıklarını tahmin eden derin modeller için de geçerlidir.

Örneğin, bir giriş e-postasının spam olma veya spam olmama olasılığını hesaplayan mantıksal regresyon modelini düşünün. Çıkarım sırasında modelin 0, 72 tahmininde bulunduğunu varsayalım. Bu nedenle model şöyle tahmin ediyor:

E-postanın spam olma olasılığı% 72.
E-postanın spam olmama olasılığı% 28.

Mantıksal regresyon modeli aşağıdaki iki adımlı mimariyi kullanır:

Bu model, giriş özelliklerinin doğrusal işlevini uygulayarak ham bir tahmin (y') oluşturur.
Model, bu ham tahmini sigmoid işlevine girdi olarak kullanır. Bu işlev, ham tahmini 0 ile 1 arasında (bu değerler hariç) bir değere dönüştürür.

Tüm regresyon modelleri gibi, mantıksal regresyon modeli de bir sayıyı tahmin eder. Bununla birlikte, bu sayı genellikle aşağıdaki gibi bir ikili sınıflandırma modelinin parçası haline gelir:

Tahmin edilen sayı, sınıflandırma eşiğinden büyükse ikili sınıflandırma modeli pozitif sınıfı tahmin eder.
Tahmin edilen sayı, sınıflandırma eşiğinden düşükse ikili sınıflandırma modeli negatif sınıfı tahmin eder.

logits

Bir sınıflandırma modelinin oluşturduğu ve normalde bir normalleştirme işlevine aktarılan ham (normalleştirilmemiş) tahminlerin vektörü. Model, çok sınıflı sınıflandırma sorununu çözüyorsa mantıklar genellikle softmax işlevinin girdisi haline gelir. Ardından softmax işlevi, olası her sınıf için bir değerle (normalleştirilmiş) olasılık vektörü oluşturur.

Günlük Kaybı

#fundamentals

İkili mantıksal regresyonda kullanılan kayıp işlevi.

Hesaplamayı görmek için simgeyi tıklayın.

Aşağıdaki formül Günlük Kaybı hesaplar:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

Bu örnekte:

$(x,y)\in D$ birçok etiketli örnek içeren veri kümesidir. Bunlar çiftlerden oluşur. $(x,y)$
$y$ , etiketli örnekteki etikettir. Bu mantıksal regresyon olduğundan, her $y$ değeri ya 0 ya da 1 olmalıdır.
$y'$ , $x$içindeki özellik grubu göz önünde bulundurularak tahmin edilen değerdir (0 ile 1 arasında, bu değerler hariç).

günlük oranları

#fundamentals

Bir olayın olasılıklarının logaritması.

Hesaplamayı görmek için simgeyi tıklayın.

Etkinlik ikili olasılık ise oranlık, başarı olasılığının (p) başarısız olma olasılığına (1-p) oranını ifade eder. Örneğin, belirli bir etkinliğin başarılı olma olasılığının %90, başarısızlık olasılığının ise% 10 olduğunu varsayalım. Bu durumda, bahis oranları şu şekilde hesaplanır:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Günlük olasılıkları, olasılıkların logaritmasıdır. Genellikle "logaritma", doğal logaritma anlamına gelir ancak logaritma aslında 1'den büyük herhangi bir taban olabilir. Bu nedenle, kurala bağlı kalarak örneğimizin günlük olasılıkları şu şekildedir:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Log-odds işlevi, sigmoid işlevinin tersidir.

Uzun Kısa Vadeli Bellek (LSTM)

#seq

El yazısı tanıma, makine çevirisi ve görüntü altyazısı gibi uygulamalarda veri dizilerini işlemek için kullanılan, yinelenen bir nöral ağda bulunan bir hücre türü. LSTM'ler, geçmişi RNN'deki önceki hücrelerden gelen yeni giriş ve bağlama göre dahili bellek durumunda tutarak RNN'ler eğitilirken ortaya çıkan kaybolan gradyan sorununu ele alır.

LoRA

#language

#üretken yapay zeka

Low-Rank Adaptability (Düşük Sırayla Uyarlanabilirlik) için kısaltma.

mağlubiyet

#fundamentals

Gözetimli modelin eğitimi sırasında bir modelin tahmininin etiketinden ne kadar uzakta olduğunu ölçer.

Kayıp işlevi kaybı hesaplar.

kayıp toplayıcı

Birden fazla modelin tahminlerini birleştirerek ve bu tahminleri tek bir tahmin yapmak için kullanarak bir modelin performansını artıran bir makine öğrenimi algoritması. Sonuç olarak, kayıp toplayıcısı tahminlerin varyansını azaltabilir ve tahminlerin doğruluğunu iyileştirebilir.

kayıp eğrisi

#fundamentals

Eğitim yitrasyonlarının sayısının bir işlevi olarak kayıp grafiği. Aşağıdaki grafikte tipik bir kayıp eğrisi gösterilmektedir:

İlk iterasyonlarda hızlı düşüş, ardından kademeli bir düşüş ve son iterasyonlarda düz bir eğim gösteren Kartezyen grafik.

Kayıp eğrileri, modelinizin ne zaman yakınlaştırdığını veya aşırı uydurduğunu belirlemenize yardımcı olabilir.

Kayıp eğrileri aşağıdaki kayıp türlerinin tümünün grafiğini çizebilir:

kayıp eğitim
doğrulama kaybı
test kaybı

Ayrıca genelleme eğrisi konusuna bakın.

kayıp fonksiyonu

#fundamentals

Eğitim veya test sırasında, bir toplu örnekteki kaybı hesaplayan matematiksel işlev. Kayıp işlevi, iyi tahminlerde bulunan modeller için, kötü tahminlerde bulunan modellere kıyasla daha düşük bir kayıp döndürür.

Eğitimin hedefi genellikle bir kayıp işlevinin döndürdüğü kaybı en aza indirmektir.

Birçok farklı kayıp fonksiyonu türü vardır. Derlediğiniz modelin türüne uygun kayıp fonksiyonunu seçin. Örneğin:

L₂ kaybı (veya Ortalama Kare Hatası), doğrusal regresyon için kayıp fonksiyonudur.
Log Loss, mantıksal regresyon için kayıp fonksiyonudur.

kayıp yüzeyi

Kilolar ile kaybın karşılaştırmasını gösteren grafik. Gradyan iniş, kayıp yüzeyinin yerel minimum olduğu ağırlıkları bulmayı amaçlar.

Düşük Sıralama Uyumluluğu (LoRA)

#language

#üretken yapay zeka

Büyük bir dil modelinin parametrelerinin yalnızca bir alt kümesinde ince ince ayarlar yapan, parametre açısından verimli ayarlama yapmak için kullanılan bir algoritmadır. LoRA'nın sunduğu avantajlar şunlardır:

Bir modelin tüm parametrelerinde ince ayar yapılmasını gerektiren tekniklere kıyasla daha hızlı ince ayarlar.
Hassas şekilde ayarlanmış modelde çıkarım işlemlerinin işlem maliyetini azaltır.

LoRA ile ayarlanan bir model, tahminlerinin kalitesini korur veya iyileştirir.

LoRA, bir modelin birden çok özel sürümünü etkinleştirir.

LSTM

#seq

Uzun Kısa Terimli Bellek'in kısaltması.

M

makine öğrenimi

#fundamentals

Giriş verilerinden bir modeli eten program veya sistem. Eğitilen model, modeli eğitmek için kullanılan dağıtımdan elde edilen yeni (daha önce görülmemiş) verilerden faydalı tahminlerde bulunabilir.

Makine öğrenimi aynı zamanda bu program veya sistemlerle ilgili çalışma alanını da ifade eder.

çoğunluk sınıfı

#fundamentals

Sınıf dengesiz veri kümesinde daha yaygın olan etikettir. Örneğin, %99 negatif ve% 1 pozitif etiket içeren bir veri kümesi düşünüldüğünde en büyük sınıf negatif etiketlerdir.

Azınlık sınıfıyla zıtlık oluşturun.

Markov karar süreci (MDP)

#rl

Markov mülkünün sahip olduğu varsayımıyla bir durum dizisinde gezinmek için kararların (veya eylemlerin) alındığı karar verme modelini temsil eden grafik. Pekiştirmeli öğrenmede, eyaletler arasındaki bu geçişler sayısal bir ödül döndürür.

Markov mülkü

#rl

Eyalet geçişlerinin tamamen geçerli durum ve temsilcinin işleminde örtülü bilgilere göre belirlendiği belirli ortamların mülkü.

maskelenmiş dil modeli

#language

Aday jetonlarının bir dizideki boşlukları doldurma olasılığını tahmin eden dil modeli. Örneğin, maskeli dil modeli, aday kelimelerin aşağıdaki cümledeki alt çizgi yerine geçme olasılıklarını hesaplayabilir:

Şapkadaki ____ geri geldi.

Literatürde genellikle alt çizgi yerine "MASK" dizesi kullanılır. Örneğin:

Şapkadaki "MASK" geri geldi.

Modern maskelenmiş dil modellerinin çoğu iki yönlüdür.

Matplotlib

Açık kaynaklı Python 2D çizim kitaplığı. matplotlib, makine öğreniminin farklı yönlerini görselleştirmenize yardımcı olur.

matrisi çarpanlara ayırma

#recsystems

Matematikte, nokta çarpımı bir hedef matrise yakın olan matrisleri bulmak için kullanılan bir mekanizma.

Öneri sistemlerinde hedef matris genellikle kullanıcıların öğeler puanlarını tutar. Örneğin, bir film öneri sisteminin hedef matrisi aşağıdaki gibi görünebilir: Burada pozitif tam sayılar kullanıcı puanlarıdır ve 0, kullanıcının filmi değerlendirmediği anlamına gelir:

	Kazablanka	Philadelphia'nın Hikayesi	Black Panther	Wonder Woman	Ucuz Roman
1. Kullanıcı	5,0	3,0	0,0	2,0	0,0
2. Kullanıcı	4.0	0,0	0,0	1.0	5,0
3. Kullanıcı	3,0	1.0	4.0	5,0	0,0

Film öneri sistemi, derecelendirilmemiş filmlere ilişkin kullanıcı puanlarını tahmin etmeyi amaçlar. Örneğin, 1. Kullanıcı Black Panther'ı sevecek mi?

Öneri sistemlerine yönelik yaklaşımlardan biri, aşağıdaki iki matrisi oluşturmak için matrisi çarpanlara ayırmadır:

Kullanıcı sayısı X yerleştirme boyutlarının sayısı şeklinde şekillenen bir kullanıcı matrisi.
Yerleştirme boyutları X öğe sayısı şeklinde şekillendirilen bir öğe matrisi.

Örneğin, üç kullanıcımız ve beş öğemiz için matrisi çarpanlara ayırma, aşağıdaki kullanıcı matrisini ve öğe matrisini elde edebilir:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Kullanıcı matrisi ve öğe matrisinin nokta çarpımı, hem orijinal kullanıcı puanlarını hem de her kullanıcının izlemediği filmlerle ilgili tahminleri içeren bir öneri matrisi sağlar. Örneğin, Kullanıcı 1'in Kazablanka'daki 5, 0 puanlı değerlendirmesini ele alalım. Öneri matrisindeki bu hücreye karşılık gelen nokta çarpımının 5, 0 civarında olması beklenir.Değer şudur:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Daha da önemlisi, 1. Kullanıcı Black Panther'ı sevecek mi? İlk satıra ve üçüncü sütuna karşılık gelen nokta çarpımını almak, 4,3'lük bir tahmini puan verir:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Matrisi çarpanlara ayırma, genellikle bir araya geldiğinde hedef matristen çok daha kompakt olan bir kullanıcı matrisi ve öğe matrisi elde edilmesini sağlar.

Ortalama Mutlak Hata (MAE)

D₁ kaybı kullanıldığında örnek başına ortalama kayıp. Ortalama Mutlak Hatayı şu şekilde hesaplayın:

Bir grup için L₁ kaybını hesaplayın.
L₁ kaybını gruptaki örnek sayısına bölün.

Resmi matematiği görmek için simgeyi tıklayın.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

Bu örnekte:

$n$ örnek sayısıdır.
$y$, etiketin gerçek değeridir.
$\hat{y}$, modelin $y$ için tahmin ettiği değerdir.

Örneğin, aşağıdaki beş örnek grubunda L₁ kaybının hesaplanmasını düşünün:

Örneğin gerçek değeri	Modelin tahmini değeri	Kayıp (gerçek ve tahmini arasındaki fark)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ kaybı

Dolayısıyla, L₁ kaybı 8 ve örnek sayısı 5'tir. Bu nedenle Ortalama Mutlak Hata şu şekildedir:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Ortalama Kare Hatası ve Kök Ortalama Kare Hatası ile Kontrast Ortalama Mutlak Hatası.

Kare Ortalama Hata (MSE)

L₂ kaybı kullanıldığında örnek başına ortalama kayıp. Ortalama Kare Hatasını şu şekilde hesaplayın:

Bir grup için L₂ kaybını hesaplayın.
L₂ kaybını gruptaki örnek sayısına bölün.

Resmi matematiği görmek için simgeyi tıklayın.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ burada:

$n$ örnek sayısıdır.
$y$, etiketin gerçek değeridir.
$\hat{y}$, modelin $y$ için tahminidir.

Örneğin, aşağıdaki beş örnek grubundaki kaybı ele alalım:

Gerçek değer	Modelin tahmini	Mağlubiyet	Kare içinde kayıp
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = L₂ kaybı

Bu durumda, Ortalama Kare Hatası:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Ortalama Kare Hatası, özellikle doğrusal regresyon için başta olmak üzere popüler bir optimize edici eğitimdir.

Ortalama Mutlak Hata ve Kök Ortalama Kare Hatası ile Kontrast Ortalama Kare Hatası.

TensorFlow Playground, kayıp değerlerini hesaplamak için Ortalama Kare Hata'yı kullanır.

Aykırı değerler hakkında daha fazla ayrıntı görmek için simgeyi tıklayın.

Aykırı değerler, Ortalama Kareli Hatayı kesinlikle etkiler. Örneğin, 1'deki kaybın karesi 1'dir. 3'teki kayıp ise 9'un kare cinsinden kaybıdır. Yukarıdaki tabloda 3'lük kaybın görüldüğü örnek, Ortalama Kare Hata'nın yaklaşık% 56'sını oluştururken, 1 kayba sahip olan örneklerin her biri Ortalama Kare Hatanın yalnızca% 6'sına karşılık gelir.

Aykırı değerler, Ortalama Mutlak Hatayı Ortalama Kareli Hata kadar güçlü etkilemez. Örneğin, 3 sonuç kaybı, Ortalama Mutlak Hatanın yalnızca yaklaşık% 38'ine karşılık gelir.

Kırpma, aşırı aykırı değerlerin modelinizin tahmin kabiliyetine zarar vermesini önlemenin bir yoludur.

örgü

#TensorFlow

#GoogleCloud

ML paralel programlamasında, TPU çiplerine veri ve model atama ve bu değerlerin nasıl kırılacağını veya çoğaltılacağını tanımlamayla ilişkili bir terimdir.

Örgü, aşağıdakilerden biri anlamına gelebilecek aşırı yüklenmiş bir terimdir:

TPU çiplerinin fiziksel düzeni.
Verileri ve modeli TPU çipleriyle eşlemek için soyut bir mantıksal yapı.

Her iki durumda da bir ağ, şekil olarak belirtilir.

meta öğrenme

#language

Bir öğrenme algoritmasını keşfeden veya geliştiren makine öğrenimi alt kümesi. Bir meta öğrenme sistemi, bir modeli az miktarda veriden ya da önceki görevlerde edinilen deneyimlerden hızlı bir şekilde öğrenecek şekilde eğitmeyi de hedefleyebilir. Meta öğrenme algoritmaları genellikle aşağıdakileri başarmaya çalışır:

Elle tasarlanan özellikleri (Başlatıcı veya optimize edici gibi) iyileştirin veya öğrenin.
Daha verimli ve işlem daha verimli olun.
Genellemeyi geliştirin.

Meta öğrenme, birkaç aşamadan öğrenme ile ilgilidir.

metrik

#TensorFlow

Sizin için önemli olan bir istatistik.

Hedef, bir makine öğrenimi sisteminin optimize etmeye çalıştığı bir metriktir.

Metrics API (tf.metrics)

Modelleri değerlendirmek için bir TensorFlow API. Örneğin tf.metrics.accuracy, bir modelin tahminlerinin etiketlerle ne sıklıkta eşleştiğini belirler.

mini grup

#fundamentals

Tek bir iterasyon halinde işlenen bir topluluğun küçük ve rastgele seçilmiş alt kümesi. Bir mini grubun grup boyutu genellikle 10 ile 1.000 örnek arasındadır.

Örneğin, tüm eğitim kümesinin (tüm grup) 1.000 örnekten oluştuğunu varsayalım. Ayrıca, her bir mini grubun grup boyutunu 20 olarak ayarladığınızı varsayalım. Bu nedenle, her yineleme 1.000 örneğin rastgele 20'sindeki kaybı belirler ve ağırlıklar ile yönlemeleri buna göre ayarlar.

Mini bir gruptaki kaybı hesaplamak, tam gruptaki tüm örneklerdeki kayıptan çok daha verimlidir.

mini toplu stokatik gradyan iniş

Küçük gruplar kullanan bir gradyan iniş algoritması. Diğer bir deyişle, mini toplu senaryosal gradyan iniş, gradyanı eğitim verilerinin küçük bir alt kümesine dayanarak tahmin eder. Normal olasılıksal gradyan iniş, 1 boyutunda bir mini grup kullanır.

minimax kayıp

Oluşturulan verilerin dağılımı ile gerçek veriler arasındaki çapraz entropi temeline dayanan, üretken çelişkili ağlar için kayıp fonksiyonu.

Minimax kaybı, ilk makalede üretken rakip ağları açıklamak için kullanılmıştır.

azınlık sınıfı

#fundamentals

Sınıf dengesiz veri kümesinde daha az yaygın olan etikettir. Örneğin, %99 negatif ve% 1 pozitif etiket içeren bir veri kümesinde pozitif etiketler azınlık sınıfıdır.

Çoğunluk sınıfı ile kontrast oluşturun.

Ek notlar için simgeyi tıklayın.

Bir milyon örnek içeren bir eğitim seti kulağa etkileyici geliyor. Ancak azınlık sınıfı yeterince temsil edilmiyorsa çok büyük bir eğitim seti bile yetersiz kalabilir. Dersi veri kümesindeki toplam örneklerin sayısına, daha çok azınlık sınıfındaki örneklerin sayısına odaklanın.

Veri kümenizde yeterli sayıda azınlık sınıfı örneği yoksa azınlık sınıfını desteklemek için aşağı örnekleme özelliğini (ikinci maddedeki tanım) kullanabilirsiniz.

ML

Machine learning'in kısaltmasıdır.

MNIST

#image

LeCun, Cortes ve Burges tarafından derlenen, herkese açık bir veri kümesi olan ve 60.000 görüntü içeren bu görüntülerin her biri, bir insanın 0'dan 9'a kadar belirli bir basamağı nasıl manuel olarak yazdığını göstermektedir. Her görüntü, 28x28'lik bir tam sayı dizisi olarak depolanır. Burada her tam sayı, 0 ile 255 arasında (ikisi de dahil) gri tonlamalı bir değerdir.

MNIST, genellikle yeni makine öğrenimi yaklaşımlarını test etmek için kullanılan standart makine öğrenimi veri kümesidir. Ayrıntılar için MNIST El Yazısı Rakamlar Veritabanı'na göz atın.

yöntem

#language

Üst düzey bir veri kategorisi. Örneğin sayılar, metin, resim, video ve ses beş farklı moda şeklidir.

model

#fundamentals

Genel olarak, giriş verilerini işleyen ve çıkış döndüren her türlü matematiksel yapı. Başka bir deyişle model, bir sistemin tahminde bulunması için gereken parametreler ve yapı kümesidir. Gözetimli makine öğreniminde model, giriş olarak bir örneği alır ve çıkış olarak tahmin çıkarımda bulunur. Gözetimli makine öğreniminde modeller bazı farklılıklar gösterir. Örneğin:

Doğrusal regresyon modeli, bir dizi ağırlık ve bir yanlamadan oluşur.
Nöral ağ modeli şunlardan oluşur:
- Her biri bir veya daha fazla nöron içeren bir gizli katman kümesi.
- Her bir nöronla ilişkili ağırlıklar ve önyargı.
Karar ağacı modeli şunlardan oluşur:
- Ağacın şekli; diğer bir deyişle, koşullar ile yaprakların birbirine bağladığı kalıp.
- Koşullar ve çıkışlar.

Bir modeli kaydedebilir, geri yükleyebilir veya kopyasını oluşturabilirsiniz.

Gözetimsiz makine öğrenimi de modeller oluşturur. Bu işlev, genellikle bir giriş örneğini en uygun kümeyle eşleyebilen bir işlevdir.

Cebir ve programlama işlevlerini makine öğrenimi modelleriyle karşılaştırmak için simgeyi tıklayın.

Aşağıdaki gibi bir cebirsel fonksiyon bir modeldir:

  f(x, y) = 3x -5xy + y² + 17

Önceki işlev, giriş değerlerini (x ve y) çıkışla eşler.

Benzer şekilde, aşağıdaki gibi bir programlama işlevi de bir modeldir:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Bir çağrıyı yapan, önceki Python işlevine bağımsız değişkenler iletir ve Python işlevi çıkış oluşturur (return ifadesi aracılığıyla).

Derin nöral ağ, cebir veya programlama işlevinden çok farklı bir matematiksel yapıya sahip olsa da derin sinir ağı yine de giriş (örnek) ve çıkış (tahmin) döndürür.

İnsan bir programcı, programlama işlevini manuel olarak kodluyor. Buna karşın makine öğrenimi modeli, otomatik eğitim sırasında optimum parametreleri kademeli olarak öğrenir.

model kapasitesi

Bir modelin öğrenebileceği problemlerin karmaşıklığı. Bir modelin öğrenebileceği problemler ne kadar karmaşıksa modelin kapasitesi de o kadar yüksek olur. Bir modelin kapasitesi genellikle model parametrelerinin sayısına bağlı olarak artar. Sınıflandırıcı kapasitesinin resmi tanımı için GD boyutu konusuna bakın.

basamaklı model

#üretken yapay zeka

Belirli bir çıkarım sorgusu için ideal model seçen bir sistem.

Çok büyükten (çok sayıda parametre) çok daha küçüke (çok daha az parametreye) kadar değişen bir model grubu düşünün. Çok büyük modeller, daha küçük modellere kıyasla çıkarım süresinde daha fazla bilgi işlem kaynağı tüketir. Bununla birlikte, çok büyük modeller genellikle daha küçük modellere kıyasla daha karmaşık istekleri tahmin edebilir. Model basamakları, çıkarım sorgusunun karmaşıklığını belirler ve çıkarımı gerçekleştirmek için uygun modeli seçer. Model geçişlerinin temel amacı, genellikle daha küçük modeller ve daha karmaşık sorgular için yalnızca daha büyük bir model seçerek çıkarım maliyetlerini azaltmaktır.

Küçük bir modelin telefonda çalıştığını ve bu modelin daha büyük bir sürümünün uzak bir sunucuda çalıştığını düşünün. İyi model basamakları, küçük modelin basit istekleri işlemesini sağlayarak ve karmaşık istekleri ele almak için yalnızca uzak modeli çağırarak maliyeti ve gecikmeyi azaltır.

Ayrıca model yönlendirici konusuna bakın.

paralellik modeli

#language

Bir model farklı parçalarını farklı model yerleştiren eğitim veya çıkarımları ölçeklendirme yöntemidir. Model paralelliği, tek bir cihaza sığmayacak kadar büyük modellerin kullanılmasına olanak tanır.

Model paralelliğini uygulamak için bir sistem genellikle aşağıdakileri yapar:

Modeli daha küçük parçalara ayırır (bölür).
Bu küçük parçaların eğitimini birden fazla işlemciye dağıtır. Her işlemci, modelin kendi bölümünü eğitir.
Sonuçları birleştirerek tek bir model oluşturur.

Modeldeki paralellik, eğitimi yavaşlatır.

Ayrıca bkz. Veri paralelliği.

model yönlendirici

#üretken yapay zeka

model model için ideal model belirleyen algoritmadır. Model yönlendiricinin kendisi, genellikle belirli bir giriş için en iyi modeli nasıl seçeceğinizi kademeli olarak öğrenen bir makine öğrenimi modelidir. Ancak, model yönlendirici bazen daha basit, makine öğrenimi olmayan bir algoritma da olabilir.

model eğitimi

En iyi model belirleme süreci.

İlgiyi Artırma

Bir öğrenme adımının yalnızca geçerli adımdaki türevine değil, aynı zamanda kendisinden önce gelen adımların türevlerine de bağlı olduğu gelişmiş bir gradyan iniş algoritması. Momentum, fizikteki momentuma benzer şekilde, gradyanların zaman içinde üstel ağırlıklı hareketli ortalamasını hesaplamayı içerir. Gelişim bazen öğrenmenin yerel minimumda sıkılmasını önler.

çok sınıflı sınıflandırma

#fundamentals

Gözetimli öğrenmede, veri kümesinde ikiden fazla sınıf etiket içeren bir sınıflandırma problemi. Örneğin, Iris veri kümesindeki etiketler aşağıdaki üç sınıftan biri olmalıdır:

Süsen
İris Virginica
Yeşil Mercan

Yeni örneklerde Iris türünü tahmin eden Iris veri kümesi kullanılarak eğitilmiş bir model, çok sınıflı sınıflandırma gerçekleştirmektedir.

Tam olarak iki sınıfı birbirinden ayıran sınıflandırma problemleri ise ikili sınıflandırma modelleridir. Örneğin, spam veya spam değil tahmininde bulunan bir e-posta modeli, ikili program sınıflandırma modelidir.

Kümeleme problemlerinde çok sınıflı sınıflandırma, ikiden fazla kümeyi ifade eder.

çok sınıflı mantıksal regresyon

Çok sınıflı sınıflandırma problemlerinde mantıksal regresyonu kullanma.

kendi kendine dikkat etme

#language

Giriş sırasındaki her pozisyon için kendi kendine dikkat mekanizmasını birden fazla kez uygulayan bir kendine dikkat etme uzantısı.

Transformers, birden fazla noktaya dikkat etme kavramını ortaya koydu.

çok modlu model

#language

Giriş ve/veya çıkışları birden fazla modalite içeren bir model. Örneğin, özellik olarak hem bir resmi hem de metin başlığını (iki yöntem) alan ve metin başlığının resim için ne kadar uygun olduğunu belirten bir puan veren bir modeli ele alalım. Dolayısıyla, bu modelin girişleri çok modlu, çıktı ise tek modludur.

çok terimli sınıflandırma

Çok sınıflı sınıflandırma ile eş anlamlı.

çok terimli regresyon

Çok sınıflı mantıksal regresyon ile eş anlamlıdır.

çoklu görev

Tek bir model birden fazla model gerçekleştirmek üzere eğitildiği bir makine öğrenimi tekniği.

Çoklu görev modelleri, farklı görevlerin her biri için uygun veriler üzerine eğitim verilerek oluşturulur. Bu, modelin görevler arasında bilgi paylaşmayı öğrenmesine olanak tanır ve bu da modelin daha etkili bir şekilde öğrenmesine yardımcı olur.

Birden çok görev için eğitilen bir model, genellikle daha iyi genelleme yeteneklerine sahiptir ve farklı veri türlerini işleme konusunda daha sağlam olabilir.

N

NaN tuzağı

Modelinizdeki bir sayı, eğitim sırasında NaN haline geldiğinde, bu da modelinizdeki diğer sayıların birçoğunun veya tümünün sonunda NaN olmasına neden olur.

NaN, Not a Number'ın kısaltmasıdır.

doğal dil anlama

#language

Yazdıklarına veya söylediklerine göre bir kullanıcının niyetini belirleme. Örneğin bir arama motoru, kullanıcının yazdığına veya söylediğine göre ne aradığını belirlemek için doğal dil anlama özelliğini kullanır.

negatif sınıf

#fundamentals

İkili sınıflandırmada bir sınıf pozitif, diğerine negatif olarak adlandırılır. Pozitif sınıf, modelin test ettiği şey veya etkinliktir. Negatif sınıf ise diğer olasılıktır. Örneğin:

Tıbbi testin negatif sınıfı "tümör değil" olabilir.
Bir e-posta sınıflandırıcıdaki negatif sınıf "spam değil" olabilir.

Pozitif sınıfla kontrast oluşturun.

negatif örnekleme

Aday örnekleme ile eş anlamlı.

Nöral Mimarili Arama (NAS)

Nöral ağ mimarisini otomatik olarak tasarlama tekniğidir. NAS algoritmaları, bir nöral ağı eğitmek için gereken süreyi ve kaynakları azaltabilir.

NAS genellikle şunları kullanır:

Olası mimarilerden oluşan bir arama alanı.
Belirli bir mimarinin belirli bir görevdeki performansını ölçen fitness fonksiyonu.

NAS algoritmaları genellikle az sayıda olası mimariyle başlar ve algoritma hangi mimarilerin etkili olduğu hakkında daha fazla bilgi edindikçe arama alanını kademeli olarak genişletir. Fitness işlevi genellikle mimarinin bir eğitim veri kümesindeki performansına dayanır ve algoritma genellikle pekiştirmeli öğrenme tekniğiyle eğitilir.

NAS algoritmalarının görüntü sınıflandırma, metin sınıflandırma ve makine çevirisi gibi çeşitli görevler için yüksek performanslı mimariler bulma konusunda etkili olduğu kanıtlanmıştır.

nöral ağ

#fundamentals

En az bir gizli katman içeren bir model. Derin sinir ağı, birden fazla gizli katman içeren bir nöral ağ türüdür. Örneğin, aşağıdaki şemada iki gizli katman içeren bir derin sinir ağı gösterilmektedir.

Bir giriş katmanı, iki gizli katman ve bir çıkış katmanına sahip bir nöral ağ.

Bir nöral ağdaki her bir nöron bir sonraki katmanda bulunan tüm düğümlere bağlanır. Örneğin, önceki şemada birinci gizli katmandaki üç nöronun her birinin, ikinci gizli katmandaki iki nöronun her ikisine de ayrı ayrı bağlandığına dikkat edin.

Beyinlerde ve diğer sinir sistemlerinde bulunan nöral ağlardan ayırt etmek için bilgisayarlara uygulanan nöral ağlara bazen yapay nöral ağlar denir.

Bazı nöral ağlar, farklı özellikler ile etiket arasında son derece karmaşık doğrusal olmayan ilişkileri taklit edebilir.

Ayrıca bkz. evrimsel nöral ağ ve yinelenen nöral ağ.

nöron

#fundamentals

Makine öğreniminde, bir nöral ağın gizli katmanında yer alan ayrı bir birimdir. Her nöron aşağıdaki iki adımlı işlemi gerçekleştirir:

Girdi değerlerinin ağırlıklı toplamının ilgili ağırlıklarla çarpımını hesaplar.
Ağırlıklı toplamı bir etkinleştirme işlevine girdi olarak aktarır.

İlk gizli katmandaki bir nöron, giriş katmanındaki özellik değerlerinden gelen girişleri kabul eder. İlkinin ötesindeki herhangi bir gizli katmanda bulunan bir nöron, önceki gizli katmanda bulunan nöronlardan gelen girişleri kabul eder. Örneğin, ikinci gizli katmandaki bir nöron, birinci gizli katmandaki nöronlardan gelen girişleri kabul eder.

Aşağıdaki görselde iki nöron ve bunların girdileri vurgulanmaktadır.

Bir giriş katmanı, iki gizli katman ve bir çıkış katmanına sahip bir nöral ağ. Biri ilk gizli katmanda, diğeri ikinci gizli katmanda olmak üzere iki nöron vurgulanmaktadır. İlk gizli katmanda vurgulanan nöron, giriş katmanındaki her iki özellikten de giriş alır. İkinci gizli katmanda vurgulanan nöron, birinci gizli katmandaki üç nöronun her birinden giriş alır.

Sinir ağındaki bir nöron, beyinlerdeki ve sinir sistemlerinin diğer bölümlerindeki nöronların davranışlarını taklit eder.

N-gram

#seq

#language

N kelimeden oluşan sıralı bir dizi. Örneğin, truly madly 2 gramdır. Düzen alakalı olduğundan, gerçekten, gerçekten deli gibi farklı bir 2 gramdır.

N	Bu N-gram türünün adları	Örnekler
2	bigram veya 2 gram	gidiş, gitme, öğle yemeği, akşam yemeği yemek
3	trigram veya 3 gram	çok yemişti, üç adet kör fare ve zil sesi
4	4 gram	parkta yürüme, rüzgardaki toz, çocuk mercimek yedi

Birçok doğal dil anlama modeli, kullanıcının yazacağı veya söyleyeceği bir sonraki kelimeyi tahmin etmek için N-gramlardan yararlanır. Örneğin, bir kullanıcının üç kör yazdığını varsayalım. Trigrama dayalı bir NLU modeli muhtemelen kullanıcının bir sonraki mikrofon türünü tahmin edeceğini tahmin eder.

N gramlarını, sıralanmamış kelime kümeleri olan kelime torbası ile karşılaştırın.

NLU

#language

Doğal dil anlama ifadesinin kısaltmasıdır.

düğüm (karar ağacı)

#df

Karar ağacında herhangi bir durum veya yaprak.

İki koşullu ve üç yapraklı bir karar ağacı.

düğüm (nöral ağ)

#fundamentals

Gizli katmandaki bir nöron.

düğüm (TensorFlow grafiği)

#TensorFlow

TensorFlow grafiği'ndeki bir işlem.

gürültü

Özetle, veri kümesindeki sinyali gizleyen her şey. Gürültü, verilere çeşitli yollarla dahil edilebilir. Örneğin:

Gerçek kişi olan değerlendirmeciler, etiketleme sırasında hata yapabilir.
İnsanlar ve araçlar, özellik değerlerini yanlış kaydeder veya atlar.

ikilik olmayan koşul

#df

İkiden fazla olası sonuç içeren koşul. Örneğin, aşağıdaki "binary" olmayan koşul üç olası sonuç içerir:

Üç olası sonuç veren bir koşul (sayı_bacak = ?). Bir sonuç (bacak_sayısı = 8), örümcek adlı bir yaprağa dönüşür. İkinci bir sonuç (number_of_legs = 4), köpek adlı bir yaprağa ulaşır. Üçüncü bir sonuç (bacak_sayısı = 2) penguen adlı bir yaprağa dönüşür.

doğrusal olmayan

#fundamentals

İki veya daha fazla değişken arasındaki, sadece toplama ve çarpma yoluyla temsil edilemeyen ilişki. Doğrusal ilişki, çizgi olarak temsil edilebilir; doğrusal olmayan ilişki ise çizgi olarak temsil edilemez. Örneğin, her biri tek bir özelliği tek bir etiketle ilişkilendiren iki model düşünün. Soldaki model doğrusal, sağdaki ise doğrusal olmayan:

İki çizim. Grafiklerden biri doğrudur, dolayısıyla bu doğrusal bir ilişkidir.
Diğer grafik bir eğri olduğundan bu doğrusal olmayan bir ilişkidir.

yanıtsızlık yanlılığı

#fairness

Seçim ağırlıklandırması bölümünü inceleyin.

durağanlık

#fundamentals

Değerleri bir veya daha fazla boyutta (genellikle zaman) değişen özellik. Örneğin, aşağıdaki durağanlık örneklerini inceleyelim:

Belirli bir mağazada satılan mayo sayısı mevsime göre değişir.
Belirli bir bölgede hasat edilen belirli bir meyvenin miktarı, yılın büyük bölümünde sıfır olsa da kısa bir süre için de fazladır.
İklim değişikliği nedeniyle yıllık ortalama sıcaklıklar değişiyor.

durağanlık ile kontrast.

normalleştirme

#fundamentals

Genel olarak, bir değişkenin gerçek değer aralığını standart bir değer aralığına dönüştürme süreci. Örneğin:

-1'den +1'e
0:1
normal dağılım

Örneğin, belirli bir özelliğin gerçek değer aralığının 800 ila 2.400 olduğunu varsayalım. Özellik mühendisliği kapsamında gerçek değerleri -1 ile +1 arası gibi standart bir aralığa kadar normalleştirebilirsiniz.

Normalleştirme, özellik mühendisliğinde yaygın bir görevdir. Özellik vektöründeki her sayısal özellik kabaca aynı aralığa sahip olduğunda modeller genellikle daha hızlı eğitilir (ve daha iyi tahminler üretir).

yenilik algılama

Yeni bir örneğin (yeni) bir örneğin eğitim grubu ile aynı dağıtımdan gelip gelmediğini belirleme süreci. Diğer bir deyişle, eğitim grubu üzerinde eğitimden sonra, yenilik algılama, yeni bir örneğin (çıkarım sırasında veya ek eğitim sırasında) aykırı olup olmadığını belirler.

Kontrast ile aykırı değer algılama.

sayısal veri

#fundamentals

Tam sayı veya gerçek değerli sayılar olarak temsil edilen özellikler. Örneğin, bir ev değerleme modeli muhtemelen sayısal veri olarak bir evin büyüklüğünü (fitkare veya metrekare cinsinden) temsil eder. Bir özelliğin sayısal veri olarak temsil edilmesi, özellik değerlerinin etiketle matematik ilişkisi olduğunu gösterir. Yani, bir evdeki metrekare sayısının muhtemelen evin değeriyle bazı matematiksel ilişkisi vardır.

Tüm tam sayı verileri sayısal veri olarak temsil edilmemelidir. Örneğin, dünyanın bazı yerlerindeki posta kodları tam sayıdır. Bununla birlikte, modellerde tam sayı olan posta kodları sayısal veri olarak temsil edilmemelidir. Bunun nedeni, 20000 posta kodunun 10.000 posta koduna göre iki (veya yarısı) daha potansiyelinin olmamasıdır. Bununla birlikte, farklı posta kodlarının farklı emlak değerleriyle ilişkisi olsa da, 20000 posta kodundaki emlak değerlerinin, 10000 posta kodundaki emlak değerlerinin iki katı olduğunu varsayamayız. Posta kodları, bunun yerine kategorik veri olarak gösterilmelidir.

Sayısal özellikler bazen sürekli özellikler olarak adlandırılır.

NumPy

Python'da verimli dizi işlemleri sağlayan açık kaynak matematik kitaplığı. pandas, NumPy tabanlıdır.

O

hedef

Algoritmanızın optimize etmeye çalıştığı bir metrik.

amaç fonksiyonu

Bir modelin optimize etmeyi amaçladığı matematiksel formül veya metrik. Örneğin, doğrusal regresyon için amaç işlevi genellikle Ortalama Kareli Kayıp'tır. Bu nedenle, bir doğrusal regresyon modeli eğitilirken, eğitimde Kareli Ortalama Kaybı en aza indirmek amaçlanır.

Bazı durumlarda amaç, hedef işlevini en üst düzeye çıkarmak olur. Örneğin, hedef fonksiyonu doğruluksa, hedef doğruluğu en üst düzeye çıkarmaktır.

Kayıp bölümünü de inceleyin.

eğik durum

#df

Karar ağacında birden fazla özellik içeren bir koşul. Örneğin, yükseklik ve genişliğin her ikisi de özellik ise eğik bir koşuldur:

  height > width

Eksene hizalı koşul ile kontrast oluşturun.

çevrimdışı

#fundamentals

Statik ile eş anlamlı.

çevrimdışı çıkarım

#fundamentals

Bir modelin bir grup tahmin oluşturup ardından bu tahminleri önbelleğe alma (kaydetme) işlemi. Böylece uygulamalar, modeli yeniden çalıştırmak yerine önbellekten tahmin edilen tahmine erişebilir.

Örneğin, her dört saatte bir yerel hava durumu tahminleri (tahminler) oluşturan bir model düşünün. Her model çalıştırmasından sonra, sistem tüm yerel hava durumu tahminlerini önbelleğe alır. Hava durumu uygulamaları, tahminleri önbellekten alır.

Çevrimdışı çıkarım statik çıkarım olarak da adlandırılır.

Online çıkarımla kontrast.

tek sıcak kodlama

#fundamentals

Kategorik verileri aşağıdaki özelliklere sahip bir vektör olarak gösterme:

Bir öğe 1 olarak ayarlandı.
Diğer tüm öğeler 0 olarak ayarlanır.

Tek sıcak kodlama, sınırlı bir olası değer grubuna sahip dizeleri veya tanımlayıcıları temsil etmek için yaygın olarak kullanılır. Örneğin, Scandinavia adlı belirli bir kategorik özelliğin beş olası değeri olduğunu varsayalım:

"Danimarka"
"İsveç"
"Norveç"
"Finlandiya"
"İzlanda"

Tek sıcak kodlama, beş değerin her birini aşağıdaki gibi temsil edebilir:

country	Vektör
"Danimarka"	1	0	0	0	0
"İsveç"	0	1	0	0	0
"Norveç"	0	0	1	0	0
"Finlandiya"	0	0	0	1	0
"İzlanda"	0	0	0	0	1

Tek sıcak kodlama sayesinde, bir model beş ülkenin her birine bağlı olarak farklı bağlantılar öğrenebilir.

Bir özelliğin sayısal veri olarak temsil edilmesi, tek sıcak kodlamanın alternatifidir. Maalesef İskandinav ülkelerini sayısal olarak temsil etmek iyi bir seçim değil. Örneğin, aşağıdaki sayısal gösterimi düşünün:

"Danimarka" 0'dır
"İsveç" 1
"Norveç" 2'dir
"Finlandiya" 3'tür
"İzlanda" 4'tür

Sayısal kodlamayla, bir model ham sayıları matematiksel olarak yorumlar ve bu sayılar üzerine eğitim vermeye çalışır. Ancak İzlanda aslında Norveç'tekilerin iki katı (veya yarı yarıya) değil. Bu nedenle model garip sonuçlara yol açabilir.

tek seferlik öğrenim

Genellikle nesne sınıflandırmada kullanılan bir makine öğrenimi yaklaşımı, tek bir eğitim örneğinden etkili sınıflandırıcıları öğrenmek için tasarlanmıştır.

Ayrıca birkaç adımda öğrenme ve sıfırla öğrenme bölümlerini inceleyin.

tek seferlik istem

#language

#üretken yapay zeka

Büyük dil modelinin nasıl yanıt vermesi gerektiğini gösteren bir örnek içeren istem. Örneğin, aşağıdaki istemde büyük bir dil modelinin bir sorguyu nasıl yanıtlaması gerektiğini gösteren bir örnek bulunmaktadır.

Tek bir istemin bölümleri	Notlar
`Belirtilen ülkenin resmi para birimi nedir?`	LLM'nin cevaplamasını istediğiniz soru.
`Fransa: avro`	Bir örnek.
`Hindistan:`	Gerçek sorgu.

Tek seferlik istemleri aşağıdaki terimlerle karşılaştırın:

sıfır çekim istemi
birkaç çekimli istem

-bir-tümünü-karşılaştırma

#fundamentals

N sınıfındaki bir sınıflandırma problemi göz önüne alındığında, olası her sonuç için bir adet ikili sınıflandırıcı olan N ayrı ikili sınıflandırıcıdan oluşan bir çözümdür. Örneğin, örnekleri hayvan, sebze veya mineral olarak sınıflandıran bir modelde bir-tümü çözümü, aşağıdaki üç ayrı ikili sınıflandırıcıyı sağlar:

hayvan mı hayvan değil
sebze mi, sebze olmayan mı?
mineral mi, mineral değil mi

online

#fundamentals

dinamik ile eş anlamlı.

çevrimiçi çıkarım

#fundamentals

İsteğe bağlı olarak tahminler oluşturma. Örneğin, bir uygulamanın bir modele giriş gönderdiğini ve tahmin isteğinde bulunduğunu varsayalım. Online çıkarım kullanan bir sistem, modeli çalıştırarak (ve tahmini uygulamaya döndürerek) isteğe yanıt verir.

Çevrimdışı çıkarımla kontrast.

işlem (op)

#TensorFlow

TensorFlow'da bir Tensör oluşturan, manipüle eden veya yok eden tüm prosedürler. Örneğin, matris çarpımı, iki Tensörü giriş olarak alıp çıkış olarak bir Tensör oluşturan bir işlemdir.

Optax

JAX için gradyan işleme ve optimizasyon kitaplığıdır. Optax, derin sinir ağları gibi parametrik modelleri optimize etmek için özel şekillerde yeniden birleştirilebilecek yapı taşları sağlayarak araştırmayı kolaylaştırır. Diğer hedefler şunlardır:

Temel bileşenlerin okunabilir, iyi test edilmiş ve verimli şekilde uygulanmasını sağlama.
Düşük seviyeli bileşenleri özel optimize edicilerle (veya diğer gradyan işleme bileşenleriyle) birleştirmeyi mümkün hale getirerek üretkenliği artırma.
Herkesin katkıda bulunmasını kolaylaştırarak yeni fikirlerin benimsenmesini hızlandırma.

optimize edici

gradyan iniş algoritmasının özel bir uygulaması. Popüler optimizasyon araçları arasında şunlar yer alır:

Uyarlamalı GRADient iniş anlamına gelen AdaGrad.
Momentum ile ADAptive anlamına gelen Adam.

grup dışı homojenlik ön yargısı

#fairness

Tutumları, değerleri, kişilik özelliklerini ve diğer özellikleri karşılaştırırken grup dışı üyeleri grup içindekilere kıyasla daha benzer görme eğilimi. Grup içi, düzenli olarak etkileşimde bulunduğunuz kişileri, grup dışı ise düzenli olarak etkileşimde bulunmadığınız kişileri ifade eder. Kullanıcılardan grup dışı özellikler sağlamalarını isteyerek bir veri kümesi oluşturursanız bu özellikler, katılımcıların kendi gruplarındaki kişiler için listeledikleri özelliklerden daha az incelikli ve basmakalıp olabilir.

Örneğin, Lilliputyalılar diğer Lilliputyalıların evlerini çok ayrıntılı bir şekilde açıklayarak mimari tarzlar, pencereler, kapılar ve boyutlardaki küçük farklılıklardan bahsedebilir. Ancak, aynı Lilliputyalılar, Broddingnagi halkının tamamının aynı evlerde yaşadığını söyleyebilir.

Grup dışı homojenlik ön yargısı bir grup ilişkilendirme yanlılığı biçimidir.

Ayrıca grup içi ağırlıklandırma konusuna bakın.

aykırı değer algılama

Eğitim grubundaki aykırı değerleri tanımlama süreci.

Yenilik algılama ile kontrast.

düşünün

Diğer çoğu değerden uzak değerler. Makine öğreniminde aşağıdakilerden herhangi biri aykırıdır:

Değerleri ortalamadan yaklaşık 3 standart sapmadan daha fazla olan giriş verileri.
Yüksek mutlak değerlere sahip ağırlıklar.
Tahmin edilen değerler, gerçek değerlerden nispeten uzaktadır.

Örneğin, widget-price özelliğinin belirli bir model olduğunu varsayalım. Ortalama widget-price değerinin 7 avro olduğunu ve standart sapmanın 1 avro olduğunu varsayalım. Bu nedenle, widget-price değeri 12 avro veya 2 avro içeren örnekler, söz konusu fiyatların her biri ortalamadan beş standart sapma olduğu için aykırı değer olarak kabul edilir.

Aykırı değerler genellikle yazım veya diğer giriş hatalarından kaynaklanır. Diğer durumlarda, aykırı değerler hata değildir; sonuçta, ortalamadan uzaktaki beş standart sapma nadiren görülür, ancak neredeyse imkansızdır.

Aykırı değerler, model eğitiminde genellikle sorunlara neden olur. Kırpma, aykırı değerleri yönetmenin bir yoludur.

paket dışı değerlendirmesi (OOB değerlendirmesi)

#df

Her bir karar ağacının kalitesini, söz konusu karar ağacının eğitimi sırasında kullanılmayan örneklere göre test ederek karar ormanının kalitesini değerlendirmek için kullanılan mekanizma. Örneğin, aşağıdaki şemada, sistemin her bir karar ağacını örneklerin yaklaşık üçte ikisi üzerinde eğittiğine ve daha sonra kalan örneklerin üçte birine göre değerlendirme yaptığına dikkat edin.

Üç karar ağacından oluşan bir karar ormanı.
Bir karar ağacı, örneklerin üçte ikisi üzerinde eğitilir ve geriye kalan üçte birini OOB değerlendirmesi için kullanır.
İkinci bir karar ağacı, örneklerin bir önceki karar ağacından farklı üçte ikisi üzerinde eğitilir ve ardından OOB değerlendirmesi için önceki karar ağacından farklı üçte birlik oran kullanır.

Paket dışı değerlendirmesi, çapraz doğrulama mekanizmasının işlem açısından verimli ve konservatif bir tahminidir. Çapraz doğrulamada, her çapraz doğrulama turu için bir model eğitilir (örneğin, 10 model 10 katlı çapraz doğrulama için eğitilir). OOB değerlendirmesiyle tek bir model eğitilir. bagaj, eğitim sırasında her ağaçtan bazı verileri sakladığından OOB değerlendirmesi, çapraz doğrulamayı yaklaşık olarak belirlemek için bu verileri kullanabilir.

çıkış katmanı

#fundamentals

Bir nöral ağın "son" katmanı. Çıkış katmanı tahmini içerir.

Aşağıdaki çizimde bir giriş katmanı, iki gizli katman ve bir çıkış katmanına sahip küçük bir derin sinir ağı gösterilmektedir:

fazla uyumlu

#fundamentals

Modelin yeni veriler hakkında doğru tahminlerde bulunamayacağı kadar yakın bir şekilde eğitim verileriyle eşleşen bir model oluşturmak.

Normalleştirme, fazla uyumu azaltabilir. Geniş ve çeşitli bir eğitim seti eğitimi, fazla uyumun azalmasını da sağlayabilir.

Ek notlar için simgeyi tıklayın.

Aşırı uyum yalnızca en sevdiğiniz öğretmenin öğretmenlerine sıkı sıkıya uymak gibidir. Muhtemelen ilgili öğretmenin sınıfında başarılı olursunuz, ancak söz konusu öğretmenin fikirlerini "fazladan" çıkarabilir ve diğer sınıflarda başarısız olabilirsiniz. Farklı öğretmenlerden aldığınız tavsiyeleri uygulayarak yeni durumlara daha iyi uyum sağlayabilirsiniz.

aşırı örnekleme

Daha dengeli bir eğitim seti oluşturmak için azınlık sınıfı örneklerini sınıf dengesiz bir veri kümesinde yeniden kullanma.

Örneğin, çoğunluk sınıfının azınlık sınıfına oranının 5.000:1 olduğu bir ikili sınıflandırma problemini ele alalım. Veri kümesinde milyonlarca örnek varsa veri kümesinde azınlık sınıfına ait yalnızca 200 örnek bulunur. Bu da etkili bir eğitim için çok az örnek teşkil edebilir. Bu eksikliği gidermek için bu 200 örneği birden fazla kez kullanabilirsiniz (yeniden kullanabilirsiniz). Bu sayede, faydalı eğitim için yeterli sayıda örnek elde edebilirsiniz.

Aşırı örnekleme yaparken aşırı fazla sığdırma konusunda dikkatli olmanız gerekir.

Yetersiz örnekleme ile kontrast oluşturun.

P

paketlenmiş veri

Verileri daha verimli şekilde depolamaya yönelik bir yaklaşım.

Paketlenmiş veriler, verileri sıkıştırılmış bir biçim kullanarak veya daha verimli bir şekilde erişilmesine olanak tanıyan başka bir şekilde depolar. Paketlenmiş veriler, bu verilere erişmek için gereken bellek ve hesaplama miktarını en aza indirerek eğitimin daha hızlı olmasını ve model çıkarımının daha verimli olmasını sağlar.

Paketlenmiş veriler genellikle veri genişletme ve düzenleme gibi diğer tekniklerle birlikte kullanılarak modellerin performansını daha da iyileştirir.

pandalar

#fundamentals

numpy üzerine inşa edilmiş sütun odaklı bir veri analizi API'si. TensorFlow da dahil olmak üzere birçok makine öğrenimi çerçevesi, pandaların veri yapılarını giriş olarak destekler. Ayrıntılı bilgi için pandas belgelerine bakın.

parametre

#fundamentals

Bir modelin eğitim sırasında öğrendiği ağırlıklar ve takımlar. Örneğin, bir doğrusal regresyon modelinde, parametreler ağırlık (b) ve aşağıdaki formüldeki tüm ağırlıklardan (w₁, w₂ vb.) oluşur:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Buna karşılık hiperparametre, sizin (veya bir hiperparametre çevirme hizmetinin) modele sağladığınız değerlerdir. Örneğin, öğrenme hızı bir hiperparametredir.

parametre açısından verimli ayarlama

#language

#üretken yapay zeka

Büyük bir önceden eğitilmiş dil modeline (PLM) tam ince ayardan daha verimli bir şekilde ince ayar yapmak için bir dizi teknik. Parametreyle verimli ayarlama, genellikle tam ince ayarlara kıyasla çok daha az parametrede ince ayar yapar. Ancak genellikle, tamamen hassas ayarlardan oluşmuş büyük bir dil modeliyle aynı düzeyde (veya neredeyse aynı düzeyde) performans gösteren büyük dil modeli üretir.

Parametre açısından verimli ayarları aşağıdakilerle karşılaştırın:

talimatları ayarlama
istem ayarlama

Parametre açısından verimli ayarlama, parametre açısından verimli ince ayar olarak da bilinir.

Parametre Sunucusu (PS)

#TensorFlow

Dağıtılmış bir ayarda bir modelin parametrelerini takip eden iş.

parametre güncellemesi

Eğitim sırasında, genellikle tek bir gradyan iniş yinelemesinde bir modelin parametrelerini ayarlama işlemi.

kısmi türev

Değişkenlerin biri dışında hepsinin sabit olarak kabul edildiği bir türev. Örneğin, x'e göre f(x; y) ifadesinin kısmi türevi, tek başına x'in fonksiyonu olarak kabul edilen (yani y'yi sabit tutan) f'nin türevidir. x'e göre f'nin kısmi türevi, yalnızca x'in nasıl değiştiğine odaklanır ve denklemdeki diğer tüm değişkenleri göz ardı eder.

katılım yanlılığı

#fairness

Yanıtsızlık önyargısı ile eş anlamlı kelime. Seçim ağırlıklandırması bölümünü inceleyin.

bölümlendirme stratejisi

Değişkenlerin parametre sunucuları arasında bölünmesini sağlayan algoritma.

Pax

Birden fazla TPU hızlandırıcı çipine dilim veya kapsül geçecek kadar büyük ölçekli sinir ağı modellerini eğitmek için tasarlanmış programlama çerçevesi.

Pax, JAX altyapısı üzerine kurulmuş Flax üzerinde geliştirilmiştir.

Pax'in yazılım yığınındaki konumunu gösteren şema.
Pax, JAX tabanlı bir çözümdür. Pax'in kendisi üç katmandan oluşur. Alt katman TensorStore ve Flax'i içerir.
Ortadaki katman Optax ve Flaxformer içerir. Üst katman, Pratik Modelleme Kitaplığı'nı içerir. Fiddle, Pax temel alınarak geliştirilmiştir.

Perceptron

Bir veya daha fazla giriş değerini alan, girişlerin ağırlıklı toplamı üzerinde bir işlev çalıştıran ve tek bir çıkış değeri hesaplayan sistem (donanım ya da yazılım). Makine öğreniminde işlev genellikle doğrusal değildir (ör. ReLU, sigmoid veya tanh). Örneğin, aşağıdaki algı, üç giriş değerini işlemek için sigmoid işlevini kullanır:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Aşağıdaki çizimde perceptron üç giriş alır ve bu girişlerin her biri, algıya girmeden önce bir ağırlık ile değiştirilir:

Her biri ayrı ağırlıklarla çarpılan 3 girdi alan bir algı. Algılayıcı, tek bir değer üretir.

Algılayıcılar, nöral ağlardaki nöronlardır.

performans

Aşağıdaki anlamlara sahip aşırı yüklenmiş terim:

Yazılım mühendisliğindeki standart anlam. Başka bir deyişle: Bu yazılım ne kadar hızlı (veya verimli) çalışıyor?
Makine öğrenimindeki anlam. Burada performans, şu soruyu yanıtlar: Bu model ne kadar doğrudur? Yani, modelin tahminleri ne kadar iyi?

permütasyon değişkeni önemleri

#df

Özelliğin değerlerini permüt ettikten sonra bir modelin tahmin hatasındaki artışı değerlendiren bir değişken önem türü. Permütasyon değişkeninin önem düzeyi, modelden bağımsız bir metriktir.

şaşkınlık

Bir model görevini ne kadar iyi yerine getirdiğinin ölçüsü. Örneğin, görevinizin bir kullanıcının telefon klavyesinde yazdığı bir kelimenin ilk birkaç harfini okumak ve olası tamamlama kelimelerinin listesini sunmak olduğunu varsayalım. Şaşkınlık (P), bu görevde, listenizin kullanıcının yazmaya çalıştığı gerçek kelimeyi içermesi için sunmanız gereken tahminin yaklaşık sayısıdır.

Şaşkınlık, çapraz entropi ile aşağıdaki şekilde ilgilidir:

$$P= 2^{-\text{cross entropy}}$$

ardışık düzen

Bir makine öğrenimi algoritmasını çevreleyen altyapı. Ardışık düzen; veri toplamayı, verileri eğitim veri dosyalarına aktarmayı, bir veya daha fazla modeli eğitmeyi ve modelleri üretime aktarmayı içerir.

ardışık düzen

#language

Bir modelin işlemesinin ardışık aşamalara ayrıldığı ve her aşamanın farklı bir cihazda yürütüldüğü bir model paralelliği biçimi. Bir aşama bir grubu işlerken, önceki aşama sonraki toplu işlem üzerinde çalışabilir.

Aşamalı eğitimi de inceleyin.

Pit

Birden fazla hızlandırıcı çipinde çalışmak için kodu bölen bir JAX işlevi. Kullanıcı, pjit'e bir işlev iletir. Bu işlev, eş değer anlamlara sahip olan ancak birden çok cihazda (GPU veya TPU çekirdek gibi) çalışan bir XLA hesaplamasında derlenmiş bir işlev döndürür.

pjit, kullanıcıların SPMD bölümlendirme aracını kullanarak hesaplamaları yeniden yazmadan parçalamalarını sağlar.

pjit, Mart 2023 itibarıyla jit ile birleştirildi. Daha fazla ayrıntı için Dağıtılmış diziler ve otomatik paralelleştirme bölümüne bakın.

PLM

#language

#üretken yapay zeka

Önceden eğitilmiş dil modeli'nin kısaltmasıdır.

pmap

Birden fazla temel donanım cihazında (CPU, GPU veya TPU'lar) bir giriş işlevinin kopyalarını farklı giriş değerleriyle yürüten bir JAX işlevi. pmap, SPMD'yi temel alır.

policy

#rl

Pekiştirmeli öğrenmede, aracının durumlardan eylemlere olasılık eşleştirmesi yapılır.

havuz açma

#image

Daha önceki bir evrimsel katman tarafından oluşturulan bir matrisin (veya matrislerin) daha küçük bir matrise indirgenmesi. Havuz işlemi genellikle havuz alanındaki maksimum veya ortalama değerin alınmasını içerir. Örneğin, aşağıdaki 3x3 matrise sahip olduğumuzu varsayalım:

3x3 matrisi [[5,3,1], [8,2,5], [9,4,3]].

Havlama işlemleri, tıpkı kıvrımlı işlemlerde olduğu gibi, bu matrisi dilimlere böler ve ardından bu kıvrımlı işlemi adımlarla kaydırır. Örneğin, havuzlama işleminin kıvrımlı matrisi 1x1 adımla 2x2 dilimlere böldüğünü varsayalım. Aşağıdaki diyagramda gösterildiği gibi, dört havuz oluşturma işlemi gerçekleşir. Her havuzlama işleminin ilgili dilimdeki dört maksimum değeri seçtiğini düşünün:

Havuzlama, giriş matrisinde çeviri değişmezliğinin uygulanmasına yardımcı olur.

Görüntü uygulamaları için havuzlama, daha resmi olarak uzamsal havuz olarak bilinir. Zaman serisi uygulamalarında, havuz oluşturmaya genellikle geçici havuz oluşturma adı verilir. Daha az resmi olarak, havuzlamaya genellikle alt örnekleme veya aşağı örnekleme denir.

konumsal kodlama

#language

Bir jetonun yerleştirmesine bir dizideki jetonun konumu hakkında bilgi eklemek için kullanılan bir teknik. Dönüştürücü modelleri, dizideki farklı bölümler arasındaki ilişkiyi daha iyi anlamak için konum kodlamasını kullanır.

Konumsal kodlamanın yaygın bir uygulaması sinüsoid fonksiyon kullanır. (Özellikle sinüsoidal fonksiyonun frekansı ve genliği, dizideki jetonun konumuna göre belirlenir.) Bu teknik, Dönüştürücü modelinin konumlarına bağlı olarak dizideki farklı bölümlere bakmayı öğrenmesini sağlar.

pozitif sınıf

#fundamentals

Test ettiğiniz sınıf.

Örneğin, bir kanser modelindeki pozitif sınıf "tümör" olabilir. Bir e-posta sınıflandırıcıdaki pozitif sınıf "spam" olabilir.

Negatif sınıfla kontrast.

Ek notlar için simgeyi tıklayın.

Birçok testin "olumlu" sonucu genellikle istenmeyen bir sonuç olduğundan pozitif sınıf terimi kafa karıştırıcı olabilir. Örneğin, birçok tıbbi testteki pozitif sınıf tümörlere veya hastalıklara karşılık gelir. Genel olarak bir doktorun size "Tebrikler! Test sonuçlarınız negatifti." Pozitif sınıf, testin bulmaya çalıştığı etkinliktir.

İtiraf edelim ki aynı anda hem pozitif hem de negatif sınıflar için test yapıyorsunuz.

işleme sonrası

#fairness

#fundamentals

Bir modelin çalıştırılmasından sonra modelin çıkışını ayarlama. Son işleme, modellerin kendilerini değiştirmeden adalet kısıtlamalarını uygulamak için kullanılabilir.

Örneğin, gerçek pozitif oranın, söz konusu özelliğin tüm değerleri için aynı olup olmadığı kontrol edilerek fırsat eşitliğinin korunması şeklinde bir sınıflandırma eşiği ayarlayarak ikili bir sınıflandırıcıya son işleme uygulanabilir.

PR AUC (PR eğrisinin altındaki alan)

Sınıflandırma eşiğinin farklı değerleri için noktaların çizilmesiyle (geri çağırma, hassasiyet) elde edilen interpolasyonlu hassas/geri çağırma eğrisinin altındaki alan. Nasıl hesaplandığına bağlı olarak PR AUC, modelin ortalama hassasiyetine eşdeğer olabilir.

Praksis

Pax'in temel ve yüksek performanslı makine öğrenimi kitaplığı. Praksis genellikle "Katman kitaplığı" olarak adlandırılır.

Praksis yalnızca Katman sınıfının tanımlarını değil, aşağıdakileri de içeren destekleyici bileşenlerinin çoğunu içerir:

veri girişleri
yapılandırma kitaplıkları (HParam ve Fiddle)
optimize edenler

Practic, Model sınıfı için tanımlar sağlar.

precision

Aşağıdaki soruyu yanıtlayan sınıflandırma modelleri için bir metrik:

Model, pozitif sınıfı tahmin ettiğinde tahminlerin yüzde kaçı doğruydu?

Formülü aşağıda bulabilirsiniz:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

Bu örnekte:

doğru pozitif, modelin pozitif sınıfı doğru şekilde tahmin ettiği anlamına gelir.
yanlış pozitif, modelin pozitif sınıfı yanlışlıkla tahmin ettiği anlamına gelir.

Örneğin, bir modelin 200 olumlu tahminde bulunduğunu varsayalım. Bu 200 olumlu tahmin arasından:

150 tanesi gerçek pozitifti.
50 tanesi yanlış pozitifti.

Bu durumda:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Doğruluk ve geri çağırma ile kontrast oluşturun.

hassasiyet-geri çağırma eğrisi

Farklı sınıflandırma eşiklerinde geri çağırma ile ilgili bir hassasiyet eğrisi.

tahmin

#fundamentals

Bir modelin çıkışı. Örneğin:

İkili sınıflandırma modeli tahmini, pozitif sınıf veya negatif sınıf olur.
Çok sınıflı sınıflandırma modeli tahmini bir sınıftır.
Doğrusal regresyon modeli tahmini bir sayıdır.

#üretken yapay zeka

Büyük bir veri kümesi üzerinde bir modelin ilk eğitimi. Önceden eğitilmiş bazı modeller sakar devlerdir ve genellikle ek eğitimle iyileştirilmesi gerekir. Örneğin, makine öğrenimi uzmanları Vikipedi'deki tüm İngilizce sayfalar gibi çok geniş bir metin veri kümesinde büyük bir dil modelini önceden eğitebilir. Ön eğitimin ardından ortaya çıkan model, aşağıdaki tekniklerden herhangi biri kullanılarak daha da hassaslaştırılabilir:

damıtma
ince ayarlama
talimatları ayarlama
parametre açısından verimli ayarlama
istem ayarlama

önceki inanç

Eğitime başlamadan önce veriler hakkında ne düşündüğünüz. Örneğin, L₂ normalleştirmesi, önceden ağırlıkların küçük olması ve normalde sıfır civarında dağıtılması gerektiğine inanır.

olasılıksal regresyon modeli

Yalnızca her bir özelliğin ağırlıklarını değil, aynı zamanda bu ağırlıkların belirsizliğini de kullanan bir regresyon modeli. Olasılıksal regresyon modeli, bir tahmin oluşturur ve o tahminin belirsizliğini artırır. Örneğin, olası bir regresyon modeli, standart sapma 12 ile 325 şeklinde bir tahmin sağlayabilir. Olasılıksal regresyon modelleri hakkında daha fazla bilgi için tensorflow.org'daki bu Colab'i inceleyin.

olasılık yoğunluk fonksiyonu

Tam olarak belirli bir değere sahip veri örneklerinin sıklığını belirleyen işlev. Bir veri kümesinin değerleri sürekli kayan nokta sayıları olduğunda tam eşleşmeler nadiren gerçekleşir. Bununla birlikte, bir olasılık yoğunluğu işlevini x değerinden y değerine integrating, x ile y arasında beklenen veri örnekleri sıklığını verir.

Örneğin, ortalaması 200 ve standart sapması 30 olan normal dağılımı ele alalım. 211,4 ile 218,7 aralığındaki veri örneklerinin beklenen sıklığını belirlemek amacıyla 211,4 ile 218,7 arasındaki normal dağılım için olasılık yoğunluğu işlevini entegre edebilirsiniz.

istem

#language

#üretken yapay zeka

Modelin belirli bir şekilde davranmasını sağlamak için büyük dil modeline giriş olarak girilen metinler. İstemler bir kelime öbeği kadar kısa veya rastgele uzun olabilir (örneğin, bir roman metninin tamamı). İstemler, aşağıdaki tabloda gösterilenler de dahil olmak üzere birden fazla kategoriye ayrılır:

İstem kategorisi	Örnek	Notlar
Soru	`Güvercin ne kadar hızlı uçabilir?`
Talimat	`Arbitraj hakkında komik bir şiir yazın.`	Büyük dil modelinden bir şey yapmasını isteyen bir istem.
Örnek	`Markdown kodunu HTML'ye çevirin. Örneğin: Markdown: * liste öğesi HTML: <ul> <li>liste öğesi</li> </ul>`	Bu örnek istemin ilk cümlesi bir talimattır. İstemin geri kalanı örnektir.
Rol	`Fizik alanında doktora yapmak için makine öğrenimi eğitiminde gradyan inişin neden kullanıldığını açıklayın.`	Cümlenin ilk bölümü bir talimat, "Fizik alanında doktora yapanlara" ifadesi ise rol kısmıdır.
Modelin tamamlanması için kısmi giriş	`Birleşik Krallık Başbakanı'nın yaşadığı yer`	Kısmi giriş istemi aniden (bu örnekte olduğu gibi) sona erebilir veya bir alt çizgiyle bitebilir.

Üretken yapay zeka modelleri, istemlere metin, kod, resim, yerleştirme veya video gibi neredeyse her şeyle yanıt verebilir.

istem temelli öğrenim

#language

#üretken yapay zeka

Belirli modellerin rastgele metin girişlerine (istemler) yanıt olarak davranışlarını uyarlamalarını sağlayan özellik. Tipik bir istem tabanlı öğrenme paradigmasında büyük dil modeli, isteklere metin oluşturarak yanıt verir. Örneğin, bir kullanıcının şu istemi girdiğini varsayalım:

Newton'un üçüncü hareket yasasını özetleme.

İsteme dayalı öğrenme yapabilen bir model, önceki istemi yanıtlamak için özel olarak eğitilmemiştir. Bu model daha çok fizik, genel dil kuralları ve genel anlamda faydalı yanıtları oluşturanlar hakkında birçok olguyu "bilir". Bu bilgi (umarım) faydalı bir yanıt vermek için yeterlidir. İnsanlardan gelen ek geri bildirimler ("Bu cevap çok karmaşıktı" veya "Tepki nedir?"), bazı istem tabanlı öğrenim sistemlerinin yanıtlarının yararlılığını kademeli olarak iyileştirmesine olanak tanır.

istem tasarımı

#language

#üretken yapay zeka

İstem mühendisliği ile eş anlamlı.

istem mühendisliği

#language

#üretken yapay zeka

Büyük bir dil modelinden istenen yanıtları alan istemler oluşturma sanatı. İnsanlar hızlı mühendislik gerçekleştirir. İyi yapılandırılmış istemler yazmak, büyük bir dil modelinden faydalı yanıtlar almanın önemli bir parçasıdır. Hızlı mühendislik, aşağıdakiler dahil birçok faktöre bağlıdır:

Büyük dil modeline önceden eğitim vermek ve muhtemelen ince ayar yapmak için kullanılan veri kümesi.
Modelin yanıt oluşturmak için kullandığı sıcaklık ve diğer kod çözme parametreleri.

Faydalı istemler yazma hakkında daha fazla ayrıntı için İstem tasarımına giriş bölümüne bakın.

İstem tasarımı istem mühendisliği ile eş anlamlıdır.

istem ayarlama

#language

#üretken yapay zeka

Sistemin gerçek isteme eklediği bir "ön eki" öğrenen parametre açısından verimli ayarlama mekanizması.

Bazen ön ek ayarlama olarak da adlandırılan istem ayarının bir varyasyonu, ön eki her katmanda başa eklemektir. Bunun aksine, çoğu istem ayarı yalnızca giriş katmanına bir ön ek ekler.

Önekler hakkında daha fazla bilgi edinmek için simgeyi tıklayın.

İstem ayarı için "önek" ("yumuşak istem" olarak da bilinir), gerçek istemdeki metin jetonu yerleştirmelerinin başına eklenen, öğrenilen, göreve özgü bir dizi vektördür. Sistem, diğer tüm model parametrelerini dondurarak ve belirli bir görevde ince ayar yaparak yumuşak istemi öğrenir.

proxy etiketleri

#fundamentals

Bir veri kümesinde doğrudan kullanılamayan etiketleri yaklaşık olarak tahmin etmek için kullanılan veriler.

Örneğin, çalışanların stres seviyesini tahmin etmek için bir model eğitmeniz gerektiğini varsayalım. Veri kümeniz çok sayıda tahmine dayalı özellik içeriyor ancak stres seviyesi adlı bir etiket içermiyor. Stres seviyesi için proxy etiketi olarak "iş yeri kazaları"nı seçiyorsunuz. Sonuçta, yüksek stres altındaki çalışanlar, sakin çalışanlara kıyasla daha fazla kazayla karşı karşıya kalıyor. Yoksa kullanır mı? Belki iş yeri kazaları aslında çeşitli nedenlerle artar ve düşer.

İkinci bir örnek olarak, yağmur yağıyor mu? özelliğinin veri kümeniz için bir Boole etiketi olmasını istediğinizi, ancak veri kümenizin yağmur verileri içermediğini varsayalım. Fotoğraflar varsa yağmur yağıyor mu? sorusunun alt etiketi olarak şemsiye taşıyan kişilerin fotoğraflarını çekebilirsiniz. Bu iyi bir proxy etiketi mi? Muhtemelen bazı kültürlerdeki insanların güneşe karşı korumak için şemsiye taşıma olasılığı yağmurdan daha yüksektir.

Proxy etiketleri çoğu zaman kusursuz değildir. Mümkün olduğunda proxy etiketleri yerine gerçek etiketleri seçin. Bununla birlikte, gerçek bir etiket olmadığında proxy etiketini çok dikkatli bir şekilde ve en az korkunç proxy etiketi adayını seçin.

proxy (hassas özellikler)

#fairness

Hassas bir özellik için yedek olarak kullanılan bir özellik. Örneğin, bir kişinin posta kodu geliri, ırkı veya etnik kökeni için bir temsil olarak kullanılabilir.

saf işlev

Çıktıları yalnızca girişlerine dayalı olan ve yan etkisi olmayan bir işlev. Daha açık belirtmek gerekirse, tam bir işlev, herhangi bir genel durumu (ör. bir dosyanın içeriği veya işlev dışındaki bir değişkenin değeri) kullanmaz veya değiştirmez.

İş parçacığı güvenli kod oluşturmak için saf işlevler kullanılabilir. Bu, model kodunu birden fazla hızlandırıcı çipinde parçalarken faydalıdır.

JAX'ın işlev dönüştürme yöntemleri, giriş işlevlerinin saf fonksiyon olmasını gerektirir.

SORU

Q işlevi

#rl

Pekiştirmeli öğrenmede, bir durum içindeyken ve ardından belirli bir politikayı izleyerek elde edilmesi beklenen dönüşü tahmin eden işlev.

Q işlevi, durum işlemi değer işlevi olarak da bilinir.

Q-öğrenim

#rl

Pekiştirmeli öğrenmede, bir aracının Bellman denklemini uygulayarak Markov karar sürecinin optimum Q işlevini öğrenmesini sağlayan bir algoritmadır. Markov karar süreci bir ortam modeller.

yüzdelik dilim

Yüzdelik paketlemedeki her bir paket.

yüzdelik paketleme

Bir özelliğin değerlerini, her paket aynı (veya hemen hemen aynı) sayıda örnek içerecek şekilde paketlere dağıtma. Örneğin, aşağıdaki şekilde 44 puan, her biri 11 puan içeren 4 gruba ayrılmıştır. Şekildeki her bir bölümün aynı sayıda noktayı içermesi için bazı paketlerin farklı bir x değerleri genişliğine sahip olması gerekir.

Her biri 11 puanlık 4 gruba bölünmüş 44 veri noktası.
Her paket aynı sayıda veri noktası içerse de bazı paketler, diğer paketlerden daha geniş bir özellik değeri aralığı içerir.

niceleme

Aşağıdaki şekillerde kullanılabilecek aşırı yüklenmiş terim:

Belirli bir özellik üzerinde üçlük paketlemeyi uygulama.
Daha hızlı depolama, eğitim ve çıkarım için verileri sıfırlara ve birlere dönüştürme. Boole verileri, gürültü ve hatalara diğer biçimlerden daha dayanıklı olduğundan, niceliklendirme modelin doğruluğunu iyileştirebilir. Nicelleştirme teknikleri arasında yuvarlama, kesme ve binning yer alır.
Bir modelin parametrelerini depolamak için kullanılan bit sayısının azaltılması. Örneğin, bir modelin parametrelerinin 32 bit kayan nokta sayıları olarak depolandığını varsayalım. Niceliklendirme, bu parametreleri 32 bitten 4, 8 veya 16 bite dönüştürür. Nicelikselleştirme aşağıdakileri azaltır:
- İşlem, bellek, disk ve ağ kullanımı
- Tahmini değer sonucuna varma süresi
- Güç tüketimi
Ancak, nicelik bazen bir modelin tahminlerinin doğruluğunu azaltır.

sıra

#TensorFlow

Sıra veri yapısını uygulayan bir TensorFlow İşlemi. Genellikle I/O'da kullanılır.

R

DÖNGÜ

#fundamentals

veriye alma açısından zenginleştirilmiş oluşturma ifadesinin kısaltmasıdır.

Rastgele Orman

#df

Her bir karar ağacının çuvallama gibi belirli bir rastgele gürültüyle eğitildiği bir karar ağaçları grubu.

Rastgele ormanlar bir karar ormanı türüdür.

rastgele politika

#rl

Pekiştirmeli öğrenmede rastgele bir işlem seçen bir politika kullanılır.

sıralama

Amacı öğe listesini sıralamak olan bir gözetimli öğrenme türü.

sıra (sıra)

Makine öğrenimi probleminde bir sınıfın, sınıfları en yüksekten en düşüğe doğru sınıflandıran sıra konumu. Örneğin, bir davranış sıralama sistemi bir köpeğin ödülünü en yüksekten (biftek) en düşük puana (solağaç lahana) doğru sıralayabilir.

sıra (Tensör)

#TensorFlow

Bir Tensör'deki boyutların sayısı. Örneğin, skalerin sıralaması 0, vektörün sıralaması 1 ve matrisin sıralaması 2'dir.

Sıralama (sıralılık) ile karıştırılmaması gerekir.

değerlendirici

#fundamentals

Örnekler için etiketleri sağlayan bir gerçek kişidir. "Ek açıklama oluşturucu", değerlendiricinin başka bir adıdır.

hatırlama

Aşağıdaki soruyu yanıtlayan sınıflandırma modelleri için bir metrik:

Kesin referans pozitif sınıf olduğunda model, tahminlerin yüzde kaçını doğru şekilde pozitif sınıf olarak tanımlamıştır?

Formülü aşağıda bulabilirsiniz:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

Bu örnekte:

doğru pozitif, modelin pozitif sınıfı doğru şekilde tahmin ettiği anlamına gelir.
yanlış negatif, modelin negatif sınıfı yanlışlıkla tahmin ettiği anlamına gelir.

Örneğin, modelinizin, kesin doğruluğun pozitif sınıf olduğu örnekler hakkında 200 tahmin yaptığını varsayalım. Bu 200 tahminden:

180 tanesi gerçek pozitifti.
20 tanesi yanlış negatifti.

Bu durumda:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Sınıf dengeli olmayan veri kümeleri ile ilgili notların simgesini tıklayın.

Geri çağırma, pozitif sınıfın nadir olarak kullanıldığı sınıflandırma modellerinin tahmin gücünü belirlemede özellikle yararlıdır. Örneğin, belirli bir hastalığın pozitif sınıfının bir milyon hastada yalnızca 10 hastada görüldüğü bir sınıf dengesiz veri kümesini ele alalım. Modelinizin aşağıdaki sonuçları veren beş milyon tahminde bulunduğunu varsayalım:

30 Gerçek Pozitif
20 Yanlış Negatif
4.999.000 Gerçek Negatif
950 Yanlış Pozitif

Dolayısıyla bu model şu şekilde geri çağrılır:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Buna karşılık bu modelin doğruluğu:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Bu yüksek doğruluk değeri etkileyici görünse de aslında bir anlam ifade etmiyor. Geri çağırma, sınıf dengeli veri kümeleri için doğruluktan çok daha yararlı bir metriktir.

öneri sistemi

#recsystems

Her kullanıcı için büyük bir topluluktan nispeten az sayıda istenen öğe seçen sistem. Örneğin, bir video öneri sistemi, 100.000 videodan oluşan bir topluluktan iki video önerebilir. Bu video bir kullanıcı için Kazablanka ve The Philadelphia Story'yi, diğeri içinse Wonder Woman ve Black Panther'i seçebilir. Bir video öneri sistemi, önerilerini şu gibi faktörlere dayandırabilir:

Benzer kullanıcıların oyladığı veya izlediği filmler.
Tür, yönetmenler, aktörler, hedef demografi...

Düzeltilmiş Doğrusal Birim (ReLU)

#fundamentals

Aşağıdaki davranışa sahip bir etkinleştirme işlevi:

Giriş negatif veya sıfırsa çıkış 0 olur.
Giriş pozitifse çıkış, girişe eşittir.

Örneğin:

Giriş -3 ise çıkış 0 olur.
Giriş +3 ise çıkış 3, 0'dır.

ReLU'nun grafiğini aşağıda görebilirsiniz:

ReLU çok popüler bir aktivasyon işlevidir. Basit davranışına rağmen ReLU, bir nöral ağın özellikler ile etiket arasındaki doğrusal olmayan ilişkileri öğrenmesini sağlar.

tekrarlayan nöral ağ

#seq

Bilinçli olarak birden fazla kez çalıştırılan ve her çalıştırmanın parçalarının bir sonraki çalıştırmaya aktarıldığı bir nöral ağ. Özellikle, önceki çalıştırmadaki gizli katmanlar, girişin bir bölümünü bir sonraki çalıştırmada aynı gizli katmana sağlar. Yinelenen nöral ağlar, özellikle dizilerin değerlendirilmesinde faydalıdır. Böylece gizli katmanlar, dizinin önceki kısımlarında sinir ağının önceki çalıştırmalarından bilgi edinebilir.

Örneğin, aşağıdaki şekilde dört kez çalışan bir tekrar eden nöral ağ gösterilmektedir. İlk çalıştırmada gizli katmanlarda öğrenilen değerlerin, ikinci çalıştırmada aynı gizli katmanlardaki girişin parçası haline geldiğine dikkat edin. Benzer şekilde, ikinci çalıştırmada gizli katmanda öğrenilen değerler de üçüncü çalıştırmada aynı gizli katman girişinin parçası olur. Bu şekilde, yinelenen nöral ağ tek tek kelimelerin anlamını değil, tüm dizinin anlamını kademeli olarak eğitir ve tahmin eder.

Dört giriş kelimesini işlemek için dört kez çalıştırılan bir RNN.

regresyon modeli

#fundamentals

Gayriresmi olarak sayısal tahmin oluşturan bir model. (Öte yandan, sınıflandırma modelleri bir sınıf tahmini oluşturur.) Örneğin, aşağıdaki tüm regresyon modelleri şunlardır:

Belirli bir evin değerini tahmin eden 423.000 Euro gibi bir model.
Belirli bir ağacın yaşam süresini (ör.23, 2 yıl) tahmin eden bir model.
Sonraki altı saat içinde belirli bir şehirde düşecek yağmur miktarını tahmin eden bir model (ör.0, 18 inç).

Yaygın olarak kullanılan iki regresyon modeli türü şunlardır:

Etiket değerlerine özellikler için en uygun çizgiyi bulan doğrusal regresyon.
Mantıksal regresyon, 0,0 ile 1,0 arasında bir olasılık oluşturur. Bu olasılık, sistem tarafından genellikle sınıf tahminiyle eşlenir.

Sayısal tahmin üreten her model bir regresyon modeli değildir. Bazı durumlarda sayısal tahmin sadece sayısal sınıf adlarına sahip olan bir sınıflandırma modelidir. Örneğin, sayısal posta kodunu tahmin eden bir model regresyon modeli değil, sınıflandırma modelidir.

normalleştirme

#fundamentals

Fazla uyumu azaltan tüm mekanizmalar. Popüler normalleştirme türleri şunlardır:

L₁ normalleştirmesi
L₂ normalleştirmesi
dışleme normalleştirmesi
early stopping (Bu, resmi bir normalleştirme yöntemi değildir ancak fazla uyumu etkili bir şekilde sınırlayabilir)

Normalleştirme, bir modelin karmaşıklığına verilen ceza olarak da tanımlanabilir.

Ek notlar için simgeyi tıklayın.

Normalleştirme mantıksızdır. Normalleştirmeyi artırmak genellikle eğitim kaybını artırır. Bu kafa karıştırıcı bir durumdur çünkü amacı eğitim kaybını en aza indirmek değildir.

Aslında hayır. Amaç, eğitim kaybını en aza indirmek değildir. Amaç, gerçek hayattan örnekler üzerinde mükemmel tahminlerde bulunmaktır. Normalleşmenin artması eğitim kaybını artırsa da modellerin gerçek dünyadan örnekler hakkında daha iyi tahminlerde bulunmasına yardımcı olur.

normalleştirme oranı

#fundamentals

Eğitim sırasında düzenlemenin göreceli önemini belirten bir sayıdır. Normalleştirme hızını artırmak fazla uyumu azaltır ancak modelin tahmin gücünü azaltabilir. Buna karşılık, normalleştirme hızının azaltılması veya atlanması fazla uyumu artırır.

Hesaplamayı görmek için simgeyi tıklayın.

Normalleştirme oranı genellikle Yunan alfabesindeki lambda harfiyle temsil edilir. Aşağıdaki basitleştirilmiş kayıp denklemi, lambda'nın etkisini gösterir:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

normalleştirme, aşağıdakiler dahil herhangi bir normalleştirme mekanizmasıdır:

L₁ normalleştirmesi
L₂ normalleştirmesi

pekiştirmeli öğrenme (RL)

#rl

Optimum politikayı öğrenen, amacı bir ortam ile etkileşim sırasında getiriyi en üst düzeye çıkarmak olan algoritma ailesi. Örneğin, çoğu oyunun nihai ödülü zaferdir. Pekiştirmeli öğrenme sistemleri, nihayetinde kayıplara yol açan önceki oyun hareketleri dizisini değerlendirerek karmaşık oyunları oynama konusunda uzmanlaşabilir.

İnsan geri bildirimlerinden yola çıkarak pekiştirmeli öğrenme (RLHF)

#üretken yapay zeka

#rl

Bir modelin yanıtlarının kalitesini artırmak için gerçek kişi olan değerlendiricilerden gelen geri bildirimleri kullanma. Örneğin, RLHF mekanizması, kullanıcılardan bir modelin yanıtının kalitesini bir 👍 veya 👎 emojisiyle derecelendirmelerini isteyebilir. Sistem daha sonra bu geri bildirime göre gelecek yanıtlarını ayarlayabilir.

ReLU

#fundamentals

Düzeltilmiş doğrusal birim'in kısaltmasıdır.

tekrar oynatma arabelleği

#rl

DQN benzeri algoritmalarda, aracı tarafından deneyim yeniden oynatma için durum geçişlerini depolamak üzere kullanılan bellek.

replika

Eğitim grubunun veya modelin genellikle başka bir makinede kopyası. Örneğin, bir sistem, veri paralelliğini uygulamak için aşağıdaki stratejiyi kullanabilir:

Mevcut bir modelin kopyalarını birden çok makineye yerleştirin.
Her replikaya, eğitim kümesinin farklı alt kümelerini gönderin.
Parametre güncellemelerini toplayın.

raporlama önyargısı

#fairness

İnsanların eylemler, sonuçlar veya mülkler hakkında yazma sıklığı, gerçek dünyadaki sıklıklarının veya bir mülkün bir kişi sınıfının ne kadar özelliği olduğunun bir yansıması değildir. Raporlama yanlılığı, makine öğrenimi sistemlerinin öğrendiği verilerin bileşimini etkileyebilir.

Örneğin, kitaplarda güldü kelimesi nefes kelimesinden daha yaygındır. Kitap topluluğundan alınan gülme ve nefes almanın göreli sıklığını tahmin eden bir makine öğrenimi modeli, muhtemelen gülmenin nefes almaktan daha yaygın olduğunu belirleyecektir.

temsil

Verileri kullanışlı özelliklerle eşleme işlemi.

yeniden sıralama

#recsystems

Öneri sisteminin son aşamasıdır. Bu aşamada, puanlanan öğeler başka bir (genellikle makine öğrenimi harici) algoritmaya göre yeniden notlandırılabilir. Yeniden sıralama, puanlama aşamasında oluşturulan öğelerin listesini, aşağıdaki gibi işlemleri yaparak değerlendirir:

Kullanıcının zaten satın almış olduğu öğeleri ortadan kaldırmak.
Daha yeni öğelerin puanı yükseliyor.

geri alma-artırılmış oluşturma (RAG)

#fundamentals

Büyük dil modeli (LLM) çıktısının kalitesini, model eğitildikten sonra alınan bilgi kaynaklarıyla temellendirerek kalitesini iyileştirmeye yönelik bir teknik. RAG, eğitimli LLM'nin güvenilir bilgi tabanlarından veya belgelerden alınan bilgilere erişmesini sağlayarak LLM yanıtlarının doğruluğunu artırır.

Geri alma ile zenginleştirilmiş oluşturmayı kullanmanın yaygın nedenleri şunlardır:

Bir modelin oluşturduğu yanıtların gerçeğe dayalı doğruluğunu artırma.
Modelin eğitilmediği bilgilere erişmesini sağlama.
Modelin kullandığı bilgiyi değiştirme.
Modelin, kaynaklardan alıntı yapmasına olanak tanıma.

Örneğin, bir kimya uygulamasının kullanıcı sorgularıyla ilgili özetler oluşturmak için PaLM API'yi kullandığını varsayalım. Uygulamanın arka ucu bir sorgu aldığında arka uç:

Kullanıcının sorgusuyla alakalı verileri ("alır") arar.
Alakalı kimya verilerini kullanıcının sorgusuna ekler ("artırır").
LLM'ye, eklenen verilere göre bir özet oluşturmasını söyler.

return

#rl

Pekiştirmeli öğrenmede ise belirli bir politika ve belirli bir durum verildiğinde getiri, temsilcinin politikayı eyaletten sonuna kadar bölüm sonuna kadar uygulayarak almayı beklediği tüm ödüllerin toplamıdır. Temsilci, ödülü almak için gereken durum geçişlerine göre ödüllerde indirim yaparak beklenen ödüllerin gecikmeli niteliğini hesaba katar.

Bu nedenle, indirim faktörü $\gamma$ise ve $r_0, \ldots, r_{N}$bölümün sonuna kadar ödülleri belirtiyorsa iade hesaplaması şu şekilde yapılır:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

ödül

#rl

Pekiştirmeli öğrenmede, ortam tarafından tanımlanan şekilde bir durum içinde bir eylem almanın sayısal sonucu.

sırt normalleştirmesi

L₂ normalleştirmesi ile eş anlamlı. Sırt normalleştirmesi terimi yalnızca istatistik bağlamlarında daha sık kullanılır. L₂ normalleştirmesi ise makine öğreniminde daha sık kullanılır.

RNN

#seq

Yinelenen nöral ağların kısaltması.

ROC (alıcı çalışma özelliği) Eğrisi

#fundamentals

İkili sınıflandırmada farklı sınıflandırma eşikleri için gerçek pozitif oran ile yanlış pozitif oranı karşılaştırması grafiği.

ROC eğrisinin şekli, ikili sınıflandırma modelinin pozitif sınıfları negatif sınıflardan ayırma yeteneğini gösterir. Örneğin, bir ikili sınıflandırma modelinin tüm negatif sınıfları tüm pozitif sınıflardan mükemmel şekilde ayırdığını varsayalım:

Sağ tarafta 8 pozitif, sol tarafta 7 negatif örnek içeren bir sayı doğrusu.

Önceki modelin ROC eğrisi şu şekilde görünür:

ROC eğrisi. x ekseni Yanlış Pozitif Oran ve y ekseni ise Gerçek Pozitif Oran'dır. Eğri, ters çevrilmiş bir L şekline sahiptir. Eğri (0,0,0,0) ile başlar ve doğrudan (0,0,1,0) değerine kadar uzanır. Daha sonra eğri (0,0,1,0) değerinden (1,0,1,0) değerine doğru gider.

Buna karşılık, aşağıdaki resimde, negatif sınıfları pozitif sınıflardan ayıramayan kötü bir model için ham mantıksal regresyon değerleri grafik olarak verilmiştir:

Pozitif örnekler ile negatif sınıfların tamamen iç içe geçmiş bir sayı doğrusu.

Bu modelin ROC eğrisi şöyle görünür:

(0,0,0,0) ile (1,0,1,0) arasındaki aslında düz bir çizgi olan bir ROC eğrisi.

Bu arada, gerçek dünyada çoğu ikili sınıflandırma modeli pozitif ve negatif sınıfları bir dereceye kadar ayırır ancak genellikle tam olarak çalışmaz. Dolayısıyla tipik bir ROC eğrisi şu iki uç noktanın arasında bir yere denk gelir:

ROC eğrisi. x ekseni Yanlış Pozitif Oran ve y ekseni ise Gerçek Pozitif Oran'dır. ROC eğrisi, pusula noktalarını batıdan kuzeye doğru geçen titrek bir yay yaklaşık gösterir.

ROC eğrisinde (0,0,1,0) değerine en yakın nokta, teorik olarak ideal sınıflandırma eşiğini tanımlar. Ancak, gerçek dünyadaki diğer bazı sorunlar ideal sınıflandırma eşiğinin belirlenmesini etkiler. Örneğin, belki yanlış negatifler yanlış pozitiflerden çok daha fazla acıya neden olur.

AUC adı verilen sayısal bir metrik, ROC eğrisini tek bir kayan nokta değerinde özetler.

rol isteme

#language

#üretken yapay zeka

Üretken yapay zeka modelinin yanıtı için hedef kitleyi tanımlayan istemin isteğe bağlı bölümüdür. Büyük bir dil modeli, rol istemi olmadan soruları soran kişi için yararlı olabilecek veya olmayabilecek bir yanıt sağlar. Büyük bir dil modeli, rol istemi ile belirli bir hedef kitle için daha uygun ve faydalı şekilde yanıt verebilir. Örneğin, aşağıdaki istemlerin rol istemi bölümü kalın karakterlerle yazılmıştır:

Ekonomi alanında doktora yapan bu makaleyi özetleyin.
On yaşındaki bir çocukta gelgitlerin nasıl gerçekleştiğini açıklayabilme.
2008 ekonomik krizini açıklama. Küçük bir çocuğa veya bir Golden Retriever'a gibi konuşun.

kök

#df

Bir karar ağacındaki başlangıç düğümü (ilk koşul). Geleneksel olarak, diyagramlarda kökü karar ağacının en tepesine yerleştirilir. Örneğin:

İki koşullu ve üç yapraklı bir karar ağacı. Başlangıç koşulu (x > 2) köktür.

kök dizin

#TensorFlow

TensorFlow kontrol noktasının alt dizinlerini ve birden fazla modelin etkinlik dosyalarını barındırmak için belirttiğiniz dizindir.

Kök Ortalama Kare Hatası (RMSE)

#fundamentals

Ortalama Kare Hatanın karekökü.

dönme varyansı

#image

Bir resim sınıflandırma probleminde, resmin yönü değişse bile algoritmanın resimleri başarıyla sınıflandırabilmesidir. Örneğin algoritma, tenis raketinin yukarı, yan veya aşağı bakma durumunu tespit etmeye devam edebilir. Dönme sabitliğinin her zaman istenmediğini unutmayın. Örneğin, ters dönmüş 9, 9 olarak sınıflandırılmamalıdır.

Ayrıca çeviri değişmezliği ve boyut sabitliği konularına da bakın.

R-kare

Bir etiketteki ne kadar varyasyonun belirli bir özellikten veya bir özellik grubundan kaynaklandığını gösteren regresyon metriği. R karesi, 0 ile 1 arasındaki bir değerdir. Bu değeri aşağıdaki şekilde yorumlayabilirsiniz:

R karesinin 0 olması, etiketteki hiçbir varyasyonun özellik kümesinden kaynaklanmadığı anlamına gelir.
1 olan R karesi, bir etiketteki tüm varyasyonun özellik kümesinden kaynaklandığı anlamına gelir.
0 ile 1 arasındaki bir R karesi, etiket varyasyonunun belirli bir özellikten veya özellik kümesinden ne ölçüde tahmin edilebileceğini gösterir. Örneğin, 0,10'luk bir R karesi, etiketteki varyansın yüzde 10'unun özellik kümesinden, 0,20'lik bir R karesi ise yüzde 20'nin özellik kümesinden kaynaklandığı anlamına gelir ve bu böyle devam eder.

R-kare, bir modelin tahmin ettiği değerler ile kesin referans arasındaki Pearson korelasyon katsayısının karesidir.

S

örnekleme önyargısı

#fairness

Seçim ağırlıklandırması bölümünü inceleyin.

değiştirilerek örnekleme

#df

Aynı öğenin birden çok kez seçilebildiği bir aday öğe grubundan öğe seçme yöntemi. "Değiştirilmiş" ifadesi, her seçimden sonra, seçilen öğenin aday öğeler havuzuna döndürüleceği anlamına gelir. Ters yöntem olan değiştirmeden örnekleme, bir aday öğenin yalnızca bir kez seçilebileceği anlamına gelir.

Örneğin, aşağıdaki meyve kümesini ele alalım:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sistemin fig öğesini ilk öğe olarak rastgele seçtiğini varsayalım. Yerine örnekleme yöntemiyle örnekleme kullanılıyorsa sistem, aşağıdaki kümeden ikinci öğeyi seçer:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Evet, bu önceki kümeyle aynıdır. Bu nedenle sistem, potansiyel olarak fig öğesini tekrar seçebilir.

Değiştirmeden örnekleme kullanılıyorsa bir numune tekrar seçilemez. Örneğin, sistem ilk örnek olarak rastgele fig seçerse fig tekrar seçilemez. Bu nedenle, sistem aşağıdaki (azaltılmış) kümeden ikinci örneği seçer:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Ek notlar için simgeyi tıklayın.

Örneklemede değiştirme işleminde yer alan değiştirme kelimesi birçok kişinin kafasını karıştırır. İngilizcede replacement (yer değiştirme) ifadesi "ikame" anlamına gelir. Ancak değiştirme işleminde örnekleme, aslında "bir şeyi geri koyma" anlamına gelen değişim kelimesinin Fransızca tanımını kullanır.

İngilizce replacement kelimesi Fransızcada remplacement şeklinde çevrilir.

SavedModel

#TensorFlow

TensorFlow modellerini kaydetmek ve kurtarmak için önerilen biçim. SavedModel, üst düzey sistemlerin ve araçların TensorFlow modellerini üretmesini, tüketmesini ve dönüştürmesini sağlayan, dilden bağımsız ve kurtarılabilir bir serileştirme biçimidir.

Tüm ayrıntılar için TensorFlow Programcı Kılavuzu'nda Kaydetme ve Geri Yükleme bölümüne bakın.

Tasarruflu

#TensorFlow

Model kontrol noktalarını kaydetmekten sorumlu bir TensorFlow nesnesi.

skaler

0 sıralama tensörü olarak temsil edilebilecek tek bir sayı veya tek bir dize. Örneğin, aşağıdaki kod satırlarının her biri TensorFlow'da bir skaler oluşturur:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

ölçeklendirme

Etiketin ve/veya özellik değerinin aralığını değiştiren herhangi bir matematiksel dönüşüm veya teknik. Bazı ölçeklendirme biçimleri, normalleştirme gibi dönüşümler için çok kullanışlıdır.

Makine öğreniminde yararlı olan yaygın ölçeklendirme biçimleri arasında şunlar yer alır:

Bu, genellikle orijinal değeri -1 ile +1 ya da 0 ile 1 arasında bir sayıyla değiştirmek için çıkarma ve bölme birleşimini kullanır.
logaritmik ölçeklendirmeyi kullanır.
Z puanı normalleştirmesi, orijinal değeri, özelliğin ortalamasından standart sapmaların sayısını temsil eden bir kayan nokta değeriyle değiştirir.

Scikit-Öğrenme

Popüler bir açık kaynak makine öğrenimi platformu. scikit-learn.org adresine göz atın.

puanlama

#recsystems

Aday oluşturma aşamasında üretilen her öğe için değer veya sıralama sağlayan bir öneri sisteminin parçası.

seçim önyargısı

#fairness

Verilerde gözlemlenen örnekler ile gözlemlenmeyenler arasında sistematik farklılıklar oluşturan bir seçim sürecinden kaynaklanan sonuçlardaki hatalar. Seçim yanlılığının şu biçimleri vardır:

Kapsam sapması: Veri kümesinde temsil edilen popülasyon, makine öğrenimi modelinin hakkında tahminde bulunduğu popülasyonla eşleşmez.
örnekleme yanlılığı: Veriler hedef gruptan rastgele toplanmaz.
Yanıt dışı yanlılık (katılım yanlılığı olarak da adlandırılır): Belirli gruplardaki kullanıcılar, diğer gruplardaki kullanıcılardan farklı oranlarda anketlerin kapsamı dışında kalmayı seçebilir.

Örneğin, insanların bir filmden nasıl keyif alacağını tahmin eden bir makine öğrenimi modeli oluşturduğunuzu varsayalım. Eğitim verilerini toplamak için, filmin gösterildiği bir sinemanın en ön sırasındaki herkese bir anket dağıtıyorsunuz. Bu da veri kümesi toplamak için makul bir yol gibi görünebilir; ancak bu veri toplama biçimi aşağıdaki seçim yanlılığına yol açabilir:

kapsam ön yargısı: Filmi izlemeyi seçen bir popülasyondan örnekleme yapıldığında modelinizin tahminleri, filme olan ilgi düzeyini daha önce belirtmemiş olan kişiler için genelleşmeyebilir.
Örnekleme yanlılığı: Hedeflenen popülasyondan (filmdeki tüm kişiler) rastgele örnekleme yapmak yerine yalnızca ön sıradaki kişileri örneklendirirsiniz. Ön sıradaki kişilerin filmle, diğer satırlardakilere göre daha fazla ilgilenmiş olması mümkündür.
yanıtsızlık yanlılığı: Genel olarak, güçlü fikirleri olan kişiler isteğe bağlı anketlere hafif düşüncelere sahip kişilere göre daha sık yanıt verme eğilimindedir. Film anketi isteğe bağlı olduğundan yanıtların bimodal dağılım oluşturma olasılığı normal (çan şeklinde) bir dağılımdan daha yüksektir.

dikkat katmanı olarak da adlandırılır.

#language

Bir yerleştirme dizisini (ör. jeton yerleştirmeleri) başka bir yerleştirme dizisine dönüştüren bir nöral ağ katmanı. Çıkış dizisindeki her yerleştirme, bir dikkat mekanizması aracılığıyla giriş dizisi öğelerinden alınan bilgilerin entegre edilmesiyle oluşturulur.

Kendine dikkat çekmenin kendisi kısmı, başka bir bağlamdan ziyade kendine katılan sırayı ifade eder. Kendine dikkat etme, Transformers'in ana yapı taşlarından biridir ve "sorgu", "anahtar" ve "değer" gibi sözlük arama terminolojisini kullanır.

Kendi kendine dikkat katmanı, her kelime için bir giriş temsilleri dizisiyle başlar. Bir kelimenin giriş gösterimi basit bir yerleştirme olabilir. Ağ, girdi dizisindeki her kelime için kelimenin tüm kelime dizisindeki her öğeyle alaka düzeyini puanlar. Alaka düzeyi puanları bir kelimenin nihai temsilinin diğer kelimelerin temsillerini ne kadar içerdiğini belirler.

Örneğin, aşağıdaki cümleyi ele alalım:

Hayvan çok yorgun olduğu için sokağın karşısına geçmedi.

Aşağıdaki çizimde (Transformer: A Novel Neural Network Architecture for Language Anlama bölümünde) it zamiri için kendine dikkat katmanındaki dikkat kalıbı gösterilmektedir. Her satırın koyuluğu, her bir kelimenin gösterime ne kadar katkıda bulunduğunu belirtir:

Şu cümle iki kez görünüyor: Hayvan çok yorgun olduğu için sokağı geçmedi. Çizgiler, bir cümledeki zamiri, diğer cümledeki beş simgeye (, hayvan, sokak, o ve nokta) bağlar. "On"un zamiri ile hayvan sözcüğü arasındaki çizgi en güçlüsüdür.

Kendi kendine dikkat katmanı, "kendisiyle" alakalı kelimeleri vurgular. Bu örnekte dikkat katmanı, kendi hitap edebileceği kelimeleri vurgulayarak en yüksek ağırlığı hayvan öğesine atamıştır.

Bir n jeton dizisi için kendine dikkat etme, dizideki her bir konumda bir kez olmak üzere bir dizi yerleştirmeyi n ayrı kez dönüştürür.

Dikkat ve birden fazla kafayı kendi kendine dikkat etme kavramlarını da inceleyin.

kendi kendine gözetimli öğrenim

Gözetimsiz makine öğrenimi sorununu etiketlenmemiş örneklerden vekil etiketler oluşturarak gözetimli makine öğrenimi sorununa dönüştürmek için kullanılan teknikler ailesi.

BERT gibi bazı Transformer tabanlı modeller, kendi kendine gözetimli öğrenmeyi kullanır.

Kendi kendine gözetimli eğitim, yarı gözetimli bir öğrenim yaklaşımıdır.

kendi kendine eğitim

Özellikle aşağıdaki koşulların tamamı doğru olduğunda kullanışlı olan bir kendi kendine gözetimli öğrenim çeşididir:

Veri kümesinde etiketlenmemiş örneklerin etiketli örneklere oranı yüksektir.
Bu bir sınıflandırma sorunudur.

Kendi kendine eğitim, modelin iyileşmesi durana kadar aşağıdaki iki adımı tekrarlayarak çalışır:

Etiketli örnekler üzerinde bir model eğitmek için gözetimli makine öğrenimini kullanın.
Etiketlenmemiş örnekler üzerinde tahminler (etiketler) oluşturmak için 1. Adım'da oluşturulan modeli kullanın ve güvenilirliği yüksek olan örnekleri tahmin edilen etiketle etiketlenmiş örneklere taşıyın.

2. Adımın her iterasyonunun, 1. Adım için eğitim amacıyla daha fazla etiketli örnek eklediğine dikkat edin.

yarı gözetimli öğrenim

Eğitim örneklerinden bazılarında etiket bulunurken diğerlerinde etiket olmadığı veriler üzerinde bir modeli eğitme. Yarı gözetimli öğrenmede kullanılan tekniklerden biri, etiketlenmemiş örnekler için etiketleri tahmin etmek ve daha sonra, yeni bir model oluşturmak üzere türetilmiş etiketlere göre eğitim yapmaktır. Maliyetli etiketler varsa ancak etiketlenmemiş örnek sayısı fazlaysa yarı gözetimli öğrenme yararlı olabilir.

Kendi kendine eğitim, yarı gözetimli öğrenme tekniklerinden biridir.

hassas özellik

#fairness

Yasal, etik, sosyal veya kişisel nedenlerle özel olarak değerlendirilebilecek insani bir özelliktir.

yaklaşım analizi

#language

Grubun bir hizmete, ürüne, kuruma veya konuya karşı genel yaklaşımını (olumlu ya da olumsuz) belirlemek için istatistiksel veya makine öğrenimi algoritmalarını kullanma. Örneğin, doğal dil anlamayı kullanan bir algoritma, öğrencilerin kursu genel olarak ne kadar beğendiğini veya beğenmediğini belirlemek için üniversite dersinden alınan metinsel geri bildirimlerle duygu analizi gerçekleştirebilir.

sıra modeli

#seq

Girişleri sıralı bir bağımlılığa sahip olan bir model. Örneğin, önceden izlenen bir video dizisine dayanarak izlenen bir sonraki videoyu tahmin edebilirsiniz.

sıralı görevi

#language

Jeton giriş dizisini jetonlardan oluşan çıkış sırasına dönüştüren bir görev. Örneğin, iki popüler sıralı görev türü şunlardır:

Çevirmenler:
- Örnek giriş dizisi: "Seni seviyorum."
- Örnek çıkış sırası: "Je t'aime."
Soru yanıtlama:
- Örnek giriş dizisi: "New York'ta arabama ihtiyacım var mı?"
- Örnek çıkış sırası: "Hayır. Lütfen arabanızı evde tutun."

porsiyon

Eğitilmiş bir modeli online çıkarım veya çevrimdışı çıkarım üzerinden tahmin sağlamak için kullanıma sunma süreci.

şekil (Tensör)

Bir tensörün her boyutundaki öğe sayısı. Şekil, bir tam sayı listesi olarak gösterilir. Örneğin, aşağıdaki iki boyutlu tensör [3,4] şeklindedir:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow, boyutların sırasını temsil etmek için satır ana biçimi (C stili) kullanır. TensorFlow'daki şekil [4,3] yerine [3,4] şeklindedir. Başka bir deyişle, iki boyutlu bir TensorFlow Tensor'da şekil [satır sayısı, sütun sayısı]'dır.

parça

#TensorFlow

#GoogleCloud

Eğitim kümesinin veya modelin mantıksal bir bölümüdür. Genellikle bazı işlemler örnekleri veya parametreleri (genellikle) eşit boyutlu parçalara bölerek parça oluşturur. Böylece her kırık farklı bir makineye atanır.

Bir modeli parçalamaya model paralelliği, verilerin parçalanmasına ise veri paralelliği denir.

küçülme

#df

Aşırı uyumu kontrol eden, gradyan artırma özelliğinde bir hiperparametre. Gradyan artırmadaki küçülme, gradyan inişindeki öğrenme hızına benzer. Daraltma, 0,0 ile 1,0 arasında ondalık bir değerdir. Daha düşük bir çekme değeri, fazla eşleşmeyi daha büyük bir daraltma değerinden daha fazla azaltır.

sigmoid işlevi

#fundamentals

Bir giriş değerini kısıtlı bir aralığa "sıkıştıran" matematiksel işlev (genellikle 0-1 veya -1 ile +1). Yani bir sigmoid'e herhangi bir sayıyı (iki, bir milyon, negatif milyar, vb.) iletebilirsiniz. Ancak çıktı, kısıtlanmış aralıkta olmaya devam eder. Sigmoid aktivasyon işlevinin grafiği aşağıdaki gibi görünür:

sigmoid işlevinin makine öğreniminde aşağıdakiler gibi çeşitli kullanım alanları vardır:

Mantıksal regresyon veya çok terimli regresyon modelinin ham çıktısını olasılığa dönüştürme.
Bazı nöral ağlarda etkinleştirme işlevi olarak görev yapar.

Hesaplamayı görmek için simgeyi tıklayın.

x giriş sayısı üzerindeki sigmoid işlevi şu formüle sahiptir:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Makine öğreniminde x genellikle ağırlıklı toplamdır.

benzerlik ölçümü

#clustering

Kümeleme algoritmalarında, herhangi iki örneğin ne kadar benzer olduğunu (ne kadar benzer) belirlemek için kullanılan metrik.

tek program / birden çok veri (SPMD)

Aynı hesaplamanın farklı cihazlardaki farklı giriş verileri üzerinde paralel olarak çalıştırıldığı bir paralellik tekniği. SPMD'nin amacı daha hızlı sonuç elde etmektir. Bu, paralel programlamanın en yaygın stilidir.

boyut sapması

#image

Bir resim sınıflandırma probleminde, bir algoritmanın resmin boyutu değişse bile görüntüleri başarıyla sınıflandırabilmesidir. Örneğin, algoritma yine de 2 milyon piksel veya 200 bin piksel tüketen bir kediyi tanımlayabilir. En iyi görüntü sınıflandırma algoritmalarının bile boyut değişmezliğiyle ilgili pratik sınırları olduğunu unutmayın. Örneğin, bir algoritmanın (veya insanın) yalnızca 20 piksel görüntü alan bir kedi resmini doğru şekilde sınıflandırma ihtimali pek yoktur.

Ayrıca çeviri değişmezliği ve döngüsel değişkenlik konularına da bakın.

eskiz

#clustering

Gözetimsiz makine öğreniminde, örnekler üzerinde ön benzerlik analizi gerçekleştiren bir algoritma kategorisi. Çizim algoritmaları, benzer olması muhtemel noktaları tanımlamak için konuma duyarlı bir karma işlevi kullanır ve daha sonra bunları gruplar halinde gruplandırır.

Çizim, büyük veri kümelerinde benzerlik hesaplamaları için gereken hesaplamayı azaltır. Veri kümesindeki her bir örnek çifti için benzerliği hesaplamak yerine, yalnızca her paketteki her bir nokta çifti için benzerliği hesaplarız.

Jump-gram

#language

Orijinal bağlamdan kelimeleri çıkarabilen (veya "atlayan") bir n-gram. Diğer bir deyişle, N kelime orijinal olarak bitişik olmayabilir. Daha net bir ifadeyle "k-atla-n-gram", bin kadar kelimenin atlanmış olabileceği bir n-gramdır.

Örneğin, "çabuk kuş" aşağıdaki 2 gram içerebilir:

"hızlı"
"hızlı kahverengi"
"bozuk tilki"

"1-atla-2-gram", aralarında en fazla 1 kelime bulunan bir kelime çiftidir. Dolayısıyla, "hızlı kahverengi tilki" için 1 atlama 2 gramdır:

"kahverengi"
"hızlı tilki"

Buna ek olarak, tüm 2 gramlar ayrıca 1-atlama-2 gramdır, çünkü birden az kelime atlanabilir.

Jump-gram'lar, bir kelimenin çevresindeki bağlamı daha iyi anlamak için yararlıdır. Bu örnekte "tilki", 1-atla-2 gram grubunda doğrudan "hızlı" ile ilişkilendirilmiştir. Ancak 2 gramlık kümede bu şekilde ilişkilendirilmemiştir.

Jump-gram'lar, kelime yerleştirme modellerinin eğitilmesine yardımcı olur.

softmax

#fundamentals

Çok sınıflı sınıflandırma modelinde her olası sınıfın olasılıklarını belirleyen bir işlev. Olasılıkların toplamı tam olarak 1,0'dır. Örneğin, aşağıdaki tabloda softmax'ın çeşitli olasılıkları nasıl dağıttığı gösterilmektedir:

Resim...	Probability
köpek	0,85
Cat	0,13
at	0,02

Softmax'e tam softmax da denir.

Aday örnekleme ile kontrast oluşturun.

Hesaplamayı görmek için simgeyi tıklayın.

Softmax denklemi aşağıdaki gibidir:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

Bu örnekte:

$\sigma_i$, çıkış vektörüdür. Çıkış vektörünün her bir öğesi, bu öğenin olasılığını belirtir. Çıkış vektöründeki tüm öğelerin toplamı 1,0'dır. Çıkış vektörü, giriş vektörüyle ($z$) aynı sayıda eleman içerir.
Giriş vektörü $z$ şeklindedir. Giriş vektörünün her bir öğesi, bir kayan nokta değeri içerir.
$K$, giriş vektöründeki (ve çıkış vektöründeki) öğe sayısıdır.

Örneğin, giriş vektörünün şöyle olduğunu varsayalım:

[1.2, 2.5, 1.8]

Bu nedenle, softmax paydayı şu şekilde hesaplar:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Dolayısıyla her elemanın maksimum soft olasılığı şudur:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Dolayısıyla, çıkış vektörü şöyle olur:

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ içindeki üç elemanın toplamı 1,0'dır. Bora

yumuşak istem ayarı

#language

#üretken yapay zeka

Yoğun kaynak kullanmadan ince ayar yapmadan büyük bir dil modelini belirli bir görev için ayarlama tekniğidir. Modeldeki tüm ağırlıkları yeniden eğitmek yerine, yumuşak istem ayarı aynı hedefe ulaşmak için otomatik olarak bir istemi ayarlar.

Metin şeklindeki istem kullanıldığında yumuşak istem ayarı genellikle isteme ek jeton yerleştirmeleri ekler ve girişi optimize etmek için geri yayılım özelliğini kullanır.

"Sabit" istem, jeton yerleştirmeleri yerine gerçek jetonları içerir.

seyrek özellik

#language

#fundamentals

Değerleri çoğunlukla sıfır veya boş olan bir özellik. Örneğin, tek bir 1 değeri ve bir milyon 0 değeri içeren bir özellik seyrek olarak kabul edilir. Buna karşılık, yoğun bir özellik çoğunlukla sıfır olmayan veya boş olmayan değerlere sahiptir.

Makine öğreniminde, az sayıda özellik seyrek bulunan özelliklerdir. Kategorik özellikler genellikle seyrek özelliklerdir. Örneğin, bir ormandaki 300 olası ağaç türü arasından tek bir örnekte yalnızca bir akçaağaç tanımlanabilir. Ya da bir video kitaplığındaki milyonlarca olası videodan tek bir örnek sadece "Kazablanka"yı tanımlayabilir.

Bir modelde genellikle tek sıcak kodlama ile seyrek özellikleri temsil edersiniz. Tek sıcak kodlama büyükse verimliliği artırmak için tek sıcak kodlamanın üstüne bir yerleştirme katmanı yerleştirebilirsiniz.

seyrek temsil

#language

#fundamentals

Seyrek bir özellikte yalnızca sıfır olmayan öğelerin konumlarını depolama.

Örneğin, species adlı kategorik bir özelliğin belirli bir ormandaki 36 ağaç türünü tanımladığını varsayalım. Buna ek olarak, her örneğin yalnızca tek bir türü tanımladığını varsayalım.

Her örnekte ağaç türlerini temsil etmek için tek sıcak vektör kullanabilirsiniz. Tek sıcak vektör, tek bir 1 (bu örnekteki belirli ağaç türünü temsil etmek için) ve 35 0 (bu örnekte değil) 35 ağaç türünü temsil eder. Dolayısıyla, maple teriminin tek anlık görüntüsü şun gibi görünebilir:

0-23 arasındaki konumlarda 0, 24. pozisyonda 1 ve 25-35 arasındaki konumlarda 0 değeri bulunan bir vektörtür.

Alternatif olarak, seyrek temsil, belirli bir türün konumunu tanımlar. maple 24. konumdaysa maple ifadesinin seyrek temsili şöyle olur:

Seyrek temsilin, tek ateşli temsile göre çok daha kompakt olduğuna dikkat edin.

Biraz daha karmaşık bir örnek için simgeyi tıklayın.

Modelinizdeki her bir örneğin, İngilizce cümledeki kelimeleri temsil etmesi gerektiğini, ancak bunların sırasını temsil etmediğini varsayalım. İngilizce yaklaşık 170.000 kelimeden oluşur, bu nedenle İngilizce yaklaşık 170.000 öğe içeren kategorik bir özelliktir. İngilizce cümlelerin çoğu bu 170.000 kelimeden çok küçük bir kısmı kullanır. Dolayısıyla tek bir örnekteki kelime kümesi neredeyse kesinlikle seyrek veri olur.

Şu cümleye dikkat edin:

My dog is a great dog

Bu cümledeki kelimeleri temsil etmek için tek sıcak vektör değişkenini kullanabilirsiniz. Bu varyantta, vektördeki birden fazla hücre sıfır olmayan bir değer içerebilir. Bununla birlikte, bu varyantta bir hücre, bir tam sayı dışında bir tam sayı içerebilir. "Benim", "is", "a" ve "harika" kelimeleri cümlede yalnızca bir kez görünmesine rağmen "köpek" kelimesi iki kez kullanılmış. Bu cümledeki kelimeleri temsil etmek için tek sıcak vektörlerin bu varyantını kullanmak,aşağıdaki 170.000 öğeli vektörü sağladı:

Aynı cümlenin seyrek temsili şöyle olur:

Kafanız karıştıysa simgeyi tıklayın.

"Seyrek temsil" terimi, seyrek temsilin kendisi seyrek temsil olmadığı için birçok kişinin kafasını karıştırmaktadır. Seyrek gösterim, aslında seyrek vektörün yoğun bir temsilidir. dizin gösterimi, "seyrek gösterim"den biraz daha nettir.

seyrek vektör

#fundamentals

Değerleri çoğunlukla sıfır olan bir vektör. Seyrek özellik ve seyreklik bölümlerini de inceleyin.

seyreklik

Bir vektör veya matriste sıfır (veya boş) olarak ayarlanmış öğelerin sayısının, söz konusu vektör veya matristeki toplam giriş sayısına bölünmesiyle elde edilen değer. Örneğin, 98 hücrenin sıfır içerdiği 100 öğeli bir matrisi ele alalım. Seyreklik hesaplaması şu şekildedir:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Özellik seyrekliği, bir özellik vektörünün seyrekliğini, model azlığı ise model ağırlıklarının seyrekliğini ifade eder.

mekansal havuzlama

#image

Havuz alma bölümünü inceleyin.

split

#df

Karar ağacında, koşul için başka bir addır.

ayırıcı

#df

Bir karar ağacı eğitilirken her bir düğümde en iyi koşulu bulmaktan sorumlu rutin (ve algoritma).

SPMD (SPD)

Tek program / birden fazla veri ifadesinin kısaltmasıdır.

kare menteşe kaybı

Menteşe kaybının karesi. Kare içinde menteşe kaybı, aykırı değerleri normal menteşe kaybından daha sert bir şekilde cezalandırır.

karesel kayıp

#fundamentals

L₂ kaybı ile eş anlamlı.

aşamalı eğitim

#language

Bir modeli çeşitli aşamalar halinde eğitme taktiği. Amaç, eğitim sürecini hızlandırmak veya model kalitesini iyileştirmek olabilir.

Aşağıda progresif yığma yaklaşımını gösteren bir resim yer almaktadır:

1. Aşama 3 gizli katman, 2. aşama 6 gizli katman ve 3. aşama 12 gizli katman içerir.
2. Aşama eğitim 1. aşamanın 3 gizli katmanında öğrenilen ağırlıklarla başlar. 3. Aşama eğitim 2. Aşama'nın 6 gizli katmanında öğrenilen ağırlıklarla başlar.

1. Aşama, 2. Aşama ve 3. Aşama olarak etiketlenmiş üç aşama.
Her aşama farklı sayıda katman içerir: Aşama 1 3 katman, Aşama 2 6 katman ve 3. Aşama 12 katman içerir.
1. Aşama'daki 3 katman, 2. Aşama'nın ilk 3 katmanı olur.
Benzer şekilde, 2. Aşama'daki 6 katman, 3. Aşama'nın ilk 6 katmanı olur.

Ayrıca ardışık düzen bölümünü de inceleyin.

state

#fundamentals

Grup boyutunun bir olduğu gradyan iniş algoritması. Başka bir deyişle, SGD bir eğitim grubundan rastgele olarak eşit şekilde seçilen tek bir örnek üzerinden eğitim yapar.

stride

#image

Konvolüsyonel işlem veya havuzlamada, sonraki giriş dilimi serisinin her bir boyutundaki delta. Örneğin, aşağıdaki animasyonda kıvrımlı bir işlem sırasında bir (1,1) adım gösterilmektedir. Bu nedenle, bir sonraki giriş dilimi, önceki giriş diliminin sağında bir konumdan başlar. İşlem sağ kenara ulaştığında, bir sonraki dilim sola doğru bir konum aşağıya doğru ilerler.

Yukarıdaki örnekte iki boyutlu bir adım gösterilmektedir. Giriş matrisi üç boyutluysa adım da üç boyutlu olur.

yapısal risk azaltma (SRM)

İki hedefi dengeleyen bir algoritmadır:

En tahmine dayalı modeli oluşturma ihtiyacı (ör. en düşük kayıp).
Modeli mümkün olduğunca basit tutma ihtiyacı (örneğin, güçlü normalleştirme).

Örneğin, eğitim kümesinde kayıp ve normalleştirmeyi en aza indiren bir işlev, yapısal bir risk en aza indirme algoritmasıdır.

Deneysel risk minimuma indirgenmesi ile zıtlık oluşturun.

alt örnekleme

#image

Havuz alma bölümünü inceleyin.

alt kelime jetonu

#language

Dil modellerinde, bir kelimenin alt dizesi olan jeton (tüm kelimeyi içerebilir).

Örneğin, "itemize" gibi bir kelime, her biri kendi jetonuyla temsil edilen "item" (kök kelime) ve "ize" (bir sonek) parçalarına ayrılabilir. Yaygın olmayan kelimeleri alt kelime adı verilen parçalara bölmek, dil modellerinin ön ek ve son ek gibi daha yaygın kullanılan bileşenler üzerinde çalışabilmesini sağlar.

Buna karşılık, "gitmek" gibi yaygın kelimeler bölünemeyebilir ve tek bir jetonla temsil edilebilir.

özet

#TensorFlow

TensorFlow'da, belirli bir adımda hesaplanan ve genellikle eğitim sırasında model metriklerini izlemek için kullanılan bir değer veya değer grubu.

gözetimli makine öğrenimi

#fundamentals

Özellikler ve bunlara karşılık gelen etiketlerden bir model eğitme. Gözetimli makine öğrenimi, bir grup soruyu ve bu sorulara karşılık gelen yanıtları inceleyerek öğrenmeye benzer. Sorular ve cevaplar arasındaki eşlemeyi iyice öğrendikten sonra öğrenci, aynı konuyla ilgili yeni (daha önce hiç görülmemiş) sorulara cevaplar verebilir.

Gözetimsiz makine öğrenimi ile karşılaştırın.

sentetik özellik

#fundamentals

Giriş özellikleri arasında bulunmayan, ancak bir veya daha fazlasından birleştirilen bir özellik. Sentetik özellik oluşturma yöntemleri şunlardır:

Bir sürekli özelliği aralık kutularına paketleme.
Özellik karşılaştırması oluşturma.
Bir özellik değerini diğer özellik değerleriyle veya kendisiyle çarpma (veya bölme). Örneğin, a ve b giriş özellikleriyse aşağıda sentetik özellik örnekleri verilmiştir:
- ab
- a²
Bir özellik değerine transandantal işlev uygulama. Örneğin, c bir giriş özelliğiyse aşağıda sentetik özelliklere örnekler verilmiştir:
- sin(c)
- ln(c)

Yalnızca normalleştirme veya ölçeklendirme ile oluşturulan özellikler, sentetik özellik olarak kabul edilmez.

T

T5

#language

Google AI 2020'de kullanıma sunulan metin-metin öğrenim aktarma modeli modeli. Transformer mimarisine dayanan T5, son derece büyük bir veri kümesi üzerinde eğitilmiş bir kodlayıcı-kod çözücü modelidir. Metin oluşturma, dilleri çevirme ve soruları konuşma tarzında yanıtlama gibi çeşitli doğal dil işleme görevlerinde etkilidir.

T5, adını "Metin-Metin Aktarım Dönüştürücüsü "ndeki beş T'den alır.

T5X

#language

Büyük ölçekli doğal dil işleme (NLP) modelleri oluşturmak ve eğitmek için tasarlanmış açık kaynaklı bir makine öğrenimi çerçevesi. T5, T5X kod tabanında uygulanır (JAX ve Flax üzerinde oluşturulur).

tablo biçiminde Q-öğrenim

#rl

Pekiştirmeli öğrenmede, her durum ve eylem kombinasyonu için Q işlevlerini depolayacak bir tablo kullanarak Q-learning'i uygulama.

hedef

label ile eş anlamlı.

hedef ağ

#rl

Derin Q-learning'de, ana nöral ağın bir Q işlevi veya politika uyguladığı, ana nöral ağın sabit bir yaklaşık gösterimi olan nöral ağ kullanılır. Ardından, ana ağı, hedef ağın tahmin ettiği Q değerleriyle ilgili eğitebilirsiniz. Bu nedenle, ana ağ kendi tahmin ettiği Q değerleriyle eğitildiğinde oluşan geri bildirim döngüsünü engellersiniz. Bu geri bildirimlerden kaçındığınızda eğitim kararlılığı artar.

görev

Aşağıdakiler gibi makine öğrenimi teknikleri kullanılarak çözülebilen problemler:

sınıflandırma
regresyon
kümeleme
anormallik algılama

sıcaklık

#language

#image

#üretken yapay zeka

Bir model çıkışının rastgelelik derecesini kontrol eden hiperparametre. Yüksek sıcaklıklar daha fazla rastgele çıkışla, düşük sıcaklıklar ise daha az rastgele çıkışla sonuçlanır.

En iyi sıcaklığın seçilmesi uygulamaya ve model çıktısının tercih edilen özelliklerine bağlıdır. Örneğin, reklam öğesi çıktısı üreten bir uygulama oluştururken muhtemelen sıcaklığı yükseltirsiniz. Buna karşılık, modelin doğruluğunu ve tutarlılığını iyileştirmek için resimleri veya metni sınıflandıran bir model oluştururken muhtemelen sıcaklığı düşürürsünüz.

#TensorFlow

Bir Tensör'ün içerdiği skalerlerin toplam sayısı. Örneğin, [5, 10] Tensor'ın boyutu 50'dir.

TensorStore

Büyük çok boyutlu dizileri verimli bir şekilde okumak ve yazmak için kullanılan bir kitaplık.

sonlandırma koşulu

#rl

Pekiştirmeli öğrenmede, aracının belirli bir duruma ulaşması veya belirli bir durum geçişi sayısını aşması gibi bir bölümün ne zaman sona ereceğini belirleyen koşullar. Örneğin, tik-tac-toe tekniğinde (noughts ve çarpma olarak da bilinir), bir oyuncu art arda üç boşluk işaretlediğinde veya tüm boşluklar işaretlendiğinde bölüm sonlandırılır.

test

#df

Karar ağacında, koşul için başka bir addır.

test kaybı

#fundamentals

Bir modelin test kümesine olan kaybını temsil eden bir metrik. Bir model oluştururken genellikle test kaybını en aza indirmeye çalışırsınız. Bunun nedeni, düşük test kaybının düşük eğitim kaybı veya düşük doğrulama kaybı'na göre daha güçlü kalite sinyali olmasıdır.

Test kaybı ile eğitim kaybı veya doğrulama kaybı arasındaki büyük bir boşluk, bazen normalleştirme oranını artırmanız gerektiğini gösterir.

test seti

Eğitilmiş bir modelin test edilmesi için ayrılmış bir veri kümesinin alt kümesi.

Geleneksel olarak, veri kümesindeki örnekleri aşağıdaki üç farklı alt kümeye bölersiniz:

eğitim seti
doğrulama grubu
test seti

Bir veri kümesindeki her örnek, önceki alt kümelerden yalnızca birine ait olmalıdır. Örneğin, tek bir örnek hem eğitim kümesine hem de test kümesine ait olmamalıdır.

Hem eğitim kümesi hem de doğrulama kümesi, model eğitmeye yakından bağlıdır. Test grubu yalnızca eğitimle dolaylı olarak ilişkili olduğundan test kaybı, eğitim kaybı veya doğrulama kaybına kıyasla daha az taraflı ve daha yüksek kaliteli bir metriktir.

metin aralığı

#language

Bir metin dizesinin belirli bir alt bölümü ile ilişkilendirilen dizi dizini aralığı. Örneğin, s="Be good now" Python dizesindeki good kelimesi 3'ten 6'ya kadar olan metin aralığını kaplar.

tf.Example

#TensorFlow

Makine öğrenimi modeli eğitimi veya çıkarımı için giriş verilerini açıklamak amacıyla kullanılan standart bir protokol arabelleği.

tf.keras

#TensorFlow

TensorFlow'a entegre edilmiş Keras uygulaması.

eşik (karar ağaçları için)

#df

Eksene hizalı koşulda, bir özelliğin karşılaştırılmakta olduğu değerdir. Örneğin, aşağıdaki koşulda 75 eşik değeridir:

grade >= 75

zaman serisi analizi

#clustering

Geçici verileri analiz eden bir makine öğrenimi ve istatistik alt alanıdır. Sınıflandırma, kümeleme, öngörme ve anormallik algılama gibi birçok makine öğrenimi problemi zaman serisi analizi gerektirir. Örneğin, geçmiş satış verilerini temel alarak gelecekteki kışlık palto satışlarını tahmin etmek için zaman serisi analizini kullanabilirsiniz.

zaman adım

#seq

Yineleyen bir nöral ağ içinde, "hazırlanmamış" bir hücre. Örneğin, aşağıdaki şekilde üç zaman adımı gösterilmektedir (t-1, t ve t+1 alt simgeleriyle etiketlenmiştir):

Yinelenen bir nöral ağda üç zaman adımı. İlk adımın çıkışı, ikinci zaman adımının girişi olur. İkinci zaman adımının çıktısı, üçüncü zaman adımının girişi olur.

token

#language

Bir dil modelinde, modelin üzerinde çalıştığı ve tahminde bulunduğu atom birimi. Jeton genellikle şunlardan biridir:

Örneğin, "kedi gibi köpekler" ifadesi üç kelimeden oluşur: "köpekler", "beğen" ve "kediler".
bir karakter; örneğin, "bisiklet balığı" ifadesi dokuz karakterli simgeden oluşur. (Boş alan, jetonlardan biri olarak kabul edilir.)
alt kelimeler (tek bir kelime tek bir simge veya birden fazla simge olabilir). Alt kelime bir kök kelime, ön ek veya son ekten oluşur. Örneğin, jeton olarak alt kelimeler kullanan bir dil modeli, "köpekler" kelimesini iki simge (kök kelimesi "köpek" ve çoğul son ek "s") olarak görüntüleyebilir. Aynı dil modelinde, "daha uzun" tek kelimesi iki alt kelime (kök kelimesi "uzun" ve "er" son eki) olarak görülebilir.

#fundamentals

Bir model oluşturan ideal parametreleri (ağırlıklar ve ağırlıklandırmalar) belirleme süreci. Eğitim sırasında sistem, örnekleri okur ve parametreleri kademeli olarak ayarlar. Eğitimde her örnek birkaç kez ila milyarlarca kez kullanılır.

eğitim kaybı

#fundamentals

Belirli bir eğitim yinelemesi sırasında bir modelin kaybını temsil eden bir metrik. Örneğin, kayıp işlevinin Ortalama Kare Hatası olduğunu varsayalım. 10.iterasyonun eğitim kaybı (Ortalama Kare Hatası) 2,2 ve 100.iterasyonun eğitim kaybı 1,9 olabilir.

Kayıp eğrisi, eğitim kaybını iterasyon/yineleme sayısına göre gösterir. Kayıp eğrisi, eğitim hakkında aşağıdaki ipuçlarını sağlar:

Aşağı doğru eğim, modelin iyileşmekte olduğunu gösterir.
Yukarı doğru eğim, modelin kötüye gittiğini gösterir.
Düz bir eğim, modelin yakınlaşmaya ulaştığı anlamına gelir.

Örneğin, aşağıdaki idealleştirilmiş kayıp eğrisi gösterilmektedir:

İlk yinelemeler sırasında aşağı doğru dik bir eğim. Bu, modelin hızlı bir şekilde iyileştirildiği anlamına gelir.
Eğitimin sonuna kadar kademeli olarak düzleşen (ama hâlâ aşağı doğru) bir eğim. Bu, model iyileştirmesinin ilk iterasyonlardan biraz daha yavaş bir hızda devam ettiği anlamına gelir.
Eğitimin sonuna doğru yakınlaşmayı gösteren düz bir eğim.

Eğitim kaybının ve yinelemelerin karşılaştırması. Bu kayıp eğrisi dik bir aşağı eğimle başlar. Eğim, eğim sıfır olana kadar kademeli olarak düzleşir.

Eğitim kaybı önemli olsa da genelleme bölümünü inceleyin.

eğitim ve sunma arası sapma

#fundamentals

Bir modelin eğitim sırasında gösterdiği performans ile aynı modelin sunum sırasındaki performansı arasındaki fark.

eğitim seti

#fundamentals

Bir modeli eğitmek için kullanılan veri kümesinin alt kümesi.

Geleneksel olarak, veri kümesindeki örnekler aşağıdaki üç farklı alt kümeye ayrılır:

eğitim seti
doğrulama grubu
Bir test seti

İdeal olarak, veri kümesindeki her bir örnek yalnızca önceki alt kümelerden birine ait olmalıdır. Örneğin, tek bir örnek hem eğitim kümesine hem de doğrulama grubuna ait olmamalıdır.

yörünge

#rl

Pekiştirmeli öğrenmede, aracı için bir durum geçiş sırasını temsil eden tuple dizisidir. Her unsur, belirli bir durum geçişinin durum, işlem, ödül ve sonraki duruma karşılık gelir.

öğrenim aktarma

Bir makine öğrenimi görevinden diğerine bilgi aktarma. Örneğin, çoklu görev öğreniminde tek bir model birden çok görevi çözer. Örneğin, farklı görevler için farklı çıkış düğümleri olan bir derin model kullanılır. Öğrenim aktarımı, bilgilerin daha basit bir görevin çözümünden daha karmaşık bir çözüme veya bilginin daha çok verinin olduğu bir görevden daha az veri olan bir göreve aktarılmasını içerebilir.

Çoğu makine öğrenimi sistemi tek bir görevi çözer. Öğrenimi aktarma, tek bir programın birden çok görevi çözebildiği, yapay zekaya yönelik bebek bir adımdır.

Transformatör

#language

Google'da geliştirilen nöral ağ mimarisi, kendi kendine dikkat mekanizmalarını temel alır. Bir dönüştürücü, kendi kendini dikkat eden katmanlardan oluşan bir yığın olarak görülebilir.

Bir Dönüştürücü, aşağıdakilerden herhangi birini içerebilir:

Kodlayıcı
kod çözücü
hem kodlayıcı hem de kod çözücü

Kodlayıcı, bir yerleştirme dizisini aynı uzunluktaki yeni bir diziye dönüştürür. Kodlayıcıda, her biri iki alt katman içeren N tane özdeş katman bulunur. Bu iki alt katman, giriş yerleştirme dizisinin her bir konumuna uygulanır ve dizinin her bir öğesini yeni bir yerleştirme işlemine dönüştürür. İlk kodlayıcı alt katmanı, giriş dizisi boyunca elde edilen bilgileri toplar. İkinci kodlayıcı alt katmanı, toplanan bilgileri bir çıkış yerleştirmeye dönüştürür.

Kod çözücü, bir giriş yerleştirmesi dizisini muhtemelen farklı uzunluğa sahip bir çıkış yerleştirme dizisi sırasına dönüştürür. Kod çözücü ayrıca, ikisi kodlayıcı alt katmanlarına benzeyen üç alt katmana sahip N özdeş katman içerir. Üçüncü kod çözücü alt katmanı, kodlayıcının çıktısını alır ve buradan bilgi toplamak için kendi kendine dikkat mekanizmasını uygular.

Transformer: Bir Dil Anlamaya Yönelik Yeni Bir Nöral Ağ Mimarisi başlıklı blog yayınında Transformers'a iyi bir giriş sunulmaktadır.

çevrimsel değişkenlik

#image

Bir görüntü sınıflandırma probleminde, bir algoritmanın resim içindeki nesnelerin konumu değişse bile görüntüleri başarılı bir şekilde sınıflandırma yeteneği. Örneğin, çerçevenin ortasında veya karenin sol ucunda olsa da algoritma bir köpeği tanımlayabilir.

Ayrıca, boyut sabitliği ve döngüsel değişkenlik bölümlerini de inceleyin.

trigram

#seq

#fundamentals

Model, eğitim verilerinin karmaşıklığını tam olarak yakalayamadığı için tahmin gücü zayıf olan bir model oluşturma. Aşağıdakiler dahil olmak üzere birçok sorun, yetersiz uyuma neden olabilir:

Yanlış özellik grubuyla ilgili eğitim.
Çok az sayıda dönemden veya çok düşük bir öğrenme hızında eğitim.
Normalleşme oranı çok yüksek olan eğitim.
Derin sinir ağında çok az sayıda gizli katman sağlamak.

düşük örnekleme

Daha dengeli bir eğitim seti oluşturmak için sınıf dengesiz bir veri kümesindeki çoğunluk sınıfından örnekleri çıkarma.

Örneğin, çoğunluk sınıfın azınlık sınıfına oranının 20:1 olduğu bir veri kümesi düşünün. Bu sınıf dengesizliğini aşmak için azınlık sınıfı örneklerinin tümü ancak çoğunluk sınıfına ait örneklerin yalnızca onda birini içeren bir eğitim seti oluşturabilirsiniz. Bu durumda eğitim kümesi sınıf oranı 2:1 olur. Az örnekleme sayesinde, daha dengeli bu eğitim seti daha iyi bir model üretebilir. Alternatif olarak, daha dengeli olan bu eğitim seti, etkili bir model eğitmek için yeterli sayıda örnek içermeyebilir.

Aşırı örnekleme ile kontrast oluşturun.

tek yönlü

#language

Yalnızca metnin hedef bölümünün önünden önce gelen metni değerlendiren bir sistem. Öte yandan, çift yönlü bir sistem, metnin hedef bölümünün önünde olan ve takip eden metni değerlendirir. Daha fazla ayrıntı için iki yönlü belgeye bakın.

tek yönlü dil modeli

#language

Olasılıklarını yalnızca hedef jetonlardan sonra değil, öncesinde görünen jetonlara dayandıran bir dil modeli. İki yönlü dil modeliyle kontrast.

etiketsiz örnek

#fundamentals

Özellikler'i içeren ancak etiket içermeyen bir örnek. Örneğin, aşağıdaki tabloda her biri üç özelliğe sahip ancak kurum değeri içermeyen bir ev değerleme modelinden etiketlenmemiş üç örnek gösterilmektedir:

Yatak odası sayısı	Banyo sayısı	Ev yaşı
3	2	15
2	1	72
4	2	34

Gözetimli makine öğreniminde modeller, etiketli örnekler üzerinde eğitilir ve etiketlenmemiş örnekler üzerinde tahminlerde bulunur.

Yarı gözetimli ve denetimsiz öğrenimde, eğitim sırasında etiketlenmemiş örnekler kullanılır.

Etiketsiz örneği etiketli örnek ile karşılaştırın.

gözetimsiz makine öğrenimi

#clustering

#fundamentals

Bir veri kümesindeki (genellikle etiketlenmemiş bir veri kümesi) kalıpları bulmak için bir model eğitme.

Gözetimsiz makine öğreniminin en yaygın kullanımı, verileri benzer örneklerden oluşan gruplar halinde kümelemektir. Örneğin, gözetimsiz bir makine öğrenimi algoritması, şarkıları müziğin çeşitli özelliklerine göre kümeler. Ortaya çıkan kümeler, diğer makine öğrenimi algoritmalarına (ör. müzik öneri hizmetine) girdi olabilir. Yararlı etiketler yetersiz veya eksik olduğunda kümeleme işe yarayabilir. Örneğin, kötüye kullanımı önleme ve sahtekarlık gibi alanlarda kümeler, kullanıcıların verileri daha iyi anlamasına yardımcı olabilir.

Gözetimli makine öğrenimi ile karşılaştırma.

Ek notlar için simgeyi tıklayın.

Gözetimsiz makine öğrenimine diğer bir örnek de ana bileşen analizidir (PCA). Örneğin, milyonlarca alışveriş sepetinin içeriğini içeren bir veri kümesine PCA uygulandığında, limon içeren alışveriş sepetlerinin de çoğunlukla asit gidericiler içerdiğini ortaya çıkarabilir.

artış modelleme

Pazarlamada yaygın olarak kullanılan ve bir "birey" üzerinde bir "muamelenin" "nedensel etkisini" ("artımlı etkisi" olarak da bilinir) modelleyen bir modelleme tekniğidir. Aşağıda iki örnek sunulmuştur:

Doktorlar, bir hastanın (bireysel) yaşına ve tıbbi geçmişine bağlı olarak bir tıbbi prosedürün (terapi) ölüm oranındaki düşüşünü (nedensel etki) tahmin etmek için artış modellemeyi kullanabilir.
Pazarlamacılar, bir kişi (bireysel) üzerindeki bir reklam (değerlendirme) nedeniyle satın alma olasılığındaki (nedensel etki) artışı tahmin etmek için artış modellemeyi kullanabilir.

Artış modellemesi, bazı etiketlerin (örneğin, ikili işlemlerdeki etiketlerin yarısı) artış modellemesinde her zaman eksik olması nedeniyle sınıflandırmadan veya regresyondan farklıdır. Örneğin, hasta ya tedavi alabiliyor ya da tedavi edilmeyebilir. Bu nedenle sadece bu iki durumdan yalnızca birinde iyileşip iyileşmeyeceğini gözlemleyebiliriz (ancak her iki durumda asla iyileşemez). Artış modelinin temel avantajı, gözlemlenmeyen durum (karşıolgusal) için tahminler oluşturabilmesi ve bunu nedensel etkiyi hesaplamak amacıyla kullanabilmesidir.

ağırlık verme

Aşağı örneklenmiş sınıfına, örneklem analizini yaptığınız faktöre eşit bir ağırlık uygulanır.

kullanıcı matrisi

#recsystems

Öneri sistemlerinde, kullanıcı tercihleri hakkındaki gizli sinyalleri tutan matrisi çarpanlara ayırma tarafından oluşturulan bir yerleştirme vektörü. Kullanıcı matrisinin her satırı, tek bir kullanıcı için çeşitli gizli sinyallerin göreceli gücü hakkında bilgiler içerir. Örneğin, bir film öneri sistemi düşünün. Bu sistemde, kullanıcı matrisindeki gizli sinyaller, her kullanıcının belirli türlere olan ilgisini temsil edebilir veya birden fazla faktörde karmaşık etkileşimler içeren, yorumlanması daha zor olabilir.

Kullanıcı matrisinde her gizli özellik için bir sütun ve her kullanıcı için bir satır bulunur. Diğer bir deyişle, kullanıcı matrisi, çarpanlara ayrılan hedef matrisle aynı sayıda satıra sahiptir. Örneğin, 1.000.000 kullanıcıdan oluşan bir film önerisi sistemi göz önüne alındığında kullanıcı matrisinde 1.000.000 satır olacaktır.

V

validation

#fundamentals

Bir modelin kalitesinin ilk değerlendirmesi. Doğrulama, bir modelin tahminlerinin kalitesini doğrulama kümesine göre kontrol eder.

Doğrulama grubu eğitim grubundan farklı olduğu için doğrulama, fazladan faydalanmaya karşı koruma sağlar.

Modeli, testin ilk turu olarak doğrulama grubu ve ikinci test turu olarak test kümesine göre değerlendirebilirsiniz.

doğrulama kaybı

#fundamentals

Bir modelin belirli bir yineleme sırasında doğrulama grubundaki kayıpları temsil eden bir metrik.

Ayrıca genelleme eğrisi konusuna bakın.

doğrulama grubu

#fundamentals

Eğitilmiş bir modele göre ilk değerlendirmeyi yapan veri kümesinin alt kümesi. Genellikle, eğitilen modeli test kümesine göre değerlendirmeden önce birkaç kez doğrulama kümesine göre değerlendirirsiniz.

Geleneksel olarak, veri kümesindeki örnekleri aşağıdaki üç farklı alt kümeye bölersiniz:

eğitim seti
bir doğrulama kümesi
Bir test seti

İdeal olarak, veri kümesindeki her bir örnek yalnızca önceki alt kümelerden birine ait olmalıdır. Örneğin, tek bir örnek hem eğitim kümesine hem de doğrulama grubuna ait olmamalıdır.

değer tahmini

Eksik bir değeri kabul edilebilir bir alternatifle değiştirme işlemi. Bir değer eksik olduğunda örneğin tamamını silebilir veya örneği kurtarmak için değer tahminini kullanabilirsiniz.

Örneğin, saatte bir kaydedilmesi gereken temperature özelliği içeren bir veri kümesini ele alalım. Ancak sıcaklık ölçümü belirli bir saat için kullanılamıyordu. Aşağıda veri kümesinin bir bölümünü görebilirsiniz:

Zaman damgası	Sıcaklık
1680561000	10
1680564600	12
1680568200	eksik
1680571800	20
1680575400	21
1680579000	21

Bir sistem, tahmin algoritmasına bağlı olarak eksik örneği silebilir veya eksik sıcaklığı 12, 16, 18 veya 20 olarak hesaplayabilir.

kaybolan gradyan sorunu

#seq

Bazı derin sinir ağlarının ilk gizli katmanlarının gradyanlarının şaşırtıcı derecede düz (düşük) olma eğilimi. Giderek daha düşük gradyanlar, derin sinir ağındaki düğümlerin ağırlıklarında giderek daha az değişiklik yapılmasına neden olur. Bu da çok az öğrenmeye veya hiç öğrenmeye yol açmaz. Yok olan gradyan sorunundan muzdarip olan modellerin eğitilmesi zorlaşıyor veya imkansız hale geliyor. Uzun Kısa Dönemli Bellek hücreleri bu sorunu ele alır.

Patlayan gradyan sorunu ile karşılaştırın.

değişken önemler

#df

Her özelliğin model için göreceli önemini belirten puanlar.

Örneğin, ev fiyatlarını tahmin eden bir karar ağacını ele alalım. Bu karar ağacının üç özellik kullandığını varsayalım: boyut, yaş ve stil. Üç özellik için bir dizi değişkenin önem derecesi {size=5.8, age=2.5, style=4.7} şeklinde hesaplanırsa, karar ağacında yaş veya stilden ziyade boyut önemlidir.

Makine öğrenimi uzmanlarına modellerin farklı yönleri hakkında bilgi verebilecek farklı değişken önem metrikleri vardır.

varyasyon otomatik kodlayıcı (VAE)

#language

Girişlerin değiştirilmiş sürümlerini oluşturmak için girişler ve çıkışlar arasındaki tutarsızlığı kullanan bir otomatik kodlayıcı türü. Varyant otomatik kodlayıcılar, üretken yapay zeka için kullanışlıdır.

VAE'ler, bir olasılık modelinin parametrelerini tahmin etmek için kullanılan bir teknik olan değişken çıkarıma dayanır.

vektör

Anlamı farklı matematiksel ve bilimsel alanlara göre değişen, çok aşırı yüklenmiş terim. Makine öğreniminde bir vektörün iki özelliği vardır:

Veri türü: Makine öğrenimindeki vektörler genellikle kayan noktalı sayılar içerir.
Öğe sayısı: Bu, vektörün uzunluğu veya boyutudur.

Örneğin, sekiz kayan noktalı sayı içeren bir özellik vektörünü ele alalım. Bu özellik vektörünün uzunluğu ya da boyutu sekizdir. Makine öğrenimi vektörlerinin genellikle çok sayıda boyuta sahip olduğunu unutmayın.

Birçok farklı türde bilgiyi vektör olarak temsil edebilirsiniz. Örneğin:

Dünya yüzeyindeki herhangi bir konum 2 boyutlu bir vektör olarak temsil edilebilir. Bu değerlerden biri enlem, diğeri ise boylamdır.
500 hisse senedinin her birinin mevcut fiyatları, 500 boyutlu bir vektör olarak temsil edilebilir.
Sınırlı sayıda sınıfa ait olasılık dağılımı, vektör olarak temsil edilebilir. Örneğin, üç çıkış renginden (kırmızı, yeşil veya sarı) birini tahmin eden bir çok sınıflı sınıflandırma sistemi, (0.3, 0.2, 0.5) vektörünü P[red]=0.3, P[green]=0.2, P[yellow]=0.5 anlamına gelecek şekilde verebilir.

Vektörler birleştirilebilir. Bu nedenle, çeşitli medyalar tek bir vektör olarak temsil edilebilir. Bazı modeller doğrudan birçok tek sıcak kodlamanın birleştirilmesi üzerinde çalışır.

TPU'lar gibi özel işlemciler, vektörler üzerinde matematik işlemleri gerçekleştirmek için optimize edilmiştir.

Vektör, 1. sıralama değerinde bir tensördür.

W

Wasserstein kaybı

Oluşturulan verilerin dağıtımı ile gerçek veriler arasındaki taşıyıcının uzaklığını temel alan, üretken rakip ağlarda yaygın olarak kullanılan kayıp işlevlerinden biridir.

ağırlık

#fundamentals

Bir modelin başka bir değerle çarptığı değer. Eğitim, bir modelin ideal ağırlıklarını belirleme sürecidir. Çıkarım, öğrenilen ağırlıkları tahminde bulunmak için kullanma sürecidir.

Bir doğrusal modelde ağırlıklarla ilgili bir örnek görmek için simgeyi tıklayın.

İki özelliği olan bir doğrusal model düşünün. Eğitimin aşağıdaki ağırlıkları (ve yanlılıkları) belirlediğini varsayalım:

Yanlılık, b, 2,2 değerine sahiptir
Bir özellikle ilişkili ağırlık (w₁) 1, 5'tir.
Diğer özellikle ilişkili ağırlık (w₂) 0, 4'tür.

Şimdi aşağıdaki özellik değerlerini içeren bir örnek düşünelim:

Özelliğin değeri (x₁) 6'dır.
Diğer özelliğin (x₂) değeri 10'dur.

Bu doğrusal model bir tahmin oluşturmak için aşağıdaki formülü kullanır:

$$y' = b + w_1x_1 + w_2x_2$$

Bu nedenle tahmin şu şekildedir:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Ağırlık 0 ise ilgili özellik modele katkıda bulunmaz. Örneğin, w₁ 0 ise x₁ değeri alakasızdır.

Ağırlıklı Alternatif En Küçük Kareler (WALS)

#recsystems

Öneri sistemlerinde matrisi çarpanlara ayırma sırasında hedef işlevini en aza indiren bir algoritmadır ve eksik örneklerin ağırlıklarının düşürülmesine olanak tanır. WALS, satır çarpanlarına ayırma ile sütun çarpanlarına ayırma işlemini düzeltme arasında alternatif bir yöntem kullanarak, orijinal matris ile yeniden oluşturma arasındaki ağırlıklı kare hatasını en aza indirir. Bu optimizasyonların her biri, en az kareler dışbükey optimizasyonu ile çözülebilir. Ayrıntılı bilgi için Öneri Sistemleri kursunu inceleyin.

ağırlıklı toplam

#fundamentals

Tüm ilgili giriş değerlerinin toplamının karşılık gelen ağırlıklarıyla çarpılması. Örneğin, alakalı girişlerin aşağıdakilerden oluştuğunu varsayalım:

giriş değeri	giriş ağırlığı
2	-1,3
-1	0,6
3	0,4

Dolayısıyla, ağırlıklı toplam şudur:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Ağırlıklı toplam, etkinleştirme işlevinin giriş bağımsız değişkenidir.

geniş model

Genellikle seyrek giriş özelliklerine sahip doğrusal bir model. Modeller, doğrudan çıkış düğümüne bağlanan çok sayıda girişe sahip özel bir nöral ağ türü olduğundan buna "geniş" adı verilir. Geniş modellerde hata ayıklama ve inceleme, derin modellere kıyasla genellikle daha kolaydır. Geniş modeller doğrusal olmayanlıkları gizli katmanlar aracılığıyla ifade edemez. Ancak geniş modeller, doğrusal olmayanlıkları farklı şekillerde modellemek için özellik geçişi ve paketleştirme gibi dönüşümlerden yararlanabilir.

Derin model ile kontrast oluşturun.

genişlik

Bir nöral ağının belirli bir katmanındaki nöronların sayısı.

kalabalığın bilgeliği

#df

Büyük bir insan grubunun ("kalabalık") fikirlerinin veya tahminlerinin ortalamasını almanın şaşırtıcı derecede iyi sonuçlar sağladığı fikri. Örneğin, insanların büyük bir kavanozdaki jelibon sayısını tahmin ettiği bir oyun düşünün. Çoğu bireysel tahmin yanlış olsa da, tüm tahminlerin ortalamasının kavanozdaki gerçek jelibon sayısına şaşırtıcı bir şekilde yakın olduğu gözlemlenmiştir.

Ensembles kalabalıkların bilgeliğinin yazılım analogudur. Bağımsız modeller son derece yanlış tahminler yapsa bile birçok modelin tahminlerinin ortalaması genellikle şaşırtıcı derecede iyi tahminler oluşturur. Örneğin, tek bir karar ağacı kötü tahminlerde bulunsa da bir karar ormanı genellikle çok iyi tahminlerde bulunur.

kelime yerleştirme

#language

Gömme vektörü içinde yer alan bir kelimedeki her kelimeyi temsil etme. Diğer bir deyişle, her kelimeyi 0,0 ile 1,0 arasındaki kayan nokta değerlerinin vektörü olarak temsil eder. Benzer anlamlara sahip kelimelerin, farklı anlamlara sahip kelimelere göre daha benzer temsilleri vardır. Örneğin, havuç, kereviz ve salatalık nispeten benzer temsillere sahiptir ve bunlar, uçak, güneş gözlüğü ve diş macunu temsillerinden çok farklıdır.

X

XLA (Hızlandırılmış Lineer Cebir)

GPU'lar, CPU'lar ve makine öğrenimi hızlandırıcıları için açık kaynak bir makine öğrenimi derleyicisi.

XLA derleyicisi PyTorch, TensorFlow ve JAX gibi popüler makine öğrenimi çerçevelerinden modeller alır ve bunları GPU'lar, CPU'lar ve makine öğrenimi hızlandırıcıları gibi farklı donanım platformlarında yüksek performanslı yürütme için optimize eder.

Z

sıfır çekimle öğrenme

Modelin daha önce özel olarak eğitilmediği bir görev için bir tahmin çıkarım yaptığı bir makine öğrenimi eğitimi türü. Diğer bir deyişle, modele göreve özel eğitim örnekleri verilmez, ancak bu görev için çıkarım yapması istenir.

sıfır çekim istem

#language

#üretken yapay zeka

Büyük dil modelinin nasıl yanıt vermesini istediğinize dair örnek sağlamayan bir istem. Örneğin:

Tek bir istemin bölümleri	Notlar
`Belirtilen ülkenin resmi para birimi nedir?`	LLM'nin cevaplamasını istediğiniz soru.
`Hindistan:`	Gerçek sorgu.

Büyük dil modeli, aşağıdakilerden herhangi biriyle yanıt verebilir:

Rupi
INR
₹
Hint rupisi
Rupi
Hindistan rupisi

Tüm yanıtlar doğru olsa da belirli bir biçimi tercih edebilirsiniz.

Sıfır çekimli istem özelliğini aşağıdaki terimlerle karşılaştırın:

tek seferlik istem
birkaç çekimli istem

Z puanı normalleştirmesi

#fundamentals

Ham bir özellik değerini, söz konusu özelliğin ortalamasından standart sapmaların sayısını temsil eden bir kayan nokta değeriyle değiştiren ölçeklendirme tekniği. Örneğin, ortalaması 800 ve standart sapması 100 olan bir özelliği ele alalım. Aşağıdaki tabloda, Z puanı normalleştirmesinin ham değeri Z puanıyla nasıl eşleştireceği gösterilmektedir:

İşlenmemiş değer	Z puanı
800	0
950	+1,5
575	-2,25

Ardından makine öğrenimi modeli, ham değerler yerine söz konusu özellik için Z puanlarına göre eğitilir.