Makine Öğrenimi Sözlüğü: Dil Değerlendirmesi

Bu sayfa, Dil Değerlendirme sözlüğü terimlerini içermektedir. Tüm sözlük terimleri için burayı tıklayın.

A

dikkat

#language

Nöral ağda belirli bir kelimenin veya bir kelimenin bir kısmının önemini belirten bir mekanizma. Dikkat, bir modelin bir sonraki jetonu/kelimeyi tahmin etmesi için gereken bilgi miktarını sıkıştırır. Tipik bir dikkat mekanizması, bir dizi giriş üzerindeki ağırlıklı bir toplamdan oluşabilir. Her giriş için ağırlık, nöral ağın başka bir kısmı tarafından hesaplanır.

Transformatörlerin yapı taşları olan kendi kendine dikkat etme ve çok başlı kendine dikkat etme yöntemlerini de inceleyin.

otomatik kodlayıcı

#language
#image

Girişten en önemli bilgileri çıkarmayı öğrenen bir sistem. Otomatik kodlayıcılar, bir kodlayıcı ve kod çözücü kombinasyonudur. Otomatik kodlayıcılar aşağıdaki iki adımlı işleme dayanır:

  1. Kodlayıcı, girişi (genellikle) kayıp alt boyutlu (orta) bir biçimle eşler.
  2. Kod çözücü, alt boyutlu biçimi orijinal yüksek boyutlu giriş biçimiyle eşleyerek orijinal girişin kayıplı bir sürümünü oluşturur.

Otomatik kodlayıcılar, kod çözücünün kodlayıcının ara biçiminden mümkün olduğunca orijinal girişi yeniden oluşturmaya çalışmasıyla uçtan uca eğitilir. Ara biçim, orijinal biçimden daha küçük (alt boyutlu) olduğundan otomatik kodlayıcı, girişteki hangi bilgilerin gerekli olduğunu öğrenmeye zorlanır ve çıkış, girişle tamamen aynı olmaz.

Örneğin:

  • Giriş verileri bir grafikse tam olmayan kopya, orijinal grafiğe benzer, ancak bir şekilde değiştirilir. Örneğin, tam olmayan kopya, orijinal grafikteki gürültüyü giderebilir veya bazı eksik pikselleri doldurabilir.
  • Giriş verileri metinse bir otomatik kodlayıcı, orijinal metni taklit eden (ancak aynı olmayan) yeni metinler oluşturur.

Özel otomatik kodlayıcıları da inceleyin.

otomatik regresif model

#language
#image
#jeneratifAI

Bir tahmini önceki tahminlerine dayalı olarak tahmin eden bir model. Örneğin, otomatik regresyon dili modelleri, daha önce tahmin edilen jetonlara göre sonraki jetonu tahmin eder. Dönüştürücü tabanlı tüm büyük dil modelleri otomatik regresifiktir.

Buna karşılık, GAN tabanlı resim modelleri, tek bir yönlendirmede resim oluşturduğundan ve adımlar halinde yinelenen şekilde oluşturmadığından genellikle otomatik olarak regresyon yapılmaz. Bununla birlikte, belirli resim oluşturma modelleri adımlarda resim oluşturduğundan otomatik olarak geriye dönük olarak işlenir.

B

kelime paketi

#language

Kelimelerin herhangi bir sıralamadan bağımsız olarak bir ifade veya pasajdaki temsilidir. Örneğin, bir kelime grubu aşağıdaki kelime öbeklerini aynı şekilde temsil eder:

  • köpek zıplıyor
  • köpeğe atlar
  • zıplayan köpek

Her kelime, az vektör vektöründe yer alan bir dizinle eşlenir. Burada vektör, sözlükteki her kelime için bir dizine sahiptir. Örneğin, köpek atlama kelime öbeği, the, dog ve jump kelimelerinin karşılık gelen üç dizinde sıfır olmayan değerlere sahip bir özellik vektörüyle eşlenir. Sıfır olmayan bir değer şunlardan herhangi biri olabilir:

  • Bir kelimenin varlığını belirtmek için 1.
  • Bir kelimenin pakette kaç kez göründüğünü gösterir. Örneğin, bordo köpek kürklü köpek ifadesiyle ifade ediliyorsa hem bordo hem de köpek 2, diğer kelimeler ise 1 olarak gösterilir.
  • Bir kelimenin çantada görünme sayısının logaritması gibi başka bir değer.

BERT (İki Yönlü Kodlayıcı Transformatörlerdeki temsiller)

#language

Metin temsili için bir model mimarisi. Eğitilmiş bir BERT modeli, metin sınıflandırma veya diğer makine öğrenimi görevleri için daha büyük bir modelin parçası olarak kullanılabilir.

BERT aşağıdaki özelliklere sahiptir:

BERT'in varyantları şunlardır:

BERT'e genel bakış için Açık Kaynak BERT: Doğal Dil İşleme için Son Teknoloji Ön Eğitimi bölümüne bakın.

Bigram

#seq
#language

N=2 olan bir N-gram.

iki yönlü

#language

Metnin bir hedef bölümünden önce ve takip eden metinleri değerlendiren bir sistemi tanımlamak için kullanılan terim. Buna karşılık, tek yönlü bir sistem yalnızca metnin bir hedef bölümünden öncesi olan metni değerlendirir.

Örneğin, aşağıdaki soruda alt çizgiyi temsil eden kelime veya kelimelerin olasılığını belirlemesi gereken bir maskeli dil modeli kullanabilirsiniz:

Sizinle _____ nedir?

Tek yönlü bir dil modelinin olasılıkları, yalnızca "Ne", "ne" ve "bir" kelimeleri tarafından sağlanan bağlama dayanmalıdır. Buna karşılık çift yönlü dil modeli, "with" ve "you" bağlamlarından da yararlanabilir. Bu da modelin daha iyi tahminler oluşturmasına yardımcı olabilir.

çift yönlü dil modeli

#language

Önündeki ve sonraki metne dayalı olarak, bir metin alıntısı içinde belirli bir jetonun belirli bir konumda bulunma olasılığını belirleyen dil modeli.

BLEU (Çift Dil Değerlendirmesi Araştırması)

#language

İki insan dili arasındaki (örneğin, İngilizce ve Rusça) çevirinin kalitesini gösteren 0, 0 ile 1, 0 arasında bir puan. BLEU puanı 1,0 ise mükemmel çeviri ; BLEU puanı 0,0 ise çok kötü bir çeviri olduğunu gösterir.

C

nedensel dil modeli

#language

Tek yönlü dil modeli ile eş anlamlıdır.

Dil modellemede farklı yön yaklaşımlarını karşılaştırmak için çift yönlü dil modeli bölümüne bakın.

bir zincirleme düşünce

#language
#jeneratifAI

Nedenini adım adım açıklamalı olan, büyük bir dil modelini teşvik eden bir istem mühendisliği tekniği. Örneğin, ikinci cümleye özellikle dikkat ederek şu istemi değerlendirin:

7 saniye içinde saatte 0 ile 60 mil arasında giden bir arabada şoför sayısı kaç g kuvvet olur? Yanıtta, ilgili tüm hesaplamaları gösterin.

LLM'nin yanıtı şunlardan biri olabilir:

  • 0, 60 ve 7 değerlerini uygun yerlere yerleştirerek bir fizik formülleri dizisi gösterin.
  • Bu formülleri neden seçtiğini ve çeşitli değişkenlerin ne anlama geldiğini açıklayın.

Düşünce zinciri, LLM'yi tüm hesaplamaları yapmaya zorlar. Bu sayede daha doğru yanıt ortaya çıkabilir. Buna ek olarak, belirli bir zincir üzerinde düşünme, kullanıcının LLM'nin adımlarını inceleyerek yanıtın mantıklı olup olmadığını belirlemesini sağlar.

seçim bölgesi ayrıştırması

#language

Bir cümleyi küçük dil bilgisi yapılarına ("bileşenler") bölme. Doğal dil anlama modeli gibi makine öğrenimi sisteminin sonraki bir bölümü, bileşenleri orijinal cümleden daha kolay ayrıştırabilir. Örneğin, aşağıdaki cümleyi göz önünde bulundurun:

Arkadaşım iki kedi aldı.

Bir bileşen ayrıştırıcı, bu cümleyi aşağıdaki iki bileşene bölebilir:

  • Arkadaşım bir isim ifadesi.
  • iki kedi sahiplendi kelimesi bir fiil ifadesidir.

Bu bileşenler daha küçük alt bileşenlere ayrılabilir. Örneğin, fiil kelime öbeği

iki kedi sahiplendi

alt bölümlere ayrılabilir:

  • fikir kelimesi bir fiildir.
  • iki kedi diğer bir isim öbeği.

patlama çiçeksi

#language

Belirsiz bir anlama sahip cümle veya kelime öbeği. Kilitlenme çiçekleri, doğal dil anlama teknolojisinde önemli bir sorun oluşturur. Örneğin, Kırmızı Bantlar Dikey Açık Tutuyor başlığı, bir NLU modelinin başlığı gerçek veya mecazi olarak yorumlayabileceği için ciddi bir gelişmedir.

D

kod çözücü

#language

Genel olarak, işlenmiş, yoğun veya dahili bir temsilden daha ham, az veya harici bir temsile dönüşen tüm ML sistemleri.

Kod çözücüler, genellikle daha büyük bir modelin bileşenidir ve genellikle bir kodlayıcı ile eşleştirilir.

Adım sıraları görevlerinde, bir kod çözücü, bir sonraki sırayı tahmin etmek için kodlayıcı tarafından oluşturulan dahili durumla başlar.

Transformatör mimarisindeki kod çözücü tanımı için Dönüştürücü'ye bakın.

zahmetli

#language

Gözetimli öğrenme yaklaşımında yaygın olarak kullanılan yaklaşım:

  1. Gürültü, veri kümesine yapay olarak eklenir.
  2. Model gürültüyü kaldırmaya çalışır.

Gürültü giderme, etiketlenmemiş örneklerden bilgi edinmenizi sağlar. Orijinal veri kümesi, hedef veya etiket ve gürültülü veriler girdi olarak işlev görür.

Bazı maskelenmiş dil modelleri aşağıdaki şekilde gürültü giderme özelliğini kullanır:

  1. Gürültü, bazı jetonları maskeleyerek etiketlenmemiş bir cümleye yapay bir şekilde eklenir.
  2. Model, orijinal jetonları tahmin etmeye çalışır.

doğrudan istem

#language
#jeneratifAI

Sıfır çekim istemi ile eş anlamlıdır.

E

mesafeyi düzenle

#language

Birbirine benzeyen iki metin dizesinin ölçümü. Makine öğreniminde düzenleme mesafesi, basit ve kolay hesaplanabilir. Ayrıca benzer olduğu bilinen iki dizeyi karşılaştırmak veya belirli bir dizeye benzeyen dizeleri bulmak için etkili bir yöntemdir.

Her biri farklı dize işlemleri kullanan düzenleme mesafesinin birkaç tanımı vardır. Örneğin, Levenshtein mesafesi en az silme, ekleme ve değiştirme işlemlerini dikkate alır.

Örneğin, "kalp" ile "dart" kelimeleri arasındaki Levenshtein mesafesi 3'tür. Bunun nedeni, aşağıdaki 3 düzenlemenin bir kelimeyi diğerine dönüştürecek en az değişiklik olmasıdır:

  1. kalp → deart ("h" yerine "d")
  2. şeytan → dart ("e" harfini sil)
  3. dart → dart (;

katman yerleştir

#language
#fundamentals

Kademeli olarak daha düşük boyutlu bir yerleştirme vektörü öğrenmek için yüksek boyutlu kategorik özellik hakkında eğitilen özel bir gizli katman. Yerleştirme katmanı, bir nöral ağın yalnızca yüksek boyutlu kategorik özellik üzerinde eğitim vermekten çok daha verimli bir şekilde eğitilmesini sağlar.

Örneğin, Earth şu anda yaklaşık 73.000 ağaç türünü desteklemektedir. Ağaç türlerinin modelinizde bir özellik olduğunu ve bu nedenle, modelinizin giriş katmanının 73.000 öğe uzunluğundaki tek bir sıcak vektör içerdiğini varsayalım. Örneğin, baobab şu şekilde temsil edilebilir:

73.000 öğeden oluşan bir dizi. İlk 6.232 öğe,0 değerini tutar. Sonraki öğe 1 değerini tutar. Son 66.767 öğe sıfır değerini tutar.

73.000 öğeli bir dizi çok uzundur. Modele bir yerleştirme katmanı eklemezseniz 72.999 sıfırların çarpımı nedeniyle eğitim çok zaman alır. Yerleştirme katmanını, 12 boyuttan oluşacak şekilde seçebilirsiniz. Sonuç olarak, yerleştirme katmanı kademeli olarak her ağaç türü için yeni bir yerleştirme vektörü öğrenir.

Bazı durumlarda, karma yerleştirme katmanına makul bir alternatiftir.

yerleştirme alanı

#language

Daha büyük boyutlu bir vektör alanına sahip olan d boyutlu vektör alanının eşlenmesi. İdeal olarak, yerleştirme alanı anlamlı matematiksel sonuçlar veren bir yapı içerir. Örneğin, ideal bir yerleştirme alanında yerleştirmelerin eklenmesi ve çıkarılması, kelime benzerliği görevlerini çözebilir.

İki yerleştirmenin nokta ürünü, benzerliklerinin ölçüsüdür.

yerleşik vektör

#language

Genel olarak, herhangi bir gizli katmandan alınan söz konusu gizli katmandaki girişleri açıklayan bir kayan noktalı sayı dizisidir. Çoğu zaman yerleştirme vektörü, bir yerleştirme katmanında eğitilen kayan nokta sayıları dizisidir. Örneğin, bir yerleştirme katmanının Dünya'daki 73.000 ağaç türünün her biri için bir yerleştirme vektörü öğrenmesi gerektiğini varsayalım. Aşağıdaki dizi, bir baobab ağacının yerleştirme vektörü olabilir:

Her biri 0,0 ile 1,0 arasında bir kayan noktalı sayı tutan 12 öğeden oluşan bir dizidir.

Yerleştirme vektörü, bir grup rastgele sayı değildir. Yerleştirme katmanı, bir nöral ağın eğitim sırasında diğer ağırlıkları öğrenmesine benzer şekilde bu değerleri eğitim aracılığıyla belirler. Dizideki her öğe, ağaç türlerinin bazı özelliklerine verilen addır. Hangi öğe türü hangi ağaç türlerinin özelliğini temsil eder? İnsanların bunu belirlemesi çok zor.

Bir yerleştirme vektörünün matematiksel açıdan dikkat çeken tarafı, benzer öğelerin benzer kayan nokta sayılarına sahip olmasıdır. Örneğin, benzer ağaç türleri, farklı ağaç türlerine benzer bir kayan nokta sayılarına sahiptir. Kızılçam ve sekoyalar ilgili ağaç türleridir. Bu nedenle, ağaçların ve hindistan cevizlerinin palmiyelerine kıyasla kayan nokta sayısı daha benzerdir. Yerleşik vektördeki sayılar, modeli aynı girişle yeniden eğitseniz bile modeli her yeniden eğittiğinizde değişir.

kodlayıcı

#language

Genel olarak, ham, seyrek veya harici temsilden daha işlenmiş, yoğun veya daha dahili bir temsile dönüşen tüm ML sistemleri.

Kodlayıcılar, genellikle bir kod çözücü ile eşlendiği daha büyük bir modelin bileşenidir. Bazı Transformatörler, kodlayıcıları kod çözücülerle eşleştirirken diğer Transformatörler yalnızca kodlayıcıyı veya kod çözücüyü kullanır.

Bazı sistemler, sınıflandırma veya regresyon ağına giriş olarak kodlayıcının çıkışını kullanır.

Adım sıraları görevlerinde, kodlayıcı bir giriş sırası alır ve dahili bir durum (vektör) döndürür. Ardından kod çözücü, bir sonraki sırayı tahmin etmek için bu dahili durumu kullanır.

Transformatör mimarisindeki kodlayıcının tanımı için Dönüştürücü'ye bakın.

F

az sayıdaki şut istemi

#language
#jeneratifAI

Büyük dil modelinin nasıl yanıt vermesi gerektiğini gösteren birden fazla ("az") örnek içeren bir istem. Örneğin, aşağıdaki uzun istemde, büyük bir dil modelini bir sorgunun nasıl yanıtlanacağını gösteren iki örnek bulabilirsiniz.

Tek bir istemenin bölümleri Notlar
Belirtilen ülkenin resmi para birimi nedir? LLM'nin yanıtlamasını istediğiniz soru.
Fransa: EUR Bir örnek.
Birleşik Krallık: GBP Başka bir örnek.
Hindistan: Gerçek sorgu.

Çok az sayıdaki çekim, genellikle sıfır çekim istemin ve tek kare istemenin aksine daha fazla istenen sonuç verir. Ancak, az sayıdaki çekim için daha uzun bir istem gerekir.

Çok az bilgi istemi, istemci odaklı öğrenime uygulanan bir az çekimli öğrenim biçimidir.

Keman

#language

İstilacı kod veya altyapı olmadan işlevlerin ve sınıfların değerlerini ayarlayan, Python öncelikli bir yapılandırma kitaplığı. Pax ve diğer ML kod tabanları söz konusu olduğunda, bu işlevler ve sınıflar modelleri ve eğitim köprü parametrelerini temsil eder.

Fiddle, makine öğrenimi kod tabanlarının genellikle aşağıdaki ikiye ayrıldığını varsayar:

  • Katmanları ve optimize edicileri tanımlayan kitaplık kodu.
  • Kitaplıkları çağıran ve her şeyi birbirine bağlayan veri kümesi "yapıştırıcı" kodu.

Fiddle, yapıştırıcı kodunun çağrı yapısını değerlendirilmemiş ve değiştirilemez bir biçimde yakalar.

ince ayar

#language
#image
#jeneratifAI

İkinci bir, göreve özel eğitim kartı, önceden eğitilmiş bir modelde parametrelerini belirli bir kullanım alanı için hassaslaştırmak amacıyla gerçekleştirilir. Örneğin, bazı büyük dil modellerinde aşağıdaki gibi tam bir eğitim sırası verilmiştir:

  1. Eğitim öncesi: İngilizce dilindeki tüm Vikipedi sayfaları gibi büyük bir genel veri kümesinde büyük bir dil modeli eğitin.
  2. Hassas ayarlama: Önceden eğitilmiş modeli, tıbbi sorgulara yanıt verme gibi belirli bir görevi gerçekleştirecek şekilde eğitin. İnce ayar genellikle belirli bir göreve yönelik yüzlerce veya binlerce örnek içerir.

Başka bir örnek olarak, büyük bir resim modelinin tam eğitim sırası şöyledir:

  1. Ön eğitim: Geniş bir genel resim veri kümesinde (ör. Wikimedia Common'da yer alan tüm resimler) büyük bir resim modelini eğitin.
  2. Hassas ayarlama: Orka resimleri oluşturma gibi belirli bir görevi yerine getirmek için önceden eğitilmiş modeli eğitin.

İnce ayar yapmak, aşağıdaki stratejilerin herhangi bir kombinasyonunu içerebilir:

  • Önceden eğitilmiş modelin tümparametrelerinideğiştirme. Buna bazen tam ince ayar denir.
  • Önceden eğitilmiş modelin mevcut parametrelerinden yalnızca bazılarını değiştirirken (genellikle çıkış katmanına en yakın katmanlar) diğer parametreleri değiştirmez (genellikle giriş katmanına en yakın katmanlar).
  • Daha fazla katman (genellikle çıkış katmanına en yakın mevcut katmanların üzerine) eklenir.

Hassas ayarlama, bir aktarım öğrenimi biçimidir. Bu nedenle ince ayarlar, önceden eğitilmiş modeli eğitmek için kullanılanlardan farklı bir kayıp işlevi veya farklı bir model türü kullanabilir. Örneğin, giriş resmindeki kuş sayısını döndüren bir regresyon modeli oluşturmak için önceden eğitilmiş bir büyük görüntü modelinde ince ayar yapabilirsiniz.

Aşağıdaki terimlerle ince ayarları karşılaştırın:

Keten

#language

JAX temel alınarak geliştirilmiş derin öğrenme için yüksek performanslı bir açık kaynak kitaplık. Flax, eğitim nöral ağları için işlevleri ve bunların performansını değerlendirme yöntemleri sunar.

Flaks Şekillendirici

#language

Flax üzerinde oluşturulan, esasen doğal dil işleme ve çok modlu araştırmalar için tasarlanmış açık kaynaklı Transformer kitaplığı.

G

genel AI

#language
#image
#jeneratifAI

Resmi bir tanımı olmayan, gelişmekte olan dönüştürücü bir alan. Bununla birlikte, çoğu uzman, genel yapay zeka modellerinin aşağıdakilerden tümünü barındıran içerikler oluşturabileceğini ("oluşturabilir") kabul eder:

  • karmaşık
  • tutarlı
  • orijinal

Örneğin, üretken bir yapay zeka modeli seçkin makaleler veya resimler oluşturabilir.

LSTM'ler ve RNN'ler gibi bazı eski teknolojiler de orijinal ve tutarlı içerikler üretebilir. Bazı uzmanlar bu eski teknolojileri oluşturmalı yapay zeka olarak görürken diğerleri, gerçek oluşturma gerektiren yapay zekanın, önceki teknolojilerin üretebileceğinden daha karmaşık çıktılar gerektirdiğini düşünüyor.

Tahmini makine öğrenimi ile zıtlık.

GPT (Önceden Oluşturulmuş Eğitimli Transformatör)

#language

OpenAI tarafından geliştirilen Transformer tabanlı büyük dil modelleri ailesi.

GPT varyantları, aşağıdakiler de dahil olmak üzere birden fazla modül için geçerli olabilir:

  • resim oluşturma (örneğin, Image GPT)
  • metin oluşturmayı oluşturuyor (örneğin, DALL-E).

H

halüsinasyon

#language

Gerçek dünya hakkında bir araştırma yaptığı iddia edilen genel bir yapay zeka modelinin, makul görünen ancak gerçekte yanlış olan çıktısı üretimi. Örneğin, Barack Obama'nın 1865'te öldüğünü iddia eden oluşturma amaçlı bir yapay zeka modeli halete gidiyor.

I

bağlam içi öğrenim

#language
#jeneratifAI

Birkaç çekim istemi için eş anlamlıdır.

L

LaMDA (Diyalog Uygulamaları İçin Dil Modeli)

#language

Google tarafından geliştirilen Dönüştürücü tabanlı büyük dil modeli, gerçekçi konuşma yanıtları üretebilen büyük bir diyalog veri kümesi üzerinde eğitildi.

LaMDA: Çığır açan konuşma teknolojimiz genel bir bakış sunar.

dil modeli

#language

Jeton veya daha uzun bir jeton dizisinde jeton sırası olasılığını tahmin eden bir model.

büyük dil modeli

#language

Katı tanımı olmayan ve genellikle çok sayıda parametreye sahip olan dil modeli anlamına gelen rahat olmayan bir terim. Bazı büyük dil modelleri, 100 milyardan fazla parametre içerir.

M

maskeli dil modeli

#language

Aday jetonlarının boşlukları sırayla doldurma olasılığını tahmin eden bir dil modeli. Örneğin, maskelenmiş bir dil modeli, aşağıdaki cümlede altı çizili değişikliğin yerine geçecek kelime veya kelimelerle ilgili olasılıkları hesaplayabilir:

Şapkadaki ____ geri döndü.

Edebiyatta genellikle alt çizgi yerine "MASK" dizesi kullanılır. Örneğin:

Şapkadaki "MASKE" geri döndü.

Maskelenmiş çoğu modern dil modeli, iki yönlüdür.

meta öğrenim

#language

Bir öğrenme algoritmasını keşfeden veya iyileştiren makine öğrenimi alt kümesi. Bir meta öğrenim sistemi, bir modeli küçük bir veriden veya önceki görevlerde edinilen deneyimden hızla yeni bir görev öğrenmek için eğitmeyi de hedefleyebilir. Meta öğrenme algoritmaları genellikle aşağıdakileri elde etmeye çalışır:

  • El yapımı özellikleri (ör. başlatıcı veya optimize edici) iyileştirmek/öğrenmek.
  • Daha veri verimliliği ve işlem verimliliği sağlayın.
  • Genelleştirmeyi iyileştirin.

Meta öğrenim, birkaç çekimlik öğrenimle ilgilidir.

yöntem

#language

Üst düzey veri kategorisi. Örneğin, sayılar, metin, resimler, videolar ve sesler beş farklı yöntemdir.

model paralellik

#language

Bir modelin farklı cihazlarına yerleştirildiği eğitimi veya çıkarımı ölçeklendirme yöntemi. Model paralelliği, tek bir cihaza sığamayacak kadar büyük modelleri mümkün kılar.

Sistemler, model paralellik uygulamak için genellikle aşağıdakileri yapar:

  1. Modeli parçalara böler (daha küçük parçalara ayırır).
  2. Bu küçük parçaların eğitimini birden çok işlemciye dağıtır. Her işleyen, modelin kendi kısmını eğitir.
  3. Sonuçları birleştirerek tek bir model oluşturur.

Model paralelliği eğitimi yavaşlatır.

Ayrıca veri paralelliğine de bakın.

çok başlı kendine dikkat çekme

#language

Giriş dizisindeki her bir konum için kendine dikkat mekanizmasını birden fazla kez uygulayan kendine dikkat verme uzantısıdır.

Dönüştürücüler, çok yönlü bir insan bakışı ortaya koydu.

çok modlu model

#language

Girişleri ve/veya çıkışları birden fazla modülasyon içeren bir model. Örneğin, özellikler olarak hem resim hem de metin altyazısı (iki modlu) alıp bir metin çıkışının resim için ne kadar uygun olduğunu gösteren bir puan elde eden bir model düşünün. Dolayısıyla, bu modelin girişleri çok modlu ve çıkışı çok yönlü.

N

doğal dil anlama

#language

Kullanıcının yazdıkları veya söylediklerine göre kullanıcının niyetini belirleme. Örneğin, bir arama motoru, kullanıcının yazdığı veya söylediğine göre kullanıcının ne aradığını belirlemek için doğal dil anlama özelliğini kullanır.

N-gram

#seq
#language

N kelimeden oluşan sıralı bir dizi. Örneğin, gerçekten çılgınca bir 2 gram. Sipariş alakalı olduğundan, çok çılgınca iki çılgın'dan farklı bir 2 gram'dır.

N Bu N-gram türü için adlar Örnekler
2 Bigram veya 2-gram gitmek, gitmek, öğle yemeği yemek, akşam yemeği yemek
3 trigram veya 3 gram çok çiğneme, üç kör fare, zil ücreti
4 4 gram parkta yürüyüş, rüzgarda toz, mercimek yiyen çocuk

Birçok doğal dil anlama modeli, kullanıcının yazacağı veya söyleyeceği bir sonraki kelimeyi tahmin etmek için N-gramlarını kullanır. Örneğin, bir kullanıcının üç kör yazdığını varsayalım. Trilügramları temel alan bir NLU modeli, büyük olasılıkla kullanıcının mikrofon yazacağını tahmin eder.

Sıralanmamış kelime grupları olan kelime paketiyle N-gramları karşılaştırın.

NLU

#language

Doğal dil anlama teriminin kısaltması.

O

tek seferlik isteme

#language
#jeneratifAI

Büyük dil modelinin nasıl tepki vermesi gerektiğini gösteren bir örnek içeren bir istem. Örneğin, aşağıdaki istemde, büyük bir dil modelini bir sorguya nasıl yanıt vermesi gerektiğini gösteren bir örnek bulabilirsiniz.

Tek bir istemenin bölümleri Notlar
Belirtilen ülkenin resmi para birimi nedir? LLM'nin yanıtlamasını istediğiniz soru.
Fransa: EUR Bir örnek.
Hindistan: Gerçek sorgu.

Tek seferlik isteme özelliğini aşağıdaki terimlerle karşılaştırın:

P

parametre verimliliği ayarlama

#language
#jeneratifAI

Tam bir ince ayar işleminden daha etkili bir şekilde önceden eğitilmiş bir dil modelinin (PLM) ince ayarını yapan bir dizi tekniktir. Parametre verimliliği ayarı, genellikle tam ince ayardan çok daha az parametrede hassas ayarlar yapar. Ancak genel olarak ince ayardan oluşturulan büyük dil modeli kadar iyi (veya neredeyse aynı düzeyde) bir büyük dil modeli üretir.

Parametre verimliliği ayarı şunlarla karşılaştırın:

Parametre verimliliği ayarı, parametre verimliliği ince ayarı olarak da bilinir.

dikey çizgi

#language

Bir modelin işlenmesinin ardışık aşamalara bölündüğü ve her aşamanın farklı bir cihazda yürütüldüğü bir model paralelliği biçimi. Aşama, bir grubu işlerken önceki aşama sonraki grup üzerinde çalışabilir.

Hazırlıklı eğitim konusuna da bakın.

4,99

#language
#jeneratifAI

Önceden eğitilmiş dil modeli'nin kısaltması.

konum kodlaması

#language

Jetonun yerleşimindeki bir jetonun konumu ile ilgili bilgi ekleme tekniği. Dönüştürücü modelleri, adım sırasının farklı bölümleri arasındaki ilişkiyi daha iyi anlamak için konumlama kodlamasını kullanır.

Sinüssel işlev için yaygın olarak kullanılan konumlama kodlaması uygulanır. (Özellikle sinüzoidal fonksiyonun sıklığı ve genliği, jetonun dizideki konumuna göre belirlenir.) Bu teknik, bir Transformatör modelinin, sıranın farklı bölümlerine konumlarına göre katılmayı öğrenmesini sağlar.

önceden eğitilmiş model

#language
#image
#jeneratifAI

Daha önce eğitilmiş modeller veya model bileşenleri (yerleştirme vektörü gibi). Bazen, önceden eğitilmiş yerleştirme vektörlerini bir nöral ağa besleyebilirsiniz. Diğer zamanlarda, modeliniz önceden eğitilmiş yerleştirmeleri kullanmak yerine, yerleşik vektörleri kendiniz eğitir.

Önceden eğitilmiş dil modeli terimi, ön eğitim tamamlanan büyük dil modelini ifade eder.

eğitim öncesi

#language
#image
#jeneratifAI

Bir modelin büyük bir veri kümesinde ilk eğitimi. Bazı önceden eğitilmiş modeller sakar hale gelir ve genellikle ek eğitimle hassaslaştırılır. Örneğin, ML uzmanları, Wikipedia'daki tüm İngilizce sayfalar gibi geniş bir metin veri kümesinde büyük bir dil modelini önceden eğitebilir. Eğitimden sonra ortaya çıkan model, aşağıdaki tekniklerden herhangi biriyle daha da hassaslaştırılabilir:

istem

#language
#jeneratifAI

Modelin belirli bir şekilde davranmasını sağlamak için büyük bir dil modeline giriş olarak girilen herhangi bir metin. İstemler, kelime öbeği kadar kısa veya rastgele uzun olabilir (ör. romanın tam metni). İstemler, aşağıdaki tabloda gösterilenler de dahil olmak üzere birden fazla kategoriye ayrılır:

İstem kategorisi Örnek Notlar
Soru Güvercin ne kadar hızlı uçabilir?
Talimat Arbitraj hakkında komik bir şiir yazın. Büyük dil modelinden bir şey yapmasını isteyen bir istem.
Örnek Markdown kodunu HTML'ye çevirin. Örneğin:
Markdown: * liste öğesi
HTML: <ul> <li>öğeyi listele</li> </ul>
Bu örnek istemdeki ilk cümle bir talimat. İstemin geri kalanı örnek olarak verilmiştir.
Rol Makine öğrenimi eğitiminde fizik doktorasına neden gradyan inişin kullanıldığını açıklayın. Cümlenin ilk kısmı bir talimattır. "Fizik doktorasına" ifadesi rol rolüdür.
Modelin tamamlaması için kısmi giriş Birleşik Krallık Başbakanı Kısmi giriş istemi aniden sona erebilir (bu örnekte olduğu gibi) veya alt çizgiyle bitebilir.

Oluşturma yapay zeka modeli bir komuta metin, kod, resimler, yerleştirmeler, videolar ve hemen hemen her şeyle yanıt verebilir.

istem tabanlı öğrenim

#language
#jeneratifAI

Belirli modellerin davranışını rastgele metin girişine (istemler) yanıt olarak uyarlamalarını sağlayan bir özellik. Tipik bir istem tabanlı öğrenme paradigmasında, büyük bir dil modeli metin oluşturarak bir isteğe yanıt verir. Örneğin, bir kullanıcının aşağıdaki istemi girdiğini varsayalım:

Newton'ın Üçüncü Hareket Yasası'nı özetleyin.

İsteme dayalı öğrenme yapabilen bir model, önceki istemi yanıtlayacak şekilde özel olarak eğitilmemiştir. Bunun yerine model, fizikle ilgili genel bilgiler, genel dil kuralları ve genel olarak faydalı cevapları oluşturan bilgiler hakkında "bilgi sahibi". Bu bilgi, (umarız) faydalı bir yanıt vermek için yeterlidir. İnsan kaynaklı ek geri bildirimler ("Bu cevap çok karmaşıktı." veya "Tepki nedir?""), bazı istem tabanlı öğrenme sistemlerinin yanıtlarının faydasını kademeli olarak iyileştirmesini sağlar.

istem tasarımı

#language
#jeneratifAI

İhtiyaç mühendisliği ile eş anlamlıdır.

hızlı mühendislik

#language
#jeneratifAI

Büyük bir dil modelinden istenen yanıtları çıkaran istemler oluşturma sanatı. İnsanlar hızlı mühendislik eylemleri gerçekleştirir. İyi yapılandırılmış istemler yazmak, büyük bir dil modelinden faydalı yanıtlar vermenin temel bir parçasıdır. Hızlı mühendislik, aşağıdakiler de dahil olmak üzere birçok faktöre bağlıdır:

Faydalı istemler yazma hakkında daha fazla bilgi için İstem tasarımına giriş bölümüne bakın.

İstem tasarımı, hızlı mühendislik ile eş anlamlıdır.

istem ayarı

#language
#jeneratifAI

Sistemin gerçek istemin başına eklediği bir "önek" öğrenen parametre etkili ayarlama mekanizması.

Bazen ön ek ayarı olarak adlandırılan istem ayarlarının bir varyasyonu, her katmandaki ön ekin başına eklenir. Buna karşılık, çoğu istem ayarı yalnızca giriş katmanına bir ön ek ekler.

balon

rol istemi

#language
#jeneratifAI

Oluşturucu AI modelinin yanıtı için bir hedef kitleyi tanımlayan istemin isteğe bağlı bir kısmı. Rol istemi kullanılmazsa büyük bir dil modeli, soruları soran kişiye yardımcı olabilecek veya vermeyecek bir yanıt sağlar. Rol istemi kullanıldığında büyük bir dil modeli, belirli bir hedef kitle için daha uygun ve faydalı olacak şekilde yanıt verebilir. Örneğin, aşağıdaki istemlerin rol istemi kısmı kalın harflerle gösterilmiştir:

  • Ekonomist doktorası için bu makaleyi özetleyin.
  • Gelgitlerin on yaşındaki çocuklar için işleyiş şeklini açıklayın.
  • 2008 mali krizini açıklayın. Küçük bir çocuğa veya bir altın arayana olduğu gibi konuşabilirsiniz.

C

Kendine dikkat (kendi kendine dikkat katmanı olarak da adlandırılır)

#language

Yerleştirme sırasını (örneğin, jeton yerleştirmesi) başka bir yerleştirme dizisine dönüştüren bir nöral ağ katmanı. Çıkış dizisindeki her yerleştirme, giriş dizisi öğelerindeki bilgiler dikkat mekanizmasıyla entegre edilerek oluşturulur.

Kendine odaklanma'nın kendisi kısmı, başka bir bağlamdan ziyade kendine giden sekansı ifade eder. Kendine dikkat etme, Dönüştürücüler için temel yapı taşlarından biridir ve "sorgu", "anahtar" ve "değer" gibi sözlük arama terminolojisi kullanır.

Kendine dikkat katmanı, her kelime için bir giriş temsili dizisiyle başlar. Bir kelimenin giriş temsili basit bir yerleştirme olabilir. Ağ, bir giriş dizisindeki her kelime için kelimenin kelime dizisindeki her öğeyle alaka düzeyini puanlar. Alaka düzeyi puanları, kelimenin son gösteriminin diğer kelimelerin temsillerini ne ölçüde içerdiğini belirler.

Örneğin, aşağıdaki cümleyi göz önünde bulundurun:

Hayvan çok yorgun olduğu için sokaktan geçemedi.

Aşağıdaki görselde (Dönüştürücü: Dil Anlama için Yeni Bir Nöral Ağ Mimarisi), kendi zamiri için kendi kendine dikkat katmanına yönelik bir dikkat kalıbı gösterilmektedir. Her satırın koyu renkli hali, temsile ne kadar katkı sağladığını göstermektedir:

Şu cümle iki kez görünüyor: &quot;Hayvan çok yorgun olduğu için sokaktan geçemedi.&quot;  Çizgiler, bir cümledeki &quot;it&quot; kelimesini beş cümleye (ör. &quot;hayvan&quot;, &quot;hayvan&quot;, &quot;sokak&quot;, &quot;it&quot; ve nokta) başka bir cümleye bağlar.  &quot;it&quot; ve &quot;hayvan&quot; arasındaki çizgi en güçlüdür.

Kendine dikkat katmanı, "kendisiyle" alakalı kelimeleri vurgular. Bu örnekte, dikkat katmanı, hayvana en yüksek ağırlığı atayarak kendisinden bahsedebileceği kelimeleri vurgulamayı öğrenmiştir.

Kendine dikkat etme, n jeton dizisi için dizideki her konumda bir kez olmak üzere n yerleşim dizisini farklı zamanlarda dönüştürür.

Ayrıca dikkat çekme ve çok başlı kendine dikkat çekme konularını da inceleyin.

yaklaşım analizi

#language

Bir gruba, hizmete, kuruluşa veya konuya yönelik genel bakış açısını olumlu veya olumsuz olarak belirlemek için istatistiksel ya da makine öğrenimi algoritmalarını kullanma. Örneğin bir algoritma, doğal dil anlama özelliğini kullanarak üniversite kursundan yazılı geri bildirim üzerinde yaklaşım analizi yaparak öğrencilerin kursu genellikle ne ölçüde beğendiğini veya beğenmediğini belirleyebilir.

adım sırası görevi

#language

Giriş jeton dizisini, jetondan oluşan bir diziye dönüştüren görev. Örneğin, iki popüler video dizisi görevi türü vardır:

  • Çevirmenler:
    • Örnek giriş sırası: "Seni seviyorum."
    • Örnek çıkış sırası: "Je t'aime."
  • Soru yanıtlanıyor:
    • Örnek giriş dizisi: "New York'ta arabama ihtiyacım var mı?"
    • Örnek çıkış sırası: "Hayır. Lütfen arabanızı evde tutun."

seyrek özellik

#language
#fundamentals

Değerleri ağırlıklı olarak sıfır veya boş olan bir özellik. Örneğin, tek bir 1 değer ve bir milyon 0 değeri içeren bir özellik yedeklidir. Buna karşılık, yoğun özellikler çoğunlukla ağırlıklı olarak sıfır veya boş olmayan değerler içerir.

Makine öğreniminde şaşırtıcı özellik sayısı azdır. Kategorik özellikler genellikle seyrek özelliklerdir. Örneğin, ormandaki 300 ağaç türünden yalnızca bir tanesi akçaağaç ağacı tanımlayabilir. Bir video kitaplığındaki milyonlarca olası videodan yalnızca biri "Kazablanka"yı tanımlayabilir.

Bir modelde genellikle tek seferlik kodlamayla seyrek özellikleri temsil edersiniz. Tek seferlik kodlama büyükse daha yüksek verimlilik için tek seferlik kodlamanın üst kısmına bir yerleştirme katmanı yerleştirebilirsiniz.

seyrek temsil

#language
#fundamentals

Seyrek olmayan bir özellikte yalnızca sıfır olmayan öğelerin konumlarını depolama.

Örneğin, species adlı bir kategorik özelliğin, belirli bir ormandaki 36 ağaç türünü tanımladığını varsayalım. Ayrıca her örneğin yalnızca tek bir tür tanımladığını varsayın.

Her bir örnekteki ağaç türlerini göstermek için tek bir sıcak vektör kullanabilirsiniz. Tek resimli bir vektör, tek bir 1 (bu örnekte belirli ağaç türlerini temsil eder) ve 35 0 (bu örnekte 35 tür temsil etmeyecek) içerir. Dolayısıyla, maple'ın tek seferlik gösterimi aşağıdaki gibi görünebilir:

0 ile 23 arası konumların 0, 24 ve 24 ile 25 ile 35 numaralı konumların 0,

Alternatif olarak, seyrek gösterim yalnızca belirli türlerin konumunu tespit eder. maple konumu 24 ise maple değerinin seyrek gösterimi aşağıdaki gibi olur:

24

Seyrek temsilin tek seferlik temsilden çok daha küçük olduğuna dikkat edin.

aşamalı eğitim

#language

Bir modeli ayrı ayrı aşamalar halinde eğitme taktiği. Hedef, eğitim sürecini hızlandırmak veya daha iyi bir model kalitesi elde etmek olabilir.

Progresif yığın oluşturma yaklaşımının görseli aşağıda verilmiştir:

  • 1. Aşama 3 gizli katman, 2. aşama 6 gizli katman ve 3. aşama 12 gizli katman içerir.
  • 2. Aşama, 1. Aşamanın 3 gizli katmanında öğrenilen ağırlıklarla eğitime başlar. 3. Aşama, 2. Aşamanın 6 gizli katmanında öğrenilen ağırlıklarla eğitime başlar.

&quot;1. Aşama&quot;, &quot;2. Aşama&quot; ve &quot;3. Aşama&quot; olarak etiketlenen üç aşama.
          Her aşama farklı sayıda katman içerir: 1. Aşama 3 katman, 2. Aşama 6 katman ve 3. Aşama 12 katman içerir.
          1. Aşamanın 3 katmanı, 2. Aşamanın ilk 3 katmanı olur.
          Benzer şekilde, 2. Aşamanın 6 katmanı, 3. Aşamanın ilk 6 katmanı olur.

Ayrıca ardışık düzen konusuna bakın.

T

T5

#language

Google AI tarafından 2020'de kullanıma sunulan metin tabanlı aktarım öğrenme modeli. T5, Dönüştürücü mimarisine dayanan ve son derece büyük bir veri kümesiyle eğitilmiş bir kodlayıcı - kod çözücü modelidir. Metin oluşturma, dil çevirme ve soruları konuşmayla yanıtlama gibi çeşitli doğal dil işleme görevlerinde etkilidir.

T5, adını "Text-to-Text Transfer Transformer "daki beş T'den alır.

T5 kat

#language

Büyük ölçekli doğal dil işleme (NLP) modelleri oluşturmak ve eğitmek için tasarlanmış, açık kaynaklı bir makine öğrenimi çerçevesidir. T5, T5X kod tabanında uygulanır (JAX ve Flax üzerinde oluşturulur).

sıcaklık

#language
#image
#jeneratifAI

Bir model çıktısının rastgelelik derecesini kontrol eden bir hiperparametre. Yüksek sıcaklıklar rastgele çıkışa, düşük sıcaklıklar ise daha az rastgele çıkışa neden olur.

En iyi sıcaklığın seçilmesi, belirli bir uygulamaya ve model çıktısının istenen özelliklerine bağlıdır. Örneğin, reklam öğesi çıkışı oluşturan bir uygulama oluştururken sıcaklığı yükseltebilirsiniz. Buna karşılık, görüntü veya metni sınıflandıran bir model oluştururken modelin doğruluğunu ve tutarlılığını iyileştirmek için sıcaklığı büyük olasılıkla azaltırsınız.

Sıcaklık genellikle softmax ile kullanılır.

metin aralığı

#language

Dizi dizini, bir metin dizesinin belirli bir alt bölümüyle ilişkilendirilmiş. Örneğin, s="Be good now" Python dizesinde good kelimesi 3-6 arasındaki metni kaplar.

token

#language

Dil modelinde, modelin eğittiği ve tahminde bulunduğu atom birimi. Jeton genellikle aşağıdakilerden biridir:

  • Örneğin, "kediler gibi köpekler" kelime öbeği, üç kelime jetonundan oluşur: "köpekler", "beğen" ve "kediler".
  • Örneğin, "bisiklet balığı" kelime öbeği, dokuz karakter içeren bir jetondan oluşur. (Boş alanın jetonlardan biri olarak sayıldığını unutmayın.)
  • tek kelimeden oluşan tek bir jeton veya birden fazla jeton olabilir. Alt kelime bir kök kelime, ön ek veya son ekten oluşur. Örneğin, jeton olarak alt kelimeleri kullanan bir dil modeli, "köpekler" kelimesini iki jeton olarak ("kök" kelimesi ve "çoğul son ek") görüntüleyebilir. Aynı dil modeli, "uzun" kelimesini tek alt kelime olarak ("kök" kelimesi ve "er" son eki) görüntüleyebilir.

Dil modellerinin dışındaki alanlarda jetonlar, diğer atom birimi türlerini temsil edebilir. Örneğin, bilgisayar görüşünde jeton, bir resmin alt kümesi olabilir.

Transformatör

#language

Google'da geliştirilen bir nöral ağ mimarisi, bir dizi giriş yerleştirmeyi çevirilere veya yinelenen nöral ağlara bağlı olmadan bir dizi giriş yerleştirmesine dönüştürmek için kendine dikkat etme mekanizmalarını kullanır. Transformatörler, kendi kendine dikkat katmanlarıyla görüntülenebilir.

Transformatörler, aşağıdakilerden herhangi birini içerebilir:

Kodlayıcı, bir yerleşim dizisini aynı uzunluktaki yeni bir diziye dönüştürür. Kodlayıcıların her birinde iki alt katman bulunan N benzer katman. Bu iki alt katman, giriş yerleştirme dizisinin her konumunda uygulanır ve adım sırasının her bir öğesini yeni bir yerleştirmeye dönüştürür. İlk kodlayıcı alt katmanı, giriş dizisindeki bilgileri toplar. İkinci kodlayıcı alt katmanı, toplu bilgileri çıkış yerleştirmeye dönüştürür.

Kod çözücü, bir giriş yerleştirme dizisini muhtemelen farklı uzunlukta bir çıkış yerleştirme dizisine dönüştürür. Kod çözücü aynı zamanda, iki kodlayıcı alt katmanına benzer üç alt katman içeren N özdeş katman da içerir. Üçüncü kod çözücü alt katmanı, kodlayıcının çıkışını alır ve bilgi toplamak için kendi kendine dikkat mekanizmasını uygular.

Transformer: A New Nöral Network Architecture for Language Analysis (Dönüştürücü: Dil Anlama için Yeni Bir Nöral Ağ Mimarisi) başlıklı blog yayınında, Transformers'a iyi bir giriş yapılıyor.

trigram

#seq
#language

N=3 olan bir N-gram.

U

tek yönlü

#language

Yalnızca metnin hedef bölümünden öncesi olan metni değerlendiren bir sistem. Buna karşılık, çift yönlü bir sistem, metnin bir hedef bölümünden önce ve takip edilen metinleri değerlendirir. Daha fazla ayrıntı için çift yönlü makaleye bakın.

tek yönlü dil modeli

#language

Olasılıklarını hedef jetonlardan önce değil, önce görünen jetonları temel alan bir dil modeli. İki yönlü dil modeliyle zıtlık oluşturun.

V

değişken otomatik kodlayıcı (VAE)

#language

Girişlerin değiştirilmiş sürümlerini oluşturmak için giriş ve çıkışlar arasındaki tutarsızlıktan yararlanan bir otomatik kodlayıcı türü. Çeşitli otomatik kodlayıcılar genel AI için faydalıdır.

VAE'ler, varyasyon çıkarımına dayanır: olasılık modelinin parametrelerini tahmin etme tekniği.

W

kelime yerleştirme

#language

Her bir kelimeyi, yerleştirme vektörü içinde ayarlanmış bir kelimedeki temsili. Bu, her bir kelimeyi 0,0 ile 1,0 arasında bir kayan nokta değerinin vektörü olarak gösterir. Benzer anlamlara sahip kelimeler, farklı anlamlara sahip kelimelere kıyasla daha benzertir. Örneğin, havuç, piyasa ve salatalık temsilleri birbirine göre uçak, güneş gözlüğü ve diş macunu temsillerinden çok daha farklı olacaktır.

Z

şut yok

#language
#jeneratifAI

Büyük dil modelinin nasıl yanıt vereceğini gösteren bir örnek sağlamayan istem. Örneğin:

Tek bir istemenin bölümleri Notlar
Belirtilen ülkenin resmi para birimi nedir? LLM'nin yanıtlamasını istediğiniz soru.
Hindistan: Gerçek sorgu.

Büyük dil modeli, aşağıdakilerden herhangi biriyle yanıt verebilir:

  • Rupi
  • INR
  • Hint rupisi
  • Rupi
  • Hindistan rupisi

Tüm yanıtlar doğrudur, ancak belirli bir biçimi tercih edebilirsiniz.

Sıfır çekim istemi ile aşağıdaki terimleri karşılaştırın: