Makine Öğrenimi Sözlüğü: Dil Değerlendirmesi

Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

Bu sayfa Dil Değerlendirme sözlüğü terimlerini içerir. Tüm sözlük terimleri için burayı tıklayın.

A

ilgi

#language

Bir giriş kümesinden alınan bilgileri verilere bağlı olarak toplayan çok çeşitli nöral ağ mimarisi sistemleri. Tipik bir dikkat mekanizması, bir dizi giriş üzerinde ağırlıklı bir toplamdan oluşabilir. Burada her bir girişin ağırlığı, nöral ağın başka bir bölümü tarafından hesaplanır.

Dönüştürücüler'in yapı taşları olan kendi kendine dikkat çekme ve çok başlı kendine dikkat çekme konularını da inceleyin.

B

kelime paketi

#language

Kelimelerin, sıralamadan bağımsız olarak bir kelime öbeği veya pasajdaki gösterimi. Örneğin, çok sayıda kelime içeren kelime öbeği, özdeş bir şekilde aşağıdaki üç ifadeyi temsil eder:

  • köpek zıplar
  • köpeği zıplar
  • zıplayan köpek

Her kelime, sözlükteki her kelime için bir dizine sahip olan bir yerleşik vektör içindeki bir dizinle eşlenir. Örneğin, köpek atlama kelime öbeği, the, dog ve jump kelimesine karşılık gelen üç dizinde sıfır olmayan değerlere sahip bir özellik vektörüyle eşleştirilir. Sıfır olmayan değer aşağıdakilerden herhangi biri olabilir:

  • Bir kelimenin varlığını belirten 1.
  • Bir kelimenin çantada gösterilme sayısı. Örneğin, kelime öbeği pastane köpeğinin kürklü köpeği ise hem köşk hem de köpek 2 olarak, diğer kelimeler ise 1 olarak gösterilir.
  • Bir kelimenin çantada görünme sayısının logaritması gibi başka bir değer.

BERT (İki Noktalı Kodlayıcı Transformatörlerden Anlatım)

#language

Metin temsili için bir model mimari. Eğitimli BERT modeli, metin sınıflandırması veya diğer makine öğrenimi görevleri için daha büyük bir modelin bir parçası olarak kullanılabilir.

BERT aşağıdaki özelliklere sahiptir:

BERT’in varyantları şunlardır:

BERT'e genel bakış için Açık Kaynak Kullanımı: Açık Dil İşleme için Son Teknoloji Eğitimi sayfasını inceleyin.

Bigram

#seq
#language

N=2 olan N-gram.

iki yönlü

#language

Hedef metnin bir bölümünün öncesinde ve takip eden bir metni değerlendiren sistemi tanımlamak için kullanılan terim. Buna karşılık, tek yönlü bir sistem yalnızca metnin hedef bölümünden öncesi olan metni değerlendirir.

Örneğin, aşağıdaki soruda altı çizili olan kelime veya kelimelerin olasılığını belirlemesi gereken bir maskeli dil modeli düşünebilirsiniz:

Sizinle _____ nedir?

Tek yönlü dil modelinin olasılık alanlarını yalnızca "Ne", "ne" ve "ne" kelimelerinin sağladığı bağlama göre oluşturması gerekir. Buna karşılık, çift yönlü dil modeli, modelin "daha iyi" ve "siz"den bağlam da elde edebilir. Bu da modelin daha iyi tahminler oluşturmasına yardımcı olabilir.

çift yönlü dil modeli

#language

Metnin bir alıntıdaki belirli bir konumda bulunma olasılığını, önceki ve sonraki metne dayalı olarak belirleyen bir dil modeli.

BLEU (İki Dilli Değerlendirme Altında Çalışma)

#language

İki farklı dil (örneğin, İngilizce ve Rusça) arasındaki çevirilerin kalitesini gösteren, 0,0 ile 1,0 arasında bir puan. BLEU puanı 1,0 ise mükemmel çeviriyi, BLEU puanı 0,0 ise kötü çeviriyi belirtir.

C

nedensel dil modeli

#language

Tek yönlü dil modeli ile eş anlamlıdır.

Dil modellemesinde farklı yön yaklaşımlarını karşılaştırmak için çift yönlü dil modelini inceleyin.

kilitlenme çiçeği

#language

Belirsiz bir anlama sahip cümle veya kelime öbeği. Kilitlenme çiçekleri, doğal dil anlama konusunda önemli bir sorun oluşturur. Örneğin, Kırmızı Bantlar Gökdelenleri Tutuyor başlığı, bir NLU modeli başlığı bire bir veya gerçek olarak yorumlayabileceği için bir kırılma çiçeğidir.

G

kod çözücü

#language

Genel olarak, işlenmiş, yoğun veya dahili bir temsilden daha ham, az veya harici bir temsile dönüşen tüm makine öğrenimi sistemleri.

Kod çözücüler, genellikle daha büyük bir modelin bileşeni olup genellikle bir kodlayıcı ile eşleştirilir.

Adım sırası görevlerinde, kod çözücü, sonraki sırayı tahmin etmek için kodlayıcı tarafından oluşturulan dahili durumla başlar.

Transformatör mimarisindeki kod çözücünün tanımı için Dönüştürücü'ye bakın.

zahmetli

#language

Kendi kendine gözetimli öğrenim yaklaşımında yaygın olarak kullanılan yaklaşım:

  1. Gürültü, veri kümesine yapay olarak eklenir.
  2. Model gürültüyü kaldırmaya çalışır.

Ayırma, etiketlenmemiş örneklerden bilgi edinmeyi sağlar. Orijinal dataset, hedef veya label olarak, gürültülü veriler ise giriş olarak işlev görür.

Bazı maskelenmiş dil modelleri gürültü bozucuyu aşağıdaki gibi kullanır:

  1. Gürültü, jetonlardan bazılarını maskeleyerek etiketlenmemiş bir cümleye yapay bir şekilde eklenir.
  2. Model, orijinal jetonları tahmin etmeye çalışır.

E

katman yerleştir

#language
#fundamentals

Daha küçük boyutlu bir yerleştirme vektörünü kademeli olarak öğrenmek için yüksek boyutlu kategorik özellik eğitimi yapan özel bir gizli katman. Yerleştirme katmanı, nöral ağın yalnızca yüksek boyutlu kategorik özellik eğitimine kıyasla çok daha verimli bir şekilde eğitilmesini sağlar.

Örneğin, Earth şu anda yaklaşık 73.000 ağaç türünü desteklemektedir. Ağaç türlerinin modelinizdeki bir özellik olduğunu ve modelinizin giriş katmanının 73.000 öğe uzunluğunda tek bir vektör içerdiğini varsayalım. Örneğin, baobab şu şekilde temsil edilebilir:

73.000 öğeden oluşan dizi. İlk 6.232 öğe,0 değerini tutar. Sonraki öğe 1 değerini tutar. Son 66.767 öğe sıfır değerini tutar.

73.000 öğeli bir dizi çok uzundur. Modele bir yerleştirme katmanı eklemezseniz 72.999 sıfırın çarpımı nedeniyle eğitim çok zaman alır. Yerleştirme katmanını 12 boyuttan oluşan bir boyut seçerek Sonuç olarak, yerleştirme katmanı kademeli olarak her bir ağaç türü için yeni bir yerleştirme vektörü öğrenir.

Belirli durumlarda yerleştirme katmanına makul bir alternatif olarak karma oluşturma işlemi yapılabilir.

yerleştirme alanı

#language

Daha yüksek boyutlu bir vektör alanına sahip olan d boyutlu vektör alanı eşlenir. İdeal olarak, yerleştirme alanı, anlamlı matematiksel sonuçlar veren bir yapı içerir. Örneğin, ideal bir yerleştirme alanında, yerleştirmelerin eklenmesi ve çıkarılması, kelime benzerliği görevlerini çözebilir.

İki yerleştirmenin nokta ürünü, benzerliklerinin bir ölçüsüdür.

yerleşik vektör

#language

Genel olarak, herhangi bir gizli katmandan alınan kayan nokta sayıları dizisidir ve bu gizli katmana ait girişleri açıklar. Çoğunlukla bir yerleştirme vektörü, yerleştirme katmanında eğitilen kayan nokta sayılarından oluşan dizidir. Örneğin, bir yerleştirme katmanının Dünya'daki 73.000 ağaç türünün her biri için bir yerleştirme vektörü öğrenmesi gerektiğini varsayalım. Aşağıdaki dizi, bir baobab ağacının yerleştirme vektörü olabilir:

Her biri 0,0 ile 1,0 arasında bir kayan nokta numarası içeren 12 öğeli bir dizi.

Yerleştirme vektörü bir dizi rastgele sayı değildir. Bir yerleştirme katmanı, nöral ağın eğitim sırasında diğer ağırlıkları öğrenmesine benzer şekilde, eğitim yoluyla bu değerleri belirler. Dizideki her öğe, ağaç türlerinin bazı özellikleri boyunca bir puana sahiptir. Hangi öğe hangi ağaç türünü temsil eder? İnsanların bunu belirlemesi çok zor.

Bir yerleştirme vektörünün matematiksel açıdan dikkate değer bir kısmı, benzer öğelerin benzer kayan kayan sayı kümelerine sahip olmasıdır. Örneğin, benzer ağaç türleri, farklı ağaç türlerinden daha benzer bir kayan nokta sayılarına sahiptir. Kızılçamlar ve sekoyalar ilgili ağaç türleridir. Bu yüzden, kayan ağaçlar ve hindistan cevizi ağaçlarından daha çok sayıda kayan nokta gösterilir. Yerleştirme vektöründeki sayılar, modeli aynı girişle yeniden eğitseniz bile, modeli yeniden eğittiğiniz her seferde değişir.

kodlayıcı

#language

Genel olarak, ham, seyrek veya harici temsilden daha işlenmiş, yoğun veya dahili bir temsile dönüşen tüm makine öğrenimi sistemleri.

Kodlayıcılar, genellikle daha büyük bir modelin bileşeni olup genellikle bir kod çözücü ile eşleştirilir. Bazı Dönüştürücüler, kodlayıcıları kod çözücülerle eşleştirirken diğer Transformatörler yalnızca kodlayıcıyı veya kod çözücüyü kullanır.

Bazı sistemler, kodlayıcı çıkışını bir sınıflandırma veya regresyon ağına giriş olarak kullanır.

Adım sırası görevlerinde, kodlayıcı bir giriş sırası alır ve dahili bir durum (vektör) döndürür. Ardından, kod çözücü sonraki sırayı tahmin etmek için bu dahili durumu kullanır.

Transformatör mimarisinde kodlayıcının tanımı için Dönüştürücü'ye bakın.

Y

GPT (Önceden oluşturulmuş, Eğitimli Dönüştürücü)

#language

OpenAI tarafından geliştirilen, Transformer tabanlı büyük dil modelleri ailesidir.

GPT varyantları, aşağıdakiler dahil birden fazla kalite için geçerli olabilir:

  • resim oluşturma (örneğin, ImageGPT)
  • metinden resim oluşturmayı (örneğin, DALL-E) içerir.

L

LaMDA (Diyalog Uygulamaları İçin Dil Modeli)

#language

Google tarafından geliştirilen Transformatör tabanlı büyük dil modeli, gerçekçi konuşma yanıtları oluşturabilen büyük bir diyalog veri kümesi üzerinde eğitildi.

LaMDA: Çığır açan görüşme teknolojimiz genel bir bakış sunar.

dil modeli

#language

Jetonun veya daha uzun bir jeton dizisi sırasındaki olasılığını tahmin eden model

büyük dil modeli

#language

Katı bir tanımı olmayan ve genellikle çok sayıda parametreye sahip olan dil modeli anlamına gelen gayri resmi bir terim. Bazı büyük dil modelleri, 100 milyardan fazla parametre içerir.

A

maskeli dil modeli

#language

Aday jetonlarının bir dizideki boşlukları doldurma olasılığını tahmin eden bir dil modeli. Örneğin, maskelenmiş bir dil modeli, aşağıdaki cümlenin altının yerine geçecek aday kelime için olasılıkları hesaplayabilir:

Şapkadaki ____ geri döndü.

Edebiyatta genellikle alt çizgi yerine "MAŞE" dizesi kullanılır. Örneğin:

Şapkadaki "MAMA" geri döndü.

Modern maskeli dil modellerinin çoğu çift yönlüdür.

meta öğrenme

#language

Bir öğrenme algoritmasını keşfeden veya iyileştiren makine öğreniminin bir alt kümesi. Bir meta öğrenme sistemi de bir modeli, az miktarda veriden veya önceki görevlerde edinilen deneyimden yeni bir görevi hızlıca öğrenmeyi amaçlayabilir. Meta öğrenme algoritmaları genellikle aşağıdakileri elde etmeye çalışır:

  • Elle tasarlanan özellikleri (ör. başlatıcı veya optimize edici) iyileştirin/öğrenin.
  • Daha verimli ve bilgi işlem açısından verimli olun.
  • Genelleştirmeyi iyileştirin.

Meta öğrenimi birkaç çekimde eğitimle ilgilidir.

yöntem

#language

Üst düzey veri kategorisi. Örneğin sayılar, metin, resimler, videolar ve sesler farklı beş moddur.

model paralellik

#language

Bir modelin farklı bölümlerini farklı cihazlara yerleştiren eğitim veya çıkarım yöntemlerinin ölçeklendirilmesi. Model paralelliği, tek bir cihaza sığmayacak kadar büyük modellerin kullanılmasını sağlar.

Ayrıca veri paralelliği konusunu da inceleyin.

çok başlı kendine dikkat

#language

Giriş dizisindeki her pozisyon için kendine dikkat mekanizmasını birden çok kez uygulayan kendine dikkat etme uzantısı.

Transformatörler, çok yönlü kendi kendine dikkat çekmeyi amaçlıyor.

çok modlu model

#language

Girişleri ve/veya çıkışları birden fazla uygunluk içeren bir model. Örneğin, özellikler olarak hem resim hem de metin altyazısı (iki mod) alan bir modeli düşünün ve metin altyazısının resim için ne kadar uygun olduğunu gösteren bir puan elde edin. Dolayısıyla, bu modelin girişleri çok modlu ve çıkış çok şık.

H

doğal dil anlama

#language

Kullanıcının yazdıkları veya söylediklerine göre niyeti belirleme. Örneğin, bir arama motoru kullanıcının yazdığı veya söylediğine göre kullanıcının ne aradığını belirlemek için doğal dil anlama özelliğini kullanır.

N-gram

#seq
#language

N kelimeden oluşan sıralı bir dizi. Örneğin, gerçekten çılgın 2 gram şeklindedir. Alakalı bir sipariş olduğundan çok kızgın olmak, çılgınlıktan farklı bir 2 gramdır.

H Bu N-gram türünün adları Örnekler
2 Bigram veya 2 gram git, git, öğle yemeği, akşam yemeği
3 trigram veya 3 gram çok fazla yemiş, üç kör fare, zil ücreti
4 4 gram parkta yürüyüş, rüzgarda toz, mercimek yiyen çocuk

Birçok doğal dil anlama modeli, kullanıcının yazacağı veya söyleyeceği bir sonraki kelimeyi tahmin etmek için N-gram'ları kullanır. Örneğin, bir kullanıcının üçüncü kör yazdığını varsayalım. TRigramları temel alan bir NLU modeli, büyük olasılıkla kullanıcının mikrofon yazacağını öngörür.

N-gramları kontrastsız kelime grupları olan kelime paketi ile karşılaştırın.

NLU

#language

Doğal dil anlama teriminin kısaltması.

P

ardışık düzen

#language

Bir modelin işlenmesinin sonraki aşamalara bölündüğü ve her aşamanın farklı bir cihazda yürütüldüğü bir model paralellik biçimi. Aşama bir grubu işlerken, önceki aşama bir sonraki grupta çalışabilir.

Hazırlanan eğitimleri de inceleyin.

C

kişisel bakım katmanı (kendi kendine dikkat etme katmanı olarak da bilinir)

#language

Bir yerleşim yerleştirme sırasını (örneğin, jeton yerleştirmeleri) başka bir yerleştirme sırasına dönüştüren nöral ağ katmanı. Çıkış dizisindeki her yerleştirme, giriş dizisinin öğelerindeki bilgiler bir dikkat mekanizması aracılığıyla entegre edilerek oluşturulur.

Kendine dikkat etme özelliğinin kendisi kısmı, başka bir bağlam değil, kendi kendini gösteren diziyi ifade eder. Kendine odaklanma, Transformers için temel yapı taşlarından biridir ve "query", "key" ve "value" gibi sözlük arama terminolojisini kullanır.

Kendine dikkat etme katmanı, her kelime için bir giriş olacak şekilde bir dizi girişle başlar. Bir kelimenin giriş temsili basit bir yerleştirme olabilir. Ağ, bir giriş dizisindeki her kelime için kelimenin tüm kelime dizisindeki her bir öğeyle alaka düzeyini puanlar. Alaka düzeyi puanları, kelimenin nihai temsilinin diğer kelimelerin temsillerini ne ölçüde içerdiğini belirler.

Örneğin, aşağıdaki cümleyi göz önünde bulundurun:

Hayvan çok yorgun olduğu için sokağı geçemedi.

Aşağıdaki görselde (Transformer: A New Nural Network Architecture for Language Language) kendi zamiri için dikkat çekme katmanı gösterilmektedir. Her bir satırın koyuluğu, her kelimenin temsile ne kadar katkıda bulunduğunu göstermektedir:

Şu cümle iki kez görünüyor: 'Hayvan çok yorgun olduğu için sokağı geçemedi.'  Çizgiler, bir cümlede 'it' kelimesini bir cümlede beş jetona ('The', 'animal', 'street', 'it' ve nokta) bağlar.  'it' ile 'animal' arasındaki en güçlü çizgi.

Kendine dikkat etme katmanı, "kendisiyle" alakalı kelimeleri vurgular. Bu örnekte dikkat katmanı, hayvana en yüksek ağırlığı atayarak kendisinden bahsedebileceği kelimeleri öne çıkarmayı öğrendi.

Reklam dizisi, n jeton dizisi için dizideki her konumda bir kez olmak üzere, n sayıda yerleştirmeyi farklı kez dönüştürür.

Dikkat çekme ve kendi kendine dikkat çekme konularını da inceleyin.

yaklaşım analizi

#language

Bir hizmete, ürüne, kuruluşa veya konuya yönelik bir grubun genel olarak olumlu ya da olumsuz tavrını belirlemek için istatistiksel veya makine öğrenimi algoritmaları kullanma. Örneğin bir algoritma, doğal dil anlama özelliğini kullanarak üniversite kursundaki yazılı geri bildirimle ilgili duygu analizi yaparak öğrencilerin kursu genel olarak ne kadar beğendiğini veya beğenmediğini belirleyebilir.

adım sırası görevi

#language

Jeton giriş dizisini jetonların çıkış sırasına dönüştüren bir görevdir. Örneğin, adım sıradan oluşan iki popüler görev türü:

  • Çevirmenler:
    • Örnek giriş sırası: "Seni seviyorum".
    • Örnek çıkış dizisi: "Je t'aime."
  • Soru yanıtlanıyor:
    • Örnek giriş sırası: &"New York'ta arabama ihtiyacım var mı?"
    • Örnek çıkış sırası: &"Hayır. Lütfen arabanızı evde tutun."

seyrek özellik

#language
#fundamentals

Değerleri ağırlıklı olarak sıfır veya boş olan bir özellik. Örneğin, tek bir 1 değer ve bir milyon 0 değer içeren bir özellik yedeklidir. Buna karşılık, yoğun özellik çoğunlukla sıfır veya boş olmayan değerlere sahiptir.

Makine öğreniminde şaşırtıcı sayıda özellik az bulunur. Kategorik özellikler genellikle az bulunan özelliklerdir. Örneğin, ormandaki 300 ağaç türünden yalnızca tek bir örnek sadece bir akçaağaç olduğunu gösterebilir. Bir video kitaplığındaki milyonlarca olası videodan sadece biri "Kazablanka"yı tanımlayabilir.

Bir modelde genellikle seyrek özellikleri tek bir sıcak kodlamayla temsil edersiniz. Tek sıcak kodlama büyükse daha yüksek verimlilik için tek bir kodlamanın üst kısmına bir yerleştirme katmanı yerleştirebilirsiniz.

seyrek temsil

#language
#fundamentals

Az bulunan bir özellikte yalnızca sıfır olmayan öğelerin konumlarını depolama.

Örneğin, species adlı bir kategori özelliğinin belirli bir ormandaki 36 ağaç türünü tanımladığını varsayalım. Ayrıca, her bir örnekte yalnızca tek bir türün tanımlandığını varsayalım.

Her örnekte ağaç türlerini temsil eden tek bir vektör vektörü kullanabilirsiniz. Tek görüntülerden oluşan bir vektör, tek bir 1 (bu örnekteki belirli ağaç türlerini temsil eder) ve 35 0 (bu örnekte değil, 35 ağaç türünü temsil eder) içerir. Dolayısıyla, maple'in tek sıcak noktası aşağıdaki gibi görünebilir:

0 ile 23 arası konumların 0, 24 ve 1 değerlerinin olduğu, 25 ile 35 arası konumların ise 0 değerini taşıdığı bir vektör.

Alternatif olarak, seyrek semboller yalnızca belirli türlerin konumunu tanımlar. maple, 24. konumdaysa seyrek görülen maple ifadesi şu şekilde olacaktır:

24

Seyrek temsilin tek resimden çok daha kompakt olduğuna dikkat edin.

aşamalı eğitim

#language

Bir modeli farklı aşamalar sırasına göre eğitme taktiği. Hedef, eğitim sürecini hızlandırmak veya daha iyi model kalitesine ulaşmak olabilir.

Progresif yığın oluşturma yaklaşımı aşağıda gösterilmiştir:

  • 1. Aşama 3 gizli katman, 2. aşama 6 gizli katman ve 3. aşama 12 gizli katman içerir.
  • 2. Aşama, 1. Aşamanın 3 gizli katmanında öğrenilen ağırlıklarla eğitime başlar. 3. Aşama, 2. Aşamanın 6 gizli katmanında öğrenilen ağırlıklarla eğitime başlar.

Üç aşama ('1. Aşama', '2. Aşama' ve #39;3. Aşama' etiketli.
          Her aşama farklı sayıda katman içerir: 1. Aşama 3 katman, 2. Aşama 6 katman ve 3. Aşama 12 katman içerir.
          1. Aşamanın 3 katmanı, 2. Aşamanın ilk 3 katmanı olur.
          Benzer şekilde, 2. Aşamanın 6 katmanı, 3. Aşamanın ilk 6 katmanı olur.

Ayrıca, ardışık düzen konusuna bakın.

T

token

#language

Dil modelinde modelin eğittiği ve tahminde bulunduğu atom birimi. Jeton genellikle aşağıdakilerden biridir:

  • bir kelime (örneğin, "kedi gibi köpekler" kelime öbeği) şu üç kelimeden oluşur: "köpekler", "benzeri" ve "kediler".
  • Örneğin, “bisiklet balığı” kelime öbeği, dokuz karakterli jetonlardan oluşur. (Boş alanın jetonlardan biri olarak sayıldığını unutmayın.)
  • alt kelime. Burada tek bir kelime tek bir jeton veya birden fazla jeton olabilir. Alt kelime bir kök kelime, bir ön ek veya bir son ekten oluşur. Örneğin, jeton olarak alt kelimeleri kullanan bir dil modeli, "köpek" kelimesini iki jeton olarak (kök kelime "köpek" ve çoğul son ek "") kullanabilir. Aynı dil modeli, "uzun" kelimesini iki alt kelime olarak (kök kelime "uzun" ve "son" kelime öbeği) görüntüleyebilir.

Dil modellerinin dışındaki alanlarda jetonlar, diğer atom birimi türlerini temsil edebilir. Örneğin, bilgisayar görüşünde jeton, bir resmin alt kümesi olabilir.

Transformatör

#language

Google'da geliştirilen nöral ağ mimarisi, kullanılan bir dizi yerleştirme yerleştirmesini evrimlere veya yinelenen nöral ağlara bağlı olmadan çıkış yerleştirmeleri sırasına dönüştürür. Transformatörler, kendi kendine dikkat eden katman katmanları olarak görülebilir.

Transformatör aşağıdakilerden herhangi birini içerebilir:

Kodlayıcı, bir dizi yerleşimi aynı uzunluktaki yeni bir diziye dönüştürür. Kodlayıcıda N adet aynı katman bulunur ve her iki katman iki alt katman içerir. Bu iki alt katman, giriş yerleştirme sırasının her bir konumuna uygulanır ve dizinin her öğesini yeni bir yerleştirmeye dönüştürür. İlk kodlayıcı alt katmanı, giriş dizisindeki bilgileri toplar. İkinci kodlayıcı alt katmanı, toplanan bilgileri çıkış yerleştirmeye dönüştürür.

Kod çözücü, giriş yerleştirme dizisini, muhtemelen farklı uzunlukta olan bir çıkış yerleştirme dizisine dönüştürür. Kod çözücü ayrıca, iki kodlayıcı alt katmanına benzer üç alt katman içeren N özdeş katman içerir. Üçüncü kod çözücü alt katmanı, kodlayıcının çıkışını alır ve ondan bilgi toplamak için kendi kendine dikkat çekme mekanizmasını uygular.

Transformer: A New Nural Network Architecture for Language Language (Transformer: Dil Öğrenme İçin Yeni Bir Nöral Ağ Mimarisi) başlıklı blog yayınında, Transformers ile ilgili iyi bir giriş bölümü var.

trigram

#seq
#language

N=3'te bir N-gram.

U

tek yönlü

#language

Yalnızca metnin hedef bölümünden önce alınan metni değerlendiren bir sistem. Buna karşılık, çift yönlü sistem, metnin bir hedef bölümünden önce ve takip eden metinleri değerlendirir. Daha fazla bilgi için çift yönlü konusuna bakın.

tek yönlü dil modeli

#language

Olasılıklarını hedef jetonlar yerine yalnızca önce görünen, ardından gösterilen jetonlara dayalı dil modeli. İki yönlü dil modeliyle kontrast oluşturun.

W

kelime yerleştirme

#language

Her bir kelimeyi, yerleştirme vektörü içinde yer alan bir kelimedeki temsil etme; diğer bir deyişle, her bir kelimeyi 0,0 ile 1,0 arasında kayan nokta değerlerinin vektörü olarak temsil etme. Benzer anlama sahip kelimeler, farklı anlamlara sahip kelimelere göre daha benzer ifadelere sahiptir. Örneğin, havuç, kereviz ve salatalık türlerinin tümü, birbirine benzer temsillere sahiptir. Bu da uçak, güneş gözlüğü ve diş macunu gösterimlerinden çok farklı olacaktır.