Dil modeli nedir?
Dil modeli bir jetonun olasılığını tahmin eder veya daha uzun bir simge dizisinde gerçekleşen jeton dizisidir. Jeton, bir kelime, alt kelime (bir kelimenin alt kümesi) veya tek bir karakter olabilir.
Aşağıdaki cümleyi ve bu cümleyi tamamlayabilecek jetonları düşünün:
When I hear rain on my roof, I _______ in my kitchen.
Dil modeli, farklı jetonların olasılıklarını veya jeton dizilerini gösterir. Örneğin, olasılık tablosu, bazı olası belirteçleri ve olasılıklarını tanımlar:
Probability | Jetonlar |
---|---|
%9,4 | çorba pişir |
%5,2 | Çaydanlığı ısıtma |
%3,6 | tente |
%2,5 | şekerleme yapmak |
%2,2 | rahatlama |
Bazı durumlarda, jeton dizisi bir cümlenin tamamı olabilir. bir cümleyi, hatta bir yazının tamamını bile kullanabilirsiniz.
Uygulamalar, tahmin yapmak için olasılık tablosunu kullanabilir. Tahmin, en yüksek olasılık (örneğin, "çorba pişir") veya belirli bir eşiğin üzerinde olasılığa sahip jetonlardan rastgele bir seçim olabilir.
Bir metin dizisinde boşluğu neyin dolduracağını tahmin etmek, aşağıdakiler de dahil olmak üzere daha karmaşık görevlere genişletilebilir:
- Metin oluşturuluyor.
- Metinleri bir dilden başka bir dile çevirme.
- Belgeleri özetleme.
Jetonların istatistiksel modellerini modelleyerek modern dil modelleri, dilin son derece güçlü dahili temsilleridir ve daha kolay olur.
N-gram dil modelleri
N-gramlar sıralı kelime dizileridir dil modelleri oluşturmak için kullanılır. Burada N, dizideki kelimelerin sayısıdır. Örneğin, N 2 olduğunda N-gram'a 2-gram (veya bigram) denir; N 5 olduğunda ise N-gram'a 5-gram denir. Bir eğitim belgesinde şu ifade yer alıyor:
you are very nice
Elde edilen 2 gramlar aşağıdaki gibidir:
- you are
- çok
- çok hoş
N değeri 3 olduğunda N-gram'a 3-gram (veya üçlü) adı verilir. Aynı ifade göz önüne alındığında elde edilen 3 gram:
- cidden çok şeysin
- çok kibarlar
Girdi olarak iki kelime kullanıldığında 3 gramlık bir dil modeli, olasılığına dikkat edin. Örneğin, aşağıdaki iki kelimeyi ele alalım:
orange is
Bir dil modeli, en olası üçüncü kelimeyi belirlemek için eğitim veri kümesinden türetilen ve orange is
ile başlayan tüm farklı 3'lüleri inceler.
Yüzlerce 3 gram orange is
iki kelimeyle başlayabilir
yalnızca aşağıdaki iki olasılığa odaklanın:
orange is ripe orange is cheerful
İlk olasılık (orange is ripe
), meyve olan portakal ile ilgilidir. İkinci olasılık (orange is cheerful
) ise turuncu renk ile ilgilidir.
Bağlam
İnsanlar görece uzun bağlamları saklayabilir. Bir oyunun 3. bölümünü izlerken 1. Yasa'da tanıtılan karakterlerle ilgili bilgileri elde edebilir. Benzer şekilde, uzun bir esprinin sonu sizi güldürür çünkü esprinin girişini hatırlayabilirsiniz.
Dil modellerinde bağlam, hedef jetondan önce veya sonra gelen yararlı bilgilerdir. Bağlam, dil modelinin "turuncu" olup olmadığını belirlemesine yardımcı olabilir. bir narenciye meyvesini veya rengini belirtir.
Bağlam, dil modelinin daha iyi tahminler yapmasına yardımcı olabilir ancak 3 gram yeterli bağlam sağlar mı? Maalesef 3 gramın sağladığı tek bağlam ilk iki kelimedir. Örneğin, orange is
iki kelimesi
dil modelinin üçüncü kelimeyi tahmin etmesi için yeterli bağlam sağlar.
Bağlam eksikliği nedeniyle 3 grama dayalı dil modelleri birçok hata yapabilir.
Daha uzun n-gramlar, kısa n-gramlara kıyasla kesinlikle daha fazla bağlam bilgisi sağlar. Bununla birlikte, N büyüdükçe her bir örneğin göreli sayısı azalır. N çok büyük hale geldiğinde, dil modelinde genellikle yalnızca tek bir tekrarlandığından emin olun. Bu örnek, hedef jetonu tahmin etmektir.
Yinelenen nöral ağlar
Yinelenen nöral ağlar daha fazla bağlam sağlar. Yinelenen sinir ağı, bir tür sinirsel ağ bir jeton dizisidir. Örneğin, yinelenen bir nöral ağ, seçilen bağlamı her kelimeden kademeli olarak öğrenebilir (ve göz ardı etmeyi öğrenebilir) dinleyiciler gibi bir cümle bile oluşturabilirsiniz. Tekrarlayan büyük bir nöral ağ, birkaç nöral ağ geçidinden bağlam elde edebilir cümledir.
Yinelemeli sinir ağları, N-gram'lardan daha fazla bağlam öğrense de yinelemeli sinir ağlarının sezgisel olarak anlayabileceği yararlı bağlam miktarı hâlâ nispeten sınırlıdır. Yinelenen sinir ağları, bilgileri "işarete göre" değerlendirir. Bunun aksine, büyük dil modelleri. bölümü—tüm bağlamı bir defada değerlendirebilir.
Uzun bağlamlar için yinelenen nöral ağ eğitmenin, kayan gradyan sorun oluşturun.
Alıştırma: Anladığınızdan emin olun
- 6 gramlı bir dil modeli
- 5 gramlara dayalı bir dil modeli