Model Bahasa Besar

Apa itu model bahasa?

Model bahasa memperkirakan probabilitas token atau urutan token yang terjadi dalam urutan token yang lebih panjang. Token dapat berupa kata, subkata (subkumpulan kata), atau bahkan satu karakter.

Pertimbangkan kalimat berikut dan token yang mungkin melengkapinya:

When I hear rain on my roof, I _______ in my kitchen.

Model bahasa menentukan probabilitas token atau urutan token yang berbeda untuk melengkapi bagian yang kosong tersebut. Misalnya, tabel probabilitas mengidentifikasi beberapa kemungkinan token dan probabilitasnya:

Probability Token
9,4% memasak sup
5,2% memanaskan ketel
3,6% gemuk
2,5% tidur siang
2,2% santai

Dalam beberapa situasi, urutan token bisa berupa seluruh kalimat, paragraf, atau bahkan seluruh esai.

Aplikasi dapat menggunakan tabel probabilitas untuk membuat prediksi. Prediksi mungkin memiliki probabilitas tertinggi (misalnya, "masak sup") atau pilihan acak dari token yang memiliki probabilitas lebih besar dari suatu nilai minimum.

Memperkirakan probabilitas apa yang mengisi bagian yang kosong dalam urutan teks dapat diperluas ke tugas yang lebih kompleks, termasuk:

  • Membuat teks.
  • Menerjemahkan teks dari satu bahasa ke bahasa lain.
  • Meringkas dokumen.

Dengan membuat model pola statistik token, model bahasa modern mengembangkan representasi internal bahasa yang sangat canggih dan dapat menghasilkan bahasa yang masuk akal.

Model bahasa n-gram

N-gram adalah urutan kata yang diurutkan digunakan untuk membangun model bahasa, di mana N adalah jumlah kata dalam urutan. Misalnya, jika N adalah 2, N-gram disebut 2-gram (atau bigram); jika N adalah 5, N-gram disebut 5-gram. Mengingat frasa berikut dalam dokumen pelatihan:

you are very nice

2-gram yang dihasilkan adalah sebagai berikut:

  • Anda
  • sangat
  • bagus banget

Jika N adalah 3, N-gram disebut 3-gram (atau trigram). Dengan frase yang sama, 3 gram yang dihasilkan adalah:

  • kamu sangat
  • sangat bagus

Dengan dua kata sebagai input, model bahasa berdasar 3 gram dapat memprediksi kemungkinan dari kata ketiga. Misalnya, dengan dua kata berikut:

orange is

Model bahasa memeriksa semua 3-gram yang berbeda yang berasal dari korpus pelatihannya yang dimulai dengan orange is untuk menentukan kata ketiga yang paling mungkin. Ratusan 3 gram dapat diawali dengan dua kata orange is, tetapi Anda dapat hanya berfokus pada dua kemungkinan berikut:

orange is ripe
orange is cheerful

Kemungkinan pertama (orange is ripe) adalah tentang jeruk, sedangkan kemungkinan kedua (orange is cheerful) adalah tentang warna oranye.

Konteks

Manusia dapat mempertahankan konteks yang relatif panjang. Saat menonton Babak 3 sebuah drama, Anda akan mengingat pengetahuan tentang karakter yang diperkenalkan di Babak 1. Demikian pula, lelucon panjang membuat Anda tertawa karena Anda dapat mengingat konteksnya dari penyiapan lelucon.

Dalam model bahasa, konteks adalah informasi yang berguna sebelum atau setelah token target. Konteks dapat membantu model bahasa menentukan apakah "oranye" mengacu pada buah jeruk atau warna.

Konteks dapat membantu model bahasa membuat prediksi yang lebih baik, tetapi 3 gram memberikan konteks yang cukup? Sayangnya, satu-satunya konteks yang diberikan 3-gram adalah dua kata pertama. Misalnya, dua kata orange is tidak memberikan konteks yang cukup bagi model bahasa untuk memprediksi kata ketiga. Karena kurangnya konteks, model bahasa berdasarkan 3-gram membuat banyak kesalahan.

N-gram yang lebih panjang tentu akan memberikan lebih banyak konteks daripada N-gram yang lebih pendek. Namun, seiring bertambahnya N, kemunculan relatif setiap instance akan menurun. Ketika N menjadi sangat besar, model bahasa biasanya hanya memiliki satu instance dari setiap kemunculan token N, yang tidak terlalu membantu dengan memprediksi token target.

Jaringan saraf berulang

Jaringan neural berulang memberikan lebih banyak konteks daripada N-gram. Jaringan saraf berulang adalah jenis jaringan neural yang dilatih di yang merupakan urutan token. Misalnya, jaringan saraf berulang dapat secara bertahap mempelajari (dan belajar mengabaikan) konteks yang dipilih dari setiap kata dalam kalimat, seperti yang Anda lakukan ketika mendengarkan seseorang berbicara. Sebuah jaringan saraf berulang yang besar dapat memperoleh konteks dari beberapa yang sama.

Meskipun jaringan saraf berulang mempelajari lebih banyak konteks daripada N-gram, jumlah konteks berguna yang dapat diintuisi jaringan saraf berulang masih relatif terbatas. Jaringan saraf berulang mengevaluasi informasi "token demi token". Sebaliknya, model bahasa besar—topik bagian berikutnya—dapat mengevaluasi seluruh konteks sekaligus.

Perhatikan bahwa pelatihan jaringan saraf berulang untuk konteks panjang dibatasi oleh gradien yang menghilang masalah.

Latihan: Memeriksa pemahaman Anda

Model bahasa mana yang membuat prediksi yang lebih baik untuk teks bahasa Inggris?
  • Model bahasa berbasis 6 gram
  • Model bahasa berdasarkan 5-gram
Jawabannya bergantung pada ukuran dan keragaman set pelatihan.
Jika set pelatihan mencakup jutaan dokumen yang beragam, maka model berdasarkan 6-gram mungkin akan mengungguli model berdasarkan 5-gram.
Model bahasa berdasarkan 6 gram.
Model bahasa ini memiliki lebih banyak konteks, tetapi kecuali jika model ini telah dilatih dengan banyak dokumen, sebagian besar 6-gram akan jarang.
Model bahasa berdasarkan 5-gram.
Model bahasa ini memiliki konteks yang lebih sedikit, sehingga cenderung tidak mengungguli model bahasa berbasis 6 gram.