Introduction to Large Language Models

Apa itu model bahasa?

Model bahasa memperkirakan probabilitas token atau urutan token yang terjadi dalam urutan token yang lebih panjang. Token dapat berupa kata, subkata (subset kata), atau bahkan satu karakter.

Pertimbangkan kalimat berikut dan token yang mungkin melengkapinya:

When I hear rain on my roof, I _______ in my kitchen.

Model bahasa menentukan probabilitas berbagai token atau urutan token untuk melengkapi bagian kosong tersebut. Misalnya, tabel probabilitas berikut mengidentifikasi beberapa kemungkinan token dan probabilitasnya:

Probability Token
9,4% memasak sup
5,2% memanaskan ketel
3,6% meringkuk
2,5% tidur siang
2,2% santai

Dalam beberapa situasi, urutan token dapat berupa seluruh kalimat, paragraf, atau bahkan seluruh esai.

Aplikasi dapat menggunakan tabel probabilitas untuk membuat prediksi. Prediksi dapat berupa probabilitas tertinggi (misalnya, "masak sup") atau pilihan acak dari token yang memiliki probabilitas lebih besar dari nilai minimum tertentu.

Memperkirakan probabilitas pengisian bagian yang kosong dalam urutan teks dapat diperluas ke tugas yang lebih kompleks, termasuk:

  • Membuat teks.
  • Menerjemahkan teks dari satu bahasa ke bahasa lain.
  • Meringkas dokumen.

Dengan memodelkan pola statistik token, model bahasa modern mengembangkan representasi internal bahasa yang sangat canggih dan dapat menghasilkan bahasa yang masuk akal.

Model bahasa N-gram

N-gram adalah urutan kata yang diurutkan yang digunakan untuk membangun model bahasa, dengan N adalah jumlah kata dalam urutan. Misalnya, jika N adalah 2, N-gram disebut 2-gram (atau bigram); jika N adalah 5, N-gram disebut 5-gram. Mengingat frasa berikut dalam dokumen pelatihan:

you are very nice

2-gram yang dihasilkan adalah sebagai berikut:

  • Anda
  • sangat
  • bagus banget

Jika N adalah 3, N-gram disebut 3-gram (atau trigram). Dengan frasa yang sama, 3-gram yang dihasilkan adalah:

  • Anda sangat
  • sangat bagus

Dengan dua kata sebagai input, model bahasa berdasarkan 3-gram dapat memprediksi kemungkinan kata ketiga. Misalnya, dengan dua kata berikut:

orange is

Model bahasa memeriksa semua 3-gram berbeda yang berasal dari korpus pelatihannya yang dimulai dengan orange is untuk menentukan kata ketiga yang paling mungkin. Ratusan 3-gram dapat dimulai dengan dua kata orange is, tetapi Anda dapat berfokus hanya pada dua kemungkinan berikut:

orange is ripe
orange is cheerful

Kemungkinan pertama (orange is ripe) adalah tentang buah jeruk, sedangkan kemungkinan kedua (orange is cheerful) adalah tentang warna oranye.

Konteks

Manusia dapat mempertahankan konteks yang relatif panjang. Saat menonton Act 3 sebuah drama, Anda mempertahankan pengetahuan tentang karakter yang diperkenalkan di Act 1. Demikian pula, punchline dari lelucon panjang membuat Anda tertawa karena Anda dapat mengingat konteks dari penuturan lelucon tersebut.

Dalam model bahasa, konteks adalah informasi berguna sebelum atau setelah token target. Konteks dapat membantu model bahasa menentukan apakah "oranye" merujuk pada buah jeruk atau warna.

Konteks dapat membantu model bahasa membuat prediksi yang lebih baik, tetapi apakah 3-gram memberikan konteks yang memadai? Sayangnya, satu-satunya konteks yang diberikan 3-gram adalah dua kata pertama. Misalnya, dua kata orange is tidak memberikan konteks yang cukup bagi model bahasa untuk memprediksi kata ketiga. Karena kurangnya konteks, model bahasa yang didasarkan pada 3-gram membuat banyak kesalahan.

N-gram yang lebih panjang tentu akan memberikan lebih banyak konteks daripada N-gram yang lebih pendek. Namun, seiring bertambahnya N, kemunculan relatif setiap instance akan berkurang. Jika N menjadi sangat besar, model bahasa biasanya hanya memiliki satu instance dari setiap kemunculan N token, yang tidak terlalu membantu dalam memprediksi token target.

Jaringan neural berulang

Jaringan saraf berulang memberikan lebih banyak konteks daripada N-gram. Jaringan neural berulang adalah jenis jaringan neural yang dilatih pada urutan token. Misalnya, jaringan neural berulang dapat belajar secara bertahap (dan belajar untuk mengabaikan) konteks yang dipilih dari setiap kata dalam kalimat, seperti yang Anda lakukan saat mendengarkan seseorang berbicara. Jaringan saraf berulang yang besar dapat memperoleh konteks dari bagian yang terdiri dari beberapa kalimat.

Meskipun jaringan saraf berulang mempelajari lebih banyak konteks daripada N-gram, jumlah konteks berguna yang dapat dipahami jaringan saraf berulang masih relatif terbatas. Jaringan saraf berulang mengevaluasi informasi "token demi token". Sebaliknya, model bahasa besar—topik bagian berikutnya—dapat mengevaluasi seluruh konteks sekaligus.

Perhatikan bahwa pelatihan jaringan neural berulang untuk konteks yang panjang dibatasi oleh masalah gradien yang hilang.

Latihan: Periksa pemahaman Anda

Model bahasa mana yang membuat prediksi lebih baik untuk teks berbahasa Inggris?
  • Model bahasa berdasarkan 6-gram
  • Model bahasa berdasarkan 5-gram
Jawabannya bergantung pada ukuran dan keragaman set data pelatihan.
Jika set pelatihan mencakup jutaan dokumen yang beragam, maka model berdasarkan 6-gram kemungkinan akan mengungguli model berdasarkan 5-gram.
Model bahasa berdasarkan 6-gram.
Model bahasa ini memiliki lebih banyak konteks, tetapi kecuali jika model ini telah dilatih dengan banyak dokumen, sebagian besar 6-gram akan jarang terjadi.
Model bahasa berdasarkan 5-gram.
Model bahasa ini memiliki lebih sedikit konteks, sehingga kemungkinan tidak akan mengungguli model bahasa berbasis 6-gram.