Halaman ini diterjemahkan oleh Cloud Translation API.

LLM: Apa itu model bahasa besar (LLM)?

Teknologi yang lebih baru, model bahasa besar (LLM) memprediksi token atau urutan token, terkadang beberapa paragraf token yang diprediksi. Ingatlah bahwa token dapat berupa kata, subkata (subset dari kata), atau bahkan satu karakter. LLM membuat prediksi yang jauh lebih baik daripada model bahasa N-gram atau jaringan neural berulang karena:

LLM berisi parameter yang jauh lebih banyak daripada model berulang.
LLM mengumpulkan lebih banyak konteks.

Bagian ini memperkenalkan arsitektur yang paling berhasil dan banyak digunakan untuk membangun LLM: Transformer.

Apa itu Transformer?

Transformer adalah arsitektur canggih untuk berbagai aplikasi model bahasa, seperti terjemahan:

Gambar 1. Inputnya adalah: I am a good dog. Penerjemah berbasis Transformer mengubah input tersebut menjadi output: Je suis un bon chien, yang merupakan kalimat yang sama yang diterjemahkan ke dalam bahasa Prancis. — **Gambar 1.** Aplikasi berbasis Transformer yang menerjemahkan dari bahasa Inggris ke bahasa Prancis.

Transformer lengkap terdiri dari encoder dan decoder:

Encoder mengonversi teks input menjadi representasi perantara. Encoder adalah jaringan neural yang sangat besar.
Dekoder mengonversi representasi perantara tersebut menjadi teks yang berguna. Decoder juga merupakan jaringan neural yang sangat besar.

Misalnya, di penerjemah:

Encoder memproses teks input (misalnya, kalimat bahasa Inggris) menjadi beberapa representasi perantara.
Decoder mengonversi representasi perantara tersebut menjadi teks output (misalnya, kalimat bahasa Prancis yang setara).

Gambar 2. Penerjemah berbasis Transformer dimulai dengan encoder,
yang menghasilkan representasi menengah dari kalimat
bahasa Inggris. Decoder mengonversi representasi perantara tersebut menjadi
kalimat output dalam bahasa Prancis. — **Gambar 2.** Transformer lengkap berisi encoder dan decoder.

Klik ikon untuk mempelajari lebih lanjut Transformer parsial.

Modul ini berfokus pada Transformer lengkap, yang berisi encoder dan decoder; namun, arsitektur khusus encoder dan khusus decoder juga ada:

Arsitektur khusus encoder memetakan teks input ke representasi perantara (sering kali, lapisan embedding). Kasus penggunaan untuk arsitektur khusus encoder meliputi:
- Memprediksi token apa pun dalam urutan input (yang merupakan peran konvensional model bahasa).
- Membuat penyematan yang canggih, yang dapat berfungsi sebagai input untuk sistem lain, seperti pengklasifikasi.
Arsitektur khusus dekoder menghasilkan token baru dari teks yang sudah dihasilkan. Model khusus decoder biasanya unggul dalam membuat urutan; model khusus decoder modern dapat menggunakan kemampuan pembuatannya untuk membuat kelanjutan dari histori dialog dan perintah lainnya.

Apa itu self-attention?

Untuk meningkatkan konteks, Transformer sangat mengandalkan konsep yang disebut self-attention. Secara efektif, atas nama setiap token input, self-attention mengajukan pertanyaan berikut:

"Seberapa besar pengaruh setiap token input lainnya terhadap interpretasi token ini?"

"Self" dalam "self-attention" merujuk pada urutan input. Beberapa mekanisme perhatian menimbang hubungan token input dengan token dalam urutan output seperti terjemahan atau dengan token dalam urutan lain. Namun, self-attention hanya menimbang pentingnya hubungan antara token dalam urutan input.

Untuk menyederhanakan, asumsikan bahwa setiap token adalah kata dan konteks lengkapnya hanya satu kalimat. Pertimbangkan kalimat berikut:

The animal didn't cross the street because it was too tired.

Kalimat sebelumnya berisi sebelas kata. Setiap dari sebelas kata tersebut memperhatikan sepuluh kata lainnya, bertanya-tanya seberapa penting setiap dari sepuluh kata tersebut bagi dirinya sendiri. Misalnya, perhatikan bahwa kalimat tersebut berisi kata ganti it. Pronomina sering kali ambigu. Kata ganti it biasanya merujuk pada kata benda atau frasa nomina baru-baru ini, tetapi dalam contoh kalimat, kata benda mana yang dirujuk oleh it—hewan atau jalan?

Mekanisme self-attention menentukan relevansi setiap kata di dekatnya dengan kata ganti it. Gambar 3 menunjukkan hasilnya—makin biru garisnya, makin penting kata tersebut bagi kata ganti it. Artinya, animal lebih penting daripada street untuk kata ganti it.

Gambar 3. Relevansi setiap dari sebelas kata dalam kalimat:
'The animal didn't cross the street because it was too tired'
dengan kata ganti 'it'. Kata 'animal' (hewan) paling relevan dengan
kata ganti 'it' (ia). — **Gambar 3.** Self-attention untuk kata ganti it. Dari Transformer: A Novel Neural Network Architecture for Language Understanding.

Sebaliknya, misalkan kata terakhir dalam kalimat berubah sebagai berikut:

The animal didn't cross the street because it was too wide.

Dalam kalimat yang direvisi ini, self-attention diharapkan akan menilai jalan sebagai lebih relevan daripada hewan dengan kata ganti itu.

Beberapa mekanisme perhatian mandiri bersifat bidireksional, yang berarti mekanisme tersebut menghitung skor relevansi untuk token sebelum dan setelah kata yang diperhatikan. Misalnya, pada Gambar 3, perhatikan bahwa kata-kata di kedua sisi kata tersebut diperiksa. Jadi, mekanisme self-attention dua arah dapat mengumpulkan konteks dari kata-kata di kedua sisi kata yang sedang diperhatikan. Sebaliknya, mekanisme self-attention satu arah hanya dapat mengumpulkan konteks dari kata-kata di satu sisi kata yang sedang diperhatikan. Self-attention dua arah sangat berguna untuk membuat representasi seluruh urutan, sementara aplikasi yang membuat urutan token demi token memerlukan self-attention satu arah. Oleh karena itu, encoder menggunakan self-attention dua arah, sedangkan dekoder menggunakan satu arah.

Apa yang dimaksud dengan self-attention multi-layer multi-head?

Setiap lapisan self-attention biasanya terdiri dari beberapa kepala self-attention. Output lapisan adalah operasi matematika (misalnya, rata-rata berbobot atau produk titik) dari output head yang berbeda.

Karena parameter setiap head diinisialisasi ke nilai acak, head yang berbeda dapat mempelajari hubungan yang berbeda antara setiap kata yang diperhatikan dan kata-kata di sekitarnya. Misalnya, head self-attention yang dijelaskan di bagian sebelumnya berfokus pada penentuan kata benda mana yang dirujuk oleh kata ganti it. Namun, head self-attention lainnya dalam lapisan yang sama dapat mempelajari relevansi gramatikal setiap kata dengan setiap kata lainnya, atau mempelajari interaksi lainnya.

Model transformer lengkap menumpuk beberapa lapisan self-attention di atas satu sama lain. Output dari lapisan sebelumnya menjadi input untuk lapisan berikutnya. Penumpukan ini memungkinkan model membangun pemahaman teks yang semakin kompleks dan abstrak secara progresif. Meskipun lapisan sebelumnya mungkin berfokus pada sintaksis dasar, lapisan yang lebih dalam dapat mengintegrasikan informasi tersebut untuk memahami konsep yang lebih bernuansa seperti sentimen, konteks, dan hubungan tematik di seluruh input.

Klik ikon untuk mempelajari Big O untuk LLM.

Self-attention memaksa setiap kata dalam konteks untuk mempelajari relevansi semua kata lain dalam konteks. Jadi, kita mungkin tergoda untuk menyatakan bahwa ini adalah masalah O(N²), dengan:

N adalah jumlah token dalam konteks.

Seolah-olah Big O sebelumnya tidak cukup mengganggu, Transformer berisi beberapa lapisan self-attention dan beberapa head self-attention per lapisan self-attention, jadi Big O sebenarnya adalah:

O(N² · S · D)

dalam hal ini:

S adalah jumlah lapisan self-attention.
D adalah jumlah head per lapisan.

Klik ikon untuk mempelajari lebih lanjut cara LLM dilatih.

Anda mungkin tidak akan pernah melatih LLM dari nol. Melatih LLM tingkat industri memerlukan keahlian ML, resource komputasi, dan waktu yang sangat besar. Terlepas dari itu, Anda mengklik ikon untuk mempelajari lebih lanjut, jadi kami harus memberikan penjelasan.

Bahan utama dalam membangun LLM adalah data pelatihan (teks) dalam jumlah yang sangat besar, biasanya telah disaring. Fase pertama pelatihan biasanya berupa unsupervised learning pada data pelatihan tersebut. Secara khusus, model dilatih dengan prediksi yang di-masking, yang berarti token tertentu dalam data pelatihan disembunyikan dengan sengaja. Model dilatih dengan mencoba memprediksi token yang hilang tersebut. Misalnya, asumsikan kalimat berikut adalah bagian dari data pelatihan:

The residents of the sleepy town weren't prepared for what came next.

Token acak dihapus, misalnya:

The ___ of the sleepy town weren't prepared for ___ came next.

LLM hanyalah jaringan saraf, sehingga kerugian (jumlah token bertopeng yang dianggap benar oleh model) memandu tingkat pembaruan nilai parameter propagasi mundur.

Model berbasis Transformer yang dilatih untuk memprediksi data yang hilang secara bertahap belajar mendeteksi pola dan struktur tingkat tinggi dalam data untuk mendapatkan petunjuk tentang token yang hilang. Perhatikan contoh instance yang disamarkan berikut:

Oranges are traditionally ___ by hand. Once clipped from a tree, __ don't ripen.

Pelatihan ekstensif pada sejumlah besar contoh yang di-masking memungkinkan LLM mempelajari bahwa "memanen" atau "memetik" adalah kecocokan dengan probabilitas tinggi untuk token pertama dan "jeruk" atau "mereka" adalah pilihan yang baik untuk token kedua.

Langkah pelatihan lebih lanjut opsional yang disebut penyesuaian petunjuk dapat meningkatkan kemampuan LLM dalam mengikuti petunjuk.

Mengapa Transformer begitu besar?

Transformer berisi ratusan miliar atau bahkan triliunan parameter. Kursus ini umumnya merekomendasikan pembuatan model dengan jumlah parameter yang lebih kecil daripada model dengan jumlah parameter yang lebih besar. Bagaimanapun juga, model dengan jumlah parameter yang lebih kecil menggunakan lebih sedikit resource untuk membuat prediksi daripada model dengan jumlah parameter yang lebih besar. Namun, riset menunjukkan bahwa Transformer dengan lebih banyak parameter secara konsisten mengungguli Transformer dengan lebih sedikit parameter.

Namun, bagaimana cara LLM membuat teks?

Anda telah melihat cara peneliti melatih LLM untuk memprediksi satu atau dua kata yang hilang, dan Anda mungkin tidak terkesan. Bagaimanapun, memprediksi satu atau dua kata pada dasarnya adalah fitur pelengkapan otomatis yang ada di berbagai software teks, email, dan penulisan. Anda mungkin bertanya-tanya bagaimana LLM dapat membuat kalimat atau paragraf atau haiku tentang arbitrase.

Faktanya, LLM pada dasarnya adalah mekanisme pelengkapan otomatis yang dapat secara otomatis memprediksi (melengkapi) ribuan token. Misalnya, pertimbangkan kalimat yang diikuti dengan kalimat yang disamarkan:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

LLM dapat menghasilkan probabilitas untuk kalimat yang di-masking, termasuk:

Probability	Kata
3,1%	Misalnya, dia bisa duduk, diam, dan berguling.
2,9%	Misalnya, dia tahu cara duduk, diam, dan berguling.

LLM yang cukup besar dapat menghasilkan probabilitas untuk paragraf dan seluruh esai. Anda dapat menganggap pertanyaan pengguna kepada LLM sebagai kalimat "yang diberikan" yang diikuti dengan mask imajiner. Contoh:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM menghasilkan probabilitas untuk berbagai kemungkinan respons.

Sebagai contoh lain, LLM yang dilatih dengan sejumlah besar "soal cerita" matematika dapat terlihat melakukan penalaran matematika yang canggih. Namun, LLM tersebut pada dasarnya hanya melengkapi otomatis perintah soal kata.

Manfaat LLM

LLM dapat menghasilkan teks yang jelas dan mudah dipahami untuk berbagai target audiens. LLM dapat membuat prediksi pada tugas yang secara eksplisit dilatih untuk tugas tersebut. Beberapa peneliti mengklaim bahwa LLM juga dapat membuat prediksi untuk input yang tidak dilatih secara eksplisit, tetapi peneliti lain telah membantah klaim ini.

Masalah terkait LLM

Melatih LLM menimbulkan banyak masalah, termasuk:

Mengumpulkan set pelatihan yang sangat besar.
Menggunakan beberapa bulan dan resource komputasi serta listrik yang sangat besar.
Menyelesaikan tantangan paralelisme.

Menggunakan LLM untuk menyimpulkan prediksi menyebabkan masalah berikut:

LLM berhalusinasi, artinya prediksinya sering kali mengandung kesalahan.
LLM menggunakan resource komputasi dan listrik dalam jumlah besar. Melatih LLM pada set data yang lebih besar biasanya mengurangi jumlah resource yang diperlukan untuk inferensi, meskipun set pelatihan yang lebih besar memerlukan lebih banyak resource pelatihan.
Seperti semua model ML, LLM dapat menunjukkan berbagai jenis bias.

Latihan: Periksa pemahaman Anda

Misalkan Transformer dilatih pada satu miliar dokumen, termasuk ribuan dokumen yang berisi setidaknya satu contoh kata gajah. Manakah dari pernyataan berikut yang mungkin benar?

Pohon akasia, bagian penting dari makanan gajah, akan secara bertahap mendapatkan skor self-attention yang tinggi dengan kata gajah.

Ya, dan hal ini akan memungkinkan Transformer menjawab pertanyaan tentang pola makan gajah.

Transformer akan mengaitkan kata gajah dengan berbagai idiom yang berisi kata gajah.

Ya, sistem akan mulai melampirkan skor perhatian mandiri yang tinggi antara kata gajah dan kata-kata lain dalam idiom gajah.

Transformer akan secara bertahap belajar mengabaikan penggunaan kata gajah yang sarkastik atau ironis dalam data pelatihan.

Transformer yang cukup besar dan dilatih menggunakan set pelatihan yang cukup luas akan cukup mahir dalam mengenali sarkasme, humor, dan ironi. Jadi, alih-alih mengabaikan sarkasme dan ironi, Transformer belajar darinya.