Introduction to Large Language Models

Baru menggunakan model bahasa atau model bahasa besar? Lihat referensi di bawah ini.

Apa itu model bahasa?

Model bahasa adalah model machine learning yang bertujuan untuk memprediksi dan menghasilkan bahasa yang masuk akal. Misalnya, Autocomplete adalah model bahasa.

Model ini bekerja dengan memperkirakan probabilitas token atau urutan token yang terjadi dalam urutan token yang lebih panjang. Perhatikan kalimat berikut:

When I hear rain on my roof, I _______ in my kitchen.

Jika Anda menganggap bahwa token adalah sebuah kata, model bahasa akan menentukan probabilitas kata atau urutan kata yang berbeda untuk menggantikan garis bawah tersebut. Misalnya, model bahasa mungkin menentukan probabilitas berikut:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

"Urutan token" dapat berupa seluruh kalimat atau serangkaian kalimat. Artinya, model bahasa dapat menghitung kemungkinan berbagai keseluruhan kalimat atau blok teks.

Memperkirakan kemungkinan dari apa yang terjadi selanjutnya dalam suatu rangkaian akan bermanfaat untuk segala hal: membuat teks, menerjemahkan bahasa, dan menjawab pertanyaan.

Apa yang dimaksud dengan model bahasa besar?

Membuat model bahasa manusia dalam skala besar merupakan upaya yang sangat kompleks dan membutuhkan resource. Jalur untuk mencapai kemampuan model bahasa saat ini dan model bahasa besar telah berlangsung selama beberapa dekade.

Seiring model dibangun semakin besar, kompleksitas dan efikasinya akan meningkat. Model bahasa awal dapat memprediksi probabilitas satu kata; model bahasa besar modern dapat memprediksi probabilitas kalimat, paragraf, atau bahkan seluruh dokumen.

Ukuran dan kemampuan model bahasa telah meledak selama beberapa tahun terakhir karena memori komputer, ukuran set data, dan daya pemrosesan meningkat, serta teknik yang lebih efektif untuk pemodelan urutan teks yang lebih panjang dikembangkan.

Seberapa besar ukurannya?

Definisi ini tidak jelas, tetapi "besar" telah digunakan untuk mendeskripsikan BERT (parameter 110M) serta PaLM 2 (hingga 340B parameter).

Parameter adalah bobot yang dipelajari model selama pelatihan, yang digunakan untuk memprediksi token berikutnya dalam urutan. "Besar" dapat merujuk pada jumlah parameter dalam model, atau terkadang jumlah kata dalam set data.

Transformer

Perkembangan utama dalam pemodelan bahasa adalah pengenalan pada tahun 2017 Transformer, sebuah arsitektur yang dirancang seputar perhatian. Hal ini memungkinkan pemrosesan urutan yang lebih lama dengan berfokus pada bagian terpenting dari input, sehingga dapat memecahkan masalah memori yang ditemukan pada model sebelumnya.

Transformer adalah arsitektur modern untuk berbagai aplikasi model bahasa, seperti penerjemah.

Jika input-nya adalah "I'm Dog is.", penerjemah berbasis Transformer mengubah input tersebut menjadi output "Je suis un bon chien.", yang merupakan kalimat yang sama yang diterjemahkan ke dalam bahasa Prancis.

Transformer Lengkap terdiri dari encoder dan decoder. Encoder mengonversi teks input menjadi representasi perantara, dan decoder mengonversi representasi perantara tersebut menjadi teks yang berguna.

Perhatian diri

Transformer sangat mengandalkan konsep yang disebut perhatian mandiri. Bagian mandiri dari perhatian sendiri mengacu pada fokus "egosentris" setiap token dalam korpus. Secara efektif, atas nama setiap token input, perhatian mandiri akan bertanya, "Berapa nilai yang penting bagi setiap token input lainnya bagi saya?" Untuk mempermudah, mari asumsikan bahwa setiap token adalah kata dan konteks yang lengkap adalah satu kalimat. Pertimbangkan kalimat berikut:

Hewan itu tidak menyeberang jalan karena terlalu lelah.

Ada 11 kata dalam kalimat sebelumnya, sehingga masing-masing dari ke-11 kata tersebut memperhatikan sepuluh kata lainnya dan bertanya-tanya, seberapa pentingkah masing-masing dari sepuluh kata tersebut. Misalnya, perhatikan bahwa kalimat berisi kata ganti itu. Sebutan sering kali ambigu. Sebutan itu selalu mengacu pada kata benda terbaru, tetapi dalam contoh kalimat, kata benda terbaru mana yang disebutkan: hewan atau jalan?

Mekanisme perhatian sendiri menentukan relevansi setiap kata di sekitar dengan kata ganti itu.

Apa saja kasus penggunaan LLM?

LLM sangat efektif pada tugas yang digunakan untuk membuatnya, yang menghasilkan teks yang paling masuk akal sebagai respons terhadap input. Alat-alat ini bahkan mulai menunjukkan performa yang kuat untuk tugas lainnya; misalnya, ringkasan, jawaban pertanyaan, dan klasifikasi teks. Ini disebut kemampuan yang muncul. LLM bahkan dapat menyelesaikan beberapa soal matematika dan menulis kode (meskipun sebaiknya periksa pekerjaannya).

LLM sangat baik dalam meniru pola ucapan manusia. Di antara yang lain, alat ini cocok dalam menggabungkan informasi dengan berbagai gaya dan nada.

Namun, LLM dapat menjadi komponen model yang melakukan lebih dari sekadar membuat teks. LLM terbaru telah digunakan untuk membuat pendeteksi sentimen, pengklasifikasi toksisitas, dan membuat teks gambar.

Pertimbangan LLM

Model sebesar ini bukan tanpa kelemahan.

LLM terbesar itu mahal. Pelatihan dapat memakan waktu berbulan-bulan, sehingga menghabiskan banyak resource.

Fungsi ini biasanya dapat dialihfungsikan untuk tugas lain, yaitu hal-hal yang bermanfaat.

Model pelatihan dengan lebih dari satu triliun parameter menciptakan tantangan engineering. Infrastruktur dan teknik pemrograman khusus diperlukan untuk mengoordinasikan alur ke chip dan kembali lagi.

Ada cara untuk mengurangi biaya model besar ini. Dua pendekatan yang dapat dilakukan adalah inferensi offline dan distilasi.

Bias dapat menjadi masalah dalam model yang sangat besar dan harus dipertimbangkan dalam pelatihan dan deployment.

Karena model ini dilatih pada bahasa manusia, model ini dapat menimbulkan banyak potensi masalah etika, termasuk penyalahgunaan bahasa, dan bias dalam ras, gender, agama, dan banyak lagi.

Jelas bahwa model ini terus bertambah besar dan berperforma lebih baik, teruslah rajin memahami dan mitigasi kelemahannya. Pelajari lebih lanjut pendekatan Google terhadap AI yang bertanggung jawab.