Glosarium Machine Learning: Evaluasi Bahasa

Halaman ini berisi istilah glosarium Evaluasi Bahasa. Untuk semua istilah glosarium, klik di sini.

J

Attention,

#language

Mekanisme yang digunakan dalam jaringan neural yang menunjukkan pentingnya kata atau bagian tertentu dari kata. Attention akan mengompresi jumlah informasi yang diperlukan model untuk memprediksi token/kata berikutnya. Mekanisme atensi yang umum dapat terdiri dari jumlah berbobot per satu set input, dengan bobot untuk setiap input dihitung oleh bagian lain dari jaringan neural.

Lihat juga self-attention dan multi-head self-attention, yang merupakan elemen penyusun Transformer.

{i>autoencoder<i}

#language
#image

Sistem yang mempelajari cara mengekstrak informasi yang paling penting dari input. Autoencoder adalah kombinasi dari encoder dan decoder. Autoencoder mengandalkan proses dua langkah berikut:

  1. Encoder memetakan input ke format lossy dimensi lebih rendah (menengah).
  2. Decoder membuat versi lossy dari input asli dengan memetakan format dimensi yang lebih rendah ke format input asli berdimensi lebih tinggi.

Autoencoder dilatih secara menyeluruh dengan meminta decoder mencoba merekonstruksi input asli dari format perantara encoder sedekat mungkin. Karena format perantara lebih kecil (dimensi lebih rendah) daripada format aslinya, autoencoder dipaksa untuk mempelajari informasi apa dalam input yang penting, dan output tidak akan identik dengan input sepenuhnya.

Contoh:

  • Jika data input adalah grafik, salinan yang tidak tepat akan mirip dengan grafik asli, tetapi sedikit dimodifikasi. Mungkin salinan yang tidak tepat menghilangkan noise dari grafis asli atau mengisi beberapa piksel yang hilang.
  • Jika data input berupa teks, autoencoder akan menghasilkan teks baru yang meniru (tetapi tidak sama persis) dengan teks aslinya.

Lihat juga autoencoder variatif.

model auto-regresif

#language
#image
#AI generatif

model yang menyimpulkan prediksi berdasarkan prediksi sebelumnya sendiri. Misalnya, model bahasa auto-regresif memprediksi token berikutnya berdasarkan token yang diprediksi sebelumnya. Semua model bahasa besar berbasis Transformer bersifat auto-regresif.

Sebaliknya, model gambar berbasis GAN biasanya tidak regresi otomatis karena menghasilkan gambar dalam satu penerusan maju dan tidak secara iteratif dalam langkah-langkah berikutnya. Namun, model pembuatan gambar tertentu bersifat regresif otomatis karena model tersebut menghasilkan gambar secara bertahap.

B

kumpulan kata-kata

#language

Representasi kata-kata dalam frasa atau kutipan, terlepas dari urutannya. Misalnya, kumpulan kata-kata merepresentasikan tiga frasa berikut secara identik:

  • anjingnya melompat
  • lompatan anjingnya
  • {i>dog walker<i}

Setiap kata dipetakan ke indeks di vektor jarang, dengan vektor yang memiliki indeks untuk setiap kata dalam kosakata. Misalnya, frasa the dog jumps dipetakan ke dalam vektor fitur dengan nilai bukan nol pada tiga indeks yang sesuai dengan kata the, dog, dan jumps. Nilai bukan nol dapat berupa salah satu dari berikut ini:

  • A 1 untuk menunjukkan adanya suatu kata.
  • Hitungan berapa kali kata muncul dalam tas. Misalnya, jika frasanya the maroon dog is a dog with maroon fur, maroon dan dog akan direpresentasikan sebagai 2, sedangkan kata lainnya akan direpresentasikan sebagai 1.
  • Beberapa nilai lainnya, seperti logaritma jumlah berapa kali kata muncul dalam tas.

BERT (Representasi Encoder Dua Arah dari Transformer)

#language

Arsitektur model untuk representasi teks. Model BERT yang terlatih dapat bertindak sebagai bagian dari model yang lebih besar untuk klasifikasi teks atau tugas ML lainnya.

BERT memiliki karakteristik berikut:

Varian BERT mencakup:

  • ALBERT, yang merupakan akronim dari A Light BERT.
  • LaBSE.

Lihat Open Sourcing BERT: Prapelatihan Canggih untuk Natural Language Processing untuk mengetahui ringkasan BERT.

dua arah

#language

Istilah yang digunakan untuk mendeskripsikan sistem yang mengevaluasi teks yang mendahului dan mengikuti bagian target teks. Sebaliknya, sistem searah hanya mengevaluasi teks yang mendahului bagian teks target.

Misalnya, pertimbangkan model bahasa yang disamarkan yang harus menentukan probabilitas kata atau kata-kata yang mewakili garis bawah dalam pertanyaan berikut:

Apa _____ bagi Anda?

Model bahasa searah harus mendasarkan probabilitasnya hanya pada konteks yang diberikan oleh kata "Apa", "adalah", dan "the". Sebaliknya, model bahasa dua arah juga dapat mendapatkan konteks dari "dengan" dan "Anda", yang mungkin membantu model menghasilkan prediksi yang lebih baik.

model bahasa dua arah

#language

Model bahasa yang menentukan probabilitas bahwa token tertentu ada di lokasi tertentu dalam kutipan teks berdasarkan teks sebelumnya dan berikut.

Bigram

#seq
#language

N-gram yang berisi N=2.

BLEU (Peserta Evaluasi Bilingual)

#language

Skor antara 0,0 hingga 1,0, inklusif, menunjukkan kualitas terjemahan antara dua bahasa manusia (misalnya, antara bahasa Inggris dan Rusia). Skor BLEU 1,0 menunjukkan terjemahan yang sempurna; skor BLEU 0,0 menunjukkan terjemahan yang buruk.

C

model bahasa kausal

#language

Sinonim dari model bahasa searah.

Lihat model bahasa dua arah untuk mengontraskan berbagai pendekatan arah dalam pemodelan bahasa.

perintah rantai pemikiran

#language
#AI generatif

Teknik rekayasa perintah yang mendorong model bahasa besar (LLM) untuk menjelaskan alasannya, langkah demi langkah. Misalnya, perhatikan petunjuk berikut, dengan memberikan perhatian khusus pada kalimat kedua:

Berapa banyak gaya g yang dialami pengemudi dalam mobil yang melaju dari kecepatan 0 hingga 60 mil per jam dalam 7 detik? Pada jawaban, tunjukkan semua penghitungan yang relevan.

Respons LLM mungkin akan:

  • Menampilkan urutan formula fisika, dengan memasukkan nilai 0, 60, dan 7 di tempat yang sesuai.
  • Menjelaskan mengapa ia memilih formula-formula tersebut dan apa arti berbagai variabel.

Alur pemikiran yang mendorong LLM untuk melakukan semua penghitungan, yang dapat menghasilkan jawaban yang lebih benar. Selain itu, permintaan rantai pemikiran memungkinkan pengguna memeriksa langkah-langkah LLM untuk menentukan apakah jawaban tersebut masuk akal atau tidak.

penguraian konstituen

#language

Membagi kalimat ke dalam struktur gramatikal yang lebih kecil ("konstituen"). Bagian selanjutnya dari sistem ML, seperti model natural language understanding, dapat mengurai konstituen dengan lebih mudah daripada kalimat aslinya. Misalnya, perhatikan kalimat berikut:

Teman saya mengadopsi dua kucing.

Parser konstituensi dapat membagi kalimat ini menjadi dua konstituen berikut:

  • Teman saya adalah frasa kata benda.
  • adopted two cats adalah frasa kata kerja.

Konstituen ini dapat dibagi lagi menjadi konstituen yang lebih kecil. Misalnya, frasa kata kerja

mengadopsi dua kucing

dapat dibagi lagi menjadi:

  • adopted adalah kata kerja.
  • two cats adalah frasa kata benda lainnya.

bunga error

#language

Kalimat atau frasa dengan makna ambigu. Error blossom menghadirkan masalah yang signifikan dalam natural language understanding. Misalnya, judul Red Tape Holds Up Skyscraper adalah model error karena model NLU dapat menafsirkan judul secara harfiah atau kiasan.

D

decoder

#language

Secara umum, setiap sistem ML yang melakukan konversi dari representasi yang diproses, padat, atau internal menjadi representasi yang lebih mentah, renggang, atau eksternal.

Decoder sering kali merupakan komponen dari model yang lebih besar, dan sering dipasangkan dengan encoder.

Pada tugas urutan ke urutan, decoder dimulai dengan status internal yang dihasilkan oleh encoder untuk memprediksi urutan berikutnya.

Lihat Transformer untuk definisi decoder dalam arsitektur Transformer.

pengurang kebisingan

#language

Pendekatan umum untuk pembelajaran mandiri yang:

  1. Derau ditambahkan secara artifisial ke set data.
  2. model akan mencoba menghilangkan derau.

Menghilangkan noise memungkinkan pembelajaran dari contoh tak berlabel. Set data asli berfungsi sebagai target atau label dan data derau sebagai input.

Beberapa model bahasa yang disamarkan menggunakan pengurang kebisingan sebagai berikut:

  1. Derau ditambahkan secara artifisial ke kalimat tanpa label dengan menyamarkan beberapa token.
  2. Model mencoba memprediksi token asli.

prompting langsung

#language
#AI generatif

Sinonim untuk perintah zero-shot.

E

edit jarak

#language

Pengukuran tentang seberapa mirip dua string teks satu sama lain. Dalam machine learning, mengedit jarak berguna karena sederhana dan mudah untuk dihitung, serta cara efektif untuk membandingkan dua string yang diketahui mirip atau untuk menemukan string yang mirip dengan string tertentu.

Ada beberapa definisi jarak edit, masing-masing menggunakan operasi string yang berbeda. Misalnya, jarak Levenshtein mempertimbangkan operasi hapus, penyisipan, dan pengganti yang paling sedikit.

Misalnya, jarak Levenshtein antara kata "hati" dan "dart" adalah 3 karena 3 hasil edit berikut adalah perubahan paling sedikit untuk mengubah satu kata menjadi yang lain:

  1. hati → deart (ganti “h” dengan "d")
  2. deart → dart (hapus "e")
  3. panah lempar → dart (sisipkan "s")

Lapisan embedding

#language
#fundamentals

lapisan tersembunyi khusus yang melatih fitur kategoris berdimensi tinggi untuk secara bertahap mempelajari vektor penyematan dimensi yang lebih rendah. Lapisan sematan memungkinkan jaringan neural untuk berlatih jauh lebih efisien daripada jika hanya melatih fitur kategoris berdimensi tinggi.

Misalnya, saat ini Bumi mendukung sekitar 73.000 spesies pohon. Misalkan spesies pohon adalah fitur dalam model Anda, sehingga lapisan input model Anda menyertakan vektor one-hot dengan panjang 73.000 elemen. Misalnya, mungkin baobab akan direpresentasikan seperti ini:

Array berisi 73.000 elemen. 6.232 elemen pertama memiliki nilai
     0. Elemen berikutnya memiliki nilai 1. 66.767 elemen terakhir memiliki
     nilai nol.

Array berisi 73.000 elemen sangat panjang. Jika Anda tidak menambahkan lapisan embedding ke model, pelatihan akan memakan waktu sangat lama karena mengalikan 72.999 angka nol. Mungkin Anda memilih lapisan embedding yang terdiri dari 12 dimensi. Dengan demikian, lapisan embedding secara bertahap akan mempelajari vektor embedding baru untuk setiap spesies pohon.

Dalam situasi tertentu, hashing adalah alternatif yang wajar untuk lapisan embedding.

ruang sematan

#language

Ruang vektor d dimensi yang ditampilkan dari ruang vektor berdimensi lebih tinggi akan dipetakan. Idealnya, ruang embedding berisi struktur yang menghasilkan hasil matematika yang bermakna. Misalnya, dalam ruang penyematan yang ideal, penjumlahan dan pengurangan embedding dapat menyelesaikan tugas analogi kata.

Produk titik dari dua embedding adalah ukuran kesamaannya.

vektor embedding

#language

Secara garis besar, array bilangan floating point yang diambil dari mana pun lapisan tersembunyi yang menjelaskan input ke lapisan tersembunyi tersebut. Sering kali, vektor embedding adalah array bilangan floating point yang dilatih dalam lapisan embedding. Misalnya, anggaplah lapisan embedding harus mempelajari vektor penyematan untuk masing-masing dari 73.000 spesies pohon di Bumi. Mungkin array berikut adalah vektor embedding untuk pohon baobab:

Array berisi 12 elemen, yang masing-masing berisi bilangan floating point
          antara 0,0 dan 1,0.

Vektor embedding bukanlah sekumpulan angka acak. Lapisan embedding menentukan nilai ini melalui pelatihan, mirip dengan cara jaringan neural mempelajari bobot lain selama pelatihan. Setiap elemen array adalah rating bersama dengan beberapa karakteristik dari spesies pohon. Elemen mana yang mewakili karakteristik spesies pohon mana? Itu sangat sulit bagi manusia untuk menentukan.

Bagian yang luar biasa secara matematis dari vektor embedding adalah item yang serupa memiliki kumpulan bilangan floating point yang serupa. Misalnya, spesies pohon yang serupa memiliki kumpulan bilangan floating point yang lebih mirip daripada spesies pohon yang berbeda. Kayu merah dan sequoia adalah spesies pohon yang terkait, sehingga akan memiliki serangkaian bilangan mengambang yang lebih mirip daripada kayu merah dan pohon kelapa. Angka dalam vektor embedding akan berubah setiap kali Anda melatih ulang model, meskipun Anda melatih ulang model dengan input yang identik.

pembuat enkode

#language

Secara umum, setiap sistem ML yang melakukan konversi dari representasi mentah, jarang, atau eksternal menjadi representasi yang lebih diproses, lebih padat, atau lebih internal.

Encoder sering kali merupakan komponen dari model yang lebih besar dan sering dipasangkan dengan decoder. Sebagian Transformer menyambungkan encoder dengan decoder, meskipun Transformer lainnya hanya menggunakan encoder atau hanya decoder.

Beberapa sistem menggunakan output encoder sebagai input untuk jaringan klasifikasi atau regresi.

Pada tugas urutan ke urutan, encoder mengambil urutan input dan menampilkan status internal (vektor). Kemudian, decoder menggunakan status internal tersebut untuk memprediksi urutan berikutnya.

Lihat Transformer untuk definisi encoder dalam arsitektur Transformer.

F

{i>multiple-shot prompting<i}

#language
#AI generatif

Perintah yang berisi lebih dari satu contoh (sebuah contoh "beberapa") yang menunjukkan cara model bahasa besar merespons. Misalnya, perintah panjang berikut berisi dua contoh yang menunjukkan model bahasa besar cara menjawab kueri.

Bagian dari satu dialog Notes
Apa mata uang resmi negara yang ditentukan? Pertanyaan yang Anda inginkan agar dijawab oleh LLM.
Prancis: EUR Satu contoh.
Inggris Raya: GBP Contoh lain.
India: Kueri sebenarnya.

Prompt sedikit-shot umumnya memberikan hasil yang lebih diinginkan daripada perintah zero-shot dan perintah satu kali. Namun, prompt multiple-shot memerlukan perintah yang lebih panjang.

Prompt few-shot adalah bentuk pembelajaran beberapa kali yang diterapkan pada pembelajaran berbasis prompt.

Biola

#language

Library konfigurasi yang mengutamakan Python yang menetapkan nilai fungsi dan class tanpa kode atau infrastruktur invasif. Dalam kasus Pax—dan codebase ML lainnya—fungsi dan class ini mewakili model dan pelatihan hyperparameter.

Fiddle mengasumsikan bahwa codebase machine learning biasanya dibagi menjadi:

  • Kode library, yang menentukan lapisan dan pengoptimal.
  • Kode "glue" set data, yang memanggil library dan menggabungkan semuanya.

Fiddle menangkap struktur panggilan kode glue dalam bentuk yang tidak dievaluasi dan dapat diubah.

penyesuaian

#language
#image
#AI generatif

Tiket pelatihan khusus tugas kedua yang dilakukan pada model terlatih untuk mengoptimalkan parameternya untuk kasus penggunaan tertentu. Misalnya, urutan pelatihan lengkap untuk beberapa model bahasa besar adalah sebagai berikut:

  1. Pra-pelatihan: Latih model bahasa besar pada set data umum yang luas, seperti semua halaman Wikipedia berbahasa Inggris.
  2. Penyesuaian: Latih model terlatih untuk melakukan tugas tertentu, seperti merespons kueri medis. Fine-tuning biasanya melibatkan ratusan atau ribuan contoh yang berfokus pada tugas tertentu.

Sebagai contoh lainnya, urutan pelatihan lengkap untuk model gambar besar adalah sebagai berikut:

  1. Pra-pelatihan: Latih model gambar besar pada set data gambar umum yang luas, seperti semua gambar di Wikimedia commons.
  2. Penyelarasan: Latih model yang telah dilatih sebelumnya untuk melakukan tugas tertentu, seperti membuat gambar orca.

Penyesuaian dapat memerlukan kombinasi dari strategi berikut:

  • Mengubah semua parameter model terlatih yang ada. Hal ini terkadang disebut fine-tuning penuh.
  • Hanya memodifikasi beberapa parameter model terlatih yang ada (biasanya, lapisan yang paling dekat dengan lapisan output), sekaligus mempertahankan parameter lain yang ada tanpa perubahan (biasanya, lapisan yang paling dekat dengan lapisan input). Lihat penyesuaian parameter efisien.
  • Menambahkan lebih banyak lapisan, biasanya di atas lapisan yang ada yang paling dekat dengan lapisan output.

Fine-tuning merupakan bentuk pembelajaran transfer. Dengan demikian, fine-tuning mungkin menggunakan fungsi kerugian atau jenis model yang berbeda dari yang digunakan untuk melatih model terlatih. Misalnya, Anda dapat menyesuaikan model gambar besar yang telah dilatih sebelumnya untuk menghasilkan model regresi yang menampilkan jumlah burung dalam gambar input.

Bandingkan dan bandingkan fine-tuning dengan istilah berikut:

Lenan

#language

Library open source berperforma tinggi untuk deep learning yang dibuat berdasarkan JAX. Flax menyediakan fungsi untuk pelatihan jaringan neural, serta metode untuk mengevaluasi performanya.

Flaxformer

#language

Library Transformer open source, yang dibangun di Flax, dirancang khusus untuk natural language processing dan penelitian multimodal.

G

AI generatif

#language
#image
#AI generatif

Bidang transformatif yang sedang berkembang tanpa definisi formal. Meskipun demikian, sebagian besar pakar setuju bahwa model AI generatif dapat membuat ("menghasilkan") konten yang meliputi semua hal berikut:

  • kompleks
  • koheren
  • asli

Misalnya, model AI generatif dapat membuat esai atau gambar yang canggih.

Beberapa teknologi sebelumnya, termasuk LSTM dan RNN, juga dapat menghasilkan konten yang asli dan koheren. Beberapa pakar memandang teknologi awal ini sebagai AI generatif, sementara pakar lain merasa bahwa AI generatif sejati memerlukan output yang lebih kompleks daripada yang dapat dihasilkan oleh teknologi sebelumnya.

Berbeda dengan ML prediktif.

GPT (Transformer terlatih Generatif)

#language

Rangkaian model bahasa besar berbasis Transformer yang dikembangkan oleh OpenAI.

Varian GPT dapat diterapkan ke beberapa modalitas, termasuk:

  • pembuatan gambar (misalnya, ImageGPT)
  • pembuatan teks ke gambar (misalnya, DALL-E).

H

halusinasi

#language

Produksi output yang terlihat masuk akal, tetapi secara faktual salah oleh model AI generatif yang dimaksudkan untuk membuat pernyataan tentang dunia nyata. Misalnya, model AI generatif yang mengklaim bahwa Barack Obama meninggal pada tahun 1865 adalah berhalusinasi.

I

pembelajaran dalam konteks

#language
#AI generatif

Sinonim dari few-shot prompting.

L

LaMDA (Language Model for Dialogue Applications/Model Bahasa untuk Aplikasi Dialog)

#language

Model bahasa besar berbasis Transformer yang dikembangkan oleh Google dilatih pada set data dialog besar yang dapat menghasilkan respons percakapan yang realistis.

LaMDA: terobosan teknologi percakapan kami memberikan ringkasan.

model bahasa

#language

model yang memperkirakan probabilitas model atau urutan token yang terjadi dalam urutan token yang lebih panjang.

model bahasa besar

#language

Istilah informal tanpa definisi ketat yang biasanya berarti model bahasa yang memiliki parameter dalam jumlah besar. Beberapa model bahasa besar berisi lebih dari 100 miliar parameter.

S

model bahasa yang disamarkan

#language

Model bahasa yang memprediksi probabilitas token kandidat untuk mengisi bagian yang kosong secara berurutan. Misalnya, model bahasa yang disamarkan dapat menghitung probabilitas kata kandidat untuk mengganti garis bawah dalam kalimat berikut:

____ di topi kembali.

Literatur biasanya menggunakan string "MASK" alih-alih garis bawah. Contoh:

"MASK" di topi kembali muncul.

Sebagian besar model bahasa modern yang disamarkan bersifat dua arah.

pembelajaran meta

#language

Bagian dari machine learning yang menemukan atau meningkatkan algoritma pembelajaran. Sistem pembelajaran meta juga dapat ditujukan untuk melatih model agar dapat dengan cepat mempelajari tugas baru dari sejumlah kecil data atau dari pengalaman yang diperoleh pada tugas sebelumnya. Algoritma pembelajaran meta umumnya mencoba mencapai hal berikut:

  • Meningkatkan/mempelajari fitur buatan tangan (seperti penginisialisasi atau pengoptimal).
  • Lebih hemat data dan efisien terhadap komputasi.
  • Meningkatkan generalisasi.

Meta-learning berkaitan dengan pembelajaran beberapa tahap.

modalitas

#language

Kategori data tingkat tinggi. Misalnya, angka, teks, gambar, video, dan audio adalah lima modalitas yang berbeda.

paralelisme model

#language

Cara penskalaan pelatihan atau inferensi yang menempatkan berbagai bagian dari satu model pada perangkat yang berbeda. Paralelisme model memungkinkan model yang terlalu besar untuk dimuat di satu perangkat.

Untuk mengimplementasikan paralelisme model, sistem biasanya melakukan hal berikut:

  1. Membagi model menjadi bagian-bagian yang lebih kecil.
  2. Mendistribusikan pelatihan bagian yang lebih kecil ke beberapa prosesor. Setiap prosesor melatih bagian modelnya sendiri.
  3. Menggabungkan hasilnya untuk membuat satu model.

Paralelisme model memperlambat pelatihan.

Lihat juga paralelisme data.

self-attention multi-head

#language

Ekstensi self-attention yang menerapkan mekanisme self-attention beberapa kali untuk setiap posisi dalam urutan input.

Transformer memperkenalkan self-attention multi-head.

model multimodal

#language

Model yang input dan/atau output-nya menyertakan lebih dari satu modalitas. Misalnya, pertimbangkan model yang menggunakan gambar dan teks teks (dua modalitas) sebagai fitur, dan menghasilkan skor yang menunjukkan seberapa sesuai teks tersebut untuk gambar tersebut. Jadi, input model ini adalah multimodal dan {i>outputnya<i} adalah unimodal.

N

natural language understanding

#language

Menentukan niat pengguna berdasarkan apa yang diketik atau dikatakan pengguna. Misalnya, mesin telusur menggunakan natural language understanding untuk menentukan apa yang ditelusuri pengguna berdasarkan apa yang diketik atau dikatakan pengguna.

N-gram

#seq
#language

Rangkaian N kata yang berurutan. Misalnya, truly madly bernilai 2 gram. Karena urutan bersifat relevan, nilai 2 gram pada madly average berbeda dengan truly madly.

N Nama untuk jenis N-gram ini Contoh
2 bigram atau 2 gram pergi, pergi, makan siang, makan malam
3 trigram atau 3 gram makan terlalu banyak, tiga tikus buta, bel berbunyi
4 4 gram berjalan di taman, berdebu tertiup angin, bocah itu makan miju-miju

Banyak model natural language understanding mengandalkan N-gram untuk memprediksi kata berikutnya yang akan diketik atau diucapkan pengguna. Misalnya, anggaplah pengguna mengetik three blind. Model NLU berdasarkan trigram kemungkinan akan memprediksi bahwa pengguna selanjutnya akan mengetik mice.

Membandingkan N-gram dengan kantong kata-kata, yang merupakan kumpulan kata yang tidak berurutan.

NLU

#language

Singkatan dari natural language understanding.

O

arahan satu kali

#language
#AI generatif

Perintah yang berisi satu contoh yang menunjukkan cara model bahasa besar merespons. Misalnya, perintah berikut berisi satu contoh yang menunjukkan model bahasa besar cara seharusnya menjawab kueri.

Bagian dari satu dialog Notes
Apa mata uang resmi negara yang ditentukan? Pertanyaan yang Anda inginkan agar dijawab oleh LLM.
Prancis: EUR Satu contoh.
India: Kueri sebenarnya.

Bandingkan dan bandingkan perintah satu kali dengan istilah berikut:

P

penyesuaian parameter-efisien

#language
#AI generatif

Serangkaian teknik untuk menyesuaikan model bahasa terlatih (PLM) besar dengan lebih efisien daripada penyesuaian penuh. Penyesuaian parameter yang efisien biasanya melakukan fine-tuning parameter yang jauh lebih sedikit daripada fine-tuning penuh, namun umumnya menghasilkan model bahasa besar yang berperforma baik (atau hampir sama) model bahasa besar yang dibuat dari penyesuaian penuh.

Membandingkan dan membedakan tuning parameter-efisien dengan:

Penyesuaian parameter-efisien juga dikenal sebagai halus parameter yang efisien.

pipeline

#language

Bentuk paralelisme model di mana pemrosesan model dibagi menjadi tahapan berturut-turut dan setiap tahap dijalankan di perangkat yang berbeda. Saat tahap memproses satu batch, tahap sebelumnya dapat berfungsi pada batch berikutnya.

Lihat juga pelatihan bertahap.

PLM

#language
#AI generatif

Singkatan dari model bahasa terlatih.

encoding posisi

#language

Teknik untuk menambahkan informasi tentang posisi token dalam urutan ke embedding token. Model transformer menggunakan encoding posisi untuk lebih memahami hubungan antara berbagai bagian urutan.

Implementasi umum encoding posisi menggunakan fungsi sinusoidal. (Secara khusus, frekuensi dan amplitudo fungsi sinusoidal ditentukan oleh posisi token dalam urutan.) Teknik ini memungkinkan model Transformer belajar memperhatikan berbagai bagian urutan berdasarkan posisinya.

model terlatih

#language
#image
#AI generatif

Model atau komponen model (seperti vektor penyematan) yang telah dilatih. Terkadang, Anda harus memasukkan vektor penyematan yang telah dilatih ke dalam jaringan neural. Di lain waktu, model Anda akan melatih vektor embedding itu sendiri, bukan mengandalkan embedding terlatih.

Istilah model bahasa terlatih mengacu pada model bahasa besar yang telah melalui pra-pelatihan.

pra-pelatihan

#language
#image
#AI generatif

Pelatihan awal model pada set data besar. Beberapa model terlatih adalah raksasa yang kikuk dan biasanya harus ditingkatkan melalui pelatihan tambahan. Misalnya, pakar ML dapat melatih model bahasa besar terlebih dahulu pada set data teks yang luas, seperti semua halaman bahasa Inggris di Wikipedia. Setelah pra-pelatihan, model yang dihasilkan dapat disempurnakan lebih lanjut melalui salah satu teknik berikut:

prompt

#language
#AI generatif

Setiap teks yang dimasukkan sebagai input ke model bahasa besar untuk mengondisikan model agar berperilaku dengan cara tertentu. Perintah dapat sesingkat frasa atau panjangnya secara arbitrer (misalnya, seluruh teks novel). {i>Prompt<i} dibagi ke dalam beberapa kategori, termasuk yang ditunjukkan dalam tabel berikut:

Kategori perintah Contoh Notes
Question Seberapa cepat burung dara dapat terbang?
Petunjuk Tulis puisi lucu tentang arbitrase. Perintah yang meminta model bahasa besar untuk melakukan sesuatu.
Contoh Terjemahkan kode Markdown ke HTML. Misalnya:
Markdown: * item daftar
HTML: <ul> <li>item daftar</li> </ul>
Kalimat pertama dalam contoh {i>prompt<i} ini merupakan petunjuk. Bagian selanjutnya dari {i>prompt<i} adalah contoh.
Peran Jelaskan mengapa penurunan gradien digunakan dalam pelatihan machine learning untuk gelar PhD bidang Fisika. Bagian pertama kalimat adalah instruksi; frasa "untuk mendapatkan gelar PhD bidang Fisika" adalah bagian peran.
Input parsial untuk diselesaikan model Perdana Menteri Inggris Raya tinggal di Permintaan input parsial dapat diakhiri secara tiba-tiba (seperti dalam contoh ini) atau diakhiri dengan garis bawah.

Model AI generatif dapat merespons perintah dengan teks, kode, gambar, sematan, video...hampir semua hal.

pembelajaran berbasis prompt

#language
#AI generatif

Kemampuan model tertentu yang memungkinkannya menyesuaikan perilakunya sebagai respons terhadap input teks arbitrer (perintah). Dalam paradigma pembelajaran berbasis perintah yang umum, model bahasa besar merespons perintah dengan membuat teks. Misalnya, pengguna memasukkan perintah berikut:

Rangkum Hukum Ketiga Newton tentang Gerakan.

Model yang mampu melakukan pembelajaran berbasis perintah tidak dilatih secara khusus untuk menjawab perintah sebelumnya. Sebaliknya, model "mengetahui" banyak fakta tentang fisika, pengetahuan tentang aturan bahasa umum, dan hal yang menentukan jawaban yang secara umum berguna. Pengetahuan tersebut sudah cukup untuk memberikan jawaban (semoga) berguna. Masukan manual tambahan ("Jawaban itu terlalu rumit". atau "Apa itu reaksi?") memungkinkan beberapa sistem pembelajaran berbasis permintaan untuk secara bertahap meningkatkan kegunaan jawaban mereka.

desain prompt

#language
#AI generatif

Sinonim dari rekayasa permintaan.

Prompt Engineering

#language
#AI generatif

Seni membuat perintah yang memperoleh respons yang diinginkan dari model bahasa besar. Manusia melakukan {i>prompt engineering<i}. Menulis dialog yang terstruktur dengan baik merupakan bagian penting dalam memastikan respons yang berguna dari model bahasa besar. Prompt Engineering bergantung pada banyak faktor, termasuk:

Lihat Pengantar desain perintah untuk mengetahui detail selengkapnya tentang cara menulis perintah yang berguna.

Desain prompt adalah sinonim dari Prompt Engineering.

penyesuaian perintah

#language
#AI generatif

Mekanisme penyesuaian parameter yang mempelajari "awalan" yang ditambahkan oleh sistem ke perintah sebenarnya.

Salah satu variasi prompt tuning—terkadang disebut tuning awalan—adalah menambahkan awalan di setiap lapisan. Sebaliknya, sebagian besar prompt tuning hanya menambahkan awalan ke lapisan input.

R

pemberian perintah

#language
#AI generatif

Bagian opsional dari perintah yang mengidentifikasi target audiens untuk respons model AI generatif. Tanpa dialog peran, model bahasa besar memberikan jawaban yang mungkin berguna atau tidak berguna bagi orang yang mengajukan pertanyaan. Dengan dialog peran, model bahasa besar dapat menjawab dengan cara yang lebih sesuai dan lebih bermanfaat untuk target audiens tertentu. Misalnya, bagian perintah peran dari permintaan berikut dicetak tebal:

  • Rangkum artikel ini untuk mendapatkan gelar PhD di bidang ekonomi.
  • Menjelaskan cara kerja pasang surut untuk anak berusia sepuluh tahun.
  • Jelaskan krisis keuangan tahun 2008. Bicaralah seperti yang Anda lakukan kepada anak kecil, atau angpau.

S

self-attention (juga disebut lapisan self-attention)

#language

Lapisan jaringan neural yang mengubah urutan penyematan (misalnya, embedding token) ke dalam urutan embedding lainnya. Setiap embedding dalam urutan output dibuat dengan mengintegrasikan informasi dari elemen urutan input melalui mekanisme attention.

Bagian self dari self-attention mengacu pada urutan yang terjadi pada dirinya sendiri, bukan konteks lain. Self-attention adalah salah satu elemen penyusun utama untuk Transformers dan menggunakan terminologi pencarian kamus, seperti “kueri”, “kunci”, dan “nilai”.

Lapisan self-attention dimulai dengan urutan representasi input, satu untuk setiap kata. Representasi input untuk sebuah kata dapat berupa penyematan sederhana. Untuk setiap kata dalam urutan input, jaringan akan memberi skor relevansi kata dengan setiap elemen di seluruh urutan kata. Skor relevansi menentukan seberapa besar representasi akhir kata mewakili representasi kata lain.

Misalnya, perhatikan kalimat berikut:

Hewan itu tidak menyeberang jalan karena terlalu lelah.

Ilustrasi berikut (dari Transformer: Arsitektur Jaringan Neural Baru untuk Pemahaman Bahasa) menunjukkan pola perhatian lapisan self-attention untuk sebutan it, dengan kegelapan setiap baris menunjukkan seberapa besar kontribusi setiap kata terhadap representasi:

Kalimat berikut muncul dua kali: &#39;Hewan tidak menyeberang
          jalan karena terlalu lelah.&#39;  Baris menghubungkan kata &#39;it&#39; dalam satu kalimat hingga lima token (&#39;The&#39;, &#39;animal&#39;, &#39;street&#39;, &#39;it&#39;, dan titik) dalam kalimat lainnya.  Garis antara &#39;it&#39; dan
          &#39;animal&#39; adalah garis yang paling kuat.

Lapisan self-attention menandai kata-kata yang relevan dengan "hal itu". Dalam hal ini, lapisan atensi telah belajar untuk menandai kata yang mungkin dirujuk oleh, sehingga menetapkan bobot tertinggi untuk animal.

Untuk urutan n token, self-attention mengubah urutan embeddings n kali secara terpisah, sekali di setiap posisi dalam urutan.

Lihat juga attention dan multi-head self-attention.

analisis sentimen

#language

Menggunakan algoritma statistik atau machine learning untuk menentukan sikap keseluruhan suatu kelompok—positif atau negatif—terhadap layanan, produk, organisasi, atau topik. Misalnya, dengan menggunakan natural language understanding, algoritma dapat melakukan analisis sentimen terhadap masukan tekstual dari mata kuliah universitas untuk menentukan sejauh mana siswa secara umum menyukai atau tidak menyukai mata kuliah tersebut.

tugas urutan-ke-urutan

#language

Tugas yang mengonversi urutan input token menjadi urutan output token. Misalnya, dua jenis tugas urutan-ke-urutan yang populer adalah:

  • Penerjemah:
    • Contoh urutan input: "Aku cinta kamu".
    • Contoh urutan output: "Je t'aime".
  • Menjawab pertanyaan:
    • Contoh urutan input: "Apakah saya perlu mobil di New York City?"
    • Contoh rangkaian output: "Tidak. Simpan mobil Anda di rumah".

fitur sparse

#language
#fundamentals

Fitur yang nilainya sebagian besar nol atau kosong. Misalnya, fitur yang berisi satu nilai 1 dan satu juta nilai 0 bersifat renggang. Sebaliknya, fitur padat memiliki nilai yang utamanya bukan nol atau kosong.

Dalam machine learning, sejumlah besar fitur adalah fitur yang renggang. Fitur kategoris biasanya merupakan fitur renggang. Misalnya, dari 300 kemungkinan spesies pohon di hutan, satu contoh mungkin hanya mengidentifikasi pohon maple. Atau, dari jutaan kemungkinan video dalam pustaka video, satu contoh mungkin hanya mengidentifikasi "Casablanca".

Pada model, Anda biasanya merepresentasikan fitur renggang dengan encoding one-hot. Jika encoding one-hot berukuran besar, Anda dapat menempatkan lapisan penyematan di atas encoding one-hot untuk lebih efisien.

representasi renggang

#language
#fundamentals

Hanya menyimpan position(s) elemen bukan nol dalam fitur sparse.

Misalnya, fitur kategoris bernama species mengidentifikasi 36 spesies pohon di hutan tertentu. Asumsikan lebih lanjut bahwa setiap contoh hanya mengidentifikasi satu spesies.

Anda dapat menggunakan vektor one-hot untuk mewakili spesies pohon pada setiap contoh. Vektor one-hot akan berisi satu 1 (untuk mewakili spesies pohon tertentu dalam contoh tersebut) dan 35 0s (untuk mewakili 35 spesies pohon bukan dalam contoh tersebut). Jadi, representasi one-hot maple mungkin terlihat seperti berikut:

Vektor di mana posisi 0 hingga 23 memiliki nilai 0, posisi
          24 memiliki nilai 1, dan posisi 25 hingga 35 memiliki nilai 0.

Atau, representasi renggang hanya akan mengidentifikasi posisi spesies tertentu. Jika maple berada di posisi 24, representasi renggang maple akan menjadi:

24

Perhatikan bahwa representasi renggang jauh lebih ringkas daripada representasi satu panas.

pelatihan bertahap

#language

Taktik untuk melatih model dalam urutan tahapan terpisah. Tujuannya bisa berupa mempercepat proses pelatihan, atau mencapai kualitas model yang lebih baik.

Sebuah ilustrasi tentang pendekatan tumpukan progresif ditampilkan di bawah ini:

  • Tahap 1 berisi 3 lapisan tersembunyi, tahap 2 berisi 6 lapisan tersembunyi, dan tahap 3 berisi 12 lapisan tersembunyi.
  • Tahap 2 memulai pelatihan dengan bobot yang dipelajari dalam 3 lapisan tersembunyi pada Tahap 1. Tahap 3 memulai pelatihan dengan bobot yang dipelajari dalam 6 lapisan tersembunyi di Tahap 2.

Tiga tahap, yang diberi label &#39;Tahap 1&#39;, &#39;Tahap 2&#39;, dan &#39;Tahap 3&#39;.
          Setiap tahap berisi jumlah lapisan yang berbeda: Tahap 1 berisi 3 lapisan, Tahap 2 berisi 6 lapisan, dan Tahap 3 berisi 12 lapisan.
          3 lapisan dari Tahap 1 menjadi 3 lapisan pertama Tahap 2.
          Demikian pula, 6 lapisan dari Tahap 2 menjadi 6 lapisan pertama
          Tahap 3.

Lihat juga pipeline.

T

T5

#language

Model pembelajaran transfer teks ke teks yang diperkenalkan oleh Google AI pada tahun 2020. T5 adalah model encoder-decoder, yang didasarkan pada arsitektur Transformer, yang dilatih pada set data yang sangat besar. Solusi ini efektif pada berbagai tugas natural language processing, seperti membuat teks, menerjemahkan bahasa, dan menjawab pertanyaan dengan cara percakapan.

T5 mendapatkan namanya dari lima T dalam "Transformer Transfer Teks-ke-Teks".

T5X

#language

Framework machine learning open source yang dirancang untuk membangun dan melatih model natural language processing (NLP) berskala besar. T5 diterapkan pada codebase T5X (yang di-build di JAX dan Flax).

suhu

#language
#image
#AI generatif

Hyperparameter yang mengontrol tingkat keacakan output model. Suhu yang lebih tinggi menghasilkan output yang lebih acak, sedangkan suhu yang lebih rendah menghasilkan output yang lebih sedikit.

Memilih suhu terbaik bergantung pada aplikasi tertentu dan properti yang diinginkan dari output model. Misalnya, Anda mungkin akan meningkatkan suhu saat membuat aplikasi yang menghasilkan output materi iklan. Sebaliknya, Anda mungkin akan menurunkan suhu saat membangun model yang mengklasifikasikan gambar atau teks untuk meningkatkan akurasi dan konsistensi model.

Suhu sering digunakan dengan softmax.

span teks

#language

Span indeks array yang terkait dengan subbagian tertentu dari string teks. Misalnya, kata good dalam string Python s="Be good now" akan menempati rentang teks dari 3 hingga 6.

token

#language

Dalam model bahasa, unit atom tempat model dilatih dan membuat prediksi. Token biasanya berupa salah satu dari berikut:

  • sebuah kata—misalnya, frasa "dogs like cats" terdiri dari tiga token kata: "dogs", "like", dan "cats".
  • karakter—misalnya, frasa "bike fish" terdiri dari sembilan token karakter. (Perhatikan bahwa ruang kosong akan dihitung sebagai salah satu token.)
  • subkata—di mana satu kata bisa menjadi satu token atau beberapa token. Subkata terdiri dari kata root, awalan, atau akhiran. Misalnya, model bahasa yang menggunakan subkata sebagai token dapat menganggap kata "dogs" sebagai dua token (kata root "dog" dan akhiran jamak "s"). Model bahasa yang sama mungkin menganggap satu kata "taller" sebagai dua subkata (kata root "tall" dan akhiran "er").

Di domain di luar model bahasa, token dapat merepresentasikan jenis unit atom lainnya. Misalnya, dalam computer vision, token mungkin merupakan subkumpulan dari sebuah gambar.

Transformator

#language

Arsitektur jaringan neural yang dikembangkan di Google yang mengandalkan mekanisme perhatian mandiri untuk mengubah urutan embedding input menjadi urutan penyematan output tanpa mengandalkan konvolusi atau jaringan neural berulang. Transformer dapat dilihat sebagai tumpukan lapisan self-attention.

Transformer dapat menyertakan salah satu dari hal berikut:

Encoder mengubah urutan embedding menjadi urutan baru yang panjangnya sama. Encoder menyertakan N lapisan identik, yang masing-masing berisi dua sub-lapisan. Kedua sub-lapisan ini diterapkan di setiap posisi urutan penyematan input, sehingga mengubah setiap elemen urutan menjadi penyematan baru. Sub-lapisan encoder pertama menggabungkan informasi dari seluruh urutan input. Sub-lapisan encoder kedua mengubah informasi gabungan menjadi embedding output.

Decoder mengubah urutan embedding input menjadi urutan embedding output, mungkin dengan panjang yang berbeda. Decoder juga menyertakan N lapisan identik dengan tiga sub-lapisan, dua di antaranya serupa dengan sub-lapisan encoder. Sub-lapisan dekoder ketiga mengambil output encoder dan menerapkan mekanisme self-attention untuk mengumpulkan informasi darinya.

Postingan blog Transformer: Arsitektur Jaringan Neural Baru untuk Pemahaman Bahasa memberikan pengantar yang baik tentang Transformer.

trigram

#seq
#language

N-gram yang berisi N=3.

U

searah

#language

Sistem yang hanya mengevaluasi teks yang mendahului bagian target teks. Sebaliknya, sistem dua arah mengevaluasi teks yang mendahului dan mengikuti bagian target teks. Lihat dua arah untuk detail selengkapnya.

model bahasa searah

#language

Model bahasa yang mendasarkan probabilitasnya hanya pada token yang muncul sebelum, bukan setelah, token target. Berbeda dengan model bahasa dua arah.

V

{i>variety autoencoder<i} (VAE)

#language

Jenis autoencoder yang memanfaatkan perbedaan antara input dan output untuk menghasilkan versi input yang dimodifikasi. Autoencoder variasional berguna untuk AI generatif.

VAE didasarkan pada inferensi variasi: teknik untuk memperkirakan parameter model probabilitas.

W

penyematan kata

#language

Merepresentasikan setiap kata dalam kumpulan kata di dalam vektor penyematan; yaitu, merepresentasikan setiap kata sebagai vektor nilai floating point antara 0,0 dan 1,0. Kata dengan makna yang serupa memiliki representasi yang lebih mirip daripada kata-kata yang maknanya berbeda. Misalnya, wortel, seledri, dan mentimun akan memiliki representasi yang relatif mirip, yang akan sangat berbeda dari representasi pesawat, kacamata hitam, dan pasta gigi.

Z

prompt zero-shot

#language
#AI generatif

Perintah yang tidak memberikan contoh cara Anda ingin model bahasa besar merespons. Contoh:

Bagian dari satu dialog Notes
Apa mata uang resmi negara yang ditentukan? Pertanyaan yang Anda inginkan agar dijawab oleh LLM.
India: Kueri sebenarnya.

Model bahasa besar dapat merespons dengan salah satu dari hal berikut:

  • Rupee
  • INR
  • Rupee India
  • Rupee
  • Rupee India

Semua jawaban benar, meskipun Anda mungkin lebih suka format tertentu.

Bandingkan dan bandingkan perintah zero-shot dengan istilah berikut: