Halaman ini berisi istilah glosarium Model Gambar. Untuk semua istilah glosarium, klik di sini.
J
augmented reality
Teknologi yang menempatkan gambar yang dihasilkan komputer di sudut pandang pengguna tentang dunia nyata, sehingga memberikan tampilan gabungan.
{i>autoencoder<i}
Sistem yang mempelajari cara mengekstrak informasi yang paling penting dari input. Autoencoder adalah kombinasi dari encoder dan decoder. Autoencoder mengandalkan proses dua langkah berikut:
- Encoder memetakan input ke format lossy dimensi lebih rendah (menengah).
- Decoder membuat versi lossy dari input asli dengan memetakan format dimensi yang lebih rendah ke format input asli berdimensi lebih tinggi.
Autoencoder dilatih secara menyeluruh dengan meminta decoder mencoba merekonstruksi input asli dari format perantara encoder sedekat mungkin. Karena format perantara lebih kecil (dimensi lebih rendah) daripada format aslinya, autoencoder dipaksa untuk mempelajari informasi apa dalam input yang penting, dan output tidak akan identik dengan input sepenuhnya.
Contoh:
- Jika data input adalah grafik, salinan yang tidak tepat akan mirip dengan grafik asli, tetapi sedikit dimodifikasi. Mungkin salinan yang tidak tepat menghilangkan noise dari grafis asli atau mengisi beberapa piksel yang hilang.
- Jika data input berupa teks, autoencoder akan menghasilkan teks baru yang meniru (tetapi tidak sama persis) dengan teks aslinya.
Lihat juga autoencoder variatif.
model auto-regresif
model yang menyimpulkan prediksi berdasarkan prediksi sebelumnya sendiri. Misalnya, model bahasa auto-regresif memprediksi token berikutnya berdasarkan token yang diprediksi sebelumnya. Semua model bahasa besar berbasis Transformer bersifat auto-regresif.
Sebaliknya, model gambar berbasis GAN biasanya tidak regresi otomatis karena menghasilkan gambar dalam satu penerusan maju dan tidak secara iteratif dalam langkah-langkah berikutnya. Namun, model pembuatan gambar tertentu bersifat regresif otomatis karena model tersebut menghasilkan gambar secara bertahap.
B
kotak pembatas
Dalam gambar, koordinat (x, y) persegi panjang di sekitar area menarik, seperti pada gambar di bawah.
C
konvolusi
Dalam matematika, berbicara santai, campuran dua fungsi. Dalam machine learning, konvolusi mencampur filter konvolusional dan matriks input untuk melatih bobot.
Istilah "konvolusi" dalam machine learning sering kali merupakan cara singkat untuk merujuk pada operasi konvolusional atau lapisan konvolusional.
Tanpa konvolusi, algoritma machine learning harus mempelajari bobot terpisah untuk setiap sel dalam tensor besar. Misalnya, pelatihan algoritme machine learning pada gambar 2K x 2K akan dipaksa untuk menemukan bobot terpisah 4 juta. Berkat konvolusi, algoritma machine learning hanya perlu menemukan bobot untuk setiap sel dalam filter konvolusional, sehingga secara drastis mengurangi memori yang diperlukan untuk melatih model. Saat filter konvolusional diterapkan, filter tersebut hanya direplikasi di seluruh sel sehingga setiap sel dikalikan dengan filter.
filter konvolusional
Salah satu dari dua aktor dalam operasi konvolusional. (Aktor lainnya adalah potongan dari matriks input.) Filter konvolusional adalah matriks yang memiliki peringkat yang sama dengan matriks input, tetapi bentuknya lebih kecil. Misalnya, dengan matriks input 28x28, filter dapat berupa matriks 2D yang lebih kecil dari 28x28.
Dalam manipulasi fotografi, semua sel dalam filter konvolusional biasanya diatur ke pola konstan satu dan nol. Dalam machine learning, filter konvolusional biasanya diisi dengan angka acak, lalu jaringan melatih nilai yang ideal.
lapisan konvolusional
Lapisan jaringan neural dalam tempat filter konvolusional meneruskan matriks input. Misalnya, pertimbangkan filter konvolusional 3x3 berikut:
Animasi berikut menunjukkan lapisan konvolusional yang terdiri dari 9 operasi konvolusional yang melibatkan matriks input 5x5. Perhatikan bahwa setiap operasi konvolusional bekerja pada potongan matriks input 3x3 yang berbeda. Matriks 3x3 yang dihasilkan (di sebelah kanan) terdiri dari hasil dari 9 operasi konvolusional:
jaringan neural konvolusional
Jaringan neural dengan setidaknya satu lapisan adalah lapisan konvolusional. Jaringan neural konvolusional umum terdiri dari beberapa kombinasi lapisan berikut:
Jaringan neural konvolusional mengalami sukses besar dalam jenis masalah tertentu, seperti pengenalan citra.
operasi konvolusional
Operasi matematika dua langkah berikut:
- Perkalian berbasis elemen dari filter konvolusional dan potongan matriks input. (Potongan matriks input memiliki peringkat dan ukuran yang sama dengan filter konvolusional.)
- Penjumlahan semua nilai dalam matriks produk yang dihasilkan.
Misalnya, pertimbangkan matriks input 5x5 berikut:
Sekarang bayangkan filter konvolusional 2x2 berikut:
Setiap operasi konvolusional melibatkan irisan 2x2 dari matriks input tunggal. Misalnya, kita menggunakan irisan 2x2 di kiri atas matriks input. Jadi, operasi konvolusi pada irisan ini terlihat sebagai berikut:
Lapisan konvolusional terdiri dari serangkaian operasi konvolusional, masing-masing bekerja pada bagian matriks input yang berbeda.
D
pengayaan data
Membuat-buat peningkatan rentang dan jumlah contoh pelatihan dengan mengubah contoh yang sudah ada untuk membuat contoh tambahan. Misalnya, anggaplah gambar adalah salah satu fitur Anda, tetapi set data Anda tidak berisi contoh gambar yang memadai bagi model untuk mempelajari pengaitan yang berguna. Idealnya, tambahkan gambar berlabel secukupnya ke set data Anda agar model Anda dapat dilatih dengan benar. Jika tidak memungkinkan, augmentasi data dapat memutar, melebarkan, dan merefleksikan setiap gambar untuk menghasilkan banyak varian gambar asli, yang mungkin menghasilkan data berlabel yang cukup guna memungkinkan pelatihan yang sangat baik.
jaringan neural konvolusional yang dapat dipisahkan secara mendalam (sepCNN)
Arsitektur jaringan neural konvolusional berdasarkan Inception, tetapi modul Inception diganti dengan konvolusi yang dapat dipisahkan depthwise. Juga dikenal sebagai Xception.
Konvolusi yang dapat dipisahkan kedalamannya (juga disingkat sebagai konvolusi yang dapat dipisahkan) memfaktorkan konvolusi 3-D standar menjadi dua operasi konvolusi terpisah yang lebih efisien secara komputasi: pertama, konvolusi kedalaman, dengan kedalaman 1 (n smartln mainkan sertakan 1), lalu kedua, dengan panjang bi
Untuk mempelajari lebih lanjut, lihat Xception: Deep Learning dengan Depthwise Separable Convolutions.
downsampling (pengurangan sampel)
Istilah yang kelebihan muatan yang dapat berarti salah satu dari hal berikut:
- Mengurangi jumlah informasi dalam fitur untuk melatih model dengan lebih efisien. Misalnya, sebelum melatih model pengenalan gambar, lakukan downsampling pada gambar beresolusi tinggi ke format beresolusi lebih rendah.
- Melatih contoh class yang terlalu rendah dan tidak proporsional untuk meningkatkan pelatihan model pada class yang kurang terwakili. Misalnya, dalam set data kelas tidak seimbang, model cenderung mempelajari banyak hal tentang kelas utama dan tidak cukup tentang kelas minoritas. Penurunan sampel membantu menyeimbangkan jumlah pelatihan pada kelas mayoritas dan minoritas.
F
penyesuaian
Tiket pelatihan khusus tugas kedua yang dilakukan pada model terlatih untuk mengoptimalkan parameternya untuk kasus penggunaan tertentu. Misalnya, urutan pelatihan lengkap untuk beberapa model bahasa besar adalah sebagai berikut:
- Pra-pelatihan: Latih model bahasa besar pada set data umum yang luas, seperti semua halaman Wikipedia berbahasa Inggris.
- Penyesuaian: Latih model terlatih untuk melakukan tugas tertentu, seperti merespons kueri medis. Fine-tuning biasanya melibatkan ratusan atau ribuan contoh yang berfokus pada tugas tertentu.
Sebagai contoh lainnya, urutan pelatihan lengkap untuk model gambar besar adalah sebagai berikut:
- Pra-pelatihan: Latih model gambar besar pada set data gambar umum yang luas, seperti semua gambar di Wikimedia commons.
- Penyelarasan: Latih model yang telah dilatih sebelumnya untuk melakukan tugas tertentu, seperti membuat gambar orca.
Penyesuaian dapat memerlukan kombinasi dari strategi berikut:
- Mengubah semua parameter model terlatih yang ada. Hal ini terkadang disebut fine-tuning penuh.
- Hanya memodifikasi beberapa parameter model terlatih yang ada (biasanya, lapisan yang paling dekat dengan lapisan output), sekaligus mempertahankan parameter lain yang ada tanpa perubahan (biasanya, lapisan yang paling dekat dengan lapisan input). Lihat penyesuaian parameter efisien.
- Menambahkan lebih banyak lapisan, biasanya di atas lapisan yang ada yang paling dekat dengan lapisan output.
Fine-tuning merupakan bentuk pembelajaran transfer. Dengan demikian, fine-tuning mungkin menggunakan fungsi kerugian atau jenis model yang berbeda dari yang digunakan untuk melatih model terlatih. Misalnya, Anda dapat menyesuaikan model gambar besar yang telah dilatih sebelumnya untuk menghasilkan model regresi yang menampilkan jumlah burung dalam gambar input.
Bandingkan dan bandingkan fine-tuning dengan istilah berikut:
G
AI generatif
Bidang transformatif yang sedang berkembang tanpa definisi formal. Meskipun demikian, sebagian besar pakar setuju bahwa model AI generatif dapat membuat ("menghasilkan") konten yang meliputi semua hal berikut:
- kompleks
- koheren
- asli
Misalnya, model AI generatif dapat membuat esai atau gambar yang canggih.
Beberapa teknologi sebelumnya, termasuk LSTM dan RNN, juga dapat menghasilkan konten yang asli dan koheren. Beberapa pakar memandang teknologi awal ini sebagai AI generatif, sementara pakar lain merasa bahwa AI generatif sejati memerlukan output yang lebih kompleks daripada yang dapat dihasilkan oleh teknologi sebelumnya.
Berbeda dengan ML prediktif.
I
pengenalan gambar
Sebuah proses yang mengklasifikasikan objek, pola, atau konsep dalam sebuah gambar. Pengenalan citra juga dikenal sebagai klasifikasi gambar.
Untuk mengetahui informasi selengkapnya, lihat Praktik ML: Klasifikasi Gambar.
persimpangan melintasi union (IoU)
Perpotongan dua himpunan yang dibagi dengan gabungannya. Dalam tugas deteksi gambar machine learning, IoU digunakan untuk mengukur akurasi kotak pembatas yang diprediksi oleh model sehubungan dengan kotak pembatas ground-truth. Dalam hal ini, IoU untuk kedua kotak tersebut adalah rasio antara area tumpang tindih dan area total, dan nilainya berkisar dari 0 (tidak ada tumpang tindih antara kotak pembatas yang diprediksi dan kotak pembatas kebenaran dasar) hingga 1 (kotak pembatas yang diprediksi dan kotak pembatas kebenaran dasar memiliki koordinat yang sama persis).
Misalnya, pada gambar di bawah ini:
- Kotak pembatas yang diprediksi (koordinat yang membatasi tempat model memprediksi letak tabel malam dalam lukisan) ditandai dengan warna ungu.
- Kotak pembatas kebenaran dasar (koordinat yang membatasi lokasi tabel malam dalam lukisan) ditandai dengan warna hijau.
Di sini, persimpangan kotak pembatas untuk prediksi dan kebenaran dasar (di bawah kiri) adalah 1, dan gabungan kotak pembatas untuk prediksi dan kebenaran dasar (di bawah kanan) adalah 7, sehingga IoU-nya adalah \(\frac{1}{7}\).
K
keypoint
Koordinat fitur tertentu pada gambar. Misalnya, untuk model pengenalan gambar yang membedakan spesies bunga, keypoint mungkin adalah bagian tengah setiap kelopak, batang, benang sari, dan seterusnya.
L
tempat terkenal
Sinonim dari keypoint.
S
MNIST
Set data domain publik yang dikompilasi oleh LeCun, Cortes, dan Burges yang berisi 60.000 gambar, setiap gambar menunjukkan cara manusia menulis digit tertentu dari 0–9 secara manual. Setiap gambar disimpan sebagai array bilangan bulat berukuran 28x28, dengan setiap bilangan bulat adalah nilai hitam putih antara 0 dan 255, inklusif.
MNIST adalah set data kanonis untuk machine learning, yang sering digunakan untuk menguji pendekatan machine learning baru. Untuk mengetahui detailnya, lihat Database MNIST untuk Digit Tulisan Tangan.
P
penggabungan
Mengurangi matriks (atau matriks) yang dibuat oleh lapisan konvolusional sebelumnya ke matriks yang lebih kecil. Penggabungan biasanya melibatkan penggunaan nilai maksimum atau rata-rata di seluruh area gabungan. Misalnya, kita memiliki matriks 3x3 berikut:
Operasi penggabungan, seperti operasi konvolusional, membagi matriks tersebut menjadi beberapa potongan, lalu menggeser operasi konvolusional tersebut dengan langkah. Misalnya, operasi penggabungan membagi matriks konvolusional menjadi irisan 2x2 dengan langkah 1x1. Seperti yang digambarkan diagram berikut, ada empat operasi penggabungan. Bayangkan bahwa setiap operasi penggabungan mengambil nilai maksimum dari keempatnya dalam irisan tersebut:
Penggabungan membantu memberlakukan invariansi translasi dalam matriks input.
Penggabungan untuk aplikasi visi dikenal lebih formal sebagai penggabungan spasial. Penerapan deret waktu biasanya merujuk pada penggabungan sebagai penggabungan sementara. Kurang formal, penggabungan sering disebut subsampling atau downsampling.
model terlatih
Model atau komponen model (seperti vektor penyematan) yang telah dilatih. Terkadang, Anda harus memasukkan vektor penyematan yang telah dilatih ke dalam jaringan neural. Di lain waktu, model Anda akan melatih vektor embedding itu sendiri, bukan mengandalkan embedding terlatih.
Istilah model bahasa terlatih mengacu pada model bahasa besar yang telah melalui pra-pelatihan.
pra-pelatihan
Pelatihan awal model pada set data besar. Beberapa model terlatih adalah raksasa yang kikuk dan biasanya harus ditingkatkan melalui pelatihan tambahan. Misalnya, pakar ML dapat melatih model bahasa besar terlebih dahulu pada set data teks yang luas, seperti semua halaman bahasa Inggris di Wikipedia. Setelah pra-pelatihan, model yang dihasilkan dapat disempurnakan lebih lanjut melalui salah satu teknik berikut:
R
invariansi rotasi
Dalam masalah klasifikasi gambar, kemampuan algoritma agar berhasil mengklasifikasikan gambar meskipun orientasi gambar berubah. Misalnya, algoritme masih dapat mengidentifikasi raket tenis apakah itu mengarah ke atas, ke samping, atau ke bawah. Perhatikan bahwa invariansi rotasi tidak selalu diinginkan; misalnya, 9 terbalik tidak boleh diklasifikasikan sebagai 9.
Lihat juga invarian translasi dan invariansi ukuran.
S
invariansi ukuran
Dalam masalah klasifikasi gambar, kemampuan algoritma agar berhasil mengklasifikasikan gambar meskipun ukuran gambar berubah. Misalnya, algoritma masih dapat mengidentifikasi kucing apakah menggunakan 2 juta piksel atau 200 ribu piksel. Perhatikan bahwa bahkan algoritma klasifikasi gambar terbaik pun masih memiliki batas praktis terkait invariansi ukuran. Misalnya, algoritma (atau manusia) cenderung tidak mengklasifikasikan gambar kucing yang hanya menggunakan 20 piksel dengan benar.
Lihat juga invariansi translasional dan invariansi rotasi.
penggabungan spasial
Lihat penggabungan.
langkah
Dalam operasi konvolusional atau penggabungan, delta di setiap dimensi dari rangkaian irisan input berikutnya. Misalnya, animasi berikut menunjukkan langkah (1,1) selama operasi konvolusional. Oleh karena itu, irisan input berikutnya memulai satu posisi di sebelah kanan bagian input sebelumnya. Saat operasi mencapai tepi kanan, irisan berikutnya sepenuhnya ke kiri, tetapi satu posisi di bawah.
Contoh sebelumnya menunjukkan langkah dua dimensi. Jika matriks input memiliki tiga dimensi, jangkanya juga akan memiliki tiga dimensi.
subsampling
Lihat penggabungan.
T
suhu
Hyperparameter yang mengontrol tingkat keacakan output model. Suhu yang lebih tinggi menghasilkan output yang lebih acak, sedangkan suhu yang lebih rendah menghasilkan output yang lebih sedikit.
Memilih suhu terbaik bergantung pada aplikasi tertentu dan properti yang diinginkan dari output model. Misalnya, Anda mungkin akan meningkatkan suhu saat membuat aplikasi yang menghasilkan output materi iklan. Sebaliknya, Anda mungkin akan menurunkan suhu saat membangun model yang mengklasifikasikan gambar atau teks untuk meningkatkan akurasi dan konsistensi model.
Suhu sering digunakan dengan softmax.
invariansi translasi
Dalam masalah klasifikasi gambar, kemampuan algoritme agar berhasil mengklasifikasikan gambar meskipun posisi objek dalam gambar berubah. Misalnya, algoritma masih dapat mengidentifikasi, apakah itu berada di tengah frame atau di ujung kiri frame.
Lihat juga invariansi ukuran dan invariansi rotasi.