Glosarium Machine Learning: Dasar-Dasar ML

Halaman ini berisi istilah glosarium Dasar-Dasar ML. Untuk semua istilah glosarium, klik di sini.

J

akurasi

#fundamentals

Jumlah prediksi klasifikasi yang benar dibagi dengan jumlah total prediksi. Definisinya yaitu:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Misalnya, model yang membuat 40 prediksi benar dan 10 prediksi yang salah akan memiliki akurasi:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasifikasi biner memberikan nama tertentu untuk berbagai kategori prediksi yang benar dan prediksi yang salah. Jadi, formula akurasi untuk klasifikasi biner adalah sebagai berikut:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dalam hal ini:

Membandingkan dan membedakan akurasi dengan presisi dan perolehan.

fungsi aktivasi

#fundamentals

Fungsi yang memungkinkan jaringan neural untuk mempelajari hubungan nonlinear (kompleks) antara fitur dan label.

Fungsi aktivasi yang populer mencakup:

Plot fungsi aktivasi tidak pernah berupa garis lurus tunggal. Misalnya, plot fungsi aktivasi ULT terdiri dari dua garis lurus:

Plot kartesius dua baris. Baris pertama memiliki konstanta
          y nilai 0, yang membentang di sepanjang sumbu x dari -tak terhingga,0 hingga 0,-0.
          Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, sehingga garisnya dimulai dari 0,0 hingga +tak terbatas,+tak terhingga.

Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain - tak terhingga hingga +positif, sedangkan nilai y menjangkau rentang hampir 0 hingga hampir 1. Ketika x adalah 0, y adalah 0,5. Kemiringan kurva selalu positif, dengan kemiringan tertinggi pada 0,0,5 dan secara bertahap menurun seiring meningkatnya nilai absolut x.

kecerdasan buatan

#fundamentals

Program atau model nonmanusia yang dapat menyelesaikan tugas-tugas rumit. Misalnya, program atau model yang menerjemahkan teks, atau program/model yang mengidentifikasi penyakit dari gambar radiologi, keduanya menunjukkan kecerdasan buatan.

Secara formal, machine learning adalah sub-bidang dari kecerdasan buatan. Namun, dalam beberapa tahun terakhir, beberapa organisasi mulai menggunakan istilah kecerdasan buatan dan machine learning secara bergantian.

ABK (Area di bawah kurva KOP)

#fundamentals

Angka antara 0,0 dan 1,0 yang mewakili kemampuan model klasifikasi biner untuk memisahkan kelas positif dari kelas negatif. Makin dekat AUC ke 1,0, makin baik kemampuan model untuk memisahkan class satu sama lain.

Misalnya, ilustrasi berikut menunjukkan model pengklasifikasi yang memisahkan class positif (oval hijau) dari class negatif (kotak ungu) secara sempurna. Model yang tidak realistis ini memiliki ABK 1,0:

Garis bilangan dengan 8 contoh positif di satu sisi dan 9 contoh negatif di sisi lainnya.

Sebaliknya, ilustrasi berikut menunjukkan hasil untuk model pengklasifikasi yang memberikan hasil acak. Model ini memiliki ABK 0,5:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contoh tersebut adalah positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif, negatif.

Ya, model sebelumnya memiliki ABK 0,5, bukan 0,0.

Sebagian besar model berada di antara dua ekstrem tersebut. Misalnya, model berikut agak memisahkan positif dari negatif, sehingga memiliki ABK antara 0,5 dan 1,0:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contoh tersebut adalah negatif, negatif, negatif, negatif,
          positif, negatif, positif, positif, negatif, positif, positif,
          positif.

ABK mengabaikan nilai apa pun yang Anda tetapkan untuk nilai minimum klasifikasi. Sebaliknya, ABK mempertimbangkan semua batas klasifikasi yang memungkinkan.

B

propagasi mundur

#fundamentals

Algoritma yang menerapkan penurunan gradien dalam jaringan neural.

Melatih jaringan neural melibatkan banyak iterasi dari siklus dua tahap berikut:

  1. Selama forward pass, sistem memproses batch dari contoh untuk menghasilkan prediksi. Sistem membandingkan setiap prediksi dengan setiap nilai label. Perbedaan antara prediksi dan nilai label adalah kerugian untuk contoh tersebut. Sistem menggabungkan kerugian untuk semua contoh guna menghitung total kerugian untuk batch saat ini.
  2. Selama lintasan mundur (propagasi mundur), sistem akan mengurangi kerugian dengan menyesuaikan bobot semua neuron di semua lapisan tersembunyi.

Jaringan neural biasanya memiliki banyak neuron di banyak lapisan tersembunyi. Masing-masing neuron tersebut berkontribusi pada kehilangan keseluruhan dengan cara yang berbeda. Propagasi mundur menentukan apakah akan menambah atau mengurangi bobot yang diterapkan pada neuron tertentu.

Kecepatan pembelajaran adalah pengganda yang mengontrol tingkat peningkatan atau penurunan setiap bobot mundur. Kecepatan pemelajaran yang besar akan meningkatkan atau menurunkan setiap bobot lebih dari kecepatan pemelajaran yang kecil.

Dalam istilah kalkulus, propagasi mundur menerapkan aturan rantai. dari kalkulus. Artinya, propagasi mundur menghitung turunan parsial dari error terkait dengan setiap parameter.

Bertahun-tahun yang lalu, praktisi ML harus menulis kode untuk menerapkan propagasi mundur. API ML modern seperti TensorFlow sekarang mengimplementasikan propagasi mundur untuk Anda. Fiuh!

batch

#fundamentals

Kumpulan contoh yang digunakan dalam satu iterasi pelatihan. Ukuran tumpukan menentukan jumlah contoh dalam suatu tumpukan.

Lihat epoch untuk mendapatkan penjelasan tentang hubungan batch dengan epoch.

ukuran tumpukan

#fundamentals

Jumlah contoh dalam kumpulan. Misalnya, jika ukuran batch adalah 100, model akan memproses 100 contoh per iterasi.

Berikut adalah strategi ukuran tumpukan yang populer:

  • Penurunan Gradien Stokastik (SGD), dengan ukuran tumpukan 1.
  • Batch penuh, dengan ukuran tumpukan merupakan jumlah contoh di seluruh set pelatihan. Misalnya, jika set pelatihan berisi satu juta contoh, ukuran batch akan menjadi satu juta contoh. Batch penuh biasanya merupakan strategi yang tidak efisien.
  • tumpukan mini yang ukuran tumpukannya biasanya antara 10 dan 1.000. Tumpukan mini biasanya merupakan strategi yang paling efisien.

bias (etika/keadilan)

#fairness
#fundamentals

1. Stereotip, prasangka atau favoritisme terhadap beberapa hal, orang, atau kelompok dibandingkan yang lain. Bias ini dapat memengaruhi pengumpulan dan penafsiran data, desain sistem, dan cara pengguna berinteraksi dengan sistem. Bentuk-bentuk jenis bias ini meliputi:

2. Error sistematis yang diperkenalkan melalui prosedur pengambilan sampel atau pelaporan. Bentuk-bentuk jenis bias ini meliputi:

Harap bedakan dengan istilah bias dalam model machine learning atau bias prediksi.

bias (matematis) atau istilah bias

#fundamentals

Intersep atau offset dari asal. Bias adalah parameter dalam model machine learning, yang dilambangkan dengan salah satu hal berikut:

  • b
  • w0

Misalnya, bias bernilai b dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dalam garis dua dimensi sederhana, bias hanya berarti "perpotongan y". Misalnya, bias garis dalam ilustrasi berikut adalah 2.

Plot garis dengan kemiringan 0,5 dan bias (perpotongan y) sebesar 2.

Bias ada karena tidak semua model dimulai dari asal (0,0). Misalnya, anggaplah sebuah taman hiburan berbiaya 2 Euro untuk masuk dan tambahan 0,5 Euro untuk setiap jam seorang pelanggan menginap. Oleh karena itu, model yang memetakan total biaya memiliki bias 2 karena biaya terendah adalah 2 Euro.

Bias jangan disamakan dengan bias dalam etika dan keadilan atau bias prediksi.

klasifikasi biner

#fundamentals

Jenis tugas klasifikasi yang memprediksi salah satu dari dua class yang saling eksklusif:

Misalnya, dua model machine learning berikut masing-masing melakukan klasifikasi biner:

  • Model yang menentukan apakah pesan email adalah spam (kelas positif) atau bukan spam (kelas negatif).
  • Model yang mengevaluasi gejala medis untuk menentukan apakah seseorang memiliki penyakit tertentu (kelas positif) atau tidak memiliki penyakit tersebut (kelas negatif).

Berbeda dengan klasifikasi kelas multi-kelas.

Lihat juga regresi logistik dan batas klasifikasi.

pengelompokan

#fundamentals

Mengonversi satu fitur menjadi beberapa fitur biner yang disebut bucket atau bins, biasanya berdasarkan rentang nilai. Fitur yang terpotong biasanya merupakan fitur berkelanjutan.

Misalnya, daripada merepresentasikan suhu sebagai satu fitur floating point berkelanjutan, Anda dapat membagi rentang suhu menjadi bucket terpisah, seperti:

  • <= 10 derajat Celsius akan menjadi bucket "cold".
  • 11 - 24 derajat Celsius akan menjadi ember "sedang".
  • >= 25 derajat Celsius akan menjadi suhu "hangat".

Model tersebut akan memperlakukan setiap nilai dalam bucket yang sama secara identik. Misalnya, nilai 13 dan 22 berada di bucket sedang, sehingga model memperlakukan kedua nilai tersebut secara identik.

C

data kategoris

#fundamentals

Fitur yang memiliki kumpulan spesifik nilai yang memungkinkan. Misalnya, pertimbangkan fitur kategori bernama traffic-light-state, yang hanya dapat memiliki salah satu dari tiga kemungkinan nilai berikut:

  • red
  • yellow
  • green

Dengan merepresentasikan traffic-light-state sebagai fitur kategoris, model dapat mempelajari dampak yang berbeda dari red, green, dan yellow terhadap perilaku pengemudi.

Fitur kategoris terkadang disebut fitur diskrit.

Berbeda dengan data numerik.

class

#fundamentals

Suatu kategori yang dapat mencakup label. Contoh:

  • Pada model klasifikasi biner yang mendeteksi spam, dua kelas tersebut mungkin adalah spam dan bukan spam.
  • Dalam model klasifikasi kelas multi-kelas yang mengidentifikasi jenis, kelasnya bisa jadi pudel, beagle, pug, dan sebagainya.

Model klasifikasi memprediksi class. Sebaliknya, model regresi memprediksi angka, bukan class.

model klasifikasi

#fundamentals

model yang prediksinya adalah model. Misalnya, berikut adalah semua model klasifikasi:

  • Model yang memprediksi bahasa kalimat input (bahasa Prancis? Spanyol? Italia?).
  • Model yang memprediksi spesies pohon (Maple? Oak? Baobab?).
  • Model yang memprediksi kelas positif atau negatif untuk kondisi medis tertentu.

Sebaliknya, model regresi memprediksi angka, bukan class.

Dua jenis model klasifikasi yang umum adalah:

batas klasifikasi

#fundamentals

Dalam klasifikasi biner, angka antara 0 dan 1 yang mengonversi output mentah dari model regresi logistik menjadi prediksi kelas positif atau kelas negatif. Perhatikan bahwa batas klasifikasi adalah nilai yang dipilih manusia, bukan nilai yang dipilih oleh pelatihan model.

Model regresi logistik menghasilkan nilai mentah antara 0 dan 1. Lalu:

  • Jika nilai mentah ini lebih besar dari batas klasifikasi, maka kelas positif akan diprediksi.
  • Jika nilai mentah ini kurang dari batas klasifikasi, maka kelas negatif akan diprediksi.

Misalnya, batas klasifikasi adalah 0,8. Jika nilai mentah adalah 0,9, model akan memprediksi kelas positif. Jika nilai mentahnya 0,7, model akan memprediksi kelas negatif.

Pilihan batas klasifikasi sangat memengaruhi jumlah positif palsu dan negatif palsu.

set data kelas tidak seimbang

#fundamentals

Set data untuk masalah klasifikasi dengan jumlah total label setiap kelas berbeda secara signifikan. Misalnya, pertimbangkan set data klasifikasi biner yang dua labelnya dibagi sebagai berikut:

  • 1.000.000 label negatif
  • 10 label positif

Rasio label negatif ke positif adalah 100.000 berbanding 1, jadi ini adalah set data kelas tidak seimbang.

Sebaliknya, set data berikut tidak seimbang karena rasio label negatif terhadap label positif relatif mendekati 1:

  • 517 label negatif
  • 483 label positif

Set data multi-class juga bisa menjadi tidak seimbang di kelasnya. Misalnya, set data klasifikasi kelas jamak berikut juga tidak seimbang kelasnya karena satu label memiliki lebih banyak contoh daripada dua label lainnya:

  • 1.000.000 label dengan kelas "hijau"
  • 200 label dengan kelas "ungu"
  • 350 label dengan kelas "oranye"

Lihat juga entropi, kelas mayoritas, dan kelas minoritas.

penyesuaian nilai

#fundamentals

Teknik untuk menangani outlier dengan melakukan salah satu atau kedua hal berikut:

  • Mengurangi nilai feature yang lebih besar dari nilai minimum maksimum ke nilai minimum tersebut.
  • Meningkatkan nilai fitur yang kurang dari nilai minimum hingga nilai minimum tersebut.

Misalnya, anggap saja <0,5% nilai untuk fitur tertentu berada di luar rentang 40–60. Dalam hal ini, Anda dapat melakukan hal berikut:

  • Potong semua nilai di atas 60 (batas maksimum) menjadi tepat 60.
  • Potong semua nilai di bawah 40 (nilai minimum) menjadi tepat 40.

Pencilan dapat merusak model, yang terkadang menyebabkan bobot melimpah selama pelatihan. Beberapa pencilan juga dapat merusak metrik seperti akurasi secara drastis. {i>Clipping<i} adalah teknik umum untuk membatasi kerusakan.

Pemotongan gradien memaksa nilai gradien dalam rentang yang ditentukan selama pelatihan.

matriks konfusi

#fundamentals

Tabel NxN yang merangkum jumlah prediksi benar dan salah yang dibuat oleh model klasifikasi. Misalnya, perhatikan matriks konfusi berikut untuk model klasifikasi biner:

Tumor (diprediksi) Bukan Tumor (diprediksi)
Tumor (kebenaran dasar) 18 (PB) 1 (NP)
Non-Tumor (kebenaran dasar) 6 (PP) 452 (NB)

Matriks konfusi sebelumnya menunjukkan hal berikut:

  • Dari 19 prediksi yang mana kebenaran dasar adalah Tumor, model tersebut mengklasifikasikan 18 prediksi dengan benar dan salah mengklasifikasikan 1.
  • Dari 458 prediksi yang mana kebenaran dasar adalah Non-Tumor, model tersebut mengklasifikasikan 452 dengan benar dan salah mengklasifikasikan 6.

Matriks konfusi untuk masalah klasifikasi kelas jamak dapat membantu Anda mengidentifikasi pola kesalahan. Misalnya, pertimbangkan matriks konfusi berikut untuk model klasifikasi multikelas 3 kelas yang mengategorikan tiga jenis iris yang berbeda (Virginica, Versicolor, dan Setosa). Saat kebenaran dasar adalah Virginica, matriks konfusi menunjukkan bahwa model jauh lebih mungkin untuk salah memprediksi Versicolor daripada Setosa:

  Setosa (diprediksi) Versicolor (diprediksi) Virginica (diprediksi)
Setosa (kebenaran dasar) 88 12 0
Versicolor (kebenaran dasar) 6 141 7
Virginica (kebenaran dasar) 2 27 109

Contoh lainnya, matriks konfusi dapat mengungkapkan bahwa model yang dilatih untuk mengenali digit yang ditulis tangan cenderung salah memprediksi 9, bukan 4, atau keliru memprediksi 1, bukan 7.

Matriks konfusi berisi informasi yang memadai untuk menghitung berbagai metrik performa, termasuk presisi dan perolehan.

fitur berkelanjutan

#fundamentals

Fitur floating point dengan rentang nilai yang memungkinkan, seperti suhu atau berat.

Berbeda dengan fitur diskret.

konvergensi

#fundamentals

Status yang dicapai saat nilai loss berubah sangat sedikit atau tidak berubah sama sekali dengan setiap iterasi. Misalnya, kurva kerugian berikut menunjukkan konvergensi pada sekitar 700 iterasi:

{i>Cartesian plot<i}. Sumbu X adalah kerugian. Sumbu Y adalah jumlah iterasi
          pelatihan. Kerugian sangat tinggi selama beberapa iterasi pertama, tetapi menurun tajam. Setelah sekitar 100 iterasi, kerugian masih tetap menurun, tetapi jauh lebih bertahap. Setelah sekitar 700 iterasi, kerugian tetap datar.

Model dikonvergensi saat pelatihan tambahan tidak akan meningkatkan kualitas model.

Di deep learning, nilai kerugian terkadang tetap konstan atau hampir sama untuk banyak iterasi sebelum akhirnya menurun. Selama jangka panjang nilai kerugian konstan, untuk sementara Anda mungkin merasakan konvergensi palsu.

Lihat juga penghentian awal.

D

DataFrame

#fundamentals

Jenis data pandas populer untuk merepresentasikan set data di memori.

DataFrame dapat dianalogikan dengan tabel atau {i>spreadsheet<i}. Setiap kolom DataFrame memiliki nama (header), dan setiap baris diidentifikasi dengan nomor unik.

Setiap kolom dalam DataFrame disusun seperti array 2D, dengan pengecualian bahwa setiap kolom dapat diberi jenis datanya sendiri.

Lihat juga halaman referensi pandas.DataFrame resmi.

set data atau set data

#fundamentals

Kumpulan data mentah, umumnya (tetapi tidak secara eksklusif) diatur dalam salah satu format berikut:

  • {i>spreadsheet<i}
  • file dalam format CSV ({i>comma-separated values<i})

model dalam

#fundamentals

Jaringan neural yang berisi lebih dari satu lapisan tersembunyi.

Model dalam juga disebut jaringan neural dalam.

Berbeda dengan model lebar.

fitur padat

#fundamentals

Fitur yang sebagian besar atau semua nilai-nya bukan nol, biasanya Tensor dari nilai floating point. Misalnya, Tensor 10 elemen berikut padat karena 9 nilainya bukan nol:

8 3 7 5 2 4 0 4 9 6

Berbeda dengan fitur renggang.

kedalaman

#fundamentals

Jumlah hal berikut dalam jaringan neural:

Misalnya, jaringan neural dengan lima lapisan tersembunyi dan satu lapisan output memiliki kedalaman 6.

Perhatikan bahwa lapisan input tidak memengaruhi kedalaman.

fitur diskret

#fundamentals

Fitur dengan serangkaian kemungkinan nilai yang terbatas. Misalnya, fitur yang nilainya hanya dapat berupa hewan, nabati, atau mineral adalah fitur diskrit (atau kategoris).

Berbeda dengan fitur berkelanjutan.

dinamis

#fundamentals

Sesuatu yang sering dilakukan atau dilakukan secara terus-menerus. Istilah dinamis dan online adalah sinonim dalam machine learning. Berikut adalah penggunaan umum dinamis dan online dalam machine learning:

  • Model dinamis (atau model online) adalah model yang sering atau terus-menerus dilatih ulang.
  • Pelatihan dinamis (atau pelatihan online) adalah proses pelatihan yang sering atau berkelanjutan.
  • Inferensi dinamis (atau inferensi online) adalah proses menghasilkan prediksi sesuai permintaan.

model dinamis

#fundamentals

model yang sering (bahkan mungkin terus menerus) dilatih ulang. Model dinamis adalah "pembelajar sepanjang hayat" yang terus-menerus beradaptasi dengan data yang berkembang. Model dinamis juga dikenal sebagai model online.

Berbeda dengan model statis.

E

penghentian awal

#fundamentals

Metode untuk regularisasi yang melibatkan penghentian pelatihan sebelum kerugian pelatihan selesai berkurang. Pada penghentian awal, Anda sengaja menghentikan pelatihan model saat kerugian pada set data validasi mulai meningkat; yaitu ketika performa generalisasi memburuk.

lapisan embedding

#language
#fundamentals

lapisan tersembunyi khusus yang melatih fitur kategoris berdimensi tinggi untuk mempelajari vektor embedding dengan dimensi yang lebih rendah secara bertahap. Lapisan embedding memungkinkan jaringan neural untuk berlatih jauh lebih efisien daripada melatih fitur kategoris berdimensi tinggi saja.

Misalnya, Bumi saat ini mendukung sekitar 73.000 spesies pohon. Misalkan spesies pohon adalah fitur dalam model Anda, jadi lapisan input model Anda mencakup vektor one-hot dengan panjang 73.000 elemen. Misalnya, mungkin baobab akan direpresentasikan seperti ini:

Array berisi 73.000 elemen. 6.232 elemen pertama berisi nilai
     0. Elemen berikutnya berisi nilai 1. 66.767 elemen terakhir memiliki
     nilai nol.

Array berisi 73.000 elemen sangat panjang. Jika lapisan embedding tidak ditambahkan ke model, pelatihan akan sangat memakan waktu karena mengalikan 72.999 angka nol. Mungkin Anda memilih lapisan embedding terdiri dari 12 dimensi. Akibatnya, lapisan embedding secara bertahap akan mempelajari vektor embedding baru untuk setiap spesies pohon.

Dalam situasi tertentu, hashing adalah alternatif yang wajar untuk lapisan embedding.

epoch

#fundamentals

Pass pelatihan penuh pada seluruh set pelatihan sehingga setiap contoh telah diproses satu kali.

Epoch mewakili N/ukuran tumpukan pelatihan iterasi, dengan N adalah jumlah total contoh.

Misalnya, anggaplah hal berikut:

  • Set data ini terdiri dari 1.000 contoh.
  • Ukuran tumpukan adalah 50 contoh.

Oleh karena itu, satu epoch memerlukan 20 iterasi:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

contoh

#fundamentals

Nilai satu baris fitur dan mungkin label. Contoh dalam supervised learning termasuk dalam dua kategori umum:

  • Contoh berlabel terdiri dari satu atau beberapa fitur dan sebuah label. Contoh berlabel digunakan selama pelatihan.
  • Contoh tak berlabel terdiri dari satu atau beberapa fitur, tetapi tanpa label. Contoh tak berlabel digunakan selama inferensi.

Misalnya, Anda melatih model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Berikut adalah tiga contoh berlabel:

Fitur Label
Temperature (suhu) Kelembapan Tekanan Skor tes
15 47 998 Baik
19 34 1020 Sangat baik
18 92 1012 Buruk

Berikut adalah tiga contoh tak berlabel:

Temperature (suhu) Kelembapan Tekanan  
12 62 1014  
21 47 1017  
19 41 1021  

Baris set data biasanya merupakan sumber mentah untuk contoh. Artinya, sebuah contoh biasanya terdiri dari subset kolom dalam set data. Selain itu, fitur dalam contoh juga dapat mencakup fitur sintetis, seperti persilangan fitur.

F

negatif palsu (NP)

#fundamentals

Contoh yang mana model salah memprediksi kelas negatif. Misalnya, model memprediksi bahwa pesan email tertentu bukan spam (kelas negatif), tetapi pesan email tersebut sebenarnya adalah spam.

positif palsu (PP)

#fundamentals

Contoh yang mana model salah memprediksi kelas positif. Misalnya, model memprediksi bahwa pesan email tertentu adalah spam (kelas positif), tetapi pesan email tersebut sebenarnya bukan spam.

rasio positif palsu (FPR)

#fundamentals

Proporsi contoh negatif aktual yang mana model salah memprediksi class positif. Formula berikut menghitung rasio positif palsu:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Rasio positif palsu adalah sumbu x dalam kurva KOP.

fitur

#fundamentals

Variabel input ke model machine learning. Contoh terdiri dari satu atau beberapa fitur. Misalnya, Anda melatih sebuah model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Tabel berikut menunjukkan tiga contoh, yang masing-masing berisi tiga fitur dan satu label:

Fitur Label
Temperature (suhu) Kelembapan Tekanan Skor tes
15 47 998 92
19 34 1020 84
18 92 1012 87

Berbeda dengan label.

persilangan fitur (feature cross)

#fundamentals

Fitur sintetis yang dibentuk oleh fitur kategoris atau dikelompokkan "persilangan".

Misalnya, pertimbangkan model "perkiraan suasana hati" yang mewakili suhu di salah satu dari empat bucket berikut:

  • freezing
  • chilly
  • temperate
  • warm

Dan mewakili kecepatan angin di salah satu dari tiga kategori berikut:

  • still
  • light
  • windy

Tanpa persilangan fitur, model linear berlatih secara independen pada masing-masing dari tujuh bucket berbeda sebelumnya. Dengan demikian, model dilatih di, misalnya, freezing secara terpisah dari pelatihan pada, misalnya, windy.

Atau, Anda dapat membuat persilangan fitur suhu dan kecepatan angin. Fitur sintetis ini akan memiliki 12 kemungkinan nilai berikut:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Berkat persilangan fitur, model ini dapat mempelajari perbedaan mood antara freezing-windy hari dan freezing-still hari.

Jika Anda membuat fitur sintetis dari dua fitur yang masing-masing memiliki banyak bucket berbeda, persilangan fitur yang dihasilkan akan memiliki banyak kemungkinan kombinasi. Misalnya, jika satu fitur memiliki 1.000 bucket dan fitur lainnya memiliki 2.000 bucket, persilangan fitur yang dihasilkan memiliki 2.000.000 bucket.

Secara formal, persilangan adalah produk Kartesius.

Persilangan fitur sebagian besar digunakan dengan model linear dan jarang digunakan dengan jaringan neural.

rekayasa fitur

#fundamentals
#TensorFlow

Proses yang melibatkan langkah-langkah berikut:

  1. Menentukan fitur mana yang mungkin berguna dalam melatih model.
  2. Mengonversi data mentah dari set data menjadi versi yang efisien dari fitur-fitur tersebut.

Misalnya, Anda dapat menentukan bahwa temperature mungkin merupakan fitur yang berguna. Kemudian, Anda dapat bereksperimen dengan pengelompokan untuk mengoptimalkan apa yang dapat dipelajari model dari berbagai rentang temperature.

Rekayasa fitur terkadang disebut ekstraksi fitur atau featurisasi.

set fitur

#fundamentals

Grup fitur yang dilatih oleh model machine learning Anda. Misalnya, kode pos, ukuran properti, dan kondisi properti mungkin terdiri dari set fitur sederhana untuk model yang memprediksi harga perumahan.

vektor fitur

#fundamentals

Array nilai fitur yang terdiri dari contoh. Vektor fitur adalah input selama pelatihan dan selama inferensi. Misalnya, vektor fitur untuk model dengan dua fitur terpisah mungkin:

[0.92, 0.56]

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan satu lapisan output.
          Lapisan input berisi dua node, satu berisi nilai 0,92 dan satu lagi berisi nilai 0,56.

Setiap contoh menyediakan nilai yang berbeda untuk vektor fitur, sehingga vektor fitur untuk contoh berikutnya dapat berupa:

[0.73, 0.49]

Rekayasa fitur menentukan cara merepresentasikan fitur dalam vektor fitur. Misalnya, fitur kategori biner dengan lima kemungkinan nilai dapat direpresentasikan dengan encoding one-hot. Dalam hal ini, bagian dari vektor fitur untuk contoh tertentu akan terdiri dari empat angka nol dan satu angka 1,0 di posisi ketiga, sebagai berikut:

[0.0, 0.0, 1.0, 0.0, 0.0]

Sebagai contoh lainnya, anggaplah model Anda terdiri dari tiga fitur:

  • fitur kategori biner dengan lima kemungkinan nilai yang direpresentasikan dengan encoding one-hot; misalnya: [0.0, 1.0, 0.0, 0.0, 0.0]
  • fitur kategoris biner lainnya dengan tiga kemungkinan nilai yang diwakili oleh encoding one-hot; misalnya: [0.0, 0.0, 1.0]
  • fitur floating point; misalnya: 8.3.

Dalam hal ini, vektor fitur untuk setiap contoh akan direpresentasikan oleh sembilan nilai. Dengan nilai contoh dalam daftar sebelumnya, vektor fiturnya adalah:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

siklus masukan

#fundamentals

Dalam machine learning, situasi ketika prediksi model memengaruhi data pelatihan untuk model yang sama atau model lain. Misalnya, model yang merekomendasikan film akan memengaruhi film yang ditonton orang, yang kemudian akan memengaruhi model rekomendasi film berikutnya.

G

generalisasi

#fundamentals

Kemampuan model untuk membuat prediksi yang benar pada data baru yang sebelumnya tidak terlihat. Model yang dapat melakukan generalisasi adalah kebalikan dari model yang overfitting.

kurva generalisasi

#fundamentals

Plot kerugian pelatihan dan kerugian validasi sebagai fungsi dari jumlah iterasi.

Kurva generalisasi dapat membantu Anda mendeteksi kemungkinan overfitting. Misalnya, kurva generalisasi berikut menunjukkan overfitting karena kerugian validasi pada akhirnya menjadi jauh lebih tinggi daripada kerugian pelatihan.

Grafik Kartesius yang mana sumbu y diberi label kerugian dan sumbu x diberi label iterasi. Dua plot muncul. Satu plot menunjukkan kerugian pelatihan dan yang lain menunjukkan kerugian validasi.
          Awalnya kedua plot tersebut serupa, tetapi kerugian pelatihan pada akhirnya turun jauh lebih rendah daripada kerugian validasi.

penurunan gradien

#fundamentals

Teknik matematis untuk meminimalkan kerugian. Penurunan gradien secara berulang menyesuaikan bobot dan bias, yang secara bertahap menemukan kombinasi terbaik untuk meminimalkan kerugian.

Penurunan gradien lebih tua—jauh, jauh lebih tua—daripada machine learning.

kebenaran nyata

#fundamentals

Realitas.

Hal yang benar-benar terjadi.

Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah seorang siswa di tahun pertama universitas akan lulus dalam waktu enam tahun. Kebenaran dasar untuk model ini adalah apakah siswa tersebut benar-benar lulus dalam enam tahun atau tidak.

H

lapisan tersembunyi

#fundamentals

Lapisan dalam jaringan neural antara lapisan input (fitur) dan lapisan output (prediksi). Setiap lapisan tersembunyi terdiri dari satu atau beberapa neuron. Misalnya, jaringan neural berikut berisi dua lapisan tersembunyi, lapisan pertama dengan tiga neuron dan lapisan kedua dengan dua neuron:

Empat lapisan. Lapisan pertama adalah lapisan input yang berisi dua fitur. Lapisan kedua adalah lapisan tersembunyi yang berisi tiga
 neuron. Lapisan ketiga adalah lapisan tersembunyi yang berisi dua
 neuron. Lapisan keempat adalah lapisan output. Setiap fitur berisi tiga tepi, yang masing-masing mengarah ke neuron yang berbeda di lapisan kedua. Masing-masing neuron di lapisan kedua
          berisi dua tepi, yang masing-masing mengarah ke neuron yang berbeda
          di lapisan ketiga. Setiap neuron di lapisan ketiga berisi
          satu tepi, masing-masing mengarah ke lapisan output.

Jaringan neural dalam berisi lebih dari satu lapisan tersembunyi. Misalnya, ilustrasi sebelumnya adalah jaringan neural dalam karena model berisi dua lapisan tersembunyi.

hyperparameter

#fundamentals

Variabel yang Anda atau layanan penyesuaian hyperparameteryang disesuaikan selama pelatihan model secara berturut-turut. Misalnya, kecepatan pembelajaran adalah hyperparameter. Anda dapat menetapkan kecepatan pembelajaran ke 0,01 sebelum satu sesi pelatihan. Jika Anda menetapkan bahwa 0,01 terlalu tinggi, Anda mungkin dapat menetapkan kecepatan pembelajaran ke 0,003 untuk sesi pelatihan berikutnya.

Sebaliknya, parameter adalah berbagai bobot dan bias yang dipelajari oleh model selama pelatihan.

I

terdistribusi secara independen dan identik (d.i.d)

#fundamentals

Data diambil dari distribusi yang tidak berubah, dan setiap nilai yang diambil tidak bergantung pada nilai yang telah digambar sebelumnya. i.i.d. adalah sumber ideal machine learning—suatu konstruksi matematis yang berguna, tetapi hampir tidak pernah ditemukan di dunia nyata. Misalnya, distribusi pengunjung ke halaman web mungkin berbasis pada periode waktu yang singkat; yaitu, distribusi tidak berubah selama periode singkat tersebut dan kunjungan satu orang umumnya tidak bergantung pada kunjungan orang lain. Namun, jika Anda memperluas periode waktu tersebut, perbedaan musiman pada pengunjung halaman web dapat muncul.

Lihat juga nonstasioneritas.

inferensi

#fundamentals

Dalam machine learning, proses pembuatan prediksi dengan menerapkan model terlatih ke contoh tak berlabel.

Inferensi memiliki arti yang sedikit berbeda dalam statistik. Lihat artikel Wikipedia tentang inferensi statistik untuk mengetahui detailnya.

lapisan input

#fundamentals

Lapisan dari jaringan neural yang menyimpan vektor fitur. Artinya, lapisan input memberikan contoh untuk pelatihan atau inferensi. Misalnya, lapisan input dalam jaringan neural berikut terdiri dari dua fitur:

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan lapisan output.

penafsiran

#fundamentals

Kemampuan untuk menjelaskan atau menyajikan alasan model ML dalam istilah yang dapat dipahami kepada manusia.

Sebagian besar model regresi linear, misalnya, sangat dapat diinterpretasikan. (Anda hanya perlu melihat bobot terlatih untuk setiap fitur.) Hutan keputusan juga sangat dapat ditafsirkan. Namun, beberapa model memerlukan visualisasi yang canggih agar dapat ditafsirkan.

Anda dapat menggunakan Learning Interpretability Tool (LIT) untuk menafsirkan model ML.

iterasi

#fundamentals

Satu pembaruan parameter modelbobot dan bias model—selama pelatihan. Ukuran tumpukan menentukan jumlah contoh yang diproses model dalam satu iterasi. Misalnya, jika ukuran tumpukan adalah 20, model akan memproses 20 contoh sebelum menyesuaikan parameternya.

Saat melatih jaringan neural, satu iterasi memerlukan dua tahap berikut:

  1. Langkah maju untuk mengevaluasi kerugian di satu batch.
  2. Tahap mundur (propagasi mundur) untuk menyesuaikan parameter model berdasarkan kerugian dan kecepatan pemelajaran.

L

Regularisasi L0

#fundamentals

Jenis regularisasi yang menghukum jumlah total bobot bukan nol dalam model. Misalnya, model yang memiliki 11 bobot bukan nol akan dikenai sanksi lebih besar daripada model serupa yang memiliki 10 bobot bukan nol.

Regularisasi L0 terkadang disebut regularisasi L0-norm.

Kerugian L1

#fundamentals

Fungsi kerugian yang menghitung nilai absolut perbedaan antara nilai label aktual dan nilai yang diprediksi oleh model. Misalnya, berikut adalah perhitungan kerugian L1 untuk tumpukan yang terdiri dari lima contoh:

Nilai contoh sebenarnya Nilai prediksi model Nilai absolut delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = kerugian L1

Kerugian L1 kurang sensitif terhadap outlier daripada kerugian L2.

Rataan Error Absolut adalah kerugian L1 rata-rata per contoh.

Regularisasi L1

#fundamentals

Jenis regularisasi yang menghukum bobot secara proporsional dengan jumlah nilai absolut bobot. Regularisasi L1 membantu mendorong bobot fitur yang tidak relevan atau hampir tidak relevan menjadi persis 0. Fitur dengan bobot 0 dihapus secara efektif dari model.

Berbeda dengan regularisasi L2.

Kerugian L2

#fundamentals

Fungsi kerugian yang menghitung kuadrat perbedaan antara nilai label aktual dan nilai yang diprediksi oleh model. Misalnya, berikut adalah kalkulasi kerugian L2 untuk tumpukan yang terdiri dari lima contoh:

Nilai contoh sebenarnya Nilai prediksi model Persegi delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = kerugian L2

Karena kuadrat, kerugian L2 memperkuat pengaruh outlier. Artinya, kerugian L2 bereaksi lebih kuat terhadap prediksi buruk daripada kerugian L1. Misalnya, loss L1 untuk batch sebelumnya adalah 8, bukan 16. Perhatikan bahwa satu {i>outlier <i}akan memperhitungkan 9 dari 16 kasus.

Model regresi biasanya menggunakan kerugian L2 sebagai fungsi kerugian.

Rataan Kuadrat Error adalah kerugian L2 rata-rata per contoh. Kerugian kuadrat adalah nama lain untuk kerugian L2.

Regularisasi L2

#fundamentals

Jenis regularisasi yang menghukum bobot sebanding dengan jumlah kotak bobot. Regularisasi L2 membantu mendorong bobot outlier (dengan nilai positif tinggi atau negatif rendah) lebih dekat ke 0 tetapi tidak cukup ke 0. Fitur dengan nilai yang sangat mendekati 0 akan tetap ada dalam model, tetapi tidak terlalu memengaruhi prediksi model.

Regularisasi L2 selalu meningkatkan generalisasi dalam model linear.

Berbeda dengan regularisasi L1.

label

#fundamentals

Di supervised machine learning, bagian "jawaban" atau "hasil" dari contoh.

Setiap contoh berlabel terdiri dari satu atau beberapa fitur dan sebuah label. Misalnya, dalam set data deteksi spam, labelnya mungkin berupa "spam" atau "bukan spam". Dalam set data curah hujan, labelnya mungkin berupa jumlah hujan yang turun selama periode tertentu.

contoh berlabel

#fundamentals

Contoh yang berisi satu atau beberapa fitur dan label. Misalnya, tabel berikut menunjukkan tiga contoh berlabel dari model penilaian rumah, masing-masing dengan tiga fitur dan satu label:

Jumlah kamar Jumlah kamar mandi Usia rumah Harga rumah (label)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 $392.000

Di supervised machine learning, model melatih contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Bandingkan contoh berlabel dengan contoh tak berlabel.

lambda

#fundamentals

Sinonim dari derajat regularisasi.

Lambda adalah istilah yang kelebihan beban. Di sini kita berfokus pada definisi istilah dalam regularisasi.

lapisan

#fundamentals

Serangkaian neuron dalam jaringan neural. Tiga jenis lapisan umum adalah sebagai berikut:

Misalnya, ilustrasi berikut menunjukkan jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu
          lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua terdiri dari dua neuron. Lapisan output terdiri dari satu node.

Di TensorFlow, layer juga merupakan fungsi Python yang menggunakan Tensor dan opsi konfigurasi sebagai input serta menghasilkan tensor lain sebagai output.

kecepatan pembelajaran

#fundamentals

Bilangan floating point yang memberi tahu algoritma penurunan gradien seberapa kuat penyesuaian bobot dan bias pada setiap iterasi. Misalnya, kecepatan pembelajaran 0,3 akan menyesuaikan bobot dan bias tiga kali lebih kuat daripada kecepatan pembelajaran 0,1.

Kecepatan pembelajaran adalah hyperparameter utama. Jika Anda menetapkan kecepatan pembelajaran terlalu rendah, pelatihan akan memakan waktu terlalu lama. Jika Anda menetapkan kecepatan pemelajaran terlalu tinggi, penurunan gradien sering kali mengalami kesulitan mencapai konvergensi.

linier

#fundamentals

Hubungan antara dua atau lebih variabel yang hanya dapat direpresentasikan melalui penjumlahan dan perkalian.

Plot hubungan linear adalah sebuah garis.

Berbeda dengan nonlinear.

model linear

#fundamentals

model yang menetapkan satu model per model untuk membuat model. (Model linear juga menggabungkan bias.) Sebaliknya, hubungan fitur dengan prediksi dalam model dalam umumnya nonlinear.

Model linear biasanya lebih mudah dilatih dan lebih dapat diinterpretasikan daripada model dalam. Namun, model dalam dapat mempelajari hubungan yang kompleks antar fitur.

Regresi linear dan regresi logistik adalah dua jenis model linear.

regresi linear

#fundamentals

Jenis model machine learning yang memenuhi kedua hal berikut:

  • Model tersebut adalah model linear.
  • Prediksinya adalah nilai floating point. (Ini adalah bagian regresi dari regresi linear.)

Bandingkan regresi linear dengan regresi logistik. Selain itu, bandingkan regresi dengan klasifikasi.

regresi logistik

#fundamentals

Jenis model regresi yang memprediksi probabilitas. Model regresi logistik memiliki karakteristik berikut:

  • Labelnya berupa kategoris. Istilah regresi logistik biasanya mengacu pada regresi logistik biner, yaitu model yang menghitung probabilitas untuk label dengan dua kemungkinan nilai. Varian yang kurang umum, regresi logistik multinomial, menghitung probabilitas untuk label dengan lebih dari dua kemungkinan nilai.
  • Fungsi kerugian selama pelatihan adalah Kerugian Log. (Beberapa unit Kerugian Log dapat ditempatkan secara paralel untuk label yang memiliki lebih dari dua kemungkinan nilai.)
  • Model tersebut memiliki arsitektur linear, bukan jaringan neural dalam. Namun, sisa definisi ini juga berlaku untuk model dalam yang memprediksi probabilitas untuk label kategori.

Misalnya, pertimbangkan model regresi logistik yang menghitung probabilitas email input sebagai spam atau bukan spam. Selama inferensi, anggaplah model memprediksi 0,72. Oleh karena itu, model ini memperkirakan:

  • Email kemungkinan merupakan spam sebesar 72%.
  • Kemungkinan email bukan spam adalah 28%.

Model regresi logistik menggunakan arsitektur dua langkah berikut:

  1. Model ini menghasilkan prediksi mentah (y') dengan menerapkan fungsi linear fitur input.
  2. Model ini menggunakan prediksi mentah tersebut sebagai input ke fungsi sigmoid, yang mengonversi prediksi mentah menjadi nilai antara 0 dan 1, secara eksklusif.

Seperti model regresi lainnya, model regresi logistik memprediksi angka. Namun, angka ini biasanya menjadi bagian dari model klasifikasi biner sebagai berikut:

  • Jika jumlah yang diprediksi lebih besar daripada batas klasifikasi, model klasifikasi biner akan memprediksi kelas positif.
  • Jika jumlah yang diprediksi kurang dari batas klasifikasi, model klasifikasi biner akan memprediksi kelas negatif.

Kerugian Log

#fundamentals

Fungsi kerugian yang digunakan dalam regresi logistik biner.

log-peluang

#fundamentals

Logaritma dari peluang beberapa peristiwa.

kalah

#fundamentals

Selama pelatihan model yang diawasi, ukuran seberapa jauh prediksi model dari label-nya.

Fungsi kerugian menghitung kerugian.

kurva penyimpangan

#fundamentals

Plot kerugian sebagai fungsi dari jumlah iterasi pelatihan. Plot berikut menunjukkan kurva kerugian yang umum:

Grafik Kartesius tentang kerugian versus iterasi pelatihan, yang menunjukkan penurunan yang cepat dalam kerugian untuk iterasi awal, diikuti oleh penurunan bertahap, dan kemudian kemiringan datar selama iterasi akhir.

Kurva kerugian dapat membantu Anda menentukan kapan model Anda konvergensi atau overfitting.

Kurva kerugian dapat memetakan semua jenis kerugian berikut:

Lihat juga kurva generalisasi.

fungsi loss

#fundamentals

Selama pelatihan atau pengujian, fungsi matematika yang menghitung kerugian pada batch contoh. Fungsi kerugian menampilkan kerugian yang lebih rendah untuk model yang membuat prediksi yang baik daripada untuk model yang membuat prediksi buruk.

Tujuan pelatihan biasanya untuk meminimalkan kerugian yang ditampilkan oleh fungsi kerugian.

Ada berbagai jenis fungsi kerugian. Pilih fungsi loss yang sesuai untuk jenis model yang Anda bangun. Contoh:

S

machine learning

#fundamentals

Program atau sistem yang melatih model dari data input. Model yang dilatih dapat membuat prediksi yang berguna dari data baru (yang belum pernah dilihat sebelumnya) yang diambil dari distribusi yang sama dengan yang digunakan untuk melatih model.

Machine learning juga mengacu pada bidang studi yang berkaitan dengan program atau sistem ini.

kelas mayoritas

#fundamentals

Label yang lebih umum dalam set data kelas tidak seimbang. Misalnya, dalam set data yang berisi 99% label negatif dan 1% label positif, label negatif adalah kelas mayoritas.

Berbeda dengan kelas minoritas.

tumpukan mini

#fundamentals

Subset kecil yang dipilih secara acak dari batch yang diproses dalam satu iterasi. Ukuran tumpukan dari tumpukan mini biasanya antara 10 hingga 1.000 contoh.

Misalnya, seluruh set pelatihan (kumpulan lengkap) terdiri dari 1.000 contoh. Selanjutnya, Anda menetapkan ukuran tumpukan untuk setiap tumpukan mini ke 20. Oleh karena itu, setiap iterasi menentukan kerugian pada 20 secara acak dari 1.000 contoh,lalu menyesuaikan bobot dan bias sebagaimana mestinya.

Jauh lebih efisien untuk menghitung kerugian pada tumpukan mini daripada kerugian pada semua contoh dalam tumpukan penuh.

kelas minoritas

#fundamentals

Label yang kurang umum dalam set data kelas tidak seimbang. Misalnya, dalam set data yang berisi 99% label negatif dan 1% label positif, label positif adalah kelas minoritas.

Berbeda dengan kelas mayoritas.

model

#fundamentals

Secara umum, setiap konstruksi matematis yang memproses data input dan menampilkan output. Dengan kata lain, model adalah sekumpulan parameter dan struktur yang diperlukan sistem untuk membuat prediksi. Di supervised machine learning, model mengambil contoh sebagai input dan menyimpulkan prediksi sebagai output. Dalam supervised machine learning, modelnya agak berbeda. Contoh:

  • Model regresi linear terdiri dari kumpulan bobot dan bias.
  • Model jaringan neural terdiri dari:
    • Kumpulan lapisan tersembunyi, yang masing-masing berisi satu atau beberapa neuron.
    • Bobot dan bias yang terkait dengan setiap neuron.
  • Model pohon keputusan terdiri dari:
    • Bentuk pohon; yaitu, pola yang menghubungkan kondisi dan daun.
    • Kondisi dan keluar.

Anda dapat menyimpan, memulihkan, atau membuat salinan model.

Unsupervised machine learning juga menghasilkan model, biasanya fungsi yang dapat memetakan contoh input ke cluster yang paling sesuai.

klasifikasi multi-class

#fundamentals

Dalam supervised learning, masalah klasifikasi ketika set data berisi lebih dari dua kelas label. Misalnya, label dalam set data Iris harus merupakan salah satu dari tiga class berikut:

  • Iris Setosa
  • Bunga iris Virginica
  • Iris versicolor

Model yang dilatih menggunakan set data Iris yang memprediksi jenis Iris pada contoh baru sedang melakukan klasifikasi multi-class.

Sebaliknya, masalah klasifikasi yang membedakan dua kelas secara persis adalah model klasifikasi biner. Misalnya, model email yang memprediksi spam atau bukan spam adalah model klasifikasi biner.

Dalam masalah pengelompokan, klasifikasi kelas jamak mengacu pada lebih dari dua klaster.

N

kelas negatif

#fundamentals

Dalam klasifikasi biner, satu kelas disebut positif dan kelas lainnya disebut negatif. Class positif adalah hal atau peristiwa yang diuji oleh model dan class negatif adalah kemungkinan lainnya. Contoh:

  • Kelas negatif dalam tes medis bisa jadi "bukan tumor".
  • Kelas negatif dalam pengklasifikasi email mungkin adalah "bukan spam".

Berbeda dengan kelas positif.

alur maju

#fundamentals

model yang berisi setidaknya satu model. Jaringan neural dalam adalah jenis jaringan neural yang berisi lebih dari satu lapisan tersembunyi. Misalnya, diagram berikut menunjukkan deep neural network yang berisi dua lapisan tersembunyi.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan
          lapisan output.

Setiap neuron dalam jaringan neural terhubung ke semua node di lapisan berikutnya. Misalnya, dalam diagram sebelumnya, perhatikan bahwa masing-masing dari tiga neuron di lapisan tersembunyi pertama secara terpisah terhubung ke kedua dua neuron di lapisan tersembunyi kedua.

Jaringan neural yang diterapkan pada komputer terkadang disebut jaringan neural buatan untuk membedakannya dari jaringan neural yang ditemukan di otak dan sistem saraf lainnya.

Beberapa jaringan neural dapat meniru hubungan nonlinear yang sangat kompleks antara fitur dan label yang berbeda.

Lihat juga jaringan neural konvolusional dan jaringan neural berulang.

neuron

#fundamentals

Dalam machine learning, unit berbeda dalam lapisan tersembunyi dari jaringan neural. Setiap neuron melakukan tindakan dua langkah berikut:

  1. Menghitung jumlah tertimbang nilai input dikalikan dengan bobot yang sesuai.
  2. Meneruskan jumlah tertimbang sebagai input ke fungsi aktivasi.

Neuron di lapisan tersembunyi pertama menerima input dari nilai fitur di lapisan input. Neuron di lapisan tersembunyi selain yang pertama menerima input dari neuron di lapisan tersembunyi sebelumnya. Misalnya, neuron di lapisan tersembunyi kedua menerima input dari neuron di lapisan tersembunyi pertama.

Ilustrasi berikut menyoroti dua neuron dan inputnya.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan
          lapisan output. Dua neuron ditandai: satu di lapisan tersembunyi
          pertama dan satu di lapisan tersembunyi kedua. Neuron yang ditandai di lapisan tersembunyi pertama menerima input dari kedua fitur di lapisan input. Neuron yang disorot pada lapisan tersembunyi kedua
          menerima input dari masing-masing dari tiga neuron di lapisan tersembunyi
          pertama.

Neuron di jaringan neural meniru perilaku neuron di otak dan bagian lain dari sistem saraf.

node (jaringan neural)

#fundamentals

neuron di lapisan tersembunyi.

nonlinear

#fundamentals

Hubungan antara dua atau lebih variabel yang tidak dapat direpresentasikan hanya melalui penjumlahan dan perkalian. Hubungan linear dapat direpresentasikan sebagai garis; hubungan nonlinear tidak dapat direpresentasikan sebagai garis. Misalnya, pertimbangkan dua model yang masing-masing menghubungkan satu fitur dengan satu label. Model di sebelah kiri adalah linear dan model di sebelah kanan adalah nonlinear:

Dua plot. Satu plot berupa garis, jadi ini hubungan liniernya.
          Plot lainnya adalah kurva, jadi ini adalah hubungan nonlinier.

nonstasioneritas

#fundamentals

Fitur yang nilainya berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, perhatikan contoh nonstasioneritas berikut:

  • Jumlah pakaian renang yang dijual di toko tertentu bervariasi menurut musim.
  • Jumlah buah tertentu yang dipanen dalam wilayah tertentu adalah nol untuk sebagian besar tahun, tetapi besar dalam jangka waktu singkat.
  • Karena perubahan iklim, suhu rata-rata tahunan berubah.

Berbeda dengan stasioneritas.

normalisasi

#fundamentals

Secara garis besar, proses konversi rentang nilai aktual suatu variabel menjadi rentang nilai standar, seperti:

  • -1 hingga +1
  • 0 hingga 1
  • distribusi normal

Misalnya, rentang nilai aktual fitur tertentu adalah 800 hingga 2.400. Sebagai bagian dari rekayasa fitur, Anda dapat menormalisasi nilai aktual hingga ke rentang standar, seperti -1 hingga +1.

Normalisasi adalah tugas umum dalam rekayasa fitur. Model biasanya dilatih lebih cepat (dan menghasilkan prediksi yang lebih baik) ketika setiap fitur numerik dalam vektor fitur memiliki rentang yang kurang lebih sama.

data numerik

#fundamentals

Fitur direpresentasikan sebagai bilangan bulat atau bilangan riil. Misalnya, model penilaian rumah mungkin akan mewakili ukuran rumah (dalam kaki persegi atau meter persegi) sebagai data numerik. Merepresentasikan fitur sebagai data numerik menunjukkan bahwa nilai fitur memiliki hubungan matematika dengan label. Artinya, jumlah meter persegi pada rumah mungkin memiliki hubungan matematika dengan nilai rumah.

Tidak semua data bilangan bulat harus direpresentasikan sebagai data numerik. Misalnya, kode pos di beberapa bagian dunia berupa bilangan bulat; namun, kode pos bilangan bulat tidak boleh direpresentasikan sebagai data numerik dalam model. Hal ini karena kode pos 20000 tidak dua kali (atau setengah) sama kuatnya dengan kode pos 10000. Selain itu, meskipun kode pos yang berbeda benar-benar berkorelasi dengan nilai properti yang berbeda, kita tidak dapat berasumsi bahwa nilai real estate pada kode pos 20000 dua kali lebih berharga dibandingkan nilai real estate pada kode pos 10000. Kode pos sebaiknya direpresentasikan sebagai data kategoris.

Fitur numerik terkadang disebut fitur berkelanjutan.

O

offline

#fundamentals

Sinonim dari statis.

inferensi offline

#fundamentals

Proses model yang menghasilkan batch prediksi, lalu meng-cache (menyimpan) prediksi tersebut. Kemudian, aplikasi dapat mengakses prediksi yang disimpulkan dari cache, bukan menjalankan ulang model.

Misalnya, pertimbangkan model yang menghasilkan perkiraan cuaca lokal (prediksi) sekali setiap empat jam. Setelah setiap model berjalan, sistem akan menyimpan semua prakiraan cuaca lokal ke dalam cache. Aplikasi cuaca mengambil prakiraan dari cache.

Inferensi offline juga disebut inferensi statis.

Berbeda dengan inferensi online.

encoding one-hot

#fundamentals

Merepresentasikan data kategori sebagai vektor di mana:

  • Satu elemen ditetapkan ke 1.
  • Semua elemen lainnya disetel ke 0.

Enkode one-hot biasanya digunakan untuk merepresentasikan string atau ID yang memiliki kemungkinan nilai yang terbatas. Misalnya, fitur kategori tertentu bernama Scandinavia memiliki lima kemungkinan nilai:

  • "Denmark"
  • "Swedia"
  • "Norwegia"
  • "Finlandia"
  • "Islandia"

Enkode one-hot dapat mewakili masing-masing dari lima nilai sebagai berikut:

country Vektor
"Denmark" 1 0 0 0 0
"Swedia" 0 1 0 0 0
"Norwegia" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islandia" 0 0 0 0 1

Berkat encoding one-hot, model dapat mempelajari koneksi yang berbeda berdasarkan masing-masing dari lima negara.

Merepresentasikan fitur sebagai data numerik adalah alternatif untuk encoding one-hot. Sayangnya, merepresentasikan negara-negara Skandinavia secara numerik bukanlah pilihan yang baik. Misalnya, pertimbangkan representasi numerik berikut:

  • "Denmark" adalah 0
  • "Swedia" adalah 1
  • "Norwegia" adalah 2
  • "Finlandia" adalah 3
  • "Islandia" adalah 4

Dengan encoding numerik, model akan menafsirkan angka mentah secara matematis dan akan mencoba melatih angka tersebut. Namun, jumlah uang Islandia sebenarnya bukan dua kali lipat (atau setengah dari jumlah) yang diperoleh di Norwegia, jadi model ini akan menghasilkan beberapa kesimpulan yang aneh.

satu vs. semua

#fundamentals

Dalam masalah klasifikasi dengan class N, solusi yang terdiri dari N pengklasifikasi biner terpisah—satu pengklasifikasi biner untuk setiap kemungkinan hasil. Misalnya, jika model yang mengklasifikasikan contoh sebagai hewan, sayuran, atau mineral, solusi satu vs. semua akan memberikan tiga pengklasifikasi biner terpisah berikut:

  • hewan versus bukan hewan
  • sayuran versus bukan sayuran
  • mineral versus bukan mineral

online

#fundamentals

Sinonim dari dinamis.

inferensi online

#fundamentals

Menghasilkan prediksi sesuai permintaan. Misalnya, anggaplah sebuah aplikasi meneruskan input ke sebuah model dan mengeluarkan permintaan untuk sebuah prediksi. Sistem yang menggunakan inferensi online merespons permintaan dengan menjalankan model (dan menampilkan prediksi ke aplikasi).

Berbeda dengan inferensi offline.

lapisan output

#fundamentals

Lapisan "akhir" dari jaringan neural. Lapisan output berisi prediksi.

Ilustrasi berikut menunjukkan jaringan neural dalam yang kecil dengan lapisan input, dua lapisan tersembunyi, dan lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu
          lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua terdiri dari dua neuron. Lapisan output terdiri dari satu node.

overfitting

#fundamentals

Membuat model yang sangat cocok dengan data pelatihan sehingga model gagal membuat prediksi yang benar pada data baru.

Regularisasi dapat mengurangi overfitting. Pelatihan dengan set pelatihan yang besar dan beragam juga dapat mengurangi overfitting.

P

pandas

#fundamentals

API analisis data berorientasi kolom yang di-build di atas numpy. Banyak framework machine learning, termasuk TensorFlow, mendukung struktur data pandas sebagai input. Untuk mengetahui detailnya, lihat dokumentasi pandas.

parameter

#fundamentals

Bobot dan bias yang dipelajari model selama pelatihan. Misalnya, dalam model regresi linear, parameternya terdiri dari bias (b) dan semua bobot (w1, w2, dan seterusnya) dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Sebaliknya, hyperparameter adalah nilai yang diberikan Anda (atau layanan konversi hyperparameter) ke model. Misalnya, kecepatan pembelajaran adalah hyperparameter.

kelas positif

#fundamentals

Kelas yang sedang Anda uji.

Misalnya, kelas positif pada model kanker mungkin adalah "tumor". Kelas positif dalam pengklasifikasi email mungkin adalah "spam".

Berbeda dengan kelas negatif.

pascapemrosesan

#fairness
#fundamentals

Menyesuaikan output model setelah model dijalankan. Pasca-pemrosesan dapat digunakan untuk menerapkan batasan keadilan tanpa mengubah model itu sendiri.

Misalnya, seseorang dapat menerapkan pascapemrosesan ke pengklasifikasi biner dengan menetapkan batas klasifikasi sehingga kesetaraan peluang dipertahankan untuk beberapa atribut dengan memeriksa bahwa rasio positif benar sama untuk semua nilai atribut tersebut.

prediksi

#fundamentals

Output model. Contoh:

  • Prediksi model klasifikasi biner adalah kelas positif atau negatif.
  • Prediksi model klasifikasi multi-class adalah satu class.
  • Prediksi model regresi linear adalah angka.

label proxy

#fundamentals

Data yang digunakan untuk memperkirakan label yang tidak secara langsung tersedia dalam {i>dataset<i}.

Misalnya, Anda harus melatih sebuah model untuk memprediksi tingkat stres karyawan. Set data Anda berisi banyak fitur prediktif, tetapi tidak berisi label bernama tingkat stres. Tanpa malu, Anda memilih "kecelakaan tempat kerja" sebagai label proxy untuk tingkat stres. Lagi pula, karyawan yang mengalami stres tinggi lebih banyak mengalami kecelakaan daripada menenangkan karyawan. Atau sebaliknya? Mungkin kecelakaan di tempat kerja benar-benar naik dan turun karena berbagai alasan.

Sebagai contoh kedua, misalkan Anda ingin apakah hujan? menjadi label Boolean untuk set data Anda, tetapi set data tidak berisi data hujan. Jika foto tersedia, Anda mungkin membuat foto orang yang membawa payung sebagai label proxy untuk apakah hujan? Apakah itu label {i> proxy<i} yang baik? Mungkin, tetapi orang-orang di beberapa budaya mungkin lebih cenderung membawa payung untuk melindungi dari sinar matahari daripada hujan.

Label {i>proxy<i} sering tidak sempurna. Jika memungkinkan, pilih label sebenarnya daripada label proxy. Meskipun demikian, jika label sebenarnya tidak ada, pilih label proxy dengan hati-hati, dengan memilih kandidat label proxy yang paling tidak buruk.

R

RAG

#fundamentals

Singkatan dari retrieval-augmentedgeneration.

penilai

#fundamentals

Manusia yang memberikan label untuk contoh. "Annotator" adalah nama lain untuk pemberi rating.

Unit Linear Terarah (ULT)

#fundamentals

Fungsi aktivasi dengan perilaku berikut:

  • Jika input bernilai negatif atau nol, maka output-nya adalah 0.
  • Jika input positif, maka output sama dengan input.

Contoh:

  • Jika inputnya adalah -3, maka output-nya adalah 0.
  • Jika inputnya +3, maka output-nya adalah 3,0.

Berikut adalah plot ULT:

Plot kartesius dua baris. Baris pertama memiliki konstanta
          y nilai 0, yang membentang di sepanjang sumbu x dari -tak terhingga,0 hingga 0,-0.
          Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, sehingga garisnya dimulai dari 0,0 hingga +tak terbatas,+tak terhingga.

ULT adalah fungsi aktivasi yang sangat populer. Meskipun perilakunya sederhana, ULT masih memungkinkan jaringan neural untuk mempelajari hubungan nonlinear antara fitur dan label.

model regresi

#fundamentals

Secara informal, model yang menghasilkan prediksi numerik. (Sebaliknya, model klasifikasi menghasilkan prediksi class.) Misalnya, yang berikut adalah model regresi:

  • Model yang memprediksi nilai rumah tertentu, seperti 423.000 Euro.
  • Model yang memprediksi harapan hidup pohon tertentu, seperti 23,2 tahun.
  • Model yang memprediksi jumlah hujan yang akan turun di suatu kota selama enam jam ke depan, misalnya 0,18 inci.

Dua jenis model regresi umum adalah:

  • Regresi linear, yang menemukan garis yang paling sesuai dengan nilai label dengan fitur.
  • Regresi logistik, yang menghasilkan probabilitas antara 0,0 dan 1,0 yang biasanya dipetakan sistem ke prediksi class.

Tidak semua model yang menghasilkan prediksi numerik merupakan model regresi. Dalam beberapa kasus, prediksi numerik sebenarnya hanyalah model klasifikasi yang memiliki nama class numerik. Misalnya, model yang memprediksi kode pos numerik adalah model klasifikasi, bukan model regresi.

regularisasi

#fundamentals

Mekanisme apa pun yang mengurangi overfitting. Jenis regularisasi yang populer meliputi:

Regularisasi juga dapat didefinisikan sebagai penalti pada kompleksitas model.

derajat regularisasi

#fundamentals

Angka yang menentukan tingkat kepentingan relatif regularisasi selama pelatihan. Menaikkan tingkat regularisasi akan mengurangi overfitting, tetapi dapat mengurangi kemampuan prediktif model. Sebaliknya, mengurangi atau menghilangkan derajat regularisasi akan meningkatkan overfitting.

ReLU

#fundamentals

Singkatan dari Rectified Linear Unit.

pengambilan data generasi (RAG)

#fundamentals

Teknik untuk meningkatkan kualitas output model bahasa besar (LLM) dengan mendasarkannya pada sumber pengetahuan yang diambil setelah model dilatih. RAG meningkatkan akurasi respons LLM dengan menyediakan akses ke informasi yang diambil dari dokumen atau pusat informasi tepercaya kepada LLM yang telah dilatih.

Motivasi umum untuk menggunakan penelusuran yang diperluas meliputi:

  • Meningkatkan akurasi faktual respons yang dihasilkan model.
  • Memberi model akses ke pengetahuan yang tidak digunakan untuk melatih model.
  • Mengubah pengetahuan yang digunakan model.
  • Mengaktifkan model untuk mengutip sumber.

Misalnya, anggaplah aplikasi kimia menggunakan PaLM API untuk membuat ringkasan yang terkait dengan kueri pengguna. Saat backend aplikasi menerima kueri, backend akan:

  1. Menelusuri ("mengambil") data yang relevan dengan kueri pengguna.
  2. Menambahkan ("penambahan") data kimia yang relevan ke kueri pengguna.
  3. Meminta LLM membuat ringkasan berdasarkan data yang ditambahkan.

Kurva ROC (karakteristik operasi penerima)

#fundamentals

Grafik rasio positif benar versus rasio positif palsu untuk nilai minimum klasifikasi yang berbeda dalam klasifikasi biner.

Bentuk kurva KOP menunjukkan kemampuan model klasifikasi biner untuk memisahkan kelas positif dari kelas negatif. Misalkan, model klasifikasi biner secara sempurna memisahkan semua kelas negatif dari semua kelas positif:

Garis bilangan dengan 8 contoh positif di sebelah kanan dan 7 contoh negatif di sebelah kiri.

Kurva KOP untuk model sebelumnya terlihat seperti berikut:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva memiliki bentuk L terbalik. Kurva dimulai pada (0.0,0.0) dan lurus ke atas ke (0.0,1.0). Kemudian, kurvanya
          berubah dari (0.0,1.0) ke (1.0,1.0).

Sebaliknya, ilustrasi berikut menampilkan grafik nilai regresi logistik mentah untuk model buruk yang tidak dapat memisahkan kelas negatif dari kelas positif sama sekali:

Baris angka dengan contoh positif dan class negatif
          bercampur sepenuhnya.

Kurva KOP untuk model ini terlihat seperti berikut:

Kurva KOP, yang sebenarnya merupakan garis lurus dari (0.0,0.0) hingga (1.0,1.0).

Sementara itu, di dunia nyata, sebagian besar model klasifikasi biner memisahkan kelas positif dan negatif sampai tingkat tertentu, tetapi biasanya tidak secara sempurna. Jadi, kurva KROC yang khas berada di antara dua ekstrem:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva KOP memperkirakan busur goyang yang melintasi titik kompas dari Barat ke Utara.

Titik pada kurva ROC yang terdekat dengan (0.0,1.0) secara teoritis mengidentifikasi batas klasifikasi ideal. Namun, beberapa masalah dunia nyata lainnya mempengaruhi pemilihan batas klasifikasi yang ideal. Misalnya, mungkin negatif palsu menyebabkan kerugian yang jauh lebih besar daripada positif palsu.

Metrik numerik yang disebut AUC merangkum kurva ROC menjadi satu nilai floating point.

Akar Rataan Kuadrat Galat (RMSE)

#fundamentals

Akar kuadrat dari Rataan Kuadrat Galat.

S

fungsi sigmoid

#fundamentals

Fungsi matematika yang "menyaring" nilai input ke dalam rentang yang dibatasi, biasanya 0 hingga 1 atau -1 hingga +1. Artinya, Anda dapat meneruskan angka berapa pun (dua, satu juta, miliar negatif, berapa pun) ke sigmoid dan outputnya akan tetap dalam rentang yang dibatasi. Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain - tak terhingga hingga +positif, sedangkan nilai y menjangkau rentang hampir 0 hingga hampir 1. Ketika x adalah 0, y adalah 0,5. Kemiringan kurva selalu positif, dengan kemiringan tertinggi pada 0,0,5 dan secara bertahap menurun seiring meningkatnya nilai absolut x.

Fungsi sigmoid memiliki beberapa kegunaan dalam machine learning, termasuk:

softmax

#fundamentals

Fungsi yang menentukan probabilitas untuk setiap kemungkinan class dalam model klasifikasi kelas jamak. Jumlah probabilitas bertambah hingga tepat 1,0. Misalnya, tabel berikut menunjukkan cara softmax mendistribusikan berbagai probabilitas:

Gambar adalah... Probability
anjing 0,85
cat 0,13
kuda 0,02

Softmax juga disebut full softmax.

Berbeda dengan sampling kandidat.

fitur renggang

#language
#fundamentals

Fitur yang sebagian besar nilainya nol atau kosong. Misalnya, fitur yang berisi satu nilai 1 dan satu juta nilai 0 bersifat jarang. Sebaliknya, fitur padat memiliki nilai yang utamanya bukan nol atau kosong.

Dalam machine learning, fitur yang jumlahnya mengejutkan adalah fitur yang jarang. Fitur kategoris biasanya merupakan fitur renggang. Misalnya, dari 300 kemungkinan spesies pohon di hutan, satu contoh mungkin hanya mengidentifikasi pohon maple. Atau, dari jutaan kemungkinan video dalam pustaka video, satu contoh mungkin hanya mengidentifikasi "Casablanca".

Dalam model, Anda biasanya merepresentasikan fitur renggang dengan encoding one-hot. Jika encoding one-hot berukuran besar, Anda dapat menempatkan lapisan embedding di atas enkode one-hot untuk efisiensi yang lebih besar.

representasi renggang

#language
#fundamentals

Hanya menyimpan posisi elemen bukan nol dalam fitur renggang.

Misalnya, fitur kategoris bernama species mengidentifikasi 36 spesies pohon di hutan tertentu. Asumsikan lebih lanjut bahwa setiap contoh hanya mengidentifikasi satu spesies.

Anda dapat menggunakan vektor one-hot untuk mewakili spesies pohon pada setiap contoh. Vektor one-hot akan berisi satu 1 (untuk mewakili spesies pohon tertentu dalam contoh tersebut) dan 35 0 (untuk mewakili 35 spesies pohon yang tidak dalam contoh tersebut). Jadi, representasi one-hot maple mungkin terlihat seperti berikut:

Vektor dengan posisi 0 sampai 23 memiliki nilai 0, posisi 24 menyimpan nilai 1, dan posisi 25 sampai 35 menyimpan nilai 0.

Atau, representasi renggang hanya akan mengidentifikasi posisi spesies tertentu. Jika maple berada pada posisi 24, representasi renggang maple akan menjadi:

24

Perhatikan bahwa representasi renggang jauh lebih ringkas daripada representasi one-hot.

vektor renggang

#fundamentals

Vektor yang sebagian besar nilainya adalah nol. Lihat juga fitur renggang dan sparsitas.

kerugian kuadrat

#fundamentals

Sinonim dari L2 loss.

static

#fundamentals

Sesuatu yang dilakukan sekali, bukan berkelanjutan. Istilah statis dan offline adalah sinonim. Berikut adalah penggunaan umum statis dan offline dalam machine learning:

  • model statis (atau model offline) adalah model yang dilatih satu kali, lalu digunakan untuk sementara waktu.
  • pelatihan statis (atau pelatihan offline) adalah proses melatih model statis.
  • inferensi statis (atau inferensi offline) adalah proses di mana model menghasilkan batch prediksi pada satu waktu.

Berbeda dengan dinamis.

inferensi statis

#fundamentals

Sinonim dari inferensi offline.

stasioneritas

#fundamentals

Fitur yang nilainya tidak berubah pada satu atau beberapa dimensi, biasanya waktu. Misalnya, fitur yang nilainya terlihat sama pada tahun 2021 dan 2023 menunjukkan stasioneritas.

Di dunia nyata, sangat sedikit fitur yang menunjukkan stasioneritas. Bahkan fitur yang identik dengan stabilitas (seperti permukaan laut) berubah dari waktu ke waktu.

Berbeda dengan nonstasioneritas.

penurunan gradien stokastik (SGD)

#fundamentals

Algoritma penurunan gradien yang mana ukuran tumpukan adalah satu. Dengan kata lain, PGS melatih satu contoh yang dipilih secara seragam dan acak dari set pelatihan.

supervised machine learning

#fundamentals

Melatih model dari fitur dan label yang sesuai. Supervised machine learning dianalogikan dengan mempelajari subjek dengan mempelajari serangkaian pertanyaan dan jawaban yang sesuai. Setelah menguasai pemetaan antara pertanyaan dan jawaban, siswa kemudian dapat memberikan jawaban atas pertanyaan baru (yang tidak pernah dilihat) tentang topik yang sama.

Bandingkan dengan unsupervised machine learning.

fitur sintetis

#fundamentals

Fitur yang tidak ada di antara fitur input, tetapi disusun dari satu atau beberapa fitur input. Metode untuk membuat fitur sintetis mencakup hal berikut:

  • Bucketing fitur berkelanjutan ke dalam bin rentang.
  • Membuat persilangan fitur.
  • Mengalikan (atau membagi) satu nilai fitur dengan nilai fitur lain atau dengan nilai fitur itu sendiri. Misalnya, jika a dan b adalah fitur input, berikut adalah contoh fitur sintetis:
    • ab
    • a2
  • Menerapkan fungsi transendental pada sebuah nilai fitur. Misalnya, jika c adalah fitur input, berikut adalah contoh fitur sintetis:
    • sin(c)
    • ln(c)

Fitur yang dibuat dengan menormalisasi atau penskalaan saja tidak dianggap sebagai fitur sintetis.

T

kerugian pengujian

#fundamentals

Metrik yang mewakili kerugian model terhadap set pengujian. Saat membuat model, Anda biasanya mencoba meminimalkan kerugian pengujian. Hal ini karena kekalahan pengujian yang rendah merupakan sinyal dengan kualitas yang lebih kuat daripada kerugian pelatihan yang rendah atau kehilangan validasi yang rendah.

Kesenjangan yang besar antara kekalahan pengujian dan kerugian pelatihan atau kerugian validasi terkadang menunjukkan bahwa Anda perlu meningkatkan tingkat regularisasi.

training

#fundamentals

Proses penentuan parameter (bobot dan bias) ideal yang membentuk model. Selama pelatihan, sistem akan membaca contoh dan secara bertahap menyesuaikan parameter. Pelatihan menggunakan setiap contoh di mana saja mulai dari beberapa kali hingga miliaran kali.

kerugian pelatihan

#fundamentals

Metrik yang merepresentasikan kerugian model selama iterasi pelatihan tertentu. Misalnya, fungsi kerugian adalah Rata-rata Kuadrat Galat. Mungkin kerugian pelatihan (Rataan Persegi Error) untuk iterasi ke-10 adalah 2,2, dan kerugian pelatihan untuk iterasi ke-100 adalah 1,9.

Kurva kerugian memetakan kerugian pelatihan versus jumlah iterasi. Kurva kerugian memberikan petunjuk berikut tentang pelatihan:

  • Kemiringan menurun menyiratkan bahwa model mengalami peningkatan.
  • Kemiringan naik menyiratkan bahwa model semakin buruk.
  • Kemiringan datar menyiratkan bahwa model telah mencapai konvergensi.

Misalnya, kurva kerugian yang telah diidealkan berikut akan menunjukkan:

  • Kemiringan menurun yang curam selama iterasi awal, yang menyiratkan peningkatan model yang cepat.
  • Kemiringan yang datar (tetapi masih ke bawah) secara bertahap hingga mendekati akhir pelatihan, yang menyiratkan peningkatan model yang berkelanjutan dengan kecepatan yang agak lebih lambat daripada selama iterasi awal.
  • Kemiringan datar menjelang akhir pelatihan, yang menunjukkan konvergensi.

Plot kerugian pelatihan versus iterasi. Kurva kerugian ini dimulai dengan kemiringan ke bawah yang curam. Kemiringan akan menyatu secara bertahap hingga
     kemiringan menjadi nol.

Meskipun kerugian pelatihan penting, lihat juga generalisasi.

diferensiasi performa pelatihan dan penayangan

#fundamentals

Perbedaan antara performa model selama pelatihan dan performa model yang sama selama penayangan.

set pelatihan

#fundamentals

Subset set data yang digunakan untuk melatih model.

Secara tradisional, contoh dalam set data dibagi menjadi tiga subset berbeda berikut:

Idealnya, setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset sebelumnya. Misalnya, satu contoh tidak boleh dimiliki set pelatihan dan set validasi.

negatif benar (TN)

#fundamentals

Contoh yang mana model dengan benar memprediksi kelas negatif. Misalnya, model menyimpulkan bahwa pesan email tertentu bukan spam, dan pesan email tersebut sebenarnya bukan spam.

positif benar (TP)

#fundamentals

Contoh yang mana model dengan benar memprediksi kelas positif. Misalnya, model menyimpulkan bahwa pesan email tertentu adalah spam, dan pesan email tersebut benar-benar spam.

rasio positif benar (TPR)

#fundamentals

Sinonim dari perolehan. Definisinya yaitu:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Rasio positif benar adalah sumbu y dalam kurva KOP.

U

underfitting

#fundamentals

Menghasilkan model dengan kemampuan prediktif yang buruk karena model tersebut belum sepenuhnya menangkap kompleksitas data pelatihan. Banyak masalah dapat menyebabkan underfitting, termasuk:

contoh tidak berlabel

#fundamentals

Contoh yang berisi fitur tetapi tanpa label. Misalnya, tabel berikut menunjukkan tiga contoh tak berlabel dari model penilaian rumah, masing-masing dengan tiga fitur tetapi tidak memiliki nilai rumah:

Jumlah kamar Jumlah kamar mandi Usia rumah
3 2 15
2 1 72
4 2 34

Di supervised machine learning, model melatih contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Dalam pembelajaran semi-supervised dan unsupervised, contoh tak berlabel digunakan selama pelatihan.

Bandingkan contoh tak berlabel dengan contoh berlabel.

unsupervised machine learning

#clustering
#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.

Penggunaan paling umum dari unsupervised machine learning adalah untuk mengelompokkan data ke dalam grup contoh yang serupa. Misalnya, algoritma unsupervised machine learning dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input untuk algoritma machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Pengelompokan dapat membantu ketika label yang berguna jumlahnya terbatas atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia untuk lebih memahami data.

Berbeda dengan supervised machine learning.

V

validasi

#fundamentals

Evaluasi awal kualitas model. Validasi memeriksa kualitas prediksi model terhadap set validasi.

Karena set validasi berbeda dengan set pelatihan, validasi membantu mencegah overfitting.

Anda mungkin menganggap mengevaluasi model terhadap set validasi sebagai tahap pertama pengujian, dan mengevaluasi model terhadap set pengujian sebagai putaran kedua pengujian.

kehilangan validasi

#fundamentals

Metrik yang merepresentasikan kerugian model pada set validasi selama iterasi pelatihan.

Lihat juga kurva generalisasi.

set validasi

#fundamentals

Subset set data yang melakukan evaluasi awal terhadap model terlatih. Biasanya, Anda akan mengevaluasi model yang dilatih terhadap set validasi beberapa kali sebelum mengevaluasi model terhadap set pengujian.

Secara tradisional, Anda membagi contoh dalam set data menjadi tiga subset berbeda berikut:

Idealnya, setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset sebelumnya. Misalnya, satu contoh tidak boleh dimiliki set pelatihan dan set validasi.

W

berat

#fundamentals

Nilai yang dikalikan dengan nilai lain oleh model. Pelatihan adalah proses menentukan bobot ideal model; inferensi adalah proses menggunakan bobot yang dipelajari tersebut untuk membuat prediksi.

jumlah tertimbang (weighted sum)

#fundamentals

Jumlah semua nilai input yang relevan dikalikan dengan bobotnya yang sesuai. Misalnya, anggaplah input yang relevan terdiri dari hal berikut:

nilai input bobot masukan
2 -1,3
-1 0,6
3 0,4

Oleh karena itu, jumlah terbobot adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Jumlah terbobot adalah argumen input untuk fungsi aktivasi.

Z

Normalisasi skor Z

#fundamentals

Teknik penskalaan yang mengganti nilai fitur mentah dengan nilai floating point yang mewakili jumlah deviasi standar dari rata-rata fitur tersebut. Misalnya, pertimbangkan fitur yang rata-ratanya adalah 800 dan standar deviasinya adalah 100. Tabel berikut menunjukkan cara normalisasi skor Z memetakan nilai mentah ke skor Z-nya:

Nilai mentah Skor Z
800 0
950 +1,5
575 -2,25

Model machine learning kemudian berlatih berdasarkan skor Z untuk fitur tersebut, bukan berdasarkan nilai mentah.