Glosarium Machine Learning: Dasar-Dasar ML

Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Halaman ini berisi istilah glosarium Dasar-Dasar ML. Untuk semua istilah glosarium, klik di sini.

A

akurasi

#fundamentals

Jumlah prediksi klasifikasi yang benar dibagi dengan jumlah total prediksi. Definisinya yaitu:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Misalnya, model yang membuat 40 prediksi yang benar dan 10 prediksi yang salah akan memiliki akurasi:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasifikasi biner memberikan nama tertentu untuk berbagai kategori prediksi yang benar dan prediksi yang salah. Jadi, rumus akurasi untuk klasifikasi biner adalah sebagai berikut:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dalam hal ini:

Bandingkan dan kontras akurasi dengan presisi dan perolehan.

fungsi aktivasi

#fundamentals

Fungsi yang memungkinkan jaringan neural untuk mempelajari hubungan nonlinear (kompleks) antara fitur dan label.

Fungsi aktivasi populer mencakup:

Plot fungsi aktivasi tidak pernah merupakan garis lurus tunggal. Misalnya, plot fungsi aktivasi ULT terdiri dari dua garis lurus:

Plot kartesius yang terdiri dari dua garis. Baris pertama memiliki nilai y yang konstan 0, yang berjalan di sepanjang sumbu x dari -infinity,0 hingga 0,-0.
          Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, sehingga menurun dari 0,0 hingga +infinity,+infinity.

Matriks fungsi aktivasi sigmoid akan terlihat seperti berikut:

plot melengkung dua dimensi dengan nilai x yang mencakup domain - tak terbatas hingga +positif, sedangkan nilai y mencakup rentang hampir 0 hingga hampir 1. Ketika x adalah 0, y adalah 0,5. Kemiringan kurva selalu positif, dengan kemiringan tertinggi pada 0,0.5 dan penurunan lereng secara bertahap seiring dengan nilai mutlak x meningkat.

kecerdasan buatan

#fundamentals

Program atau model non-manusia yang dapat menyelesaikan tugas lanjutan. Misalnya, sebuah program atau model yang menerjemahkan teks atau program atau model yang mengidentifikasi penyakit dari gambar radiologi, keduanya menunjukkan kecerdasan buatan.

Secara formal, machine learning adalah subkolom kecerdasan buatan. Namun, dalam beberapa tahun terakhir, beberapa organisasi mulai menggunakan istilah kecerdasan buatan dan machine learning secara bergantian.

AUC (Area di bawah kurva ROC)

#fundamentals

Angka antara 0,0 hingga 1,0 merepresentasikan kemampuan model klasifikasi biner untuk memisahkan kelas positif dari kelas negatif. Semakin dekat AUC dengan 1,0, semakin baik kemampuan model untuk memisahkan class satu sama lain.

Misalnya, ilustrasi berikut menunjukkan model pengklasifikasi yang memisahkan class positif (oval hijau) dari class negatif (kotak ungu) dengan sempurna. Model yang tidak sempurna secara realistis ini memiliki AUC 1,0:

Baris angka dengan 8 contoh positif di satu sisi dan
          9 contoh negatif di sisi lainnya.

Sebaliknya, ilustrasi berikut menunjukkan hasil untuk model pengklasifikasi yang menghasilkan hasil acak. Model ini memiliki ABK 0,5:

Baris angka dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contoh adalah positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif negatif, positif, negatif.

Ya, model sebelumnya memiliki ABK 0,5, bukan 0,0.

Sebagian besar model berada di antara dua titik ekstrem. Misalnya, model berikut agak memisahkan positif dari negatif, sehingga memiliki AUC antara 0,5 dan 1,0:

Baris angka dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contoh adalah negatif, negatif, negatif, negatif, positif, negatif, positif, positif, negatif, positif, positif, positif.

ABK mengabaikan nilai apa pun yang Anda tetapkan untuk nilai minimum klasifikasi. Sebagai gantinya, AUC mempertimbangkan semua kemungkinan batas klasifikasi.

B

propagasi mundur

#fundamentals

Algoritme yang mengimplementasikan penurunan gradien dalam jaringan neural.

Pelatihan jaringan neural melibatkan banyak iterasi dari dua siklus pass berikut:

  1. Selama pass penerusan, sistem akan memproses batch dari contoh untuk menghasilkan prediksi. Sistem membandingkan setiap prediksi dengan setiap nilai label. Perbedaan antara prediksi dan nilai label adalah kerugian untuk contoh tersebut. Sistem menggabungkan kerugian untuk semua contoh guna menghitung total kerugian untuk batch saat ini.
  2. Selama passback (backpropagation), sistem akan mengurangi kehilangan dengan menyesuaikan bobot semua neuron di semua lapisan tersembunyi.

Jaringan neural sering kali berisi banyak neuron di berbagai lapisan tersembunyi. Setiap neuron tersebut berkontribusi pada kehilangan keseluruhan dengan cara yang berbeda. Propagasi mundur menentukan apakah akan menambah atau mengurangi bobot yang diterapkan pada neuron tertentu.

Kecepatan pembelajaran adalah pengali yang mengontrol sejauh mana setiap penerusan mundur bertambah atau berkurang setiap berat. Kecepatan pembelajaran yang besar akan meningkatkan atau menurunkan setiap berat lebih dari kecepatan pembelajaran kecil.

Dalam istilah kalkulus, propagasi mundur menerapkan kalkulus &aturan berantai. Artinya, propagasi mundur menghitung turunan parsial error yang terkait dengan setiap parameter. Untuk mengetahui detail selengkapnya, baca tutorial dalam Kursus Singkat Machine Learning ini.

Beberapa tahun yang lalu, praktisi ML harus menulis kode untuk menerapkan propagasi mundur. API ML modern seperti TensorFlow sekarang menerapkan backpropagation untuk Anda. Fiuh!

tumpukan

#fundamentals

Kumpulan contoh yang digunakan dalam satu iterasi pelatihan. Ukuran tumpukan menentukan jumlah contoh dalam tumpukan.

Lihat epoch untuk penjelasan tentang bagaimana batch terkait dengan epoch.

ukuran tumpukan

#fundamentals

Jumlah contoh dalam tumpukan. Misalnya, jika ukuran tumpukan adalah 100, maka model akan memproses 100 contoh per iterasi.

Berikut adalah strategi ukuran tumpukan yang populer:

  • Stochastic Gradient Descent (SGD), dengan ukuran tumpukan 1.
  • batch penuh, dengan ukuran tumpukan adalah jumlah contoh di seluruh set pelatihan. Misalnya, jika set pelatihan berisi satu juta contoh, maka ukuran tumpukannya adalah satu juta contoh. Batch lengkap biasanya merupakan strategi yang tidak efisien.
  • batch mini yang ukuran tumpukannya biasanya antara 10 dan 1.000. Batch mini biasanya merupakan strategi yang paling efisien.

bias (etika/keadilan)

#fairness
#fundamentals

1. Stereotip, prasangka atau favoritisme terhadap beberapa hal, orang, atau kelompok atas hal-hal lain. Bias tersebut dapat memengaruhi pengumpulan dan penafsiran data, desain sistem, dan cara pengguna berinteraksi dengan sistem. Bentuk bias semacam ini meliputi:

2. Error sistematis yang diperkenalkan melalui prosedur pengambilan sampel atau pelaporan. Bentuk bias semacam ini meliputi:

Harap bedakan dengan istilah bias dalam model machine learning atau bias prediksi.

bias (matematika) atau istilah bias

#fundamentals

Intersepsi atau offset dari asal. Bias adalah parameter dalam model machine learning, yang disimbolkan dengan salah satu dari berikut ini:

  • b
  • w0

Misalnya, bias adalah b dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dalam garis dua dimensi yang sederhana, bias hanya berarti "y intersep." Misalnya, bias garis dalam ilustrasi berikut adalah 2.

Plot garis dengan kemiringan 0,5 dan bias (cegatan y) 2.

Bias ada karena tidak semua model dimulai dari titik asal (0,0). Misalnya, taman hiburan dikenakan biaya 2 Euro untuk masuk dan 0,5 Euro tambahan untuk setiap jam yang dihabiskan pelanggan. Oleh karena itu, model yang memetakan total biaya memiliki bias 2 karena biaya terendah adalah 2 Euro.

Bias tidak sama dengan bias dalam hal etika dan keadilan atau bias prediksi.

klasifikasi biner

#fundamentals

Jenis tugas klasifikasi yang memprediksi salah satu dari dua class yang saling eksklusif:

Misalnya, dua model machine learning berikut masing-masing menjalankan klasifikasi biner:

  • Model yang menentukan apakah pesan email merupakan spam (kelas positif) atau bukan spam (kelas negatif).
  • Model yang mengevaluasi gejala medis untuk menentukan apakah seseorang memiliki penyakit tertentu (kelas positif) atau tidak memiliki penyakit tersebut (kelas negatif).

Berbeda dengan klasifikasi multi-class.

Lihat juga regresi logistik dan nilai minimum klasifikasi.

pengelompokan

#fundamentals

Mengonversi satu fitur menjadi beberapa fitur biner yang disebut bucket atau bin, biasanya berdasarkan rentang nilai. Fitur yang dipotong biasanya adalah fitur berkelanjutan.

Misalnya, daripada merepresentasikan suhu sebagai satu fitur floating-point yang berkelanjutan, Anda dapat membagi rentang suhu menjadi beberapa bucket terpisah, seperti:

  • <= 10 derajat Celsius akan menjadi "dingin" ember.
  • 11 - 24 derajat Celsius akan menjadi "sedang" ember.
  • >= 25 derajat Celsius akan menjadi "hangat" ember.

Model akan memperlakukan setiap nilai dalam bucket yang sama secara identik. Misalnya, nilai 13 dan 22 keduanya berada dalam bucket sedang, sehingga model memperlakukan kedua nilai tersebut secara identik.

C

data kategoris

#fundamentals

Fitur memiliki serangkaian kemungkinan nilai tertentu. Misalnya, pertimbangkan fitur kategoris bernama traffic-light-state, yang hanya dapat memiliki salah satu dari tiga kemungkinan nilai berikut:

  • red
  • yellow
  • green

Dengan merepresentasikan traffic-light-state sebagai fitur kategoris, model dapat mempelajari dampak perbedaan red, green, dan yellow pada perilaku pengemudi.

Fitur kategoris terkadang disebut fitur terpisah.

Berbeda dengan data numerik.

class

#fundamentals

Kategori untuk label. Contoh:

  • Dalam model klasifikasi biner yang mendeteksi spam, kedua class mungkin adalah spam dan bukan spam.
  • Pada model klasifikasi multi-class yang mengidentifikasi jenis anjing, class tersebut mungkin berupa pudel, beagle, pug, dan seterusnya.

Model klasifikasi memprediksi class. Sebaliknya, model regresi memprediksi angka, bukan class.

model klasifikasi

#fundamentals

Model yang prediksinya adalah class. Misalnya, berikut semua model klasifikasinya:

  • Model yang memprediksi bahasa kalimat kalimat input (Prancis? Bahasa Spanyol? Italia?).
  • Model yang memprediksi spesies pohon (Maple? Oak? Baobab?).
  • Model yang memprediksi kelas positif atau negatif untuk kondisi medis tertentu.

Sebaliknya, model regresi memprediksi angka, bukan class.

Dua jenis model klasifikasi yang umum adalah:

nilai minimum klasifikasi

#fundamentals

Dalam klasifikasi biner, angka antara 0 dan 1 yang mengonversi output mentah dari model regresi logistik menjadi prediksi dari class positif atau class negatif. Perhatikan bahwa batas klasifikasi adalah nilai yang dipilih manusia, bukan nilai yang dipilih oleh pelatihan model.

Model regresi logistik menghasilkan nilai mentah antara 0 dan 1. Kemudian:

  • Jika nilai mentah ini lebih dari batas klasifikasi, kelas positif akan diprediksi.
  • Jika nilai mentah ini kurang dari batas klasifikasi, class negatif akan diprediksi.

Misalnya, batas klasifikasi adalah 0,8. Jika nilai mentahnya adalah 0,9, model akan memprediksi kelas positif. Jika nilai mentahnya adalah 0,7, model akan memprediksi kelas negatif.

Pilihan batas klasifikasi sangat memengaruhi jumlah positif palsupositif palsu dan negatif palsu.

set data kelas tidak seimbang

#fundamentals

Set data untuk masalah klasifikasi yang mana jumlah total label setiap class berbeda secara signifikan. Misalnya, pertimbangkan set data klasifikasi biner yang dua labelnya dibagi sebagai berikut:

  • 1.000.000 label negatif
  • 10 label positif

Rasio label negatif terhadap positif adalah 100.000 banding 1, jadi ini adalah set data yang tidak seimbang dengan class.

Sebaliknya, set data berikut tidak mengalami ketidakseimbangan class karena rasio label negatif terhadap label positif relatif terhadap 1:

  • 517 label negatif
  • 483 label positif

Set data multi-class juga bisa menjadi tidak seimbang dengan class. Misalnya, set data klasifikasi multi-class berikut juga tidak seimbang di kelas karena satu label memiliki jauh lebih banyak contoh daripada dua label lainnya:

  • 1.000.000 label dengan kelas "hijau"
  • 200 label dengan kelas "ungu"
  • 350 label dengan kelas "oranye"

Lihat juga entropi, kelas mayoritas, dan kelas minoritas.

pemotongan

#fundamentals

Teknik untuk menangani pencilan dengan melakukan salah satu atau kedua hal berikut:

  • Mengurangi nilai fitur yang lebih besar dari ambang batas maksimum ke ambang batas maksimum tersebut.
  • Meningkatkan nilai fitur yang kurang dari ambang batas minimum hingga ambang minimum tersebut.

Misalnya, misalkan <0,5% nilai untuk fitur tertentu berada di luar rentang 40–60. Dalam hal ini, Anda dapat melakukan hal berikut:

  • Potong semua nilai di atas 60 (nilai minimum maksimum) menjadi tepat 60.
  • Potong semua nilai di bawah 40 (nilai minimum) agar persis 40.

Pencilan dapat merusak model, terkadang menyebabkan bobot tambahan selama pelatihan. Beberapa pencilan juga dapat secara dramatis merusak metrik seperti akurasi. Klip adalah teknik umum untuk membatasi kerusakan.

Klip gradien memaksa nilai gradasi dalam rentang yang ditentukan selama pelatihan.

matriks konfusi

#fundamentals

Tabel NxN yang merangkum jumlah prediksi benar dan salah yang dibuat oleh model klasifikasi. Misalnya, pertimbangkan matriks konfusi berikut untuk model klasifikasi biner:

Tumor (diprediksi) Non-Tumor (diprediksi)
Tumor (kebenaran dasar) 18 (TP) 1 (FP)
Non-Tumor (kebenaran dasar) 6 (NP) 452 (TN)

Matriks kebingungan sebelumnya menampilkan hal berikut:

  • Dari 19 prediksi yang mana kebenaran dasar adalah Tumor, model tersebut mengklasifikasikan 18 dengan benar dan salah mengklasifikasikan 1.
  • Dari 458 prediksi yang kebenaran dasarnya adalah Non-Tumor, model mengklasifikasikan 452 dengan benar dan salah mengklasifikasikan 6.

Matriks konfusi untuk masalah klasifikasi multi-class dapat membantu Anda mengidentifikasi pola kesalahan. Misalnya, pertimbangkan matriks konfusi berikut untuk model klasifikasi multiclass 3 class yang mengategorikan tiga jenis iris yang berbeda (Virginica, Versicolor, dan Setosa). Jika kebenaran dasar adalah Virginica, matriks kebingungan menunjukkan bahwa model jauh lebih mungkin salah memprediksi Versicolor daripada Setosa:

  Setosa (diprediksi) Versicolor (diprediksi) Virginica (diprediksi)
Setosa (kebenaran dasar) 88 12 0
Versicolor (kebenaran dasar) 6 141 7
Virginica (kebenaran dasar) 2 27 109

Contoh lainnya, matriks rancu dapat mengungkapkan bahwa model yang dilatih untuk mengenali digit tulisan tangan cenderung salah memprediksi 9, bukan 4, atau salah memprediksi 1, bukan 7.

Matriks konfusi berisi informasi yang memadai untuk menghitung berbagai metrik performa, termasuk presisi dan penarikan.

fitur berkelanjutan

#fundamentals

Fitur floating point dengan rentang kemungkinan nilai yang tidak terbatas, seperti suhu atau berat.

Berbeda dengan fitur terpisah.

konvergensi

#fundamentals

Status tercapai saat nilai loss berubah sangat sedikit atau tidak sama sekali dengan setiap iterasi. Misalnya, kurva kerugian berikut menunjukkan konvergensi sekitar 700 iterasi:

Plot kartesius. Sumbu X adalah kerugian. Sumbu Y adalah jumlah iterasi pelatihan. Kerugian sangat tinggi selama beberapa iterasi pertama, tetapi menurun drastis. Setelah sekitar 100 iterasi, kerugian tetap menurun, tetapi jauh lebih bertahap. Setelah sekitar 700 iterasi,
          kerugian akan tetap datar.

Model terhubung saat pelatihan tambahan tidak akan meningkatkan model.

Dalam deep learning, nilai kerugian terkadang tetap konstan atau hampir sama untuk banyak iterasi sebelum akhirnya menurun. Selama periode nilai kerugian konstan dalam jangka waktu yang lama, Anda mungkin akan merasakan konvergensi yang palsu untuk sementara.

Lihat juga penghentian awal.

D

Bingkai Data

#fundamentals

Jenis data panda populer untuk mewakili set data dalam memori.

DataFrame dapat dianalogikan dengan tabel atau spreadsheet. Setiap kolom DataFrame memiliki nama (header), dan setiap baris diidentifikasi oleh nomor unik.

Setiap kolom dalam DataFrame terstruktur seperti array 2D, kecuali bahwa setiap kolom dapat diberi jenis datanya sendiri.

Lihat juga halaman referensi panda.DataFrame resmi.

set data atau set data

#fundamentals

Kumpulan data mentah, biasanya (tetapi tidak secara eksklusif) diatur dalam salah satu format berikut:

  • spreadsheet
  • file dalam format CSV (comma- separated values)

model dalam

#fundamentals

Jaringan neural yang berisi lebih dari satu lapisan tersembunyi.

Model deep juga disebut dengan jaringan neural dalam.

Berbeda dengan model lebar.

fitur padat

#fundamentals

Fitur yang sebagian besar atau semua nilainya bukan nol, biasanya Tensor dari nilai floating point. Misalnya, Tensor 10 elemen berikut padat karena 9 nilainya bukan nol:

8 3 7 5 2 4 0 4 9 6

Berbeda dengan fitur renggang.

kedalaman

#fundamentals

Jumlah hal berikut dalam jaringan neural:

Misalnya, jaringan neural dengan lima lapisan tersembunyi dan satu lapisan output memiliki kedalaman 6.

Perhatikan bahwa lapisan input tidak memengaruhi kedalaman.

fitur terpisah

#fundamentals

Fitur dengan set kemungkinan nilai yang terbatas. Misalnya, fitur yang nilainya hanya dapat berupa hewan, sayuran, atau mineral adalah fitur diskrit (atau kategoris).

Berbeda dengan fitur berkelanjutan.

dinamis

#fundamentals

Sesuatu yang sering dilakukan atau terus-menerus. Istilah dinamis dan online merupakan sinonim dalam machine learning. Berikut adalah penggunaan umum dinamis dan online dalam machine learning:

  • Model dinamis (atau model online) adalah model yang sering dilatih atau terus-menerus.
  • Pelatihan dinamis (atau pelatihan online) adalah proses pelatihan yang sering atau berkelanjutan.
  • Inferensi dinamis (atau inferensi online) adalah proses menghasilkan prediksi sesuai permintaan.

model dinamis

#fundamentals

Model yang sering (mungkin bahkan terus-menerus) dilatih ulang. Model dinamis adalah "pembelajar seumur hidup" yang terus-menerus beradaptasi dengan data yang berkembang. Model dinamis juga dikenal sebagai model online.

Berbeda dengan model statis.

E

penghentian awal

#fundamentals

Metode untuk regularisasi yang melibatkan penghentian pelatihan sebelum kerugian pelatihan selesai berkurang. Pada awal penghentian, Anda sengaja menghentikan pelatihan model saat kehilangan pada set data validasi mulai meningkat; yaitu, ketika performa generalisasi memburuk.

lapisan sematan

#language
#fundamentals

Lapisan tersembunyi khusus yang dilatih pada fitur kategoris dimensi tinggi untuk secara bertahap mempelajari vektor sematan dimensi yang lebih rendah. Lapisan sematan memungkinkan jaringan neural untuk berlatih jauh lebih efisien daripada melatih fitur kategoris berdimensi tinggi saja.

Misalnya, saat ini Bumi mendukung sekitar 73.000 spesies pohon. Misalnya spesies pohon adalah fitur dalam model Anda, sehingga lapisan input model Anda menyertakan vektor sekali klik dengan panjang 73.000 elemen. Misalnya, mungkin baobab akan ditampilkan seperti ini:

Array yang terdiri dari 73.000 elemen. 6.232 elemen pertama berisi nilai
     0. Elemen berikutnya berisi nilai 1. 66.767 elemen terakhir memiliki nilai nol.

Array 73.000 elemen sangat panjang. Jika Anda tidak menambahkan lapisan penyematan ke model, pelatihan akan sangat memakan waktu karena mengalikan 72.999 nol. Mungkin Anda memilih lapisan penyematan untuk terdiri dari 12 dimensi. Akibatnya, lapisan penyematan secara bertahap akan mempelajari vektor penyematan baru untuk setiap spesies pohon.

Dalam situasi tertentu, hashing merupakan alternatif yang wajar dari lapisan penyematan.

epoch

#fundamentals

Lulus pelatihan penuh di seluruh set pelatihan sehingga setiap contoh telah diproses sekali.

Epoch mewakili N/ukuran batch pelatihan iterasi, dengan N adalah jumlah total contoh.

Sebagai contoh, misalkan yang berikut:

  • Set data terdiri dari 1.000 contoh.
  • Ukuran tumpukan adalah 50 contoh.

Oleh karena itu, satu iterasi pelatihan membutuhkan 20 iterasi:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

contoh

#fundamentals

Nilai satu baris fitur dan mungkin label. Contoh dalam pembelajaran yang diawasi dibagi menjadi dua kategori umum:

  • Contoh berlabel terdiri dari satu atau beberapa fitur dan label. Contoh berlabel digunakan selama pelatihan.
  • Contoh tak berlabel terdiri dari satu atau beberapa fitur, tetapi tanpa label. Contoh tak berlabel digunakan selama inferensi.

Misalnya, Anda melatih model untuk menentukan pengaruh kondisi cuaca terhadap skor ujian siswa. Berikut ini tiga contoh berlabel:

Fitur Label
Suhu Kelembapan Tekanan Skor tes
15 47 998 Baik
19 34 1020 Luar biasa
18 92 1012 Buruk

Berikut adalah tiga contoh tanpa label:

Suhu Kelembapan Tekanan  
12 62 1014  
21 47 1017  
19 41 1021  

Baris set data biasanya merupakan sumber mentah untuk contoh. Artinya, contoh biasanya terdiri dari subkumpulan kolom dalam set data. Selain itu, fitur dalam contoh juga dapat mencakup fitur sintetis, seperti persilangan fitur.

F

negatif palsu (NP)

#fundamentals

Contoh saat model salah memprediksi class negatif. Misalnya, model memprediksi bahwa pesan email tertentu bukan spam (kelas negatif), tetapi pesan email tersebut sebenarnya adalah spam.

positif palsu (PP)

#fundamentals

Contoh yang mana model salah memprediksi class positif. Misalnya, model memprediksi bahwa pesan email tertentu adalah spam (kelas positif), tetapi pesan email tersebut benar-benar bukan spam.

rasio positif palsu (FPR)

#fundamentals

Proporsi contoh negatif aktual yang modelnya salah memprediksi class positif. Formula berikut menghitung rasio positif palsu:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Rasio positif palsu adalah sumbu x dalam kurva ROC.

fitur

#fundamentals

Variabel input ke model machine learning. Contoh terdiri dari satu atau beberapa fitur. Misalnya, Anda melatih model untuk menentukan pengaruh kondisi cuaca terhadap skor tes siswa. Tabel berikut menunjukkan tiga contoh, yang masing-masing berisi tiga fitur dan satu label:

Fitur Label
Suhu Kelembapan Tekanan Skor tes
15 47 998 92
19 34 1020 84
18 92 1012 87

Berbeda dengan label.

persilangan fitur

#fundamentals

Fitur sintetis yang dibentuk oleh "crossing" fitur atau bucket.

Misalnya, pertimbangkan "perkiraan suasana" model yang mewakili suhu dalam salah satu dari empat bucket berikut:

  • freezing
  • chilly
  • temperate
  • warm

Dan mewakili kecepatan angin dalam salah satu dari tiga bucket berikut:

  • still
  • light
  • windy

Tanpa persilangan fitur, model linear dilatih secara independen pada setiap tujuh tumpukan awal. Jadi, model dilatih pada, misalnya, freezing secara terpisah dari pelatihan pada, misalnya, windy.

Atau, Anda dapat membuat cross suhu dan kecepatan angin. Fitur sintetis ini akan memiliki 12 kemungkinan nilai berikut:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Berkat persilangan fitur, model dapat mempelajari perbedaan mood antara freezing-windy hari dan freezing-still hari.

Jika Anda membuat fitur sintetis dari dua fitur yang masing-masing memiliki banyak bucket berbeda, persilangan fitur yang dihasilkan akan memiliki kemungkinan kombinasi dalam jumlah besar. Misalnya, jika satu fitur memiliki 1.000 bucket dan fitur lainnya memiliki 2.000 bucket, persilangan fitur yang dihasilkan memiliki 2.000.000 bucket.

Secara formal, salib adalah produk Cartesian.

Persilangan fitur sebagian besar digunakan dengan model linear dan jarang digunakan dengan jaringan neural.

rekayasa fitur

#fundamentals
#TensorFlow

Proses yang melibatkan langkah-langkah berikut:

  1. Menentukan fitur yang mungkin berguna dalam melatih model.
  2. Mengonversi data mentah dari set data menjadi versi fitur tersebut yang efisien.

Misalnya, Anda dapat menentukan bahwa temperature mungkin merupakan fitur yang berguna. Kemudian, Anda dapat bereksperimen dengan bucketing untuk mengoptimalkan hal yang dapat dipelajari model dari rentang temperature yang berbeda.

Rekayasa fitur terkadang disebut ekstraksi fitur.

set fitur

#fundamentals

Grup fitur yang dipelajari model machine learning Anda. Misalnya, kode pos, ukuran properti, dan kondisi properti mungkin terdiri dari set fitur sederhana untuk model yang memprediksi harga perumahan.

vektor fitur

#fundamentals

Array nilai feature yang terdiri dari example. Vektor fitur dimasukkan selama pelatihan dan selama inferensi. Misalnya, vektor fitur untuk model dengan dua fitur terpisah mungkin adalah:

[0.92, 0.56]

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan satu lapisan output.
          Lapisan input berisi dua node, satu berisi nilai 0,92 dan yang lain berisi nilai 0,56.

Setiap contoh menyediakan nilai yang berbeda untuk vektor fitur, sehingga vektor fitur untuk contoh berikutnya dapat berupa:

[0.73, 0.49]

Rekayasa fitur menentukan cara mewakili fitur dalam vektor fitur. Misalnya, fitur kategori biner dengan lima nilai yang memungkinkan dapat direpresentasikan dengan encoding sekali klik. Dalam kasus ini, bagian vektor fitur untuk contoh tertentu akan terdiri dari empat nol dan satu 1,0 di posisi ketiga, seperti berikut:

[0.0, 0.0, 1.0, 0.0, 0.0]

Contoh lainnya, anggaplah model Anda terdiri dari tiga fitur:

  • fitur kategoris biner dengan lima nilai yang mungkin diwakili dengan encoding satu kali; misalnya: [0.0, 1.0, 0.0, 0.0, 0.0]
  • fitur kategoris biner lain dengan tiga nilai yang mungkin diwakili dengan encoding one-hot; misalnya: [0.0, 0.0, 1.0]
  • fitur floating point; misalnya: 8.3.

Dalam hal ini, vektor fitur untuk setiap contoh akan direpresentasikan oleh sembilan nilai. Dengan mempertimbangkan nilai contoh dalam daftar sebelumnya, vektor fitur adalah:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

feedback loop

#fundamentals

Dalam machine learning, situasi saat prediksi model memengaruhi data pelatihan untuk model yang sama atau model lainnya. Misalnya, model yang merekomendasikan film akan memengaruhi film yang ditonton orang, yang kemudian akan memengaruhi model rekomendasi film berikutnya.

G

generik

#fundamentals

Kemampuan model untuk membuat prediksi yang benar pada data baru yang sebelumnya tidak terlihat. Model yang dapat digeneralisasi adalah kebalikan dari model yang overfit.

kurva umum

#fundamentals

Plot kerugian pelatihan dan kerugian validasi sebagai fungsi dari jumlah pengulangan.

Kurva generik dapat membantu Anda mendeteksi kemungkinan overfit. Misalnya, kurva umum berikut menunjukkan overfit karena kerugian validasi pada akhirnya menjadi jauh lebih tinggi daripada kehilangan pelatihan.

Grafik Cartesian di mana sumbu y diberi label &#39;loss&#39; dan sumbu x diberi label &#39;iterasi&#39;. Dua plot akan muncul. Satu plot menampilkan
          kerugian pelatihan dan plot lainnya menunjukkan kerugian validasi.
          Kedua plot tersebut dimulai dengan cara yang sama, tetapi kerugian pelatihan pada akhirnya menurun jauh lebih rendah daripada kerugian validasi.

penurunan gradien

#fundamentals

Teknik matematika untuk meminimalkan kehilangan. Penurunan gradien menyesuaikan bobot dan bias secara berulang, secara bertahap menemukan kombinasi terbaik untuk meminimalkan kehilangan.

Penurunan gradien lebih lama—jauh, lebih tua—daripada machine learning.

kebenaran dasar

#fundamentals

Realitas.

Hal yang sebenarnya terjadi.

Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah seorang siswa di tahun pertama universitasnya akan lulus dalam waktu enam tahun. Kebenaran dasar untuk model ini adalah apakah siswa tersebut benar-benar lulus dalam waktu enam tahun atau tidak.

H

lapisan tersembunyi

#fundamentals

Lapisan di jaringan neural antara lapisan input (fitur) dan lapisan output (prediksi). Setiap lapisan tersembunyi terdiri dari satu atau beberapa neuron. Misalnya, jaringan neural berikut berisi dua lapisan tersembunyi, lapisan pertama dengan tiga neuron dan lapisan kedua dengan dua neuron:

Empat lapisan. Lapisan pertama adalah lapisan input yang berisi dua fitur. Lapisan kedua adalah lapisan tersembunyi yang berisi tiga neuron. Lapisan ketiga adalah lapisan tersembunyi yang berisi dua neuron. Lapisan keempat adalah lapisan output. Setiap fitur berisi tiga tepi, yang masing-masing menunjuk ke neuron yang berbeda di lapisan kedua. Setiap neuron di lapisan kedua
          berisi dua tepi, yang masing-masing menunjuk ke neuron yang berbeda
          di lapisan ketiga. Setiap neuron di lapisan ketiga berisi
          satu tepi, yang masing-masing mengarah ke lapisan output.

Jaringan neural dalam berisi lebih dari satu lapisan tersembunyi. Misalnya, ilustrasi sebelumnya adalah jaringan neural dalam karena model berisi dua lapisan tersembunyi.

hyperparameter

#fundamentals

Variabel yang Anda atau layanan penyesuaian hyperparameter sesuaikan selama menjalankan pelatihan model berturut-turut. Misalnya, kecepatan pembelajaran adalah hyperparameter. Anda dapat menetapkan kecepatan pembelajaran ke 0,01 sebelum satu sesi pelatihan. Jika nilai 0,01 terlalu tinggi, Anda mungkin dapat menetapkan kecepatan pembelajaran ke 0,003 untuk sesi pelatihan berikutnya.

Sebaliknya, parameter adalah berbagai bobot dan bias yang dipelajari oleh model selama pelatihan.

I

terdistribusi secara independen dan identik (d.i.i)

#fundamentals

Data yang diambil dari distribusi yang tidak berubah, dan di mana setiap nilai yang diambil tidak bergantung pada nilai yang telah diambil sebelumnya. ID adalah gas ideal dari machine learning, yang merupakan konstruksi matematika yang berguna, tetapi hampir tidak pernah ditemukan dalam dunia nyata. Misalnya, distribusi pengunjung ke halaman web boleh berlangsung selama periode waktu yang singkat; yaitu, distribusi tidak berubah selama periode singkat tersebut dan kunjungan satu orang umumnya terlepas dari kunjungan orang lain. Namun, jika Anda memperluas periode waktu tersebut, perbedaan musiman pada pengunjung halaman web mungkin akan muncul.

Lihat juga non-stasioneritas.

inferensi

#fundamentals

Dalam machine learning, proses membuat prediksi dengan menerapkan model terlatih ke contoh tak berlabel.

Inferensi memiliki arti yang agak berbeda dalam statistik. Lihat artikel Wikipedia tentang inferensi statistik untuk mengetahui detailnya.

lapisan input

#fundamentals

Lapisan jaringan neural yang menyimpan vektor fitur. Artinya, lapisan input memberikan contoh untuk pelatihan atau inferensi. Misalnya, lapisan input di jaringan neural berikut terdiri dari dua fitur:

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan lapisan output.

penafsiran

#fundamentals

Kemampuan untuk menjelaskan atau menyajikan penalaran model ML dalam istilah yang dapat dipahami oleh manusia.

Misalnya, sebagian besar model regresi linear sangat mudah dipahami. (Anda hanya perlu melihat bobot terlatih untuk setiap fitur.) Hutan keputusan juga sangat mudah ditafsirkan. Namun, beberapa model memerlukan visualisasi yang canggih agar dapat ditafsirkan.

iterasi

#fundamentals

Satu pembaruan parameter model&bobot dan bias model selamapelatihan. Ukuran batch menentukan jumlah contoh yang diproses oleh model dalam satu iterasi. Misalnya, jika ukuran tumpukan adalah 20, model akan memproses 20 contoh sebelum menyesuaikan parameter.

Saat melatih jaringan neural, satu iterasi memerlukan dua penerusan berikut:

  1. Pass penerusan untuk mengevaluasi kerugian pada satu batch.
  2. Meneruskan mundur (backpropagation) untuk menyesuaikan parameter model berdasarkan kerugian dan kecepatan pembelajaran.

L

regulasi L0

#fundamentals

Jenis regularisasi yang menghukum jumlah total bobot bukan nol dalam model. Misalnya, model yang memiliki 11 bobot bukan nol akan diberi penalti lebih besar daripada model serupa yang memiliki 10 bobot bukan nol.

Regularisasi L0 jarang digunakan.

Turun L1

#fundamentals

Fungsi kerugian yang menghitung nilai absolut perbedaan antara nilai label yang sebenarnya dan nilai yang diprediksi oleh model. Misalnya, berikut adalah penghitungan kerugian L1 untuk batch dari lima contoh:

Nilai sebenarnya dari contoh Nilai prediksi model Nilai mutlak delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = kerugian1

Kerugian L1 kurang sensitif terhadap pencilan dari Kehilangan L2.

Rata-Rata Error Absolut adalah rata-rata kerugian L1 per contoh.

Regularisasi L1

#fundamentals

Jenis regularisasi yang mengganjar bobot secara proporsional dengan jumlah nilai mutlak bobot. Regularisasi L1 membantu mendorong bobot fitur yang tidak relevan atau hampir tidak relevan menjadi tepat 0. Fitur dengan bobot 0 dihapus secara efektif dari model.

Berbeda dengan regularisasi L2.

Turun L2

#fundamentals

Fungsi kerugian yang menghitung kuadrat selisih antara nilai label aktual dan nilai yang diprediksi oleh model. Misalnya, berikut adalah penghitungan kerugian L2 untuk batch dari lima contoh:

Nilai sebenarnya dari contoh Nilai prediksi model Persegi delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = kerugian2

Karena kuadrat, kerugian L2 memperkuat pengaruh pencilan. Artinya, kerugian2 akan bereaksi lebih kuat terhadap prediksi buruk daripada L1 kerugian. Misalnya, kerugian L1 untuk batch sebelumnya adalah 8, bukan 16. Perhatikan bahwa satu pencilan menyumbang 9 dari 16.

Model regresi biasanya menggunakan kerugian L2 sebagai fungsi kerugian.

Rataan Kuadrat Error adalah rata-rata kerugian L2 per contoh. Kerugian kuadrat adalah nama lain untuk kerugian L2.

regulasi L2

#fundamentals

Jenis regularisasi yang mengganjar bobot secara proporsional dengan jumlah kuadrat bobot. Regularisasi L2 membantu mendorong bobot outlier (yang memiliki nilai positif tinggi atau negatif rendah) mendekati 0 tetapi tidak cukup ke 0. Fitur dengan nilai yang sangat mendekati 0 tetap berada dalam model, tetapi tidak terlalu memengaruhi prediksi model.

Regularisasi L2 selalu meningkatkan generikisasi dalammodel linear.

Berbeda dengan regularisasi L1.

label

#fundamentals

Pada Supervised machine learning, bagian "answer" atau "result" dari contoh.

Setiap contoh berlabel terdiri dari satu atau beberapa fitur dan label. Misalnya, dalam set data deteksi spam, label mungkin berupa "spam" atau "bukan spam." Dalam set data curah hujan, label mungkin berupa jumlah hujan yang turun selama periode tertentu.

contoh berlabel

#fundamentals

Contoh yang berisi satu atau beberapa fitur dan label. Misalnya, tabel berikut menunjukkan tiga contoh berlabel dari model penilaian rumah, masing-masing dengan tiga fitur dan satu label:

Jumlah kamar Jumlah kamar mandi Usia rumah Harga rumah (label)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 $392.000

Dalam Supervised machine learning, model melatih pada contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Kontras yang diberi contoh dengan contoh yang tidak berlabel.

lambda

#fundamentals

Sinonim dari derajat reguler.

Lambda adalah istilah yang berlebihan. Di sini kita berfokus pada definisi istilah dalam regularisasi.

lapisan

#fundamentals

Sekumpulan neuron dalam jaringan neural. Ada tiga jenis lapisan yang umum adalah sebagai berikut:

Misalnya, ilustrasi berikut menunjukkan jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua terdiri dari dua neuron. Lapisan output terdiri dari satu node.

Dalam TensorFlow, lapisan juga merupakan fungsi Python yang menggunakan Tensor dan opsi konfigurasi sebagai input dan menghasilkan tensor lain sebagai output.

kecepatan pembelajaran

#fundamentals

Angka floating-point yang memberi tahu algoritme penurunan gradien seberapa kuat penyesuaian bobot dan bias pada setiap iterasi. Misalnya, kecepatan pembelajaran 0,3 akan menyesuaikan bobot dan bias tiga kali lebih kuat daripada kecepatan pembelajaran 0,1.

Kecepatan pembelajaran adalah hyperparameter utama. Jika Anda menetapkan kecepatan pembelajaran terlalu rendah, pelatihan akan memakan waktu terlalu lama. Jika Anda menetapkan kecepatan pembelajaran terlalu tinggi, penurunan gradien sering kali mengalami kesulitan dalam mencapai konvergensi.

model linear

#fundamentals

Model yang menetapkan satu bobot per fitur untuk membuat prediksi. (Model linear juga menggabungkan bias.) Sebaliknya, hubungan fitur dengan prediksi dalam model dalam umumnya nonlinear.

Model linear biasanya lebih mudah dilatih dan lebih dapat ditafsirkan daripada model dalam. Namun, model dalam dapat mempelajari hubungan yang kompleks antara fitur.

Regresi linear dan regresi logistik adalah dua jenis model linear.

linier

#fundamentals

Hubungan antara dua variabel atau lebih yang dapat direpresentasikan hanya melalui penambahan dan perkalian.

Plot hubungan linear adalah garis.

Berbeda dengan nonlinear.

regresi linear

#fundamentals

Jenis model machine learning yang mana keduanya benar:

  • Model adalah model linear.
  • Prediksi adalah nilai floating point. (Ini adalah bagian regresi dari regresi linear.)

Membandingkan regresi linear dengan regresi logistik. Selain itu, regresi kontras dengan klasifikasi.

regresi logistik

#fundamentals

Jenis model regresi yang memprediksi probabilitas. Model regresi logistik memiliki karakteristik berikut:

  • Label ini kategoris. Istilah regresi logistik biasanya mengacu pada regresi logistik biner, yaitu model yang menghitung probabilitas untuk label dengan dua kemungkinan nilai. Varian yang kurang umum, regresi logistik multinomial, menghitung probabilitas untuk label dengan lebih dari dua nilai.
  • Fungsi kerugian selama pelatihan adalah Kerugian Log. (Beberapa unit Kerugian Log dapat ditempatkan secara paralel untuk label dengan lebih dari dua kemungkinan nilai.)
  • Model ini memiliki arsitektur linear, bukan jaringan neural dalam. Namun, definisi ini juga berlaku untuk model dalam yang memprediksi probabilitas untuk label kategori.

Misalnya, pertimbangkan model regresi logistik yang menghitung kemungkinan email input berupa spam atau bukan spam. Selama inferensi, anggaplah model memprediksi 0,72. Oleh karena itu, model ini memperkirakan:

  • 72% kemungkinan email tersebut merupakan spam.
  • 28% kemungkinan email tidak menjadi spam.

Model regresi logistik menggunakan arsitektur dua langkah berikut:

  1. Model ini menghasilkan prediksi mentah (y') dengan menerapkan fungsi linear dari fitur input.
  2. Model ini menggunakan prediksi mentah tersebut sebagai input untuk fungsi sigmoid, yang mengonversi prediksi mentah menjadi nilai antara 0 dan 1, secara eksklusif.

Seperti model regresi lainnya, model regresi logistik memprediksi angka. Namun, jumlah ini biasanya menjadi bagian dari model klasifikasi biner seperti berikut:

  • Jika angka yang diprediksi lebih besar dari nilai minimum klasifikasi, model klasifikasi biner akan memprediksi class positif.
  • Jika angka yang diprediksi kurang dari nilai minimum klasifikasi, model klasifikasi biner akan memprediksi class negatif.

Kehilangan Log

#fundamentals

Fungsi kerugian yang digunakan dalam biner regresi logistik.

log-peluang

#fundamentals

Logaritma dari peluang beberapa peristiwa.

kalah

#fundamentals

Selama pelatihan model yang diawasi, ukuran seberapa jauh prediksi model dari label-nya.

Fungsi kerugian menghitung kerugian.

kurva kerugian

#fundamentals

Plot loss sebagai fungsi dari jumlah iterasi pelatihan. Plot berikut menunjukkan kurva kerugian yang biasa:

Grafik kerugian Cartesian versus iterasi pelatihan, menunjukkan penurunan kerugian yang cepat untuk iterasi awal, diikuti oleh penurunan bertahap, lalu kemiringan datar selama iterasi akhir.

Kurva kehilangan dapat membantu Anda menentukan kapan model konvergen atau overfit.

Kurva kerugian dapat memetakan semua jenis kerugian berikut:

Lihat juga kurva umum.

fungsi kerugian

#fundamentals

Selama pelatihan atau pengujian, fungsi matematika yang menghitung kerugian pada batch contoh. Fungsi kerugian akan menampilkan kerugian yang lebih rendah untuk model yang membuat prediksi bagus daripada untuk model yang membuat prediksi buruk.

Tujuan pelatihan biasanya untuk meminimalkan kehilangan yang ditampilkan oleh fungsi kerugian.

Ada berbagai jenis fungsi kerugian. Pilih fungsi kerugian yang sesuai untuk jenis model yang Anda build. Contoh:

M

machine learning

#fundamentals

Program atau sistem yang melatih model dari data input. Model terlatih dapat membuat prediksi yang berguna dari data baru (yang belum pernah dilihat sebelumnya) yang diambil dari distribusi yang sama seperti yang digunakan untuk melatih model.

Machine learning juga mengacu pada bidang studi yang membahas program atau sistem ini.

kelas mayoritas

#fundamentals

Label yang lebih umum dalam set data kelas tidak seimbang. Misalnya, jika set data berisi 99% label negatif dan 1% label positif, label negatif adalah kelas mayoritas.

Berbeda dengan kelas minoritas.

tumpukan mini

#fundamentals

Subset kecil yang dipilih secara acak dari batch yang diproses dalam satu iterasi. Ukuran tumpukan dari tumpukan mini biasanya antara 10 dan 1.000 contoh.

Misalnya, keseluruhan set pelatihan (batch penuh) terdiri dari 1.000 contoh. Misalkan Anda menyetel ukuran tumpukan setiap tumpukan mini ke 20 lebih lanjut. Oleh karena itu, setiap iterasi menentukan kerugian pada 20 acak dari 1.000 contoh,kemudian menyesuaikan bobot dan bias sebagaimana mestinya.

Jauh lebih efisien untuk menghitung kerugian pada tumpukan mini daripada kerugian pada semua contoh di tumpukan lengkap.

kelas minoritas

#fundamentals

Label yang kurang umum dalam set data kelas tidak seimbang. Misalnya, jika set data berisi 99% label negatif dan 1% label positif, label positif adalah class minoritas.

Berbeda dengan class mayoritas.

penggunaan

#fundamentals

Secara umum, setiap konstruksi matematika yang memproses data input dan menampilkan output. Dengan frasa yang berbeda, model adalah kumpulan parameter dan struktur yang diperlukan sistem untuk membuat prediksi. Dalam Supervised machine learning, model mengambil contoh sebagai input dan menyimpulkan prediksi sebagai output. Dalam machine learning yang diawasi, model akan sedikit berbeda. Contoh:

  • Model regresi linear terdiri dari kumpulan bobot dan bias.
  • Model jaringan neural terdiri dari:
    • Sekumpulan lapisan tersembunyi, masing-masing berisi satu atau beberapa neuron.
    • Bobot dan bias yang terkait dengan setiap neuron.
  • Model pohon keputusan terdiri dari:
    • Bentuk pohon; yaitu, pola yang menghubungkan kondisi dan daun.
    • Kondisi dan daun.

Anda dapat menyimpan, memulihkan, atau membuat salinan model.

Machine learning yang tidak diawasi juga menghasilkan model, biasanya fungsi yang dapat memetakan contoh input ke cluster yang paling sesuai.

klasifikasi multi-class

#fundamentals

Dalam pembelajaran yang diawasi, terdapat masalah klasifikasi saat set data berisi lebih dari dua class label. Misalnya, label dalam set data Iris harus berupa salah satu dari tiga class berikut:

  • Iris Setosa
  • Iris Virginica
  • Iris versicolor

Model yang dilatih pada set data Iris yang memprediksi jenis Iris pada contoh baru melakukan klasifikasi multi-class.

Sebaliknya, masalah klasifikasi yang membedakan antara tepat dua class adalah model klasifikasi biner. Misalnya, model email yang memprediksi spam atau bukan spam adalah model klasifikasi biner.

Dalam masalah pengelompokan, klasifikasi multi-class merujuk ke lebih dari dua cluster.

T

kelas negatif

#fundamentals

Dalam klasifikasi biner, satu class disebut positif dan class lainnya disebut negatif. Class positif adalah hal atau peristiwa yang diuji oleh model dan class negatif adalah kemungkinan lainnya. Contoh:

  • Kelas negatif dalam tes medis mungkin "bukan Tumor."
  • Kelas negatif dalam pengklasifikasi email mungkin "bukan spam."

Berbeda dengan class positif.

jaringan neural

#fundamentals

Model yang berisi setidaknya satu lapisan tersembunyi. Jaringan neural dalam adalah jenis jaringan neural yang berisi lebih dari satu lapisan tersembunyi. Misalnya, diagram berikut menunjukkan jaringan neural dalam yang berisi dua lapisan tersembunyi.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan lapisan output.

Setiap neuron di jaringan neural terhubung ke semua node di lapisan berikutnya. Misalnya, dalam diagram sebelumnya, perhatikan bahwa masing-masing dari tiga neuron di lapisan tersembunyi pertama secara terpisah terhubung ke kedua neuron di lapisan tersembunyi kedua.

Jaringan neural yang diterapkan di komputer terkadang disebut sebagai jaringan neural buatan untuk membedakannya dari jaringan saraf yang ditemukan di otak dan sistem saraf lainnya.

Beberapa jaringan neural dapat meniru hubungan nonlinear yang sangat kompleks antara fitur yang berbeda dan label.

Lihat juga jaringan neural konvolusional dan jaringan neural berulang.

neuron

#fundamentals

Dalam machine learning, unit berbeda dalam lapisan tersembunyi jaringan neural. Setiap neuron melakukan tindakan dua langkah berikut:

  1. Menghitung jumlah tertimbang nilai input dikalikan dengan bobot yang sesuai.
  2. Meneruskan jumlah berbobot sebagai input ke fungsi aktivasi.

Neuron di lapisan tersembunyi pertama menerima input dari nilai fitur dalam lapisan input. Neuron di semua lapisan tersembunyi di luar lapisan pertama menerima input dari neuron di lapisan tersembunyi sebelumnya. Misalnya, neuron di lapisan tersembunyi kedua menerima input dari neuron di lapisan tersembunyi pertama.

Ilustrasi berikut menyoroti dua neuron dan inputnya.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan lapisan output. Dua neuron ditandai: satu di lapisan tersembunyi pertama dan satu lagi di lapisan tersembunyi kedua. Neuron yang disorot pada lapisan tersembunyi pertama menerima input dari kedua fitur dalam lapisan input. Neuron yang disorot pada lapisan tersembunyi kedua menerima input dari masing-masing dari tiga neuron di lapisan tersembunyi pertama.

Neuron di jaringan neural meniru perilaku neuron di otak dan bagian lain dari sistem saraf.

node (jaringan neural)

#fundamentals

neuron dalam lapisan tersembunyi.

nonlinear

#fundamentals

Hubungan antara dua variabel atau lebih yang tidak dapat direpresentasikan hanya melalui penambahan dan perkalian. Hubungan linear dapat direpresentasikan sebagai garis; hubungan nonlinear tidak dapat diwakili sebagai garis. Misalnya, pertimbangkan dua model yang masing-masing mengaitkan satu fitur dengan satu label. Model di sebelah kiri bersifat linear dan model di sebelah kanannya tidak linear:

Dua plot. Satu plot adalah sebuah garis, sehingga ini merupakan hubungan linear.
          Plot lainnya adalah kurva, jadi ini adalah hubungan non-linear.

non-stasioneritas

#fundamentals

Fitur yang nilainya berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, perhatikan contoh non-stasioneritas berikut:

  • Jumlah pakaian renang yang dijual di toko tertentu bervariasi sesuai musim.
  • Jumlah buah tertentu yang dipanen di wilayah tertentu adalah nol untuk hampir sepanjang tahun, tetapi dalam jumlah besar untuk waktu yang singkat.
  • Karena perubahan iklim, suhu rata-rata tahunan berubah.

Berbeda dengan stasioneritas.

normalisasi

#fundamentals

Secara umum, proses konversi rentang nilai variabel yang sebenarnya menjadi rentang nilai standar, seperti:

  • -1 sampai +1
  • 0 ke 1
  • distribusi normal

Misalnya, rentang nilai sebenarnya dari fitur tertentu adalah 800 hingga 2.400. Sebagai bagian dari engineer fitur, Anda dapat menormalisasi nilai sebenarnya ke rentang standar, seperti -1 hingga +1.

Normalisasi adalah tugas umum dalam engineering fitur. Model biasanya dilatih lebih cepat (dan menghasilkan prediksi yang lebih baik) saat setiap fitur numerik dalam vektor fitur memiliki rentang yang kurang lebih sama.

data numerik

#fundamentals

Fitur yang direpresentasikan sebagai bilangan bulat atau bilangan real-bernilai. Misalnya, model penilaian rumah mungkin akan merepresentasikan ukuran rumah (dalam kaki persegi atau meter persegi) sebagai data numerik. Merepresentasikan fitur sebagai data numerik menunjukkan bahwa nilai fitur memiliki hubungan matematika dengan label. Artinya, jumlah meter persegi dalam rumah mungkin memiliki beberapa hubungan matematika dengan nilai rumah.

Tidak semua data bilangan bulat harus direpresentasikan sebagai data numerik. Misalnya, kode pos di beberapa belahan dunia adalah bilangan bulat; namun, kode pos bilangan bulat tidak boleh direpresentasikan sebagai data numerik dalam model. Hal tersebut karena kode pos 20000 tidak dua kali (atau setengah) sama kuatnya dengan kode pos 10.000. Selain itu, meskipun kode pos yang berbeda benar-benar berkorelasi dengan nilai real estate yang berbeda, kami tidak dapat berasumsi bahwa nilai real estate pada kode pos 20000 dua kali lebih berharga daripada nilai real estate pada kode pos 10000. Kode pos sebaiknya direpresentasikan sebagai data kategorik.

Fitur numerik terkadang disebut fitur berkelanjutan.

O

offline

#fundamentals

Sinonim dari statis.

inferensi offline

#fundamentals

Proses model yang menghasilkan batch prediksi, lalu meng-cache (menyimpan) prediksi tersebut. Selanjutnya, aplikasi dapat mengakses prediksi yang diinginkan dari cache, bukan menjalankan ulang model.

Misalnya, pertimbangkan model yang menghasilkan perkiraan cuaca lokal (prediksi) setiap empat jam sekali. Setelah setiap model berjalan, sistem akan meng-cache semua perkiraan cuaca lokal. Aplikasi cuaca mengambil perkiraan dari cache.

Inferensi offline juga disebut inferensi statis.

Berbeda dengan inferensi online.

encoding satu kali

#fundamentals

Merepresentasikan data kategoris sebagai vektor dengan:

  • Satu elemen ditetapkan ke 1.
  • Semua elemen lainnya ditetapkan ke 0.

Encoding one-hot biasanya digunakan untuk mewakili string atau ID yang memiliki set kemungkinan nilai yang terbatas. Misalnya, fitur kategoris tertentu bernama Scandinavia memiliki lima kemungkinan nilai:

  • "Denmark"
  • "Swedia"
  • "Norwegia"
  • "Finlandia"
  • "Islandia"

Enkode sekali klik dapat mewakili masing-masing dari lima nilai sebagai berikut:

country Vektor
"Denmark" 1 0 0 0 0
"Swedia" 0 1 0 0 0
"Norwegia" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islandia" 0 0 0 0 1

Berkat encoding one-hot, sebuah model dapat mempelajari berbagai koneksi berdasarkan kelima negara tersebut.

Merepresentasikan fitur sebagai data numerik adalah alternatif untuk encoding sekali klik. Sayangnya, mewakili negara-negara Skandinavia secara numerik bukanlah pilihan yang baik. Misalnya, pertimbangkan representasi numerik berikut:

  • "Denmark" adalah 0
  • "Swedia" adalah 1
  • "Norwegia</quot; adalah 2
  • "Finlandia" adalah 3
  • "Islandia" adalah 4

Dengan encoding numerik, model akan menafsirkan angka mentah secara matematika dan akan mencoba melatih angka tersebut. Namun, Islandia sebenarnya bukan dua kali lebih banyak (atau setengah) dari Norwegia, jadi model tersebut akan memiliki kesimpulan yang aneh.

satu vs. semua

#fundamentals

Mengingat masalah klasifikasi dengan kelas N, solusi yang terdiri dari N pengklasifikasi biner terpisah—satu pengklasifikasi biner untuk setiap kemungkinan hasil. Misalnya, dalam model yang mengklasifikasikan contoh sebagai hewan, sayuran, atau mineral, solusi satu vs. semua akan memberikan tiga pengklasifikasi biner terpisah berikut:

  • hewan vs. bukan hewan
  • sayuran vs. bukan sayuran
  • mineral vs. bukan mineral

online

#fundamentals

Sinonim dari dinamis.

inferensi online

#fundamentals

Menghasilkan prediksi secara on demand. Misalnya, anggaplah aplikasi meneruskan input ke model dan mengeluarkan permintaan untuk prediksi. Sistem yang menggunakan inferensi online akan merespons permintaan tersebut dengan menjalankan model (dan menampilkan prediksi ke aplikasi).

Berbeda dengan inferensi offline.

lapisan output

#fundamentals

Lapisan "quot;final" dari jaringan neural. Lapisan output berisi prediksi.

Ilustrasi berikut menunjukkan jaringan neural dalam yang kecil dengan lapisan input, dua lapisan tersembunyi, dan lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua terdiri dari dua neuron. Lapisan output terdiri dari satu node.

overfit

#fundamentals

Membuat model yang sangat cocok dengan data pelatihan sehingga model sangat gagal membuat prediksi yang benar pada data baru.

Regularisasi dapat mengurangi overfit. Pelatihan pada set pelatihan yang besar dan beragam juga dapat mengurangi kelebihan pas.

P

panda

#fundamentals

API analisis data berorientasi kolom yang dibuat berdasarkan numpy. Banyak framework machine learning, termasuk TensorFlow, mendukung struktur data panda sebagai input. Lihat dokumentasi panda untuk mengetahui detailnya.

parameter

#fundamentals

Bobot dan bias yang dipelajari model selama pelatihan. Misalnya, dalam model regresi linear, parameter terdiri dari bias (b) dan semua bobot (w1, w2, dan seterusnya) dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Sebaliknya, hyperparameter adalah nilai yang Anda (atau layanan pengalihan hyperparameter) berikan ke model. Misalnya, kecepatan pembelajaran adalah hyperparameter.

kelas positif

#fundamentals

Class yang sedang Anda uji.

Misalnya, kelas positif dalam model kanker mungkin "tumor." Kelas positif dalam pengklasifikasi email mungkin "spam."

Berbeda dengan class negatif.

pascapemrosesan

#fairness
#fundamentals

Menyesuaikan output model setelah model dijalankan. Pascapemrosesan dapat digunakan untuk menerapkan batasan keadilan tanpa mengubah model itu sendiri.

Misalnya, seseorang mungkin menerapkan pascapemrosesan ke pengklasifikasi biner dengan menetapkan batas klasifikasi sehingga kesetaraan peluang dipertahankan untuk beberapa atribut dengan memeriksa bahwa rasio positif benar sama untuk semua nilai atribut tersebut.

prediksi

#fundamentals

Output model. Contoh:

  • Prediksi model klasifikasi biner adalah kelas positif atau kelas negatif.
  • Prediksi model klasifikasi multi-class adalah satu class.
  • Prediksi model regresi linear adalah angka.

label proxy

#fundamentals

Data yang digunakan untuk memperkirakan label yang tidak tersedia secara langsung dalam set data.

Misalnya, Anda harus melatih model untuk memprediksi tingkat stres karyawan. Set data Anda berisi banyak fitur prediktif, tetapi tidak berisi label bernama tingkat stres. Anda akan memilih "kecelakaan di tempat kerja" sebagai label proxy untuk tingkat stres. Lagi pula, karyawan yang mengalami stres tinggi mengalami lebih banyak kecelakaan daripada karyawan yang tenang. Atau apakah mereka demikian? Mungkin kecelakaan di tempat kerja benar-benar naik dan turun karena beberapa alasan.

Sebagai contoh kedua, misalkan Anda ingin apakah hujan? menjadi label Boolean untuk set data, tetapi set data Anda tidak berisi data hujan. Jika foto tersedia, Anda dapat membuat gambar orang yang membawa payung sebagai label proxy untuk apakah hujan? Apakah itu label proxy yang baik? Mungkin saja, tetapi orang-orang di beberapa budaya mungkin lebih cenderung membawa payung untuk melindungi dari sinar matahari daripada hujan.

Label proxy sering kali tidak sempurna. Jika memungkinkan, pilih label yang sebenarnya daripada label proxy. Artinya, jika label yang sebenarnya tidak ada, pilih label proxy dengan sangat hati-hati, lalu pilih kandidat label proxy yang paling tidak mengerikan.

R

penilai

#fundamentals

Seorang manusia yang memberikan label untuk contoh. "Annotator" adalah nama lain untuk penilai.

Unit Linear Terarah (ULT)

#fundamentals

Fungsi aktivasi dengan perilaku berikut:

  • Jika input negatif atau nol, maka output-nya adalah 0.
  • Jika inputnya positif, output tersebut sama dengan input.

Contoh:

  • Jika inputnya adalah -3, maka output-nya adalah 0.
  • Jika inputnya adalah +3, maka output-nya adalah 3.0.

Berikut adalah plot ULT:

Plot kartesius yang terdiri dari dua garis. Baris pertama memiliki nilai y yang konstan 0, yang berjalan di sepanjang sumbu x dari -infinity,0 hingga 0,-0.
          Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, sehingga menurun dari 0,0 hingga +infinity,+infinity.

ULT adalah fungsi aktivasi yang sangat populer. Meskipun perilakunya sederhana, ULT masih memungkinkan jaringan neural untuk mempelajari hubungan nonlinear antara fitur dan label.

model regresi

#fundamentals

Secara informal, model yang menghasilkan prediksi numerik. (Sebaliknya, model klasifikasi menghasilkan prediksi class.) Misalnya, berikut ini adalah semua model regresi:

  • Model yang memprediksi nilai rumah tertentu, seperti 423.000 Euro.
  • Model yang memprediksi harapan hidup pohon tertentu, seperti 23,2 tahun.
  • Model yang memprediksi jumlah hujan yang akan turun di kota tertentu selama enam jam ke depan, seperti 0,18 inci.

Dua jenis model regresi yang umum adalah:

  • Regresi linear, yang menemukan baris yang paling sesuai dengan nilai label pada fitur.
  • Regresi logistik, yang menghasilkan probabilitas antara 0,0 dan 1,0 yang biasanya dipetakan oleh sistem ke prediksi class.

Tidak setiap model yang menghasilkan prediksi numerik merupakan model regresi. Dalam beberapa kasus, prediksi numerik sebenarnya adalah model klasifikasi yang kebetulan memiliki nama class numerik. Misalnya, model yang memprediksi kode pos numerik adalah model klasifikasi, bukan model regresi.

regulasi

#fundamentals

Mekanisme apa pun yang mengurangi overfit. Jenis regulerisasi yang populer meliputi:

Regularisasi juga dapat didefinisikan sebagai penalti pada kompleksitas model.

Deserialisasi

#fundamentals

Angka yang menentukan nilai penting relatif regularisasi selama pelatihan. Meningkatkan normalisasi mengurangi overfit tetapi dapat mengurangi daya prediktif model. Sebaliknya, mengurangi atau menghilangkan normalisasi ini akan meningkatkan overfit.

ULT

#fundamentals

Singkatan dari Unit Linear Terkoreksi.

Kurva ROC (karakteristik operasi penerima)

#fundamentals

Grafik rasio positif benar vs. rasio positif palsu untuk nilai minimum klasifikasi yang berbeda dalam klasifikasi biner.

Bentuk kurva ROC menyarankan kemampuan model klasifikasi biner untuk memisahkan kelas positif dari kelas negatif. Misalnya, jika model klasifikasi biner benar-benar memisahkan semua class negatif dari semua class positif:

Baris angka dengan 8 contoh positif di sisi kanan dan 7 contoh negatif di sebelah kiri.

Kurva ROC untuk model sebelumnya terlihat seperti berikut:

Kurva ROC. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva tersebut memiliki bentuk L terbalik. Kurva dimulai dari (0.0,0.0) dan langsung ke atas (0.0,1.0). Kemudian kurva akan berubah dari (0.0,1.0) ke (1.0,1.0).

Sebaliknya, ilustrasi berikut membuat grafik nilai regresi logistik mentah untuk model buruk yang tidak dapat memisahkan class negatif dari class positif sama sekali:

Baris angka dengan contoh positif dan class negatif
          yang bercampur sepenuhnya.

Kurva ROC untuk model ini terlihat sebagai berikut:

Kurva ROC, yang sebenarnya adalah garis lurus dari (0.0,0.0) ke (1.0,1.0).

Sementara itu, di dunia nyata, sebagian besar model klasifikasi biner memisahkan class positif dan negatif ke tingkat tertentu, tetapi biasanya tidak sempurna. Jadi, kurva ROC biasanya berada di antara dua titik ekstrem:

Kurva ROC. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva ROC memperkirakan busur yang goyang melintasi titik kompas dari Barat ke Utara.

Titik pada kurva ROC yang terdekat dengan (0.0,1.0) secara teori akan mengidentifikasi batas klasifikasi yang ideal. Namun, beberapa masalah dunia nyata lainnya memengaruhi pemilihan batas klasifikasi yang ideal. Misalnya, negatif palsu mungkin menyebabkan lebih banyak nyeri daripada positif palsu.

Metrik numerik yang disebut AUC merangkum kurva ROC menjadi satu nilai floating-point.

Error Akar Rata-Rata Kuadrat (RMSE)

#fundamentals

Akar kuadrat dari Rataan Kuadrat Error.

S

fungsi sigmoid

#fundamentals

Fungsi matematika yang "squishes" nilai input menjadi rentang terbatas, biasanya 0 hingga 1 atau -1 hingga +1. Artinya, Anda dapat meneruskan angka (dua, juta, miliar negatif, apa pun) ke sigmoid dan output akan tetap berada dalam rentang terbatas. Matriks fungsi aktivasi sigmoid akan terlihat seperti berikut:

plot melengkung dua dimensi dengan nilai x yang mencakup domain - tak terbatas hingga +positif, sedangkan nilai y mencakup rentang hampir 0 hingga hampir 1. Ketika x adalah 0, y adalah 0,5. Kemiringan kurva selalu positif, dengan kemiringan tertinggi pada 0,0.5 dan penurunan lereng secara bertahap seiring dengan nilai mutlak x meningkat.

Fungsi sigmoid memiliki beberapa kegunaan dalam machine learning, termasuk:

softmax

#fundamentals

Fungsi yang menentukan probabilitas untuk setiap kemungkinan class dalam model klasifikasi multi-class. Probabilitasnya berjumlah 1,0. Misalnya, tabel berikut menunjukkan cara softmax mendistribusikan berbagai kemungkinan:

Gambar adalah... Probability
anjing 0,85
Cat ,13
kuda 0,02

Softmax juga disebut softmax penuh.

Berbeda dengan pengambilan sampel kandidat.

fitur renggang

#language
#fundamentals

Fitur yang sebagian besar nilainya nol atau kosong. Misalnya, fitur yang berisi satu nilai 1 dan satu juta nilai 0 jarang terjadi. Sebaliknya, fitur padat memiliki nilai yang sebagian besar tidak berisi nol atau kosong.

Dalam machine learning, jumlah fitur yang mengejutkan adalah fitur yang tersebar. Fitur kategoris biasanya merupakan fitur renggang. Misalnya, dari 300 kemungkinan spesies pohon di hutan, satu contoh mungkin hanya mengidentifikasi pohon maple. Atau, dari jutaan video yang memungkinkan dalam koleksi video, satu contoh mungkin mengidentifikasi hanya "Casablanca."

Dalam model, Anda biasanya mewakili fitur renggang dengan encoding satu kali. Jika encoding sekali klik berukuran besar, Anda dapat menempatkan lapisan penyematan di atas encoding sekali klik untuk efisiensi yang lebih besar.

representasi renggang

#language
#fundamentals

Menyimpan hanya posisi elemen bukan nol dalam fitur renggang.

Misalnya, fitur kategoris bernama species mengidentifikasi 36 spesies pohon di hutan tertentu. Selanjutnya asumsikan bahwa setiap contoh hanya mengidentifikasi satu spesies.

Anda dapat menggunakan vektor one-hot untuk mewakili spesies pohon di setiap contoh. Vektor one-hot akan berisi satu 1 (untuk mewakili spesies pohon tertentu dalam contoh tersebut) dan 35 0 (untuk mewakili 35 spesies pohon yang tidak dalam contoh tersebut). Jadi, representasi sekali klik dari maple mungkin terlihat seperti berikut:

Vektor yang memiliki posisi 0 hingga 23 yang memiliki nilai 0, posisi
          24 yang memiliki nilai 1, dan posisi 25 hingga 35 yang memiliki nilai 0.

Atau, representasi renggang hanya akan mengidentifikasi posisi spesies tertentu. Jika maple berada di posisi 24, representasi renggang maple adalah:

24

Perhatikan bahwa representasi renggang jauh lebih ringkas daripada representasi satu kali.

vektor renggang

#fundamentals

Vektor yang sebagian besar nilainya adalah nol. Lihat juga fitur renggang dan ketersebaran.

kerugian kuadrat

#fundamentals

Sinonim dari K2 kerugian.

static

#fundamentals

Sesuatu yang dilakukan sekali, bukan terus-menerus. Istilah statis dan offline adalah sinonim. Berikut adalah penggunaan umum statis dan offline dalam machine learning:

  • model statis (atau model offline) adalah model yang dilatih sekali, kemudian digunakan untuk sementara waktu.
  • pelatihan statis (atau pelatihan offline) adalah proses pelatihan model statis.
  • inferensi statis (atau inferensi offline) adalah proses saat model menghasilkan batch prediksi dalam satu waktu.

Berbeda dengan dinamis.

inferensi statis

#fundamentals

Sinonim dari inferensi offline.

stasioneritas

#fundamentals

Fitur yang nilainya tidak berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, fitur yang nilainya hampir sama pada tahun 2020 dan 2022 menunjukkan stasioneritas.

Di dunia nyata, sangat sedikit fitur yang memperlihatkan stasioneritas. Fitur ini bahkan sinkron dengan stabilitas (seperti permukaan laut) dari waktu ke waktu.

Berbeda dengan non-stasioneritas.

penurunan gradien stokastik (SGD)

#fundamentals

Algoritme penurunan gradien yang berisi ukuran tumpukan. Dengan kata lain, SGD melatih pada satu contoh yang dipilih secara seragam secara acak dari set pelatihan.

machine learning yang diawasi

#fundamentals

Melatih model dari fitur dan label yang sesuai. Supervised machine learning dianalogikan dengan pembelajaran subjek dengan mempelajari serangkaian pertanyaan dan jawaban yang sesuai. Setelah menguasai pemetaan antara pertanyaan dan jawaban, siswa kemudian dapat memberikan jawaban atas pertanyaan baru (yang belum pernah dilihat) dalam topik yang sama.

Bandingkan dengan unSupervised machine learning.

fitur sintetis

#fundamentals

Fitur yang tidak ada di antara fitur input, tetapi digabungkan dari satu atau beberapa fitur tersebut. Metode untuk membuat fitur sintetis meliputi:

  • Mengelompokkan fitur berkelanjutan ke dalam bin rentang.
  • Membuat persilangan fitur.
  • Mengalikan (atau membagi) satu nilai fitur dengan nilai fitur lain atau dengan nilai fiturnya sendiri. Misalnya, jika a dan b adalah fitur input, berikut adalah contoh fitur sintetis:
    • ab
    • a2
  • Menerapkan fungsi transendental ke nilai fitur. Misalnya, jika c adalah fitur input, berikut adalah contoh fitur sintetis:
    • sin(c)
    • ln(c)

Fitur yang dibuat oleh normal atau menskalakan tidak dianggap sebagai fitur sintetis.

T

kerugian pengujian

#fundamentals

Metrik yang mewakili kerugian model terhadap set pengujian. Saat mem-build model, Anda biasanya mencoba meminimalkan kerugian pengujian. Hal ini terjadi karena kerugian pengujian yang rendah merupakan sinyal kualitas yang lebih kuat dibandingkan kerugian pelatihan yang rendah atau kerugian validasi yang rendah.

Kesenjangan besar antara kehilangan pengujian dan kerugian pelatihan atau kerugian validasi terkadang menunjukkan bahwa Anda perlu meningkatkan tingkat regulerisasi.

training

#fundamentals

Proses penentuan parameter (bobot dan bias) yang ideal, terdiri dari model. Selama pelatihan, sistem akan membaca dalam contoh dan menyesuaikan parameter secara bertahap. Pelatihan menggunakan setiap contoh di mana saja dari beberapa kali hingga miliaran kali.

kehilangan pelatihan

#fundamentals

Metrik yang mewakili kehilangan model selama iterasi pelatihan tertentu. Misalnya, fungsi kerugian adalah Mean Squared Error. Mungkin kerugian pelatihan (Rata-rata Error Kuadrat) untuk iterasi ke-10 adalah 2.2, dan kerugian pelatihan untuk iterasi ke-100 adalah 1.9.

Kurva kerugian memetakan kerugian pelatihan vs. jumlah iterasi. Kurva kerugian memberikan petunjuk berikut tentang pelatihan:

  • Kemiringan menurun menunjukkan bahwa model mengalami peningkatan.
  • Kemiringan ke atas menunjukkan bahwa model semakin memburuk.
  • Kemiringan datar menandakan bahwa model telah mencapai konvergensi.

Misalnya, kurva kerugian yang agak ideal berikut menunjukkan:

  • Kemiringan menurun yang curam selama iterasi awal, yang menyiratkan peningkatan model yang cepat.
  • Data yang diratakan secara bertahap (tetapi tetap ke bawah) hingga mendekati akhir pelatihan, yang menyiratkan peningkatan model berkelanjutan pada kecepatan yang agak lebih lambat kemudian selama iterasi awal.
  • Kemiringan datar menuju akhir pelatihan, yang menunjukkan konvergensi.

Plot kerugian pelatihan vs. iterasi. Kurva kerugian ini dimulai dengan kemiringan menurun yang curam. Kemiringan secara bertahap diratakan hingga lereng menjadi nol.

Meskipun kerugian pelatihan ini penting, lihat juga generalisasi.

diferensiasi performa pelatihan dan penayangan

#fundamentals

Perbedaan antara performa model selama pelatihan dan performa model yang sama selama penayangan.

set pelatihan

#fundamentals

Subset set data yang digunakan untuk melatih model.

Biasanya, contoh dalam set data dibagi menjadi tiga subset yang berbeda:

Idealnya, setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset yang telah ditetapkan. Misalnya, satu contoh tidak boleh disertakan dalam kumpulan pelatihan dan validasi.

negatif benar (TN)

#fundamentals

Contoh yang mana model dengan benar memprediksi class negatif. Misalnya, model menyimpulkan bahwa pesan email tertentu bukan spam, dan pesan email tersebut benar-benar bukan spam.

positif benar (TP)

#fundamentals

Contoh yang mana model dengan benar memprediksi class positif. Misalnya, model menyimpulkan bahwa pesan email tertentu adalah spam, dan pesan email tersebut benar-benar spam.

rasio positif benar (TPR)

#fundamentals

Sinonim dari perolehan. Definisinya yaitu:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Rasio positif benar adalah sumbu y dalam kurva ROC.

U

underfit

#fundamentals

Produksi model dengan kemampuan prediktif yang buruk karena model belum sepenuhnya menangkap kompleksitas data pelatihan. Ada banyak masalah yang dapat menyebabkan gangguan pada setelan, termasuk:

contoh tak berlabel

#fundamentals

Contoh yang berisi fitur tetapi tidak ada label. Misalnya, tabel berikut menunjukkan tiga contoh tak berlabel dari model penilaian rumah, masing-masing dengan tiga fitur namun tanpa nilai rumah:

Jumlah kamar Jumlah kamar mandi Usia rumah
3 2 15
2 1 72
4 2 34

Dalam Supervised machine learning, model melatih pada contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Dalam pembelajaran semi-Supervised dan tidak diawasi, contoh tak berlabel digunakan selama pelatihan.

Membandingkan contoh yang tidak berlabel dengan contoh berlabel.

machine learning tanpa pengawasan

#clustering
#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.

Penggunaan machine learning yang tidak diawasi yang paling umum adalah dengan mengelompokkan data ke dalam grup contoh serupa. Misalnya, algoritme machine learning yang tidak diawasi dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input untuk algoritme machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Pengelompokan dapat membantu saat label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia untuk lebih memahami data.

Berbeda dengan machine learning yang diawasi.

V

validasi

#fundamentals

Evaluasi awal atas kualitas model. Validasi memeriksa kualitas prediksi model terhadap set validasi.

Karena set validasi berbeda dengan set pelatihan, validasi membantu mencegah overfit.

Anda mungkin berpikir untuk mengevaluasi model terhadap set validasi sebagai putaran pertama pengujian dan mengevaluasi model terhadap set pengujian sebagai putaran kedua pengujian.

kehilangan validasi

#fundamentals

Metrik yang mewakili kehilangan model pada set validasi selama iterasi tertentu.

Lihat juga kurva umum.

validasi divalidasi

#fundamentals

Subset dari set data yang melakukan evaluasi awal terhadap model terlatih. Biasanya, Anda mengevaluasi model yang dilatih berdasarkan set validasi beberapa kali sebelum mengevaluasi model terhadap set pengujian.

Secara tradisional, Anda membagi contoh dalam set data menjadi tiga subset berbeda berikut:

Idealnya, setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset yang telah ditetapkan. Misalnya, satu contoh tidak boleh disertakan dalam kumpulan pelatihan dan validasi.

W

weight

#fundamentals

Nilai yang dikalikan oleh model dengan nilai lain. Pelatihan adalah proses penentuan bobot ideal model; inferensi adalah proses penggunaan bobot yang dipelajari tersebut untuk membuat prediksi.

jumlah berbobot

#fundamentals

Jumlah semua nilai input yang relevan dikalikan dengan bobotnya. Misalnya, input yang relevan terdiri dari hal berikut:

nilai input berat masukan
2 -1,3
-1 0,6
3 0,4

Oleh karena itu, jumlah bobotnya adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Jumlah berbobot adalah argumen input untuk fungsi aktivasi.

Z

Normalisasi skor Z

#fundamentals

Teknik penskalaan yang menggantikan nilai fitur mentah dengan nilai floating-point yang mewakili jumlah standar deviasi dari rata-rata fitur tersebut. Misalnya, pertimbangkan fitur yang rata-ratanya adalah 800 dan yang standarnya 100. Tabel berikut menunjukkan bagaimana normalisasi skor Z akan memetakan nilai mentah ke skor Z:

Nilai mentah Skor Z
800 0
950 +1,5
575 -2,25

Model machine learning kemudian melatih skor Z untuk fitur tersebut, bukan pada nilai mentah.