Halaman ini diterjemahkan oleh Cloud Translation API.

Glosarium Machine Learning: Dasar-Dasar ML

Halaman ini berisi istilah glosarium Dasar-Dasar ML. Untuk semua istilah glosarium, klik di sini.

A

akurasi

#fundamentals

#Metric

Jumlah prediksi klasifikasi yang benar dibagi dengan jumlah total prediksi. Definisinya yaitu:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Misalnya, model yang membuat 40 prediksi yang benar dan 10 prediksi yang salah akan memiliki akurasi:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasifikasi biner memberikan nama spesifik untuk berbagai kategori prediksi yang benar dan prediksi yang salah. Jadi, formula akurasi untuk klasifikasi biner adalah sebagai berikut:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dalam hal ini:

TP adalah jumlah positif benar (prediksi yang benar).
TN adalah jumlah negatif benar (prediksi yang benar).
FP adalah jumlah positif palsu (prediksi yang salah).
FN adalah jumlah negatif palsu (prediksi yang salah).

Bandingkan dan bedakan akurasi dengan presisi dan recall.

Klik ikon untuk mengetahui detail tentang akurasi dan set data kelas tidak seimbang.

Meskipun merupakan metrik yang berharga untuk beberapa situasi, akurasi sangat menyesatkan untuk situasi lainnya. Secara khusus, akurasi biasanya merupakan metrik yang buruk untuk mengevaluasi model klasifikasi yang memproses set data kelas tidak seimbang.

Misalnya, salju hanya turun 25 hari per abad di kota subtropis tertentu. Karena hari tanpa salju (kelas negatif) jauh lebih banyak daripada hari dengan salju (kelas positif), set data salju untuk kota ini tidak seimbang. Bayangkan model klasifikasi biner yang seharusnya memprediksi salju atau tidak ada salju setiap hari, tetapi hanya memprediksi "tidak ada salju" setiap hari. Model ini sangat akurat, tetapi tidak memiliki kemampuan prediktif. Tabel berikut merangkum hasil prediksi selama satu abad:

Kategori	Angka
TP	0
TN	36499
FP	0
FN	25

Oleh karena itu, akurasi model ini adalah:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Meskipun akurasi 99,93% tampak seperti persentase yang sangat mengesankan, model ini sebenarnya tidak memiliki kemampuan prediktif.

Presisi dan recall biasanya merupakan metrik yang lebih berguna daripada akurasi untuk mengevaluasi model yang dilatih pada set data yang tidak seimbang.

Lihat Klasifikasi: Akurasi, recall, presisi, dan metrik terkait di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fungsi aktivasi

#fundamentals

Fungsi yang memungkinkan jaringan saraf mempelajari hubungan nonlinear (kompleks) antara fitur dan label.

Fungsi aktivasi yang populer meliputi:

ReLU
Sigmoid

Plot fungsi aktivasi tidak pernah berupa garis lurus tunggal. Misalnya, plot fungsi aktivasi ReLU terdiri dari dua garis lurus:

Plot Kartesius dari dua garis. Baris pertama memiliki nilai y konstan
sebesar 0, yang berjalan di sepanjang sumbu x dari -infinity,0 hingga 0,-0.
Baris kedua dimulai pada 0,0. Garis ini memiliki kemiringan +1, sehingga
berjalan dari 0,0 hingga +infinity,+infinity.

Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain
-infinity hingga +positive, sedangkan nilai y mencakup rentang hampir 0 hingga
hampir 1. Jika x adalah 0, y adalah 0,5. Kemiringan kurva selalu positif, dengan kemiringan tertinggi di 0,0,5 dan kemiringan yang menurun secara bertahap seiring dengan meningkatnya nilai absolut x.

Klik ikon untuk melihat contoh.

Dalam jaringan saraf, fungsi aktivasi memanipulasi jumlah berbobot dari semua input ke neuron. Untuk menghitung jumlah berbobot, neuron menambahkan produk dari nilai dan bobot yang relevan. Misalnya, anggap saja input yang relevan ke neuron terdiri dari hal berikut:

nilai input	bobot input
2	-1,3
-1	0,6
3	0,4

Oleh karena itu, jumlah tertimbang adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Misalkan desainer jaringan saraf ini memilih fungsi sigmoid sebagai fungsi aktivasi. Dalam hal ini, neuron menghitung sigmoid -2,0, yang kira-kira 0,12. Oleh karena itu, neuron meneruskan 0,12 (bukan -2,0) ke lapisan berikutnya dalam jaringan saraf. Gambar berikut mengilustrasikan bagian proses yang relevan:

Lihat Jaringan neural: Fungsi aktivasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

kecerdasan buatan

#fundamentals

Program atau model non-manusia yang dapat menyelesaikan tugas-tugas rumit. Misalnya, program atau model yang menerjemahkan teks atau program atau model yang mengidentifikasi penyakit dari gambar radiologi menunjukkan kecerdasan buatan.

Secara formal, machine learning adalah sub-bidang kecerdasan buatan. Namun, dalam beberapa tahun terakhir, beberapa organisasi mulai menggunakan istilah kecerdasan buatan dan machine learning secara bergantian.

AUC (Area di bawah kurva ROC)

#fundamentals

#Metric

Angka antara 0,0 dan 1,0 yang mewakili kemampuan model klasifikasi biner untuk memisahkan class positif dari class negatif. Makin dekat AUC ke 1,0, makin baik kemampuan model untuk memisahkan class satu sama lain.

Misalnya, ilustrasi berikut menunjukkan model klasifikasi yang memisahkan class positif (oval hijau) dari class negatif (persegi panjang ungu) dengan sempurna. Model yang sempurna dan tidak realistis ini memiliki AUC 1,0:

Garis bilangan dengan 8 contoh positif di satu sisi dan
9 contoh negatif di sisi lain.

Sebaliknya, ilustrasi berikut menunjukkan hasil untuk model klasifikasi yang menghasilkan hasil acak. Model ini memiliki AUC 0,5:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
Urutan contohnya adalah positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif, negatif.

Ya, model sebelumnya memiliki AUC 0,5, bukan 0,0.

Sebagian besar model berada di antara dua titik ekstrem. Misalnya, model berikut memisahkan positif dari negatif, sehingga memiliki AUC antara 0,5 dan 1,0:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
Urutan contohnya adalah negatif, negatif, negatif, negatif, positif, negatif, positif, positif, negatif, positif, positif, positif.

AUC mengabaikan nilai apa pun yang Anda tetapkan untuk nilai minimum klasifikasi. Sebagai gantinya, AUC mempertimbangkan semua kemungkinan batas klasifikasi.

Klik ikon untuk mempelajari hubungan antara AUC dan kurva ROC.

AUC mewakili area di bawah kurva ROC. Misalnya, kurva ROC untuk model yang memisahkan positif dari negatif dengan sempurna terlihat seperti berikut:

AUC adalah area wilayah abu-abu dalam ilustrasi sebelumnya. Dalam kasus yang tidak biasa ini, areanya hanyalah panjang area abu-abu (1,0) yang dikalikan dengan lebar area abu-abu (1,0). Jadi, produk 1,0 dan 1,0 menghasilkan AUC persis 1,0, yang merupakan skor AUC tertinggi.

Sebaliknya, kurva ROC untuk model klasifikasi yang tidak dapat memisahkan class sama sekali adalah sebagai berikut. Area wilayah abu-abu ini adalah 0,5.

Kurva ROC yang lebih umum terlihat kira-kira seperti berikut:

Menghitung area di bawah kurva ini secara manual akan sangat merepotkan, sehingga program biasanya menghitung sebagian besar nilai AUC.

Klik ikon untuk mengetahui definisi AUC yang lebih formal.

AUC adalah probabilitas bahwa model klasifikasi akan lebih yakin bahwa contoh positif yang dipilih secara acak sebenarnya positif daripada contoh negatif yang dipilih secara acak adalah positif.

Lihat Klasifikasi: ROC dan AUC di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

B

propagasi mundur

#fundamentals

Algoritma yang menerapkan penurunan gradien dalam jaringan saraf.

Melatih jaringan neural melibatkan banyak iterasi siklus dua langkah berikut:

Selama forward pass, sistem memproses batch contoh untuk menghasilkan prediksi. Sistem membandingkan setiap prediksi dengan setiap nilai label. Perbedaan antara prediksi dan nilai label adalah kerugian untuk contoh tersebut. Sistem menggabungkan kerugian untuk semua contoh guna menghitung total kerugian untuk batch saat ini.
Selama backward pass (backpropagation), sistem mengurangi kerugian dengan menyesuaikan bobot semua neuron di semua lapisan tersembunyi.

Jaringan saraf sering kali berisi banyak neuron di banyak lapisan tersembunyi. Setiap neuron tersebut berkontribusi pada keseluruhan kerugian dengan cara yang berbeda. Backpropagation menentukan apakah akan meningkatkan atau menurunkan bobot yang diterapkan ke neuron tertentu.

Kecepatan pembelajaran adalah pengganda yang mengontrol tingkat peningkatan atau penurunan setiap bobot oleh setiap iterasi mundur. Kecepatan pembelajaran yang besar akan meningkatkan atau menurunkan setiap bobot lebih banyak daripada kecepatan pembelajaran yang kecil.

Dalam istilah kalkulus, backpropagation menerapkan aturan rantai. dari kalkulus. Artinya, backpropagation menghitung turunan parsial error sehubungan dengan setiap parameter.

Beberapa tahun yang lalu, praktisi ML harus menulis kode untuk menerapkan backpropagation. API ML modern seperti Keras kini menerapkan backpropagation untuk Anda. Fiuh!

Lihat Jaringan neural di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

batch

#fundamentals

Kumpulan contoh yang digunakan dalam satu iterasi pelatihan. Ukuran batch menentukan jumlah contoh dalam batch.

Lihat epoch untuk mendapatkan penjelasan tentang hubungan batch dengan epoch.

Lihat Regresi linear: Hyperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

ukuran batch

#fundamentals

Jumlah contoh dalam batch. Misalnya, jika ukuran batch adalah 100, model akan memproses 100 contoh per iterasi.

Berikut adalah strategi ukuran batch yang populer:

Penurunan Gradien Stokastik (SGD), dengan ukuran batch 1.
Batch penuh, dengan ukuran batch adalah jumlah contoh di seluruh set pelatihan. Misalnya, jika set pelatihan berisi satu juta contoh, ukuran batch-nya adalah satu juta contoh. Batch penuh biasanya merupakan strategi yang tidak efisien.
mini-batch dengan ukuran batch biasanya antara 10 dan 1.000. Mini-batch biasanya merupakan strategi yang paling efisien.

Lihat informasi selengkapnya di sini:

Sistem ML produksi: Inferensi statis versus dinamis di Kursus Singkat Machine Learning.
Playbook Penyesuaian Deep Learning.

bias (etika/keadilan)

#responsible

#fundamentals

1. Stereotip, prasangka, atau preferensi terhadap beberapa hal, orang, atau kelompok dibandingkan yang lain. Bias ini dapat memengaruhi pengumpulan dan interpretasi data, desain sistem, dan cara pengguna berinteraksi dengan sistem. Bentuk jenis bias ini meliputi:

2. Error sistematis yang disebabkan oleh prosedur sampling atau pelaporan. Bentuk jenis bias ini meliputi:

Jangan sampai tertukar dengan istilah bias dalam model machine learning atau bias prediksi.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

bias (matematika) atau istilah bias

#fundamentals

Intersep atau offset dari asal. Bias adalah parameter dalam model machine learning, yang dilambangkan dengan salah satu hal berikut:

b
w₀

Misalnya, bias bernilai b dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dalam garis dua dimensi sederhana, bias hanya berarti "titik potong y". Misalnya, bias garis dalam ilustrasi berikut adalah 2.

Plot garis dengan kemiringan 0,5 dan bias (titik potong y) 2.

Bias ada karena tidak semua model dimulai dari asal (0,0). Misalnya, sebuah taman hiburan mengenakan biaya masuk sebesar 2 Euro dan biaya tambahan 0,5 Euro untuk setiap jam pelanggan berada di sana. Oleh karena itu, model yang memetakan biaya total memiliki bias 2 karena biaya terendah adalah 2 Euro.

Bias tidak boleh disamakan dengan bias dalam etika dan keadilan atau bias prediksi.

Lihat Regresi Linear di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

klasifikasi biner

#fundamentals

Jenis tugas klasifikasi yang memprediksi salah satu dari dua class yang saling eksklusif:

kelas positif
kelas negatif

Misalnya, dua model machine learning berikut masing-masing melakukan klasifikasi biner:

Model yang menentukan apakah pesan email spam (kelas positif) atau bukan spam (kelas negatif).
Model yang mengevaluasi gejala medis untuk menentukan apakah seseorang memiliki penyakit tertentu (kelas positif) atau tidak memiliki penyakit tersebut (kelas negatif).

Berbeda dengan klasifikasi multi-kelas.

Lihat juga regresi logistik dan nilai minimum klasifikasi.

Lihat Klasifikasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

pengelompokan

#fundamentals

Mengonversi satu fitur menjadi beberapa fitur biner yang disebut bucket atau bin, biasanya berdasarkan rentang nilai. Fitur yang dicincang biasanya merupakan fitur berkelanjutan.

Misalnya, alih-alih merepresentasikan suhu sebagai satu fitur floating point berkelanjutan, Anda dapat memotong rentang suhu menjadi bucket terpisah, seperti:

<= 10 derajat Celsius akan menjadi bucket "cold".
11 - 24 derajat Celsius akan menjadi bucket "sedang".
>= 25 derajat Celsius akan menjadi bucket "hangat".

Model akan memperlakukan setiap nilai dalam bucket yang sama secara identik. Misalnya, nilai 13 dan 22 berada dalam bucket sedang, sehingga model memperlakukan kedua nilai tersebut secara identik.

Klik ikon untuk melihat catatan tambahan.

Jika Anda merepresentasikan suhu sebagai fitur berkelanjutan, model akan memperlakukan suhu sebagai satu fitur. Jika Anda merepresentasikan suhu sebagai tiga bucket, model akan memperlakukan setiap bucket sebagai fitur terpisah. Artinya, model dapat mempelajari hubungan terpisah dari setiap bucket ke label. Misalnya, model regresi linear dapat mempelajari bobot terpisah untuk setiap bucket.

Meningkatkan jumlah bucket akan membuat model Anda lebih rumit dengan meningkatkan jumlah hubungan yang harus dipelajari model Anda. Misalnya, bucket dingin, sedang, dan hangat pada dasarnya adalah tiga fitur terpisah untuk melatih model Anda. Jika Anda memutuskan untuk menambahkan dua bucket lagi, misalnya, pembekuan dan panas, model Anda kini harus dilatih pada lima fitur terpisah.

Bagaimana cara mengetahui jumlah bucket yang akan dibuat, atau rentang untuk setiap bucket? Jawabannya biasanya memerlukan eksperimen yang cukup.

Lihat Data numerik: Pengelompokan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

C

data kategorik

#fundamentals

Fitur yang memiliki kumpulan kemungkinan nilai tertentu. Misalnya, pertimbangkan fitur kategoris bernama traffic-light-state, yang hanya dapat memiliki salah satu dari tiga kemungkinan nilai berikut:

red
yellow
green

Dengan merepresentasikan traffic-light-state sebagai fitur kategoris, model dapat mempelajari dampak yang berbeda dari red, green, dan yellow terhadap perilaku pengemudi.

Fitur kategorik terkadang disebut fitur diskrit.

Berbeda dengan data numerik.

Lihat Bekerja dengan data kategoris di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

class

#fundamentals

Kategori yang dapat menjadi bagian dari label. Contoh:

Dalam model klasifikasi biner yang mendeteksi spam, kedua class tersebut mungkin adalah spam dan bukan spam.
Dalam model klasifikasi multi-class yang mengidentifikasi ras, class-nya mungkin poodle, beagle, pug, dan sebagainya.

Model klasifikasi memprediksi class. Sebaliknya, model regresi memprediksi angka, bukan class.

Lihat Klasifikasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model klasifikasi

#fundamentals

Model yang prediksinya adalah class. Misalnya, berikut adalah semua model klasifikasi:

Model yang memprediksi bahasa kalimat input (Prancis? Spanyol? Italia?).
Model yang memprediksi spesies pohon (Maple? Oak? Baobab?).
Model yang memprediksi kelas positif atau negatif untuk kondisi medis tertentu.

Sebaliknya, model regresi memprediksi angka, bukan class.

Dua jenis model klasifikasi yang umum adalah:

klasifikasi biner
klasifikasi multi-kelas

nilai minimum klasifikasi

#fundamentals

Dalam klasifikasi biner, angka antara 0 dan 1 yang mengonversi output mentah dari model regresi logistik menjadi prediksi kelas positif atau kelas negatif. Perhatikan bahwa nilai minimum klasifikasi adalah nilai yang dipilih manusia, bukan nilai yang dipilih oleh pelatihan model.

Model regresi logistik menghasilkan nilai mentah antara 0 dan 1. Lalu:

Jika nilai mentah ini lebih besar dari nilai minimum klasifikasi, class positif akan diprediksi.
Jika nilai mentah ini kurang dari nilai minimum klasifikasi, class negatif akan diprediksi.

Misalnya, batas klasifikasi adalah 0,8. Jika nilai mentah adalah 0,9, model akan memprediksi kelas positif. Jika nilai mentah adalah 0,7, model akan memprediksi kelas negatif.

Pilihan nilai minimum klasifikasi sangat memengaruhi jumlah positif palsu dan negatif palsu.

Klik ikon untuk melihat catatan tambahan.

Seiring perkembangan model atau set data, engineer terkadang juga mengubah volume minimum klasifikasi. Saat nilai minimum klasifikasi berubah, prediksi class positif dapat tiba-tiba menjadi class negatif dan sebaliknya.

Misalnya, pertimbangkan model prediksi penyakit klasifikasi biner. Misalkan saat sistem berjalan pada tahun pertama:

Nilai mentah untuk pasien tertentu adalah 0,95.
Batas klasifikasi adalah 0,94.

Oleh karena itu, sistem mendiagnosis class positif. (Pasien tersentak, "Oh tidak! Saya sakit!")

Setahun kemudian, mungkin nilainya sekarang terlihat seperti berikut:

Nilai mentah untuk pasien yang sama tetap 0,95.
Nilai minimum klasifikasi berubah menjadi 0,97.

Oleh karena itu, sistem kini mengklasifikasikan ulang pasien tersebut sebagai class negatif. ("Selamat siang! Saya tidak sakit.") Pasien yang sama. Diagnosis yang berbeda.

Lihat Nilai minimum dan matriks kebingungan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

pengklasifikasi

#fundamentals

Istilah informal untuk model klasifikasi.

set data kelas tidak seimbang

#fundamentals

Set data untuk masalah klasifikasi dengan jumlah total label dari setiap class berbeda secara signifikan. Misalnya, pertimbangkan set data klasifikasi biner yang dua labelnya dibagi sebagai berikut:

1.000.000 label negatif
10 label positif

Rasio label negatif terhadap positif adalah 100.000 banding 1, sehingga ini adalah set data kelas tidak seimbang.

Sebaliknya, set data berikut tidak tidak seimbang karena rasio label negatif terhadap label positif relatif mendekati 1:

517 label negatif
483 label positif

Set data multi-kelas juga dapat memiliki kelas yang tidak seimbang. Misalnya, set data klasifikasi multi-class berikut juga tidak seimbang karena satu label memiliki contoh yang jauh lebih banyak daripada dua label lainnya:

1.000.000 label dengan class "hijau"
200 label dengan class "purple"
350 label dengan class "orange"

Lihat juga entropi, class mayoritas, dan class minoritas.

pemangkasan

#fundamentals

Teknik untuk menangani pencilan dengan melakukan salah satu atau kedua hal berikut:

Mengurangi nilai feature yang lebih besar dari nilai minimum maksimum hingga nilai minimum maksimum tersebut.
Meningkatkan nilai fitur yang kurang dari nilai minimum hingga nilai minimum tersebut.

Misalnya, <0,5% nilai untuk fitur tertentu berada di luar rentang 40–60. Dalam hal ini, Anda dapat melakukan hal berikut:

Pangkas semua nilai di atas 60 (nilai minimum maksimum) menjadi tepat 60.
Pangkas semua nilai di bawah 40 (nilai minimum) menjadi tepat 40.

Pencilan dapat merusak model, terkadang menyebabkan bobot melebihi batas selama pelatihan. Beberapa outlier juga dapat merusak metrik seperti akurasi secara drastis. Pemangkasan adalah teknik umum untuk membatasi kerusakan.

Pemangkasan gradien memaksa nilai gradien dalam rentang yang ditentukan selama pelatihan.

Lihat Data numerik: Normalisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

matriks konfusi

#fundamentals

Tabel NxN yang berisi ringkasan jumlah prediksi yang benar dan salah yang dibuat oleh model klasifikasi. Misalnya, pertimbangkan matriks kebingungan berikut untuk model klasifikasi biner:

	Tumor (prediksi)	Non-Tumor (prediksi)
Tumor (kebenaran nyata)	18 (TP)	1 (FN)
Non-Tumor (kebenaran nyata)	6 (FP)	452 (TN)

Matriks konfusi sebelumnya menunjukkan hal berikut:

Dari 19 prediksi dengan kebenaran dasar adalah Tumor, model mengklasifikasikan 18 dengan benar dan mengklasifikasikan 1 dengan salah.
Dari 458 prediksi dengan ground truth Non-Tumor, model mengklasifikasikan 452 dengan benar dan salah mengklasifikasikan 6.

Matriks kebingungan untuk masalah klasifikasi multi-class dapat membantu Anda mengidentifikasi pola kesalahan. Misalnya, pertimbangkan matriks kebingungan berikut untuk model klasifikasi multi-class 3 kelas yang mengategorikan tiga jenis iris yang berbeda (Virginica, Versicolor, dan Setosa). Jika kebenaran dasar adalah Virginica, matriks kebingungan menunjukkan bahwa model jauh lebih cenderung salah memprediksi Versicolor daripada Setosa:

	Setosa (prediksi)	Versicolor (prediksi)	Virginica (prediksi)
Setosa (kebenaran dasar)	88	12	0
Versicolor (kebenaran nyata)	6	141	7
Virginica (kebenaran nyata)	2	27	109

Sebagai contoh lain, matriks konfusi dapat mengungkapkan bahwa model yang dilatih untuk mengenali digit tulisan tangan cenderung salah memprediksi 9, bukan 4, atau salah memprediksi 1, bukan 7.

Matriks kebingungan berisi informasi yang memadai untuk menghitung berbagai metrik performa, termasuk presisi dan recall.

fitur berkelanjutan

#fundamentals

Fitur floating point dengan rentang kemungkinan nilai yang tak terbatas, seperti suhu atau berat.

Berbeda dengan fitur diskrit.

konvergensi

#fundamentals

Status yang dicapai saat nilai loss berubah sangat sedikit atau tidak sama sekali dengan setiap iteration. Misalnya, kurva kerugian berikut menunjukkan konvergensi pada sekitar 700 iterasi:

Plot Kartesius. Sumbu X adalah kerugian. Sumbu y adalah jumlah iterasi
pelatihan. Kerugian sangat tinggi selama beberapa iterasi pertama, tetapi menurun drastis. Setelah sekitar 100 iterasi, kerugian masih menurun, tetapi jauh lebih bertahap. Setelah sekitar 700 iterasi,
kerugian tetap datar.

Model berkonvergensi jika pelatihan tambahan tidak akan meningkatkan model.

Dalam deep learning, nilai loss terkadang tetap konstan atau hampir konstan untuk banyak iterasi sebelum akhirnya menurun. Selama periode lama nilai kerugian konstan, Anda mungkin mendapatkan kesan konvergensi palsu untuk sementara.

Lihat juga penghentian awal.

Lihat Kurva konvergensi dan loss model di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

D

DataFrame

#fundamentals

Jenis data pandas yang populer untuk merepresentasikan set data dalam memori.

DataFrame dapat dianalogikan dengan tabel atau spreadsheet. Setiap kolom DataFrame memiliki nama (header), dan setiap baris diidentifikasi oleh angka unik.

Setiap kolom dalam DataFrame disusun seperti array 2D, kecuali bahwa setiap kolom dapat diberi jenis datanya sendiri.

Lihat juga halaman referensi pandas.DataFrame resmi.

kumpulan data atau set data (data set atau dataset)

#fundamentals

Kumpulan data mentah, biasanya (tetapi tidak secara eksklusif) diatur dalam salah satu format berikut:

spreadsheet
file dalam format CSV (nilai yang dipisahkan koma)

model dalam

#fundamentals

Jaringan neural yang berisi lebih dari satu lapisan tersembunyi.

Model deep juga disebut deep neural network.

Berbeda dengan model lebar.

fitur padat

#fundamentals

Fitur yang sebagian besar atau semua nilainya bukan nol, biasanya Tensor dari nilai floating point. Misalnya, Matriks 10 elemen berikut rapat karena 9 nilainya bukan nol:

Berbeda dengan fitur renggang.

kedalaman

#fundamentals

Jumlah hal berikut dalam jaringan neural:

jumlah lapisan tersembunyi
jumlah lapisan output, yang biasanya 1
jumlah lapisan penyematan

Misalnya, jaringan neural dengan lima lapisan tersembunyi dan satu lapisan keluaran memiliki kedalaman 6.

Perhatikan bahwa lapisan input tidak memengaruhi kedalaman.

fitur diskret

#fundamentals

Fitur dengan set kemungkinan nilai yang terbatas. Misalnya, fitur yang nilainya hanya boleh hewan, sayuran, atau mineral adalah fitur diskret (atau kategoris).

Berbeda dengan fitur berkelanjutan.

dinamis

#fundamentals

Sesuatu yang dilakukan secara rutin atau terus-menerus. Istilah dinamis dan online adalah sinonim dalam machine learning. Berikut adalah penggunaan umum dinamis dan online dalam pemelajaran mesin:

Model dinamis (atau model online) adalah model yang dilatih ulang secara rutin atau terus-menerus.
Pelatihan dinamis (atau pelatihan online) adalah proses pelatihan yang sering atau terus-menerus.
Inferensi dinamis (atau inferensi online) adalah proses pembuatan prediksi sesuai permintaan.

model dinamis

#fundamentals

Model yang sering (mungkin bahkan terus-menerus) dilatih ulang. Model dinamis adalah "pelajar seumur hidup" yang terus beradaptasi dengan data yang terus berkembang. Model dinamis juga dikenal sebagai model online.

Berbeda dengan model statis.

E

penghentian awal

#fundamentals

Metode untuk regularisasi yang melibatkan penghentian pelatihan sebelum kerugian pelatihan selesai menurun. Dalam penghentian awal, Anda sengaja menghentikan pelatihan model saat kerugian pada set data validasi mulai meningkat; yaitu, saat performa generalisasi memburuk.

Klik ikon untuk melihat catatan tambahan.

Penghentian awal mungkin tampak berlawanan dengan intuisi. Lagi pula, meminta model untuk menghentikan pelatihan saat kerugian masih menurun mungkin tampak seperti meminta koki untuk berhenti memasak sebelum hidangan penutup matang sepenuhnya. Namun, melatih model terlalu lama dapat menyebabkan overfitting. Artinya, jika Anda melatih model terlalu lama, model mungkin sangat cocok dengan data pelatihan sehingga model tidak membuat prediksi yang baik pada contoh baru.

lapisan penyematan

#language

#fundamentals

Lapisan tersembunyi khusus yang dilatih pada fitur kategoris berdimensi tinggi untuk mempelajari vektor penyematan dimensi yang lebih rendah secara bertahap. Lapisan penyematan memungkinkan jaringan neural dilatih jauh lebih efisien daripada hanya dilatih pada fitur kategoris berdimensi tinggi.

Misalnya, Bumi saat ini mendukung sekitar 73.000 spesies pohon. Misalkan spesies pohon adalah fitur dalam model Anda, sehingga lapisan input model Anda menyertakan vektor one-hot dengan panjang elemen 73.000. Misalnya, mungkin baobab akan direpresentasikan seperti ini:

Array yang berisi 73.000 elemen. 6.232 elemen pertama menyimpan nilai
0. Elemen berikutnya menyimpan nilai 1. Elemen terakhir sebanyak 66.767 memiliki nilai nol.

Array 73.000 elemen sangat panjang. Jika Anda tidak menambahkan lapisan penyematan ke model, pelatihan akan sangat memakan waktu karena menggandakan 72.999 nol. Mungkin Anda memilih lapisan penyematan yang terdiri dari 12 dimensi. Akibatnya, lapisan penyematan akan secara bertahap mempelajari vektor penyematan baru untuk setiap spesies pohon.

Dalam situasi tertentu, hashing adalah alternatif yang wajar untuk lapisan penyematan.

Lihat Penyematan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

epoch

#fundamentals

Pass pelatihan penuh pada seluruh set pelatihan sehingga setiap contoh telah diproses satu kali.

Epoch mewakili iterasi pelatihan N/ukuran batch, dengan N adalah jumlah total contoh.

Misalnya, anggap saja hal berikut:

Set data terdiri dari 1.000 contoh.
Ukuran batch adalah 50 contoh.

Oleh karena itu, satu epoch memerlukan 20 iterasi:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Lihat Regresi linear: Hyperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

contoh

#fundamentals

Nilai satu baris fitur dan mungkin label. Contoh dalam pembelajaran dengan pengawasan terbagi dalam dua kategori umum:

Contoh berlabel terdiri dari satu atau beberapa fitur dan label. Contoh berlabel digunakan selama pelatihan.
Contoh tanpa label terdiri dari satu atau beberapa fitur, tetapi tidak memiliki label. Contoh tanpa label digunakan selama inferensi.

Misalnya, Anda melatih model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Berikut adalah tiga contoh berlabel:

Fitur			Label
Suhu	Kelembapan	Tekanan	Skor pengujian
15	47	998	Baik
19	34	1020	Luar biasa
18	92	1012	Buruk

Berikut adalah tiga contoh tanpa label:

Suhu	Kelembapan	Tekanan
12	62	1014
21	47	1017
19	41	1021

Baris set data biasanya merupakan sumber mentah untuk contoh. Artinya, contoh biasanya terdiri dari subset kolom dalam set data. Selain itu, fitur dalam contoh juga dapat mencakup fitur sintetis, seperti silang fitur.

Lihat Pembelajaran dengan Pengawasan di kursus Pengantar Machine Learning untuk mengetahui informasi selengkapnya.

F

negatif palsu (NP)

#fundamentals

#Metric

Contoh yang mana model salah memprediksi kelas negatif. Misalnya, model memprediksi bahwa pesan email tertentu bukan spam (kelas negatif), tetapi pesan email tersebut sebenarnya adalah spam.

positif palsu (PP)

#fundamentals

#Metric

Contoh yang mana model salah memprediksi kelas positif. Misalnya, model memprediksi bahwa pesan email tertentu adalah spam (kelas positif), tetapi pesan email tersebut sebenarnya bukan spam.

Lihat Nilai minimum dan matriks kebingungan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

rasio positif palsu (FPR)

#fundamentals

#Metric

Proporsi contoh negatif sebenarnya yang salah diprediksi oleh model sebagai kelas positif. Rumus berikut menghitung rasio positif palsu:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Rasio positif palsu adalah sumbu x dalam kurva ROC.

Lihat Klasifikasi: ROC dan AUC di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fitur

#fundamentals

Variabel input ke model machine learning. Contoh terdiri dari satu atau beberapa fitur. Misalnya, Anda melatih model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Tabel berikut menunjukkan tiga contoh, yang masing-masing berisi tiga fitur dan satu label:

Fitur			Label
Suhu	Kelembapan	Tekanan	Skor pengujian
15	47	998	92
19	34	1020	84
18	92	1012	87

Berbeda dengan label.

Lihat Pembelajaran dengan Pengawasan di kursus Pengantar Machine Learning untuk mengetahui informasi selengkapnya.

persilangan fitur

#fundamentals

Fitur sintetis yang dibentuk dengan "menyilang" kategoris atau bucket.

Misalnya, pertimbangkan model "perkiraan suasana hati" yang mewakili suhu di salah satu dari empat bucket berikut:

freezing
chilly
temperate
warm

Dan mewakili kecepatan angin di salah satu dari tiga bucket berikut:

still
light
windy

Tanpa persilangan fitur, model linear dilatih secara terpisah pada setiap tujuh bucket sebelumnya. Jadi, model dilatih, misalnya, freezing secara independen dari pelatihan pada, misalnya, windy.

Atau, Anda dapat membuat persilangan fitur suhu dan kecepatan angin. Fitur sintetis ini akan memiliki 12 kemungkinan nilai berikut:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Berkat persilangan fitur, model dapat mempelajari perbedaan suasana hati antara hari freezing-windy dan hari freezing-still.

Jika Anda membuat fitur sintetis dari dua fitur yang masing-masing memiliki banyak bucket yang berbeda, persilangan fitur yang dihasilkan akan memiliki banyak kemungkinan kombinasi. Misalnya, jika satu fitur memiliki 1.000 bucket dan fitur lainnya memiliki 2.000 bucket, persilangan fitur yang dihasilkan memiliki 2.000.000 bucket.

Secara formal, persilangan adalah produk Kartesius.

Persilangan fitur sebagian besar digunakan dengan model linear dan jarang digunakan dengan jaringan saraf.

Lihat Data kategoris: Persilangan fitur di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

rekayasa fitur

#fundamentals

#TensorFlow

Proses yang melibatkan langkah-langkah berikut:

Menentukan fitur mana yang mungkin berguna dalam melatih model.
Mengonversi data mentah dari set data menjadi versi yang efisien dari fitur tersebut.

Misalnya, Anda mungkin menentukan bahwa temperature mungkin merupakan fitur yang berguna. Kemudian, Anda dapat bereksperimen dengan bucketing untuk mengoptimalkan hal yang dapat dipelajari model dari berbagai rentang temperature.

Rekayasa fitur terkadang disebut ekstraksi fitur atau featurisasi.

Klik ikon untuk melihat catatan tambahan tentang TensorFlow.

Di TensorFlow, rekayasa fitur sering kali berarti mengonversi entri file log mentah menjadi buffering protokol tf.Example. Lihat juga tf.Transform.

Lihat Data numerik: Cara model menyerap data menggunakan vektor fitur di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

set fitur

#fundamentals

Kelompok fitur tempat model machine learning Anda dilatih. Misalnya, kumpulan fitur sederhana untuk model yang memprediksi harga perumahan mungkin terdiri dari kode pos, ukuran properti, dan kondisi properti.

vektor fitur

#fundamentals

Array nilai feature yang terdiri dari example. Vektor fitur adalah input selama pelatihan dan selama inferensi. Misalnya, vektor fitur untuk model dengan dua fitur terpisah mungkin:

[0.92, 0.56]

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan satu lapisan output.
Lapisan input berisi dua node, satu node berisi nilai
0,92 dan node lainnya berisi nilai 0,56.

Setiap contoh memberikan nilai yang berbeda untuk vektor fitur, sehingga vektor fitur untuk contoh berikutnya bisa berupa:

[0.73, 0.49]

Feature engineering menentukan cara merepresentasikan fitur dalam vektor fitur. Misalnya, fitur kategoris biner dengan lima kemungkinan nilai dapat direpresentasikan dengan enkode one-hot. Dalam hal ini, bagian vektor fitur untuk contoh tertentu akan terdiri dari empat nol dan satu 1,0 di posisi ketiga, sebagai berikut:

[0.0, 0.0, 1.0, 0.0, 0.0]

Sebagai contoh lain, misalkan model Anda terdiri dari tiga fitur:

fitur kategorikal biner dengan lima kemungkinan nilai yang direpresentasikan dengan encoding one-hot; misalnya: [0.0, 1.0, 0.0, 0.0, 0.0]
fitur kategorikal biner lainnya dengan tiga kemungkinan nilai yang direpresentasikan dengan encoding one-hot; misalnya: [0.0, 0.0, 1.0]
fitur floating point; misalnya: 8.3.

Dalam hal ini, vektor fitur untuk setiap contoh akan direpresentasikan oleh sembilan nilai. Dengan contoh nilai dalam daftar sebelumnya, vektor fitur akan menjadi:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Lihat Data numerik: Cara model menyerap data menggunakan vektor fitur di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

feedback loop

#fundamentals

Dalam machine learning, situasi saat prediksi model memengaruhi data pelatihan untuk model yang sama atau model lain. Misalnya, model yang merekomendasikan film akan memengaruhi film yang dilihat orang, yang kemudian akan memengaruhi model rekomendasi film berikutnya.

Lihat Sistem ML produksi: Pertanyaan yang harus diajukan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

G

generalisasi

#fundamentals

Kemampuan model untuk membuat prediksi yang benar terkait data baru yang sebelumnya tidak terlihat. Model yang dapat digeneralisasi adalah kebalikan dari model yang overfitting.

Klik ikon untuk melihat catatan tambahan.

Anda melatih model pada contoh dalam set pelatihan. Akibatnya, model mempelajari keunikan data dalam set pelatihan. Generalisasi pada dasarnya menanyakan apakah model Anda dapat membuat prediksi yang baik pada contoh yang tidak ada dalam set pelatihan.

Untuk mendorong generalisasi, regularisasi membantu model melatih dengan lebih tidak tepat pada keunikan data dalam set pelatihan.

Lihat Generalisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

kurva generalisasi

#fundamentals

Plot loss pelatihan dan loss validasi sebagai fungsi dari jumlah iterasi.

Kurva generalisasi dapat membantu Anda mendeteksi kemungkinan overfitting. Misalnya, kurva generalisasi berikut menunjukkan overfitting karena kerugian validasi pada akhirnya menjadi jauh lebih tinggi daripada kerugian pelatihan.

Grafik Kartesius dengan sumbu y berlabel loss dan sumbu x berlabel iterasi. Dua plot akan muncul. Satu plot menunjukkan
kerugian pelatihan dan plot lainnya menunjukkan kerugian validasi.
Kedua plot dimulai dengan cara yang sama, tetapi kerugian pelatihan pada akhirnya menurun jauh lebih rendah daripada kerugian validasi.

Lihat Generalisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

penurunan gradien

#fundamentals

Teknik matematika untuk meminimalkan kerugian. Penurunan gradien secara berulang menyesuaikan bobot dan bias, secara bertahap menemukan kombinasi terbaik untuk meminimalkan kerugian.

Gradient descent lebih lama—jauh lebih lama—daripada machine learning.

Lihat Regresi linear: Penurunan gradien di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

kebenaran dasar

#fundamentals

Realitas.

Hal yang sebenarnya terjadi.

Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah siswa di tahun pertama universitasnya akan lulus dalam waktu enam tahun. Ground truth untuk model ini adalah apakah siswa tersebut benar-benar lulus dalam waktu enam tahun atau tidak.

Klik ikon untuk melihat catatan tambahan.

Kami menilai kualitas model berdasarkan kebenaran nyata. Namun, kebenaran tidak selalu sepenuhnya benar. Misalnya, pertimbangkan contoh berikut tentang potensi ketidaksempurnaan dalam ground truth:

Dalam contoh kelulusan, apakah kita yakin bahwa catatan kelulusan untuk setiap siswa selalu benar? Apakah pencatatan universitas sudah sempurna?
Misalkan label adalah nilai floating point yang diukur oleh instrumen (misalnya, barometer). Bagaimana kita bisa memastikan bahwa setiap instrumen dikalibrasi secara identik atau bahwa setiap pembacaan diambil dalam keadaan yang sama?
Jika label adalah masalah pendapat manusia, bagaimana kita bisa memastikan bahwa setiap penilai manusia mengevaluasi peristiwa dengan cara yang sama? Untuk meningkatkan konsistensi, penilai manual ahli terkadang melakukan intervensi.

H

lapisan tersembunyi

#fundamentals

Lapisan dalam jaringan neural antara lapisan input (fitur) dan lapisan output (prediksi). Setiap lapisan tersembunyi terdiri dari satu atau beberapa neuron. Misalnya, jaringan neural berikut berisi dua lapisan tersembunyi, yang pertama dengan tiga neuron dan yang kedua dengan dua neuron:

Jaringan neural dalam berisi lebih dari satu lapisan tersembunyi. Misalnya, ilustrasi sebelumnya adalah jaringan neural dalam karena model berisi dua lapisan tersembunyi.

Lihat Jaringan neural: Node dan lapisan tersembunyi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

hyperparameter

#fundamentals

Variabel yang Anda atau layanan penyesuaian hyperparameter sesuaikan selama menjalankan pelatihan model berturut-turut. Misalnya, kecepatan pembelajaran adalah hyperparameter. Anda dapat menetapkan tingkat pembelajaran ke 0,01 sebelum satu sesi pelatihan. Jika menentukan bahwa 0,01 terlalu tinggi, Anda mungkin dapat menetapkan kecepatan pembelajaran ke 0,003 untuk sesi pelatihan berikutnya.

Sebaliknya, parameter adalah berbagai bobot dan bias yang dipelajari model selama pelatihan.

Lihat Regresi linear: Hyperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

I

terdistribusi secara independen dan identik (i.i.d)

#fundamentals

Data yang diambil dari distribusi yang tidak berubah, dan setiap nilai yang diambil tidak bergantung pada nilai yang telah diambil sebelumnya. I.i.d. adalah gas ideal machine learning—konstruksi matematis yang berguna, tetapi hampir tidak pernah benar-benar ditemukan di dunia nyata. Misalnya, distribusi pengunjung halaman dapat terdistribusi secara independen dan identik selama jendela waktu yang singkat; artinya, distribusi tidak berubah selama jendela waktu tersebut dan kunjungan satu orang umumnya tidak bergantung pada kunjungan orang lain. Namun, jika Anda memperluas jangka waktu tersebut, perbedaan musiman pada pengunjung halaman web mungkin muncul.

Lihat juga nonstabilitas.

inferensi

#fundamentals

Dalam machine learning, proses pembuatan prediksi dengan menerapkan model yang terlatih ke contoh tak berlabel.

Inferensi memiliki arti yang agak berbeda dalam statistik. Lihat artikel Wikipedia tentang inferensi statistik untuk mengetahui detailnya.

Lihat Pembelajaran Berbantuan dalam kursus Pengantar ML untuk melihat peran inferensi dalam sistem pembelajaran berbantuan.

lapisan input

#fundamentals

Lapisan jaringan neural yang menyimpan vektor fitur. Artinya, lapisan input menyediakan contoh untuk pelatihan atau inferensi. Misalnya, lapisan input dalam jaringan saraf berikut terdiri dari dua fitur:

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan lapisan output.

interpretabilitas

#fundamentals

Kemampuan untuk menjelaskan atau menyajikan penalaran model ML dalam istilah yang dapat dipahami oleh manusia.

Misalnya, sebagian besar model regresi linear sangat interpretabel. (Anda hanya perlu melihat bobot terlatih untuk setiap fitur.) Hutan keputusan juga sangat mudah ditafsirkan. Namun, beberapa model memerlukan visualisasi yang rumit agar dapat ditafsirkan.

Anda dapat menggunakan Learning Interpretability Tool (LIT) untuk menafsirkan model ML.

iterasi

#fundamentals

Satu pembaruan parameter model—bobot dan bias model—selama pelatihan. Ukuran batch menentukan jumlah contoh yang diproses model dalam satu iterasi. Misalnya, jika ukuran batch adalah 20, model akan memproses 20 contoh sebelum menyesuaikan parameter.

Saat melatih jaringan neural, satu iterasi melibatkan dua penerusan berikut:

Penerusan maju untuk mengevaluasi kerugian pada satu batch.
Penerusan mundur (backpropagation) untuk menyesuaikan parameter model berdasarkan loss dan kecepatan pemelajaran.

Lihat Penurunan gradien di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

L

Regularisasi L₀

#fundamentals

Jenis regularisasi yang mengharuskan jumlah total bobot yang bukan nol dalam model. Misalnya, model yang memiliki 11 bobot non-nol akan dikenai penalti lebih besar daripada model serupa yang memiliki 10 bobot non-nol.

Regularisasi L₀ terkadang disebut regularisasi norma L0.

Klik ikon untuk melihat catatan tambahan.

Regularisasi L₀ umumnya tidak praktis dalam model besar karena regularisasi L₀ mengubah pelatihan menjadi masalah pengoptimalan konveks.

Kerugian L₁

#fundamentals

#Metric

Fungsi kerugian yang menghitung nilai absolut perbedaan antara nilai label yang sebenarnya dan nilai yang diprediksi model. Misalnya, berikut adalah penghitungan kerugian L₁ untuk batch dari lima contoh:

Nilai sebenarnya dari contoh	Nilai prediksi model	Nilai absolut delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = kerugian L₁

Kerugian L₁ kurang sensitif terhadap pencilan daripada kerugian L₂.

Mean Absolute Error adalah rata-rata kerugian L₁ per contoh.

Klik ikon untuk melihat matematika formal.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

dengan:

$n$ adalah jumlah contoh.
$y$ adalah nilai sebenarnya dari label.
$\hat{y}$ adalah nilai yang diprediksi model untuk $y$.

Lihat Regresi linear: Kerugian di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Regularisasi L₁

#fundamentals

Jenis regularisasi yang menghukum bobot sebanding dengan jumlah nilai absolut bobot. Regularisasi L₁ membantu mendorong bobot fitur yang tidak relevan atau hampir tidak relevan menjadi persis 0. Fitur dengan bobot 0 akan dihapus secara efektif dari model.

Berbeda dengan regularisasi ₂.

Kerugian L₂

#fundamentals

#Metric

Fungsi kerugian yang menghitung kuadrat perbedaan antara nilai label sebenarnya dan nilai yang diprediksi model. Misalnya, berikut adalah penghitungan kerugian L₂ untuk batch yang terdiri dari lima contoh:

Nilai sebenarnya dari contoh	Nilai prediksi model	Kuadrat delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = kerugian L₂

Karena adanya kuadrat, kerugian L₂ memperkuat pengaruh pencilan. Artinya, kerugian L₂ bereaksi lebih kuat terhadap prediksi yang buruk daripada kerugian L₁. Misalnya, kerugian L₁ untuk batch sebelumnya adalah 8, bukan 16. Perhatikan bahwa satu outlier mencakup 9 dari 16.

Model regresi biasanya menggunakan kerugian L₂ sebagai fungsi kerugian.

Rataan Kuadrat Galat adalah rata-rata kerugian L₂ per contoh. Kerugian kuadrat adalah nama lain untuk kerugian L₂.

Klik ikon untuk melihat matematika formal.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

dengan:

$n$ adalah jumlah contoh.
$y$ adalah nilai sebenarnya dari label.
$\hat{y}$ adalah nilai yang diprediksi model untuk $y$.

Lihat Regresi logistik: Loss dan regulasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Regularisasi L₂

#fundamentals

Jenis regularisasi yang menghukum bobot sebanding dengan jumlah kuadrat bobot. Regularisasi L₂ membantu mendorong bobot pencilan (bobot dengan nilai positif tinggi atau negatif rendah) lebih dekat ke 0, tetapi tidak benar-benar 0. Fitur dengan nilai yang sangat mendekati 0 tetap ada dalam model, tetapi tidak terlalu memengaruhi prediksi model.

Regularisasi L₂ selalu meningkatkan generalisasi dalam model linear.

Berbeda dengan regularisasi _L1.

Lihat Overfitting: Regularisasi L2 di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

label

#fundamentals

Dalam machine learning dengan pengawasan, bagian "jawaban" atau "hasil" dari contoh.

Setiap contoh berlabel terdiri dari satu atau beberapa fitur dan label. Misalnya, dalam set data deteksi spam, label mungkin berupa "spam" atau "bukan spam". Dalam set data curah hujan, labelnya mungkin berupa jumlah hujan yang turun selama periode tertentu.

Lihat Pembelajaran dengan Pengawasan di Pengantar Machine Learning untuk mengetahui informasi selengkapnya.

contoh berlabel

#fundamentals

Contoh yang berisi satu atau beberapa fitur dan label. Misalnya, tabel berikut menunjukkan tiga contoh berlabel dari model penilaian rumah, masing-masing dengan tiga fitur dan satu label:

Jumlah kamar	Jumlah kamar mandi	Usia rumah	Harga rumah (label)
3	2	15	$345.000
2	1	72	$179.000
4	2	34	$392.000

Dalam machine learning dengan pengawasan, model dilatih pada contoh berlabel dan membuat prediksi pada contoh tanpa label.

Bandingkan contoh berlabel dengan contoh yang tidak berlabel.

Lihat Pembelajaran dengan Pengawasan di Pengantar Machine Learning untuk mengetahui informasi selengkapnya.

lambda

#fundamentals

Sinonim dari derajat regularisasi.

Lambda adalah istilah yang memiliki lebih dari satu makna. Di sini kita berfokus pada definisi istilah dalam regularisasi.

lapisan

#fundamentals

Kumpulan neuron dalam jaringan neural. Tiga jenis lapisan umum adalah sebagai berikut:

Lapisan input, yang memberikan nilai untuk semua fitur.
Satu atau beberapa lapisan tersembunyi, yang menemukan hubungan nonlinier antara fitur dan label.
Lapisan output, yang memberikan prediksi.

Misalnya, ilustrasi berikut menunjukkan jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi
pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua
terdiri dari dua neuron. Lapisan output terdiri dari satu node.

Di TensorFlow, lapisan juga merupakan fungsi Python yang menggunakan Tensor dan opsi konfigurasi sebagai input dan menghasilkan tensor lain sebagai output.

kecepatan pembelajaran

#fundamentals

Bilangan floating point yang memberi tahu algoritma penurunan gradien seberapa kuat bobot dan bias harus disesuaikan pada setiap iterasi. Misalnya, kecepatan pembelajaran sebesar 0,3 akan menyesuaikan bobot dan bias tiga kali lebih kuat daripada kecepatan pembelajaran sebesar 0,1.

Kecepatan pembelajaran adalah hyperparameter utama. Jika Anda menetapkan kecepatan pembelajaran terlalu rendah, pelatihan akan memakan waktu terlalu lama. Jika Anda menetapkan kecepatan belajar terlalu tinggi, gradien menurun sering kali mengalami masalah dalam mencapai konvergensi.

Klik ikon untuk mengetahui penjelasan yang lebih matematis.

Selama setiap iterasi, algoritma penurunan gradien akan mengalikan kecepatan pembelajaran dengan gradien. Produk yang dihasilkan disebut langkah gradien.

Lihat Regresi linear: Hyperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

linier

#fundamentals

Hubungan antara dua atau beberapa variabel yang dapat direpresentasikan hanya melalui penambahan dan perkalian.

Plot hubungan linear adalah garis.

Berbeda dengan nonlinear.

model linear

#fundamentals

Model yang menetapkan satu bobot per fitur untuk membuat prediksi. (Model linear juga menyertakan bias.) Sebaliknya, hubungan fitur dengan prediksi dalam model dalam umumnya nonlinear.

Model linear biasanya lebih mudah dilatih dan lebih dapat ditafsirkan daripada model dalam. Namun, model deep dapat mempelajari hubungan kompleks antara fitur.

Regresi linear dan regresi logistik adalah dua jenis model linear.

Klik ikon untuk melihat matematika.

Model linear mengikuti formula ini:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

dengan:

y' adalah prediksi mentah. (Dalam jenis model linear tertentu, prediksi mentah ini akan dimodifikasi lebih lanjut. Misalnya, lihat regresi logistik.)
b adalah bias.
w adalah bobot, sehingga w₁ adalah bobot fitur pertama, w₂ adalah bobot fitur kedua, dan seterusnya.
x adalah fitur, sehingga x₁ adalah nilai fitur pertama, x₂ adalah nilai fitur kedua, dan seterusnya.

Misalnya, model linear untuk tiga fitur mempelajari bias dan bobot berikut:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Oleh karena itu, dengan tiga fitur (x₁, x₂, dan x₃), model linear menggunakan persamaan berikut untuk menghasilkan setiap prediksi:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Misalkan contoh tertentu berisi nilai berikut:

x₁ = 4
x₂ = -10
x₃ = 5

Memasukkan nilai tersebut ke dalam formula akan menghasilkan prediksi untuk contoh ini:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Model linear tidak hanya mencakup model yang hanya menggunakan persamaan linear untuk membuat prediksi, tetapi juga kumpulan model yang lebih luas yang menggunakan persamaan linear sebagai salah satu komponen formula yang membuat prediksi. Misalnya, regresi logistik memproses ulang prediksi mentah (y') untuk menghasilkan nilai prediksi akhir antara 0 dan 1, secara eksklusif.

regresi linear

#fundamentals

Jenis model machine learning yang memenuhi kedua hal berikut:

Model ini adalah model linear.
Prediksi adalah nilai floating point. (Ini adalah bagian regresi dari regresi linear.)

Bandingkan regresi linear dengan regresi logistik. Selain itu, bandingkan regresi dengan klasifikasi.

Lihat Regresi linear di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

regresi logistik

#fundamentals

Jenis model regresi yang memprediksi probabilitas. Model regresi logistik memiliki karakteristik berikut:

Labelnya kategoris. Istilah regresi logistik biasanya mengacu pada regresi logistik biner, yaitu model yang menghitung probabilitas untuk label dengan dua kemungkinan nilai. Varian yang kurang umum, regresi logistik multinomial, menghitung probabilitas untuk label dengan lebih dari dua kemungkinan nilai.
Fungsi kerugian selama pelatihan adalah Log Loss. (Beberapa unit Log Loss dapat ditempatkan secara paralel untuk label dengan lebih dari dua kemungkinan nilai.)
Model ini memiliki arsitektur linear, bukan deep neural network. Namun, bagian lain dari definisi ini juga berlaku untuk model mendalam yang memprediksi probabilitas untuk label kategoris.

Misalnya, pertimbangkan model regresi logistik yang menghitung probabilitas email input adalah spam atau bukan spam. Selama inferensi, misalkan model memprediksi 0,72. Oleh karena itu, model memperkirakan:

Kemungkinan email tersebut adalah spam sebesar 72%.
Kemungkinan 28% bahwa email tersebut bukan spam.

Model regresi logistik menggunakan arsitektur dua langkah berikut:

Model menghasilkan prediksi mentah (y') dengan menerapkan fungsi linear fitur input.
Model menggunakan prediksi mentah tersebut sebagai input ke fungsi sigmoid, yang mengonversi prediksi mentah menjadi nilai antara 0 dan 1, secara eksklusif.

Seperti model regresi lainnya, model regresi logistik memprediksi angka. Namun, angka ini biasanya menjadi bagian dari model klasifikasi biner sebagai berikut:

Jika jumlah yang diprediksi lebih besar dari nilai minimum klasifikasi, model klasifikasi biner akan memprediksi kelas positif.
Jika jumlah yang diprediksi lebih kecil dari nilai minimum klasifikasi, model klasifikasi biner akan memprediksi class negatif.

Lihat Regresi logistik di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Kerugian Log

#fundamentals

Fungsi kerugian yang digunakan dalam regresi logistik biner.

Klik ikon untuk melihat matematika.

Rumus berikut menghitung Kerugian Log:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

dengan:

$(x,y)\in D$ adalah set data yang berisi banyak contoh berlabel, yang merupakan pasangan $(x,y)$ .
$y$ adalah label dalam contoh berlabel. Karena ini adalah regresi logistik, setiap nilai $y$ harus berupa 0 atau 1.
$y'$ adalah nilai yang diprediksi (antara 0 dan 1, eksklusif), dengan serangkaian fitur di $x$.

Lihat Regresi logistik: Kerugian dan regularisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

log-peluang

#fundamentals

Logaritma peluang terjadinya beberapa peristiwa.

Klik ikon untuk melihat matematika.

Jika peristiwanya adalah probabilitas biner, odds mengacu pada rasio probabilitas keberhasilan (p) terhadap probabilitas kegagalan (1-p). Misalnya, peristiwa tertentu memiliki probabilitas keberhasilan sebesar 90% dan probabilitas kegagalan sebesar 10%. Dalam hal ini, odds dihitung sebagai berikut:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Log-odds hanyalah logaritma peluang. Secara umum, "logaritma" mengacu pada logaritma natural, tetapi logaritma sebenarnya dapat berupa basis apa pun yang lebih besar dari 1. Dengan mengikuti konvensi, log-odds dari contoh kita adalah:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Fungsi log-odds adalah invers dari fungsi sigmoid.

kalah

#fundamentals

#Metric

Selama pelatihan model tersupervisi, ukuran seberapa jauh prediksi model dari label-nya.

Fungsi kerugian menghitung kerugian.

Lihat Regresi linear: Kerugian di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

kurva penyimpangan

#fundamentals

Plot kerugian sebagai fungsi dari jumlah iterasi pelatihan. Plot berikut menunjukkan kurva kehilangan yang umum:

Grafik Kartesius tentang kerugian versus iterasi pelatihan, yang menunjukkan
penurunan kerugian yang cepat untuk iterasi awal, diikuti dengan penurunan
bertahap, lalu kemiringan datar selama iterasi akhir.

Kurva kerugian dapat membantu Anda menentukan kapan model Anda berkonvergensi atau overfitting.

Kurva kerugian dapat memetakan semua jenis kerugian berikut:

kerugian pelatihan
kehilangan validasi
test loss

Lihat juga kurva generalisasi.

Lihat Overfitting: Menafsirkan kurva kerugian di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fungsi loss

#fundamentals

#Metric

Selama pelatihan atau pengujian, fungsi matematika yang menghitung kerugian pada batch contoh. Fungsi kerugian menampilkan kerugian yang lebih rendah untuk model yang membuat prediksi yang baik daripada model yang membuat prediksi yang buruk.

Tujuan pelatihan biasanya untuk meminimalkan kerugian yang ditampilkan fungsi kerugian.

Ada banyak jenis fungsi kerugian. Pilih fungsi loss yang sesuai untuk jenis model yang Anda buat. Contoh:

Kerugian ₂ (atau Rataan Kuadrat Galat) adalah fungsi kerugian untuk regresi linear.
Log Loss adalah fungsi kerugian untuk regresi logistik.

M

machine learning

#fundamentals

Program atau sistem yang melatih model dari data input. Model terlatih dapat membuat prediksi yang berguna dari data baru (yang belum pernah dilihat) yang diambil dari distribusi yang sama dengan yang digunakan untuk melatih model.

Machine learning juga mengacu pada bidang studi yang terkait dengan program atau sistem ini.

Lihat kursus Pengantar Machine Learning untuk mengetahui informasi selengkapnya.

kelas mayoritas

#fundamentals

Label yang lebih umum dalam set data kelas tidak seimbang. Misalnya, dalam set data yang berisi 99% label negatif dan 1% label positif, label negatif adalah kelas mayoritas.

Berbeda dengan kelas minoritas.

Lihat Set data: Set data yang tidak seimbang di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

tumpukan mini

#fundamentals

Subset kecil yang dipilih secara acak dari batch yang diproses dalam satu iterasi. Ukuran batch dari batch mini biasanya antara 10 dan 1.000 contoh.

Misalnya, seluruh set pelatihan (batch penuh) terdiri dari 1.000 contoh. Selanjutnya, anggaplah Anda menetapkan ukuran batch dari setiap batch mini ke 20. Oleh karena itu, setiap iterasi menentukan kerugian pada 20 contoh acak dari 1.000 contoh,lalu menyesuaikan bobot dan bias yang sesuai.

Menghitung kerugian pada batch mini jauh lebih efisien daripada kerugian pada semua contoh dalam batch penuh.

Lihat Regresi linear: Hyperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

kelas minoritas

#fundamentals

Label yang kurang umum dalam set data kelas tidak seimbang. Misalnya, dalam set data yang berisi 99% label negatif dan 1% label positif, label positif adalah kelas minoritas.

Berbeda dengan class mayoritas.

Klik ikon untuk melihat catatan tambahan.

Set pelatihan dengan satu juta contoh terdengar mengesankan. Namun, jika kelas minoritas tidak terwakili dengan baik, set pelatihan yang sangat besar pun mungkin tidak memadai. Kurangi fokus pada jumlah total contoh dalam set data dan lebih fokus pada jumlah contoh dalam class minoritas.

Jika set data Anda tidak berisi cukup contoh class minoritas, pertimbangkan untuk menggunakan downsampling (definisi di poin kedua) untuk melengkapi class minoritas.

Lihat Set data: Set data yang tidak seimbang di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model

#fundamentals

Secara umum, setiap konstruksi matematika yang memproses data input dan menampilkan output. Dengan kata lain, model adalah kumpulan parameter dan struktur yang diperlukan sistem untuk membuat prediksi. Dalam supervised machine learning, model menggunakan contoh sebagai input dan menyimpulkan prediksi sebagai output. Dalam machine learning yang diawasi, modelnya agak berbeda. Contoh:

Model regresi linear terdiri dari sekumpulan bobot dan bias.
Model jaringan saraf terdiri dari:
- Kumpulan lapisan tersembunyi, yang masing-masing berisi satu atau beberapa neuron.
- Bobot dan bias yang terkait dengan setiap neuron.
Model pohon keputusan terdiri dari:
- Bentuk hierarki; yaitu, pola yang menghubungkan kondisi dan daun.
- Kondisi dan daun.

Anda dapat menyimpan, memulihkan, atau membuat salinan model.

Unsupervised machine learning juga membuat model, biasanya fungsi yang dapat memetakan contoh input ke cluster yang paling sesuai.

Klik ikon untuk membandingkan fungsi algjebra dan pemrograman dengan model ML.

Fungsi aljabar seperti berikut adalah model:

  f(x, y) = 3x -5xy + y² + 17

Fungsi sebelumnya memetakan nilai input (x dan y) ke output.

Demikian pula, fungsi pemrograman seperti berikut juga merupakan model:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Pemanggil meneruskan argumen ke fungsi Python sebelumnya, dan fungsi Python menghasilkan output (melalui pernyataan return).

Meskipun deep neural network memiliki struktur matematika yang sangat berbeda dengan fungsi aljabar atau pemrograman, deep neural network masih mengambil input (contoh) dan menampilkan output (prediksi).

Programmer manusia membuat kode fungsi pemrograman secara manual. Sebaliknya, model machine learning secara bertahap mempelajari parameter optimal selama pelatihan otomatis.

klasifikasi multi-class

#fundamentals

Dalam supervised learning, masalah klasifikasi yang set data-nya berisi lebih dari dua kelas label. Misalnya, label dalam set data Iris harus berupa salah satu dari tiga class berikut:

Iris setosa
Iris virginica
Iris versicolor

Model yang dilatih pada set data Iris yang memprediksi jenis Iris pada contoh baru melakukan klasifikasi multi-class.

Sebaliknya, masalah klasifikasi yang membedakan antara dua klasifikasi persis adalah model klasifikasi biner. Misalnya, model email yang memprediksi spam atau bukan spam adalah model klasifikasi biner.

Dalam masalah pengelompokan, klasifikasi multi-class mengacu pada lebih dari dua cluster.

Lihat Jaringan neural: Klasifikasi multi-class di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

T

kelas negatif

#fundamentals

#Metric

Dalam klasifikasi biner, satu class disebut positif dan class lainnya disebut negatif. Class positif adalah hal atau peristiwa yang diuji model, dan class negatif adalah kemungkinan lainnya. Contoh:

Kelas negatif dalam tes medis dapat berupa "bukan tumor".
Kelas negatif dalam model klasifikasi email dapat berupa "bukan spam".

Berbeda dengan class positif.

alur maju

#fundamentals

Model yang berisi setidaknya satu lapisan tersembunyi. Jaringan neural dalam adalah jenis jaringan neural yang berisi lebih dari satu lapisan tersembunyi. Misalnya, diagram berikut menunjukkan jaringan neural dalam yang berisi dua lapisan tersembunyi.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan lapisan output.

Setiap neuron dalam jaringan saraf terhubung ke semua node di lapisan berikutnya. Misalnya, dalam diagram sebelumnya, perhatikan bahwa setiap dari tiga neuron di lapisan tersembunyi pertama terhubung secara terpisah ke kedua neuron di lapisan tersembunyi kedua.

Jaringan neural yang diterapkan di komputer terkadang disebut jaringan neural buatan untuk membedakannya dari jaringan neural yang ditemukan di otak dan sistem saraf lainnya.

Beberapa jaringan saraf dapat meniru hubungan nonlinier yang sangat kompleks antara berbagai fitur dan label.

Lihat juga jaringan neural konvolusi dan jaringan neural berulang.

Lihat Jaringan neural di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

neuron

#fundamentals

Dalam machine learning, unit yang berbeda dalam lapisan tersembunyi dari jaringan neural. Setiap neuron melakukan tindakan dua langkah berikut:

Menghitung jumlah berbobot dari nilai input yang dikalikan dengan bobot yang sesuai.
Meneruskan jumlah berbobot sebagai input ke fungsi aktivasi.

Neuron di lapisan tersembunyi pertama menerima input dari nilai fitur di lapisan input. Neuron di lapisan tersembunyi apa pun selain lapisan pertama menerima input dari neuron di lapisan tersembunyi sebelumnya. Misalnya, neuron di lapisan tersembunyi kedua menerima input dari neuron di lapisan tersembunyi pertama.

Ilustrasi berikut menyoroti dua neuron dan inputnya.

Neuron dalam jaringan neural meniru perilaku neuron di otak dan bagian lain dari sistem saraf.

node (jaringan neural)

#fundamentals

Neuron di lapisan tersembunyi.

Lihat Jaringan Neural di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

nonlinear

#fundamentals

Hubungan antara dua atau beberapa variabel yang tidak dapat direpresentasikan hanya melalui penambahan dan perkalian. Hubungan linear dapat direpresentasikan sebagai garis; hubungan nonlinear tidak dapat direpresentasikan sebagai garis. Misalnya, pertimbangkan dua model yang masing-masing mengaitkan satu fitur ke satu label. Model di sebelah kiri bersifat linear dan model di sebelah kanan bersifat non-linear:

Dua plot. Satu plot adalah garis, sehingga ini adalah hubungan linear.
Plot lainnya adalah kurva, sehingga ini adalah hubungan nonlinier.

Lihat Jaringan saraf: Node dan lapisan tersembunyi di Kursus Singkat Machine Learning untuk bereksperimen dengan berbagai jenis fungsi nonlinier.

nonstasioneritas

#fundamentals

Fitur yang nilainya berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, perhatikan contoh nonstabilitas berikut:

Jumlah baju renang yang terjual di toko tertentu bervariasi sesuai musim.
Jumlah buah tertentu yang dipanen di wilayah tertentu nol selama sebagian besar tahun, tetapi besar selama periode singkat.
Akibat perubahan iklim, suhu rata-rata tahunan mengalami pergeseran.

Berbeda dengan stabilitas.

normalisasi

#fundamentals

Secara umum, proses mengonversi rentang nilai variabel sebenarnya menjadi rentang nilai standar, seperti:

-1 hingga +1
0 hingga 1
Skor Z (kira-kira, -3 hingga +3)

Misalnya, rentang nilai sebenarnya dari fitur tertentu adalah 800 hingga 2.400. Sebagai bagian dari feature engineering, Anda dapat menormalisasi nilai sebenarnya ke rentang standar, seperti -1 hingga +1.

Normalisasi adalah tugas umum dalam feature engineering. Model biasanya dilatih lebih cepat (dan menghasilkan prediksi yang lebih baik) jika setiap fitur numerik dalam vektor fitur memiliki rentang yang kira-kira sama.

Lihat juga Normalisasi skor z.

Lihat Data Numerik: Normalisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

data numerik

#fundamentals

Fitur yang direpresentasikan sebagai bilangan bulat atau bilangan real-bernilai. Misalnya, model penilaian rumah mungkin akan merepresentasikan ukuran rumah (dalam kaki persegi atau meter persegi) sebagai data numerik. Merepresentasikan fitur sebagai data numerik menunjukkan bahwa nilai fitur memiliki hubungan matematika dengan label. Artinya, jumlah meter persegi di rumah mungkin memiliki beberapa hubungan matematika dengan nilai rumah.

Tidak semua data bilangan bulat harus direpresentasikan sebagai data numerik. Misalnya, kode pos di beberapa bagian dunia adalah bilangan bulat; namun, kode pos bilangan bulat tidak boleh direpresentasikan sebagai data numerik dalam model. Hal ini karena kode pos 20000 tidak dua kali (atau setengah) lebih kuat daripada kode pos 10000. Selain itu, meskipun kode pos yang berbeda memang berkorelasi dengan nilai properti yang berbeda, kita tidak dapat mengasumsikan bahwa nilai properti di kode pos 20000 bernilai dua kali lipat dari nilai properti di kode pos 10000. Kode pos sebaiknya direpresentasikan sebagai data kategorik.

Fitur numerik terkadang disebut fitur berkelanjutan.

Lihat Menangani data numerik di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

O

offline

#fundamentals

Sinonim dari static.

inferensi offline

#fundamentals

Proses model yang menghasilkan batch prediksi, lalu menyimpan prediksi tersebut dalam cache. Aplikasi kemudian dapat mengakses prediksi yang disimpulkan dari cache, bukan menjalankan ulang model.

Misalnya, pertimbangkan model yang menghasilkan perkiraan cuaca lokal (prediksi) sekali setiap empat jam. Setelah setiap model dijalankan, sistem akan meng-cache semua perkiraan cuaca lokal. Aplikasi cuaca mengambil perkiraan dari cache.

Inferensi offline juga disebut inferensi statis.

Berbeda dengan inferensi online.

Lihat Sistem ML produksi: Inferensi statis versus dinamis di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

enkode one-hot

#fundamentals

Merepresentasikan data kategoris sebagai vektor dengan:

Satu elemen disetel ke 1.
Semua elemen lainnya ditetapkan ke 0.

Enkode one-hot biasanya digunakan untuk merepresentasikan string atau ID yang memiliki kemungkinan set nilai yang terbatas. Misalnya, fitur kategoris tertentu bernama Scandinavia memiliki lima kemungkinan nilai:

"Denmark"
"Swedia"
"Norway"
"Finlandia"
"Islandia"

Encoding one-hot dapat mewakili setiap lima nilai sebagai berikut:

country	Vektor
"Denmark"	1	0	0	0	0
"Swedia"	0	1	0	0	0
"Norway"	0	0	1	0	0
"Finlandia"	0	0	0	1	0
"Islandia"	0	0	0	0	1

Berkat encoding one-hot, model dapat mempelajari berbagai koneksi berdasarkan masing-masing dari lima negara.

Merepresentasikan fitur sebagai data numerik adalah alternatif untuk encoding one-hot. Sayangnya, merepresentasikan negara-negara Skandinavia secara numerik bukanlah pilihan yang baik. Misalnya, pertimbangkan representasi numerik berikut:

"Denmark" adalah 0
"Swedia" adalah 1
"Norway" adalah 2
"Finland" adalah 3
"Iceland" adalah 4

Dengan encoding numerik, model akan menafsirkan angka mentah secara matematis dan akan mencoba melatih angka tersebut. Namun, Islandia sebenarnya tidak memiliki dua kali lipat (atau setengah) sesuatu seperti Norwegia, sehingga model akan menghasilkan beberapa kesimpulan aneh.

Lihat Data kategoris: Encoding one-hot dan kosakata di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

satu vs. semua

#fundamentals

Dalam masalah klasifikasi dengan N class, solusi yang terdiri dari N pengklasifikasi biner terpisah—satu pengklasifikasi biner untuk setiap kemungkinan hasil. Misalnya, dengan model yang mengklasifikasikan contoh sebagai hewan, sayuran, atau mineral, solusi satu vs. semua akan memberikan tiga pengklasifikasi biner terpisah berikut:

hewan versus bukan hewan
sayuran versus bukan sayuran
mineral versus non-mineral

online

#fundamentals

Sinonim dari dinamis.

inferensi online

#fundamentals

Menghasilkan prediksi sesuai permintaan. Misalnya, misalnya aplikasi meneruskan input ke model dan mengeluarkan permintaan untuk prediksi. Sistem yang menggunakan inferensi online merespons permintaan dengan menjalankan model (dan menampilkan prediksi ke aplikasi).

Berbeda dengan inferensi offline.

Lihat Sistem ML produksi: Inferensi statis versus dinamis di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

lapisan output

#fundamentals

Lapisan "akhir" jaringan neural. Lapisan output berisi prediksi.

Ilustrasi berikut menunjukkan jaringan neural dalam kecil dengan lapisan input, dua lapisan tersembunyi, dan lapisan output:

overfitting

#fundamentals

Membuat model yang sangat cocok dengan data pelatihan sehingga model gagal membuat prediksi yang benar pada data baru.

Regularisasi dapat mengurangi overfitting. Pelatihan pada set pelatihan yang besar dan beragam juga dapat mengurangi overfitting.

Klik ikon untuk melihat catatan tambahan.

Overfitting seperti mengikuti saran dari guru favorit Anda saja. Anda mungkin akan berhasil di kelas pengajar tersebut, tetapi Anda mungkin "terlalu cocok" dengan ide pengajar tersebut dan tidak berhasil di kelas lain. Dengan mengikuti saran dari berbagai pengajar, Anda akan dapat beradaptasi dengan lebih baik terhadap situasi baru.

Lihat Overfitting di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

P

pandas

#fundamentals

API analisis data berorientasi kolom yang dibuat berdasarkan numpy. Banyak framework machine learning, termasuk TensorFlow, mendukung struktur data pandas sebagai input. Untuk mengetahui detailnya, lihat dokumentasi pandas.

parameter

#fundamentals

Bobot dan bias yang dipelajari model selama pelatihan. Misalnya, dalam model regresi linear, parameter terdiri dari bias (b) dan semua bobot (w₁, w₂, dan sebagainya) dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Sebaliknya, hyperparameter adalah nilai yang Anda (atau layanan penyesuaian hyperparameter) berikan ke model. Misalnya, kecepatan pembelajaran adalah hyperparameter.

kelas positif

#fundamentals

#Metric

Class yang Anda uji.

Misalnya, kelas positif dalam model kanker mungkin berupa "tumor". Kelas positif dalam model klasifikasi email dapat berupa "spam".

Berbeda dengan kelas negatif.

Klik ikon untuk melihat catatan tambahan.

Istilah class positif dapat membingungkan karena hasil "positif" dari banyak pengujian sering kali merupakan hasil yang tidak diinginkan. Misalnya, class positif dalam banyak tes medis sesuai dengan tumor atau penyakit. Secara umum, Anda ingin dokter memberi tahu Anda, "Selamat! Hasil tes Anda negatif." Apa pun hasilnya, class positif adalah peristiwa yang ingin ditemukan oleh pengujian.

Memang, Anda secara bersamaan menguji class positif dan negatif.

pasca-pemrosesan

#responsible

#fundamentals

Menyesuaikan output model setelah model dijalankan. Pascapemrosesan dapat digunakan untuk menerapkan batasan keadilan tanpa mengubah model itu sendiri.

Misalnya, seseorang dapat menerapkan pascapemrosesan ke klasifikasi biner dengan menetapkan nilai minimum klasifikasi sehingga kesetaraan peluang dipertahankan untuk beberapa atribut dengan memeriksa apakah rasio positif sejati sama untuk semua nilai atribut tersebut.

prediksi

#fundamentals

Output model. Contoh:

Prediksi model klasifikasi biner adalah class positif atau class negatif.
Prediksi model klasifikasi multi-class adalah satu class.
Prediksi model regresi linear adalah angka.

label proxy

#fundamentals

Data yang digunakan untuk memperkirakan label yang tidak tersedia secara langsung dalam set data.

Misalnya, Anda harus melatih model untuk memprediksi tingkat stres karyawan. Set data Anda berisi banyak fitur prediktif, tetapi tidak berisi label bernama tingkat stres. Anda tidak ragu untuk memilih "kecelakaan di tempat kerja" sebagai label proxy untuk tingkat stres. Lagipula, karyawan yang mengalami stres tinggi lebih sering mengalami kecelakaan daripada karyawan yang tenang. Atau apakah mereka melakukannya? Mungkin kecelakaan di tempat kerja sebenarnya naik dan turun karena beberapa alasan.

Sebagai contoh kedua, misalkan Anda ingin apakah sedang hujan? menjadi label Boolean untuk set data Anda, tetapi set data tersebut tidak berisi data hujan. Jika foto tersedia, Anda mungkin membuat foto orang yang membawa payung sebagai label proxy untuk apakah hujan? Apakah itu label proxy yang baik? Mungkin saja, tetapi orang-orang di beberapa budaya mungkin lebih cenderung membawa payung untuk melindungi dari sinar matahari daripada hujan.

Label proxy sering kali tidak sempurna. Jika memungkinkan, pilih label sebenarnya, bukan label proxy. Namun, jika label sebenarnya tidak ada, pilih label proxy dengan sangat hati-hati, dengan memilih kandidat label proxy yang paling tidak buruk.

Lihat Set Data: Label di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

R

RAG

#fundamentals

Singkatan dari retrieval-augmented generation.

pelabel

#fundamentals

Manusia yang memberikan label untuk contoh. "Anotator" adalah nama lain untuk penilai.

Lihat Data kategoris: Masalah umum di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Unit Linear Terarah (ReLU)

#fundamentals

Fungsi aktivasi dengan perilaku berikut:

Jika input negatif atau nol, outputnya adalah 0.
Jika input positif, output-nya sama dengan input.

Contoh:

Jika inputnya adalah -3, outputnya adalah 0.
Jika inputnya adalah +3, outputnya adalah 3,0.

Berikut adalah plot ReLU:

ReLU adalah fungsi aktivasi yang sangat populer. Meskipun memiliki perilaku yang sederhana, ReLU tetap memungkinkan jaringan saraf mempelajari hubungan nonlinear antara fitur dan label.

model regresi

#fundamentals

Secara informal, model yang menghasilkan prediksi numerik. (Sebaliknya, model klasifikasi menghasilkan prediksi class.) Misalnya, berikut adalah semua model regresi:

Model yang memprediksi nilai rumah tertentu dalam Euro, seperti 423.000.
Model yang memprediksi harapan hidup pohon tertentu dalam tahun, seperti 23,2.
Model yang memprediksi jumlah hujan dalam inci yang akan turun di kota tertentu selama enam jam ke depan, seperti 0,18.

Dua jenis model regresi yang umum adalah:

Regresi linear, yang menemukan garis yang paling cocok dengan nilai label untuk fitur.
Regresi logistik, yang menghasilkan probabilitas antara 0,0 dan 1,0 yang biasanya dipetakan oleh sistem ke prediksi class.

Tidak semua model yang menghasilkan prediksi numerik adalah model regresi. Dalam beberapa kasus, prediksi numerik sebenarnya hanyalah model klasifikasi yang kebetulan memiliki nama kelas numerik. Misalnya, model yang memprediksi kode pos numerik adalah model klasifikasi, bukan model regresi.

regularisasi

#fundamentals

Mekanisme apa pun yang mengurangi overfitting. Jenis regularisasi yang populer meliputi:

Regulasi L₁
Regulasi L₂
regularisasi dropout
penghentian awal (ini bukan metode regularisasi formal, tetapi dapat membatasi overfitting secara efektif)

Regularisasi juga dapat didefinisikan sebagai penalti pada kompleksitas model.

Klik ikon untuk melihat catatan tambahan.

Regularisasi berlawanan dengan intuisi. Meningkatkan regularisasi biasanya meningkatkan loss pelatihan, yang membingungkan karena, bukankah tujuannya adalah meminimalkan loss pelatihan?

Sebenarnya tidak. Tujuannya bukan untuk meminimalkan kerugian pelatihan. Tujuannya adalah membuat prediksi yang sangat baik pada contoh dunia nyata. Hebatnya, meskipun peningkatan regularisasi meningkatkan kerugian pelatihan, hal ini biasanya membantu model membuat prediksi yang lebih baik pada contoh dunia nyata.

Lihat Overfitting: Kompleksitas model di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

derajat regularisasi

#fundamentals

Angka yang menentukan tingkat kepentingan relatif regulasi selama pelatihan. Meningkatkan tingkat regularisasi akan mengurangi overfitting, tetapi dapat mengurangi kemampuan prediktif model. Sebaliknya, mengurangi atau menghapus rasio regularisasi akan meningkatkan overfitting.

Klik ikon untuk melihat matematika.

Rasio regularisasi biasanya direpresentasikan sebagai huruf Yunani lambda. Persamaan loss yang disederhanakan berikut menunjukkan pengaruh lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

dengan regularisasi adalah mekanisme regularisasi apa pun, termasuk;

Regulasi L₁
Regulasi L₂

Lihat Overfitting: Regularisasi L2 di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

ReLU

#fundamentals

Singkatan dari Rectified Linear Unit.

retrieval-augmented generation (RAG)

#fundamentals

Teknik untuk meningkatkan kualitas output model bahasa besar (LLM) dengan menghubungkannya pada sumber pengetahuan yang diambil setelah model dilatih. RAG meningkatkan akurasi respons LLM dengan memberi LLM yang dilatih akses ke informasi yang diambil dari pusat informasi atau dokumen tepercaya.

Motivasi umum untuk menggunakan retrieval-augmented generation meliputi:

Meningkatkan akurasi faktual respons yang dihasilkan model.
Memberikan akses ke pengetahuan yang tidak digunakan untuk melatih model.
Mengubah pengetahuan yang digunakan model.
Mengaktifkan model untuk mengutip sumber.

Misalnya, aplikasi kimia menggunakan PaLM API untuk membuat ringkasan terkait kueri pengguna. Saat backend aplikasi menerima kueri, backend akan:

Menelusuri ("mengambil") data yang relevan dengan kueri pengguna.
Menambahkan ("memperkaya") data kimia yang relevan ke kueri pengguna.
Memberi petunjuk kepada LLM untuk membuat ringkasan berdasarkan data yang ditambahkan.

Kurva ROC (Karakteristik Operasi Penerima)

#fundamentals

#Metric

Grafik rasio positif benar versus rasio positif palsu untuk berbagai batas klasifikasi dalam klasifikasi biner.

Bentuk kurva ROC menunjukkan kemampuan model klasifikasi biner untuk memisahkan class positif dari class negatif. Misalnya, model klasifikasi biner memisahkan semua class negatif dari semua class positif dengan sempurna:

Garis bilangan dengan 8 contoh positif di sisi kanan dan
7 contoh negatif di sebelah kiri.

Kurva ROC untuk model sebelumnya terlihat seperti berikut:

Kurva ROC. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva memiliki bentuk L terbalik. Kurva
dimulai dari (0,0,0) dan langsung naik ke (0,0,1). Kemudian, kurva
akan berubah dari (0,0,1,0) menjadi (1,0,1,0).

Sebaliknya, ilustrasi berikut menggambarkan nilai regresi logistik mentah untuk model yang buruk yang sama sekali tidak dapat memisahkan class negatif dari class positif:

Garis bilangan dengan contoh positif dan kelas negatif
yang benar-benar tercampur.

Kurva ROC untuk model ini terlihat seperti berikut:

Kurva ROC, yang sebenarnya adalah garis lurus dari (0,0,0)
ke (1,0,1).

Sementara itu, di dunia nyata, sebagian besar model klasifikasi biner memisahkan class positif dan negatif sampai batas tertentu, tetapi biasanya tidak sempurna. Jadi, kurva ROC standar berada di antara dua ekstrem:

Kurva ROC. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva ROC mendekati busur yang goyah
yang melintasi titik kompas dari Barat ke Utara.

Titik pada kurva ROC yang paling dekat dengan (0,0,1,0) secara teori mengidentifikasi batas klasifikasi yang ideal. Namun, beberapa masalah dunia nyata lainnya memengaruhi pemilihan nilai minimum klasifikasi yang ideal. Misalnya, mungkin negatif palsu menyebabkan lebih banyak masalah daripada positif palsu.

Metrik numerik yang disebut AUC merangkum kurva ROC menjadi satu nilai floating point.

Error Akar Rataan Kuadrat (RMSE)

#fundamentals

#Metric

Akar kuadrat dari Rataan Kuadrat Galat (RKG).

S

fungsi sigmoid

#fundamentals

Fungsi matematika yang "memampatkan" nilai input ke dalam rentang yang dibatasi, biasanya 0 hingga 1 atau -1 hingga +1. Artinya, Anda dapat meneruskan angka apa pun (dua, satu juta, miliar negatif, apa pun) ke sigmoid dan outputnya akan tetap berada dalam rentang yang dibatasi. Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Fungsi sigmoid memiliki beberapa kegunaan dalam machine learning, termasuk:

Mengonversi output mentah dari model regresi logistik atau regresi multinomial menjadi probabilitas.
Berfungsi sebagai fungsi aktivasi di beberapa jaringan saraf.

Klik ikon untuk melihat matematika.

Fungsi sigmoid pada angka input x memiliki formula berikut:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Dalam machine learning, x umumnya merupakan jumlah berbobot.

softmax

#fundamentals

Fungsi yang menentukan probabilitas untuk setiap kemungkinan class dalam model klasifikasi multi-class. Probabilitasnya berjumlah persis 1,0. Misalnya, tabel berikut menunjukkan cara softmax mendistribusikan berbagai probabilitas:

Gambar adalah...	Probability
anjing	0,85
kucing	.13
kuda	.02

Softmax juga disebut softmax penuh.

Berbeda dengan sampling kandidat.

Klik ikon untuk melihat matematika.

Persamaan softmax adalah sebagai berikut:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

dengan:

$\sigma_i$ adalah vektor output. Setiap elemen vektor output menentukan probabilitas elemen ini. Jumlah semua elemen dalam vektor output adalah 1,0. Vektor output berisi jumlah elemen yang sama dengan vektor input, $z$.
$z$ adalah vektor input. Setiap elemen vektor input berisi nilai floating point.
$K$ adalah jumlah elemen dalam vektor input (dan vektor output).

Misalnya, vektor input adalah:

[1.2, 2.5, 1.8]

Oleh karena itu, softmax menghitung penyebut sebagai berikut:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Oleh karena itu, probabilitas softmax dari setiap elemen adalah:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Jadi, vektor outputnya adalah:

$$\sigma = [0.154, 0.565, 0.281]$$

Jumlah tiga elemen dalam $\sigma$ adalah 1,0. Fiuh!

Lihat Jaringan neural: Klasifikasi multi-class di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fitur renggang

#language

#fundamentals

Fitur yang sebagian besar nilainya nol atau kosong. Misalnya, fitur yang berisi satu nilai 1 dan satu juta nilai 0 bersifat renggang. Sebaliknya, fitur rapat memiliki nilai yang sebagian besar bukan nol atau kosong.

Dalam machine learning, banyak fitur yang merupakan fitur jarang. Fitur kategoris biasanya merupakan fitur yang jarang. Misalnya, dari 300 kemungkinan spesies pohon di hutan, satu contoh mungkin hanya mengidentifikasi pohon maple. Atau, dari jutaan video yang mungkin ada di koleksi video, satu contoh mungkin hanya mengidentifikasi "Casablanca".

Dalam model, Anda biasanya merepresentasikan fitur jarang dengan enkode one-hot. Jika encoding one-hot berukuran besar, Anda dapat menempatkan lapisan penyematan di atas encoding one-hot untuk efisiensi yang lebih besar.

representasi renggang

#language

#fundamentals

Hanya menyimpan posisi elemen non-nol dalam fitur jarang.

Misalnya, fitur kategoris bernama species mengidentifikasi 36 spesies pohon di hutan tertentu. Selanjutnya, asumsikan bahwa setiap contoh hanya mengidentifikasi satu spesies.

Anda dapat menggunakan vektor one-hot untuk merepresentasikan spesies pohon dalam setiap contoh. Vektor one-hot akan berisi satu 1 (untuk mewakili spesies pohon tertentu dalam contoh tersebut) dan 35 0 (untuk mewakili 35 spesies pohon yang tidak dalam contoh tersebut). Jadi, representasi one-hot maple mungkin terlihat seperti berikut:

Vektor dengan posisi 0 hingga 23 menyimpan nilai 0, posisi
24 menyimpan nilai 1, dan posisi 25 hingga 35 menyimpan nilai 0.

Atau, representasi jarang hanya akan mengidentifikasi posisi spesies tertentu. Jika maple berada di posisi 24, representasi jarang maple akan menjadi:

Perhatikan bahwa representasi jarang jauh lebih ringkas daripada representasi one-hot.

Klik ikon untuk melihat contoh yang sedikit lebih kompleks.

Misalnya, setiap contoh dalam model Anda harus mewakili kata-kata—tetapi bukan urutan kata-kata tersebut—dalam kalimat bahasa Inggris. Bahasa Inggris terdiri dari sekitar 170.000 kata, sehingga bahasa Inggris adalah fitur kategoris dengan sekitar 170.000 elemen. Sebagian besar kalimat bahasa Inggris menggunakan sebagian kecil dari 170.000 kata tersebut, sehingga kumpulan kata dalam satu contoh hampir pasti akan menjadi data yang jarang.

Pertimbangkan kalimat berikut:

My dog is a great dog

Anda dapat menggunakan varian vektor one-hot untuk merepresentasikan kata-kata dalam kalimat ini. Dalam varian ini, beberapa sel dalam vektor dapat berisi nilai non-nol. Selain itu, dalam varian ini, sel dapat berisi bilangan bulat selain satu. Meskipun kata "my", "is", "a", dan "great" hanya muncul satu kali dalam kalimat, kata "dog" muncul dua kali. Menggunakan varian vektor one-hot ini untuk merepresentasikan kata-kata dalam kalimat ini akan menghasilkan vektor 170.000 elemen berikut:

Representasi jarang dari kalimat yang sama adalah:

Klik ikon tersebut jika Anda bingung.

Istilah "representasi jarang" membingungkan banyak orang karena representasi jarang itu sendiri bukan vektor jarang. Sebaliknya, representasi renggang sebenarnya adalah representasi padat dari vektor renggang. Sinonim representasi indeks sedikit lebih jelas daripada "representasi sparse".

Lihat Menggunakan data kategorik di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

vektor renggang

#fundamentals

Vektor yang sebagian besar nilainya adalah nol. Lihat juga fitur renggang dan renggang.

kerugian kuadrat

#fundamentals

#Metric

Sinonim dari Kerugian ₂.

static

#fundamentals

Sesuatu yang dilakukan satu kali, bukan secara terus-menerus. Istilah statis dan offline adalah sinonim. Berikut adalah penggunaan umum statis dan offline dalam pemelajaran mesin:

Model statis (atau model offline) adalah model yang dilatih satu kali, lalu digunakan untuk sementara waktu.
Pelatihan statis (atau pelatihan offline) adalah proses pelatihan model statis.
inferensi statis (atau inferensi offline) adalah proses saat model menghasilkan batch prediksi sekaligus.

Berbeda dengan dinamis.

inferensi statis

#fundamentals

Sinonim dari inferensi offline.

stasioneritas

#fundamentals

Fitur yang nilainya tidak berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, fitur yang nilainya terlihat hampir sama pada tahun 2021 dan 2023 menunjukkan stationaritas.

Di dunia nyata, sangat sedikit fitur yang menunjukkan stationaritas. Bahkan fitur yang identik dengan stabilitas (seperti permukaan laut) berubah seiring waktu.

Berbeda dengan non-stabilitas.

penurunan gradien stokastik (SGD)

#fundamentals

Algoritme penurunan gradien dengan ukuran batch satu. Dengan kata lain, SGD dilatih pada satu contoh yang dipilih secara seragam dan acak dari set pelatihan.

Lihat Regresi linear: Hiperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

supervised machine learning

#fundamentals

Melatih model dari fitur dan label yang sesuai. Supervised machine learning dianalogikan dengan mempelajari subjek dengan mempelajari serangkaian pertanyaan dan jawabannya yang sesuai. Setelah menguasai pemetaan antara pertanyaan dan jawaban, siswa dapat memberikan jawaban untuk pertanyaan baru (belum pernah dilihat) tentang topik yang sama.

Bandingkan dengan unsupervised machine learning.

Lihat Pembelajaran dengan Pengawasan dalam kursus Pengantar ML untuk mengetahui informasi selengkapnya.

fitur sintetis

#fundamentals

Fitur yang tidak ada di antara fitur input, tetapi dirakit dari satu atau beberapa fitur input. Metode untuk membuat fitur sintetis meliputi hal berikut:

Mengelompokkan fitur berkelanjutan ke dalam bin rentang.
Membuat persilangan fitur.
Mengalikan (atau membagi) satu nilai fitur dengan nilai fitur lainnya atau dengan nilai itu sendiri. Misalnya, jika a dan b adalah fitur input, berikut contoh fitur sintetis:
- ab
- a²
Menerapkan fungsi transendental ke nilai fitur. Misalnya, jika c adalah fitur input, berikut adalah contoh fitur sintetis:
- sin(c)
- ln(c)

Fitur yang dibuat dengan menormalisasi atau melakukan penskalaan saja tidak dianggap sebagai fitur sintetis.

T

kerugian pengujian

#fundamentals

#Metric

Metrik yang mewakili loss model terhadap set pengujian. Saat membuat model, Anda biasanya mencoba meminimalkan kerugian pengujian. Hal ini karena kerugian pengujian yang rendah adalah sinyal kualitas yang lebih kuat daripada kerugian pelatihan yang rendah atau kerugian validasi yang rendah.

Kesenjangan yang besar antara kerugian pengujian dan kerugian pelatihan atau kerugian validasi terkadang menunjukkan bahwa Anda perlu meningkatkan rasio regularisasi.

pelatihan

#fundamentals

Proses penentuan parameter ideal (bobot dan bias) yang membentuk model. Selama pelatihan, sistem membaca contoh dan secara bertahap menyesuaikan parameter. Pelatihan menggunakan setiap contoh dari beberapa kali hingga miliaran kali.

Lihat Pembelajaran dengan Pengawasan dalam kursus Pengantar ML untuk mengetahui informasi selengkapnya.

kerugian pelatihan

#fundamentals

#Metric

Metrik yang mewakili kerugian model selama iterasi pelatihan tertentu. Misalnya, anggap fungsi rugi adalah Mean Squared Error. Mungkin kerugian pelatihan (Mean Squared Error) untuk iterasi ke-10 adalah 2,2, dan kerugian pelatihan untuk iterasi ke-100 adalah 1,9.

Kurva kerugian memetakan kerugian pelatihan terhadap jumlah iterasi. Kurva kerugian memberikan petunjuk berikut tentang pelatihan:

Kemiringan menurun menyiratkan bahwa model tersebut meningkat.
Kemiringan ke atas menyiratkan bahwa model semakin buruk.
Kemiringan datar menyiratkan bahwa model telah mencapai konvergensi.

Misalnya, kurva kerugian yang agak ideal berikut menunjukkan:

Kemiringan menurun yang curam selama iterasi awal, yang menyiratkan peningkatan model yang cepat.
Kemiringan yang secara bertahap mendatar (tetapi masih menurun) hingga mendekati akhir pelatihan, yang menyiratkan peningkatan model yang berkelanjutan dengan kecepatan yang agak lebih lambat daripada selama iterasi awal.
Kemiringan datar menjelang akhir pelatihan, yang menunjukkan konvergensi.

Plot kerugian pelatihan versus iterasi. Kurva kerugian ini dimulai
dengan kemiringan menurun yang curam. Kemiringan secara bertahap menjadi datar hingga kemiringan menjadi nol.

Meskipun kerugian pelatihan penting, lihat juga generalisasi.

diferensiasi performa pelatihan dan penayangan

#fundamentals

Perbedaan antara performa model selama pelatihan dan performa model yang sama selama penayangan.

set pelatihan

#fundamentals

Subset dari set data yang digunakan untuk melatih model.

Secara tradisional, contoh dalam set data dibagi menjadi tiga subset berbeda berikut:

Idealnya, setiap contoh dalam set data hanya boleh berasal dari salah satu subkumpulan sebelumnya. Misalnya, satu contoh tidak boleh termasuk dalam set pelatihan dan set validasi.

Lihat Set data: Membagi set data asli di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

negatif benar (NB)

#fundamentals

#Metric

Contoh yang mana model dengan benar memprediksi kelas negatif. Misalnya, model menyimpulkan bahwa pesan email tertentu bukan spam, dan pesan email tersebut benar-benar bukan spam.

positif benar (TP)

#fundamentals

#Metric

Contoh yang mana model dengan benar memprediksi kelas positif. Misalnya, model menyimpulkan bahwa pesan email tertentu adalah spam, dan pesan email tersebut memang spam.

rasio positif benar (TPR)

#fundamentals

#Metric

Sinonim dari recall. Definisinya yaitu:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Rasio positif benar adalah sumbu y dalam kurva ROC.

U

underfitting

#fundamentals

Menghasilkan model dengan kemampuan prediktif yang buruk karena model belum sepenuhnya menangkap kompleksitas data pelatihan. Banyak masalah yang dapat menyebabkan underfitting, termasuk:

Pelatihan pada kumpulan fitur yang salah.
Pelatihan untuk terlalu sedikit epoch atau pada kecepatan pembelajaran yang terlalu rendah.
Pelatihan dengan rasio regularisasi yang terlalu tinggi.
Menyediakan terlalu sedikit lapisan tersembunyi dalam jaringan neural dalam.

Lihat Overfitting di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

contoh tak berlabel

#fundamentals

Contoh yang berisi fitur, tetapi tidak ada label. Misalnya, tabel berikut menunjukkan tiga contoh tanpa label dari model penilaian rumah, masing-masing dengan tiga fitur, tetapi tidak ada nilai rumah:

Jumlah kamar	Jumlah kamar mandi	Usia rumah
3	2	15
2	1	72
4	2	34

Dalam machine learning dengan pengawasan, model dilatih pada contoh berlabel dan membuat prediksi pada contoh tanpa label.

Dalam pembelajaran semi-supervised dan unsupervised, contoh tak berlabel digunakan selama pelatihan.

Bandingkan contoh tanpa label dengan contoh berlabel.

unsupervised machine learning

#clustering

#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.

Penggunaan unsupervised machine learning yang paling umum adalah mengelompokkan data ke dalam beberapa kelompok contoh yang serupa. Misalnya, algoritma machine learning tanpa pengawasan dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input untuk algoritma machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Clustering dapat membantu jika label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, kluster dapat membantu manusia untuk lebih memahami data.

Berbeda dengan supervised machine learning.

Klik ikon untuk melihat catatan tambahan.

Contoh lain dari unsupervised machine learning adalah analisis komponen utama (PCA). Misalnya, penerapan PCA pada set data yang berupa isi dari jutaan keranjang belanja mungkin mengungkapkan bahwa keranjang belanja yang berisi lemon biasanya juga berisi antasida.

Lihat Apa yang dimaksud dengan Machine Learning? di kursus Pengantar ML untuk mengetahui informasi selengkapnya.

V

validasi

#fundamentals

Evaluasi awal kualitas model. Validasi memeriksa kualitas prediksi model terhadap set validasi.

Karena set validasi berbeda dengan set pelatihan, validasi membantu mencegah overfitting.

Anda dapat menganggap evaluasi model terhadap set validasi sebagai putaran pertama pengujian dan mengevaluasi model terhadap set pengujian sebagai putaran kedua pengujian.

kerugian validasi

#fundamentals

#Metric

Metrik yang mewakili kerugian model pada set validasi selama iterasi pelatihan tertentu.

Lihat juga kurva generalisasi.

set validasi

#fundamentals

Subset set data yang melakukan evaluasi awal terhadap model terlatih. Biasanya, Anda mengevaluasi model yang dilatih terhadap set validasi beberapa kali sebelum mengevaluasi model terhadap set pengujian.

Secara tradisional, Anda membagi contoh dalam set data menjadi tiga subset berbeda berikut:

Idealnya, setiap contoh dalam set data hanya boleh berasal dari salah satu subkumpulan sebelumnya. Misalnya, satu contoh tidak boleh termasuk dalam set pelatihan dan set validasi.

Lihat Set data: Membagi set data asli di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

W

bobot

#fundamentals

Nilai yang dikalikan model dengan nilai lain. Pelatihan adalah proses penentuan bobot ideal model; inferensi adalah proses penggunaan bobot yang dipelajari tersebut untuk membuat prediksi.

Klik ikon untuk melihat contoh bobot dalam model linear.

Bayangkan model linear dengan dua fitur. Misalkan pelatihan menentukan bobot berikut (dan bias):

Bias, b, memiliki nilai 2,2
Bobot, w₁ yang terkait dengan satu fitur adalah 1,5.
Bobot, w₂ yang terkait dengan fitur lain adalah 0,4.

Sekarang bayangkan contoh dengan nilai fitur berikut:

Nilai satu fitur, x₁, adalah 6.
Nilai fitur lainnya, x₂, adalah 10.

Model linear ini menggunakan formula berikut untuk menghasilkan prediksi, y':

$$y' = b + w_1x_1 + w_2x_2$$

Oleh karena itu, prediksinya adalah:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Jika bobot suatu fitur bernilai 0, fitur tersebut tidak akan berkontribusi pada model. Misalnya, jika w₁ adalah 0, nilai x₁ tidak relevan.

Lihat Regresi linear di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

jumlah tertimbang

#fundamentals

Jumlah semua nilai input yang relevan dikalikan dengan bobotnya yang sesuai. Misalnya, input yang relevan terdiri dari hal berikut:

nilai input	bobot input
2	-1,3
-1	0,6
3	0,4

Oleh karena itu, jumlah tertimbang adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Jumlah berbobot adalah argumen input ke fungsi aktivasi.

Z

Normalisasi skor Z

#fundamentals

Teknik penskalaan yang mengganti nilai fitur mentah dengan nilai floating point yang mewakili jumlah deviasi standar dari rata-rata fitur tersebut. Misalnya, pertimbangkan fitur yang rata-ratanya 800 dan deviasi standarnya 100. Tabel berikut menunjukkan cara normalisasi skor Z akan memetakan nilai mentah ke skor Z-nya:

Nilai mentah	Skor Z
800	0
950	+1,5
575	-2,25

Model machine learning kemudian dilatih pada skor Z untuk fitur tersebut, bukan pada nilai mentah.

Lihat Data numerik: Normalisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Glosarium Machine Learning: Dasar-Dasar ML Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

A

akurasi

Klik ikon untuk mengetahui detail tentang akurasi dan set data kelas tidak seimbang.

fungsi aktivasi

Klik ikon untuk melihat contoh.

kecerdasan buatan

AUC (Area di bawah kurva ROC)

Klik ikon untuk mempelajari hubungan antara AUC dan kurva ROC.

Klik ikon untuk mengetahui definisi AUC yang lebih formal.

B

propagasi mundur

batch

ukuran batch

bias (etika/keadilan)

bias (matematika) atau istilah bias

klasifikasi biner

pengelompokan

Klik ikon untuk melihat catatan tambahan.

C

data kategorik

class

model klasifikasi

nilai minimum klasifikasi

Klik ikon untuk melihat catatan tambahan.

pengklasifikasi

set data kelas tidak seimbang

pemangkasan

matriks konfusi

fitur berkelanjutan

konvergensi

D

DataFrame

kumpulan data atau set data (data set atau dataset)

model dalam

fitur padat

kedalaman

fitur diskret

dinamis

model dinamis

E

penghentian awal

Klik ikon untuk melihat catatan tambahan.

lapisan penyematan

epoch

contoh

F

negatif palsu (NP)

positif palsu (PP)

rasio positif palsu (FPR)

fitur

persilangan fitur

rekayasa fitur

Klik ikon untuk melihat catatan tambahan tentang TensorFlow.

set fitur

vektor fitur

feedback loop

G

generalisasi

Klik ikon untuk melihat catatan tambahan.

kurva generalisasi

penurunan gradien

kebenaran dasar

Klik ikon untuk melihat catatan tambahan.

H

lapisan tersembunyi

hyperparameter

I

terdistribusi secara independen dan identik (i.i.d)

inferensi

lapisan input

interpretabilitas

iterasi

L

Regularisasi L0

Klik ikon untuk melihat catatan tambahan.

Kerugian L1

Klik ikon untuk melihat matematika formal.

Regularisasi L1

Kerugian L2

Glosarium Machine Learning: Dasar-Dasar ML

Regularisasi L₀

Kerugian L₁

Regularisasi L₁

Kerugian L₂

Regularisasi L₂