Halaman ini diterjemahkan oleh Cloud Translation API.

Glosarium Machine Learning: Hutan Keputusan

Halaman ini berisi istilah glosarium Hutan Keputusan. Untuk semua istilah glosarium, klik di sini.

J

pengambilan sampel atribut

#df

Taktik untuk melatih hutan keputusan yang mana setiap pohon keputusan hanya mempertimbangkan subset acak dari fitur yang mungkin saat mempelajari kondisi. Umumnya, subset fitur yang berbeda diambil sampelnya untuk setiap node. Sebaliknya, saat melatih pohon keputusan tanpa pengambilan sampel atribut, semua fitur yang memungkinkan dipertimbangkan untuk setiap node.

kondisi rata sumbu

#df

Dalam hierarki keputusan, kondisi yang hanya melibatkan satu fitur. Misalnya, jika area adalah fitur, maka yang berikut adalah kondisi yang disejajarkan dengan sumbu:

area > 200

Berbeda dengan kondisi miring.

B

kantong

#df

Metode untuk melatih ansemble tempat setiap model konstituen dilatih pada subset acak dari contoh pelatihan yang diambil sampelnya dengan penggantian. Misalnya, hutan acak adalah kumpulan pohon keputusan yang dilatih dengan bag.

Istilah bagging adalah singkatan dari bootstrap aggregating.

kondisi biner

#df

Dalam hierarki keputusan, kondisi yang hanya memiliki dua kemungkinan hasil, biasanya yes atau no. Misalnya, berikut ini adalah kondisi biner:

temperature >= 100

Berbeda dengan kondisi non-biner.

C

kondisi

#df

Pada hierarki keputusan, setiap node yang mengevaluasi ekspresi. Misalnya, bagian pohon keputusan berikut berisi dua kondisi:

Pohon keputusan yang terdiri dari dua kondisi: (x > 0) dan (y > 0).

Kondisi juga disebut pemisahan atau pengujian.

Bandingkan kondisi dengan leaf.

Lihat juga:

kondisi biner
kondisi non-biner.
kondisi rata-rata sumbu
kondisi miring

D

{i>decision forest<i}

#df

Model yang dibuat dari beberapa pohon keputusan. Forest keputusan membuat prediksi dengan menggabungkan prediksi pohon keputusannya. Jenis forest keputusan yang populer mencakup forest acak dan pohon yang ditingkatkan gradien.

pohon keputusan (decision tree)

#df

Model supervised learning yang terdiri dari serangkaian conditions dan conditions yang disusun secara hierarkis. Misalnya, berikut ini adalah pohon keputusan:

Pohon keputusan yang terdiri dari empat kondisi yang disusun secara hierarkis, yang menghasilkan lima daun.

E

entropi

#df

Dalam teori informasi, deskripsi tentang distribusi probabilitas yang tidak dapat diprediksi. Atau, entropi juga didefinisikan sebagai jumlah informasi yang terdapat dalam setiap contoh. Distribusi memiliki entropi tertinggi yang memungkinkan jika semua nilai variabel acak memiliki kemungkinan yang sama.

Entropi kumpulan dengan dua kemungkinan nilai "0" dan "1" (misalnya, label dalam masalah klasifikasi biner) memiliki rumus berikut:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dalam hal ini:

H adalah entropi.
p adalah pecahan dari contoh "1".
q adalah pecahan dari contoh "0". Perhatikan bahwa q = (1 - p)
log umumnya log₂. Dalam hal ini, satuan entropinya adalah bit.

Misalnya, anggap saja hal berikut:

100 contoh berisi nilai "1"
300 contoh berisi nilai "0"

Oleh karena itu, nilai entropinya adalah:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bit per contoh

Set yang seimbang secara sempurna (misalnya, 200 “0” dan 200 “1”) akan memiliki entropi 1,0 bit per contoh. Saat set menjadi lebih tidak seimbang, entropinya bergerak menuju 0,0.

Dalam pohon keputusan, entropi membantu merumuskan perolehan informasi untuk membantu pemisah memilih kondisi selama pertumbuhan pohon keputusan klasifikasi.

Bandingkan entropi dengan:

kotoran gini
Fungsi kerugian entropi silang

Entropi sering disebut entropi Shannon.

F

tingkat kepentingan fitur

#df

Sinonim dari nilai penting variabel.

G

kotoran gini

#df

Metrik yang mirip dengan entropi. Pemisah menggunakan nilai yang berasal dari pengotoran gini atau entropi untuk menyusun kondisi untuk klasifikasi hierarki keputusan. Perolehan informasi berasal dari entropi. Tidak ada istilah padanan yang diterima secara universal untuk metrik yang berasal dari pengotoran gini; namun, metrik tanpa nama ini sama pentingnya dengan perolehan informasi.

Kotoran gini juga disebut indeks gini, atau cukup gini.

Klik ikon untuk detail matematika tentang pengotoran gini.

Kotoran gini adalah kemungkinan kesalahan klasifikasi data baru yang diambil dari distribusi yang sama. Kotoran gini dari kumpulan dengan dua kemungkinan nilai "0" dan "1" (misalnya, label dalam masalah klasifikasi biner) dihitung dari formula berikut:

I = 1 - (p² + q²) = 1 - (p² + (1–p)²)

dalam hal ini:

I adalah pengotoran gini.
p adalah pecahan dari contoh "1".
q adalah pecahan dari contoh "0". Perhatikan bahwa q = 1-p

Misalnya, perhatikan {i>dataset<i} berikut ini:

100 label (0,25 dari {i >dataset<i}) berisi nilai “1”
300 label (0,75 dari {i >dataset<i}) berisi nilai “0”

Oleh karena itu, pengotor gini adalah:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Akibatnya, label acak dari set data yang sama akan memiliki peluang 37,5% untuk salah diklasifikasikan, dan 62,5% untuk diklasifikasikan dengan benar.

Label yang seimbang secara sempurna (misalnya, 200 "0" dan 200 "1") akan memiliki pengotoran gini sebesar 0,5. Label tidak seimbang akan memiliki kotoran gini yang mendekati 0,0.

pohon yang didorong gradien (keputusan) (GBT)

#df

Jenis hutan keputusan tempat:

Pelatihan bergantung pada peningkatan gradien.
Model lemah adalah pohon keputusan.

peningkatan gradien

#df

Algoritma pelatihan di mana model lemah dilatih untuk secara iteratif meningkatkan kualitas (mengurangi kerugian) dari model yang kuat. Misalnya, model yang lemah dapat berupa model pohon keputusan kecil atau linear. Model kuat menjadi jumlah dari semua model lemah yang dilatih sebelumnya.

Dalam bentuk peningkatan gradien yang paling sederhana, pada setiap iterasi, model yang lemah dilatih untuk memprediksi gradien kerugian dari model yang kuat. Kemudian, output model yang kuat akan diperbarui dengan mengurangi gradien yang diprediksi, mirip dengan penurunan gradien.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dalam hal ini:

$F_{0}$ adalah model awal yang kuat.
$F_{i+1}$ adalah model kuat berikutnya.
$F_{i}$ adalah model terbaik saat ini.
$\xi$ adalah nilai antara 0,0 dan 1,0 yang disebut penyusutan, yang setara dengan kecepatan pembelajaran dalam penurunan gradien.
$f_{i}$ adalah model lemah yang dilatih untuk memprediksi gradien kerugian sebesar $F_{i}$.

Variasi modern peningkatan gradien juga menyertakan turunan kedua (Hessian) dari kerugian dalam komputasinya.

Pohon keputusan biasanya digunakan sebagai model yang lemah dalam peningkatan gradien. Lihat pohon yang ditingkatkan (keputusan) gradien.

I

jalur inferensi

#df

Dalam pohon keputusan, selama inferensi, rute yang contoh tertentu mengambil dari root ke kondisi lainnya, yang diakhiri dengan leaf. Misalnya, dalam pohon keputusan berikut, panah tebal menunjukkan jalur inferensi untuk contoh dengan nilai fitur berikut:

x = 7
y = 12
z = -3

Jalur inferensi dalam ilustrasi berikut berjalan melalui tiga kondisi sebelum mencapai leaf (Zeta).

Pohon keputusan yang terdiri dari empat kondisi dan lima daun.
Kondisi akarnya adalah (x > 0). Karena jawabannya adalah Ya, jalur inferensi berjalan dari root ke kondisi berikutnya (y > 0).
Karena jawabannya adalah Ya, jalur inferensi kemudian menuju ke kondisi berikutnya (z > 0). Karena jawabannya adalah Tidak, jalur inferensi akan berpindah ke node terminalnya, yang merupakan leaf (Zeta).

Tiga panah tebal menunjukkan jalur inferensi.

perolehan informasi

#df

Di hutan keputusan, perbedaan antara entropi node dan tertimbang (berdasarkan jumlah contoh) jumlah entropi node turunannya. Entropi node adalah entropi dari contoh dalam node tersebut.

Misalnya, perhatikan nilai entropi berikut:

entropi node induk = 0,6
entropi satu simpul turunan dengan 16 contoh yang relevan = 0,2
entropi simpul anak lain dengan 24 contoh yang relevan = 0,1

Jadi, 40% contoh berada di satu node turunan dan 60% berada di node turunan lainnya. Jadi:

jumlah entropi tertimbang node turunan = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Jadi, perolehan informasinya adalah:

perolehan informasi = entropi node induk - jumlah entropi bobot node turunan
perolehan informasi = 0,6 - 0,14 = 0,46

Sebagian besar pemisah berusaha membuat kondisi yang memaksimalkan perolehan informasi.

kondisi dalam set

#df

Pada hierarki keputusan, kondisi yang menguji keberadaan satu item dalam kumpulan item. Misalnya, berikut ini adalah kondisi in-set:

  house-style in [tudor, colonial, cape]

Selama inferensi, jika nilai feature gaya rumah adalah tudor atau colonial atau cape, kondisi ini bernilai Ya. Jika nilai fitur gaya rumah adalah sesuatu yang lain (misalnya, ranch), kondisi ini bernilai Tidak.

Kondisi dalam set biasanya menghasilkan pohon keputusan yang lebih efisien daripada kondisi yang menguji fitur yang dienkode one-hot.

L

daun

#df

Semua endpoint di hierarki keputusan. Tidak seperti kondisi, leaf tidak melakukan pengujian. Sebaliknya, leaf adalah prediksi yang memungkinkan. Sebuah leaf juga merupakan node terminal dari jalur inferensi.

Misalnya, pohon keputusan berikut berisi tiga daun:

Pohon keputusan dengan dua kondisi yang mengarah ke tiga daun.

N

node (pohon keputusan)

#df

Di pohon keputusan, kondisi atau leaf apa pun.

Pohon keputusan dengan dua kondisi dan tiga daun.

kondisi non-biner

#df

Kondisi yang berisi lebih dari dua kemungkinan hasil. Misalnya, kondisi non-biner berikut berisi tiga kemungkinan hasil:

Suatu kondisi (number_of_legs = ?) yang mengarah ke tiga kemungkinan hasil. Satu hasil (number_of_legs = 8) mengarah ke sebuah daun bernama spider. Hasil kedua (number_of_legs = 4) menghasilkan
daun bernama dog. Hasil ketiga (number_of_legs = 2) menghasilkan
daun bernama penguin.

O

kondisi miring

#df

Dalam hierarki keputusan, kondisi yang melibatkan lebih dari satu fitur. Misalnya, jika tinggi dan lebar adalah fitur, maka yang berikut adalah kondisi miring:

  height > width

Berbeda dengan kondisi rata sumbu.

evaluasi bawaan (evaluasi OOB)

#df

Mekanisme untuk mengevaluasi kualitas hutan keputusan dengan menguji setiap pohon keputusan berdasarkan contoh yang tidak digunakan selama pelatihan pohon keputusan tersebut. Misalnya, dalam diagram berikut, perhatikan bahwa sistem melatih setiap pohon keputusan pada sekitar dua pertiga contoh, lalu mengevaluasi sepertiga contoh lainnya.

Hutan keputusan yang terdiri dari tiga pohon keputusan.
Satu pohon keputusan dilatih pada dua pertiga dari contoh, lalu menggunakan sepertiga sisanya untuk evaluasi OOB.
Pohon keputusan kedua dilatih pada dua pertiga contoh yang berbeda
dari pohon keputusan sebelumnya, lalu
menggunakan sepertiga yang berbeda untuk evaluasi OOB dibandingkan
pohon keputusan sebelumnya.

Evaluasi bawaan adalah pendekatan konservatif dan efisien secara komputasi untuk mekanisme validasi silang. Dalam validasi silang, satu model dilatih untuk setiap putaran validasi silang (misalnya, 10 model dilatih dalam validasi silang 10 kali lipat). Dengan evaluasi OOB, satu model dilatih. Karena bagging menahan beberapa data dari setiap pohon selama pelatihan, evaluasi OOB dapat menggunakan data tersebut untuk memperkirakan validasi silang.

P

tingkat kepentingan variabel permutasi

#df

Jenis nilai penting variabel yang mengevaluasi peningkatan error prediksi model setelah mengubah nilai fitur. Nilai penting variabel permutasi adalah metrik yang tidak bergantung pada model.

R

hutan acak

#df

Ansambel pohon keputusan yang memungkinkan setiap pohon keputusan dilatih dengan derau acak tertentu, seperti bagging.

Forest acak adalah jenis forest pengambilan keputusan.

root

#df

Node awal (kondisi pertama) dalam hierarki keputusan. Berdasarkan konvensi, diagram menempatkan root di bagian atas pohon keputusan. Contoh:

Pohon keputusan dengan dua kondisi dan tiga daun. Kondisi
awal (x > 2) adalah root.

S

pengambilan sampel dengan penggantian

#df

Metode untuk memilih item dari sekumpulan item kandidat, yang mana item yang sama dapat dipilih beberapa kali. Frasa "dengan penggantian" berarti bahwa setelah setiap pilihan, item yang dipilih akan ditampilkan ke kumpulan item kandidat. Metode terbalik, pengambilan sampel tanpa penggantian, berarti bahwa item kandidat hanya dapat dipilih sekali.

Misalnya, perhatikan kumpulan buah berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Misalkan sistem memilih fig secara acak sebagai item pertama. Jika menggunakan pengambilan sampel dengan penggantian, sistem akan memilih item kedua dari kumpulan berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ya, itu sama dengan sebelumnya, sehingga sistem berpotensi memilih fig lagi.

Jika menggunakan pengambilan sampel tanpa penggantian, setelah diambil, sampel tidak dapat dipilih lagi. Misalnya, jika sistem memilih fig secara acak sebagai sampel pertama, fig tidak dapat dipilih lagi. Oleh karena itu, sistem memilih sampel kedua dari kumpulan (dikurangi) berikut:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Klik ikon untuk catatan tambahan.

Kata penggantian dalam pengambilan sampel dengan penggantian membingungkan banyak orang. Dalam bahasa Inggris, replacement berarti "substitusi". Namun, pengambilan sampel dengan penggantian sebenarnya menggunakan definisi bahasa Prancis untuk penggantian, yang berarti "memasukkan kembali sesuatu".

Kata bahasa Inggris replacement diterjemahkan sebagai kata Prancis remplacement.

penyusutan

#df

Hyperparameter dalam peningkatan gradien yang mengontrol overfitting. Penyusutan dalam peningkatan gradien serupa dengan kecepatan pembelajaran dalam penurunan gradien. Penyusutan adalah nilai desimal antara 0,0 dan 1,0. Nilai penyusutan yang lebih rendah akan mengurangi overfitting lebih dari nilai penyusutan yang lebih besar.

bagian

#df

Dalam hierarki keputusan, nama lain untuk kondisi.

pemisah

#df

Saat melatih pohon keputusan, rutinitas (dan algoritma) bertanggung jawab untuk menemukan kondisi terbaik di setiap node.

T

tes

#df

Dalam hierarki keputusan, nama lain untuk kondisi.

ambang batas (untuk pohon keputusan)

#df

Dalam kondisi rata sumbu, nilai yang dibandingkan dengan fitur. Misalnya, 75 adalah nilai batas dalam kondisi berikut:

grade >= 75

V

tingkat kepentingan variabel

#df

Kumpulan skor yang menunjukkan kepentingan relatif setiap fitur terhadap model.

Misalnya, pertimbangkan pohon keputusan yang memperkirakan harga rumah. Misalkan pohon keputusan ini menggunakan tiga fitur: ukuran, usia, dan gaya. Jika serangkaian nilai penting variabel untuk ketiga fitur tersebut dihitung {size=5.8, age=2.5, style=4.7}, maka ukuran lebih penting bagi pohon keputusan daripada usia atau gaya.

Terdapat metrik tingkat kepentingan variabel yang berbeda, yang dapat memberi tahu pakar ML tentang berbagai aspek model.

W

hikmah dari banyak orang

#df

Gagasan bahwa menghitung rata-rata pendapat atau estimasi dari sekelompok besar orang ("orang banyak") sering kali memberikan hasil yang sangat baik. Misalnya, pertimbangkan game yang mengharuskan orang menebak jumlah kacang jeli yang dimasukkan ke dalam stoples besar. Meskipun sebagian besar perkiraan tidak akurat, rata-rata semua tebakan telah terbukti secara mengejutkan mendekati jumlah biji jeli yang sebenarnya di dalam stoples.

Ensembles adalah software yang merupakan analogi dari kebijakan orang banyak. Meskipun setiap model membuat prediksi yang sangat tidak akurat, menghitung rata-rata prediksi banyak model sering kali menghasilkan prediksi yang sangat bagus. Misalnya, meskipun pohon keputusan individu mungkin membuat prediksi yang buruk, hutan keputusan sering kali membuat prediksi yang sangat baik.