Halaman ini berisi istilah glosarium Decision Forest. Untuk semua istilah glosarium, klik di sini.
J
pengambilan sampel atribut
Taktik untuk melatih hutan keputusan di mana setiap pohon keputusan hanya mempertimbangkan subset acak dari fitur yang mungkin saat mempelajari kondisi. Umumnya, sampel fitur yang berbeda diambil untuk setiap node. Sebaliknya, saat melatih pohon keputusan tanpa pengambilan sampel atribut, semua fitur yang memungkinkan akan dipertimbangkan untuk setiap node.
kondisi diselaraskan dengan sumbu
Dalam hierarki keputusan, kondisi yang hanya melibatkan satu fitur. Misalnya, jika area adalah fitur, hal berikut adalah kondisi yang diselaraskan dengan sumbu:
area > 200
Berbeda dengan kondisi miring.
B
mengantongi
Metode untuk melatih ansembel dengan setiap model konstituen dilatih pada subset acak contoh pelatihan diambil sampel dengan penggantian. Misalnya, hutan acak adalah kumpulan pohon keputusan yang dilatih dengan bagging.
Istilah bagging adalah singkatan dari bootstrap aggregating.
kondisi biner
Pada hierarki keputusan, kondisi yang hanya memiliki dua kemungkinan hasil, biasanya yes atau no. Misalnya, berikut adalah kondisi biner:
temperature >= 100
Berbeda dengan kondisi non-biner.
C
kondisi
Dalam hierarki keputusan, setiap node yang mengevaluasi ekspresi. Misalnya, bagian pohon keputusan berikut berisi dua kondisi:
Kondisi juga disebut pemisahan atau pengujian.
Kondisi kontras dengan leaf.
Lihat juga:
D
{i>decision Forest<i}
Model yang dibuat dari beberapa pohon keputusan. Forest keputusan membuat prediksi dengan menggabungkan prediksi pohon keputusannya. Jenis hutan keputusan yang populer mencakup hutan acak dan pohon yang ditingkatkan gradien.
pohon keputusan (decision tree)
Model supervised learning yang terdiri dari sekumpulan conditions dan conditions yang disusun secara hierarkis. Misalnya, berikut adalah pohon keputusan:
E
entropi
Dalam teori informasi, deskripsi tentang seberapa tidak terduganya distribusi probabilitas. Atau, entropi juga didefinisikan sebagai jumlah informasi yang dimuat oleh setiap contoh. Distribusi memiliki entropi tertinggi jika semua nilai variabel acak memiliki kemungkinan yang sama.
Entropi kumpulan dengan dua kemungkinan nilai "0" dan "1" (misalnya, label dalam masalah klasifikasi biner) memiliki rumus berikut:
H = -p log p - log q q = -p log p - (1-p) * log (1-p)
dalam hal ini:
- H adalah entropi.
- p adalah pecahan dari contoh "1".
- q adalah pecahan dari contoh "0". Perhatikan bahwa q = (1 - p)
- log umumnya adalah log2. Dalam hal ini, satuan entropinya adalah bit.
Misalnya, anggap saja hal berikut:
- 100 contoh berisi nilai "1"
- 300 contoh berisi nilai "0"
Oleh karena itu, nilai entropinya adalah:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per contoh
Kumpulan yang seimbang secara sempurna (misalnya, 200 "0" dan 200 "1") akan memiliki entropi 1,0 bit per contoh. Saat kumpulan menjadi lebih tidak seimbang, entropinya bergerak menuju 0,0.
Pada hierarki keputusan, entropi membantu merumuskan pendapat informasi untuk membantu pemisah memilih kondisi selama pertumbuhan pohon keputusan klasifikasi.
Bandingkan entropi dengan:
- kotoran gini
- Fungsi kerugian entropi silang
Entropi sering disebut sebagai entropi Shannon.
F
tingkat kepentingan fitur
Sinonim dari nilai penting variabel.
G
kotoran gini
Metrik yang mirip dengan entropi. Pemisah menggunakan nilai yang berasal dari pengotor atau entropi gini untuk menyusun kondisi untuk hierarki keputusan. Perolehan informasi berasal dari entropi. Tidak ada istilah setara yang dapat diterima secara universal untuk metrik yang berasal dari pengotoran gini; namun, metrik tanpa nama ini sama pentingnya dengan perolehan informasi.
Kotoran gini juga disebut indeks gini, atau cukup gini.
pohon peningkatan gradien (keputusan) (GBT)
Jenis hutan keputusan di mana:
- Pelatihan bergantung pada peningkatan gradien.
- Model yang lemah adalah hierarki keputusan.
peningkatan gradien
Algoritme pelatihan di mana model yang lemah dilatih untuk secara iteratif meningkatkan kualitas (mengurangi kerugian) dari model yang kuat. Misalnya, model lemah dapat berupa model pohon keputusan kecil atau linear. Model kuat menjadi jumlah dari semua model lemah yang dilatih sebelumnya.
Dalam bentuk peningkatan gradien yang paling sederhana, pada setiap iterasi, model yang lemah dilatih untuk memprediksi gradien kehilangan dari model yang kuat. Kemudian, output model yang kuat akan diperbarui dengan mengurangi gradien yang diprediksi, mirip dengan penurunan gradien.
dalam hal ini:
- $F_{0}$ adalah model awal yang kuat.
- $F_{i+1}$ adalah model kuat berikutnya.
- $F_{i}$ adalah model kuat saat ini.
- $\xi$ adalah nilai antara 0,0 dan 1,0 yang disebut penyingkatan, yang setara dengan kecepatan pembelajaran dalam penurunan gradien.
- $f_{i}$ adalah model lemah yang dilatih untuk memprediksi gradien kerugian sebesar $F_{i}$.
Variasi modern dari peningkatan gradien juga menyertakan turunan kedua (Hessian) dari kerugian dalam komputasinya.
Pohon keputusan biasanya digunakan sebagai model yang lemah dalam peningkatan gradien. Lihat hierarki yang ditingkatkan (keputusan) gradien.
I
jalur inferensi
Dalam hierarki keputusan, selama inferensi, rute contoh tertentu diambil dari root ke kondisi lainnya, yang diakhiri dengan leaf. Misalnya, pada pohon keputusan berikut, panah lebih tebal menunjukkan jalur inferensi untuk contoh dengan nilai fitur berikut:
- x = 7
- y = 12
- z = -3
Jalur inferensi dalam ilustrasi berikut melewati tiga
kondisi sebelum mencapai leaf (Zeta
).
Tiga panah tebal menunjukkan jalur inferensi.
perolehan informasi
Di hutan keputusan, perbedaan antara entropi node dan bobot (berdasarkan jumlah contoh) jumlah entropi node turunannya. Entropi node adalah entropi contoh di node tersebut.
Misalnya, pertimbangkan nilai entropi berikut:
- entropi node induk = 0,6
- entropi satu node turunan dengan 16 contoh yang relevan = 0,2
- entropi node turunan lain dengan 24 contoh yang relevan = 0,1
Jadi, 40% contoh berada di satu node turunan dan 60% berada di node turunan lainnya. Jadi:
- jumlah entropi bobot node turunan = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Jadi, perolehan informasinya adalah:
- perolehan informasi = entropi node induk - jumlah entropi bobot node turunan
- penguatan informasi = 0,6 - 0,14 = 0,46
Sebagian besar pemisah mencari kondisi yang memaksimalkan perolehan informasi.
kondisi dalam set
Dalam hierarki keputusan, kondisi yang menguji keberadaan satu item dalam kumpulan item. Misalnya, berikut ini adalah kondisi dalam set:
house-style in [tudor, colonial, cape]
Selama inferensi, jika nilai feature gaya rumah adalah tudor
atau colonial
atau cape
, kondisi ini akan bernilai Ya. Jika nilai fitur gaya rumah adalah sesuatu yang lain (misalnya, ranch
), kondisi ini bernilai Tidak.
Kondisi dalam set biasanya menghasilkan pohon keputusan yang lebih efisien daripada kondisi yang menguji fitur enkode one-hot.
L
daun
Setiap endpoint di hierarki keputusan. Tidak seperti kondisi, leaf tidak melakukan pengujian. Sebaliknya, leaf adalah kemungkinan prediksi. Daun juga merupakan node terminal dari jalur inferensi.
Misalnya, pohon keputusan berikut berisi tiga daun:
N
node (pohon keputusan)
Dalam hierarki keputusan, setiap condition atau leaf.
kondisi non-biner
Kondisi yang berisi lebih dari dua kemungkinan hasil. Misalnya, kondisi non-biner berikut berisi tiga kemungkinan hasil:
O
kondisi miring
Dalam hierarki keputusan, kondisi yang melibatkan lebih dari satu fitur. Misalnya, jika tinggi dan lebar adalah fitur, maka yang berikut adalah kondisi miring:
height > width
Berbeda dengan kondisi diselaraskan dengan sumbu.
evaluasi {i>out-of-bag<i} (evaluasi OB)
Mekanisme untuk mengevaluasi kualitas hutan keputusan dengan menguji setiap pohon keputusan berdasarkan contoh yang tidak digunakan selama pelatihan dari pohon keputusan tersebut. Misalnya, dalam diagram berikut, perhatikan bahwa sistem melatih setiap pohon keputusan pada sekitar dua pertiga contoh, lalu mengevaluasi sepertiga contoh lainnya.
Evaluasi out-of-bag adalah perkiraan yang efisien secara komputasi dan konservatif dari mekanisme validasi silang. Dalam validasi silang, satu model dilatih untuk setiap putaran validasi silang (misalnya, 10 model dilatih dalam validasi silang 10 kali lipat). Dengan evaluasi OOB, satu model dilatih. Karena bagging menahan beberapa data dari setiap hierarki selama pelatihan, evaluasi OOB dapat menggunakan data tersebut untuk memperkirakan validasi silang.
P
nilai penting variabel permutasi
Jenis nilai penting variabel yang mengevaluasi peningkatan error prediksi model setelah mengubah nilai fitur. Nilai penting variabel permutasi adalah metrik agnostik model.
R
hutan acak
Ansambel pohon keputusan yang mana setiap pohon keputusan dilatih dengan derau acak tertentu, seperti bagging.
Forest acak adalah jenis forisi keputusan.
root
Node awal (kondisi pertama) dalam hierarki keputusan. Berdasarkan konvensi, diagram menempatkan akar di bagian teratas pohon keputusan. Contoh:
S
pengambilan sampel dengan penggantian
Metode memilih item dari kumpulan item kandidat, tempat item yang sama dapat dipilih beberapa kali. Frasa "dengan penggantian" berarti bahwa setelah setiap pemilihan, item yang dipilih akan ditampilkan ke kumpulan item kandidat. Metode kebalikannya, pengambilan sampel tanpa penggantian, berarti item kandidat hanya dapat diambil sekali.
Misalnya, perhatikan kumpulan buah berikut:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Misalkan sistem memilih fig
secara acak sebagai item pertama.
Jika menggunakan sampling dengan penggantian, sistem akan memilih
item kedua dari set berikut:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Ya, kumpulan itu sama seperti sebelumnya, sehingga sistem berpotensi
memilih fig
lagi.
Jika menggunakan sampling tanpa penggantian, sampel tidak dapat
dipilih lagi setelah diambil. Misalnya, jika sistem secara acak memilih fig
sebagai
sampel pertama, fig
tidak dapat dipilih lagi. Oleh karena itu, sistem
mengambil sampel kedua dari kumpulan (dikurangi) berikut:
fruit = {kiwi, apple, pear, cherry, lime, mango}
penyusutan
Hyperparameter dalam peningkatan gradien yang mengontrol overfit. Penyusutan dalam peningkatan gradien sama dengan kecepatan pembelajaran dalam penurunan gradien. Penyusutan adalah nilai desimal antara 0,0 dan 1,0. Nilai penyusutan yang lebih rendah akan mengurangi overfit lebih dari nilai penyusutan yang lebih besar.
bagian
Dalam hierarki keputusan, nama lain untuk kondisi.
pemisah
Saat melatih hierarki keputusan, rutinitas (dan algoritma) bertanggung jawab untuk menemukan kondisi terbaik di setiap node.
T
tes
Dalam hierarki keputusan, nama lain untuk kondisi.
ambang batas (untuk pohon keputusan)
Dalam kondisi diselaraskan sumbu, nilai yang dibandingkan dengan fitur. Misalnya, 75 adalah nilai batas dalam kondisi berikut:
grade >= 75
V
nilai penting variabel
Kumpulan skor yang menunjukkan tingkat kepentingan relatif dari setiap fitur terhadap model.
Misalnya, pertimbangkan pohon keputusan yang memperkirakan harga rumah. Misalkan pohon keputusan ini menggunakan tiga fitur: ukuran, usia, dan gaya. Jika serangkaian nilai penting variabel untuk ketiga fitur tersebut dihitung sebagai {size=5.8, age=2.5, style=4.7}, maka ukuran lebih penting untuk pohon keputusan daripada usia atau gaya.
Terdapat metrik tingkat kepentingan variabel yang berbeda, yang dapat memberi tahu pakar ML tentang berbagai aspek model.
W
kebijaksanaan dari kerumunan orang banyak
Gagasan bahwa menghitung rata-rata opini atau estimasi dari sekelompok besar orang ("masyarakat") sering kali memberikan hasil yang sangat bagus. Misalnya, pertimbangkan game yang memungkinkan orang menebak jumlah biji jeli yang dikemas dalam stoples besar. Meskipun sebagian besar perkiraan individu akan tidak akurat, rata-rata semua tebakan telah terbukti secara empiris mendekati jumlah kacang jeli yang sebenarnya dalam stoples.
Ensembles adalah software yang mewakili kebijaksanaan kebanyakan orang. Bahkan jika setiap model membuat prediksi yang sangat tidak akurat, rata-rata prediksi banyak model sering kali menghasilkan prediksi yang ternyata sangat bagus. Misalnya, meskipun pohon keputusan tertentu dapat membuat prediksi yang buruk, hutan keputusan sering kali menghasilkan prediksi yang sangat baik.