Glosarium Machine Learning: Hutan Keputusan

Halaman ini berisi istilah glosarium Decision Forest. Untuk semua istilah glosarium, klik di sini.

J

pengambilan sampel atribut

#df

Taktik untuk melatih hutan keputusan di mana setiap pohon keputusan hanya mempertimbangkan subset acak dari fitur yang mungkin saat mempelajari kondisi. Umumnya, sampel fitur yang berbeda diambil untuk setiap node. Sebaliknya, saat melatih pohon keputusan tanpa pengambilan sampel atribut, semua fitur yang memungkinkan akan dipertimbangkan untuk setiap node.

kondisi diselaraskan dengan sumbu

#df

Dalam hierarki keputusan, kondisi yang hanya melibatkan satu fitur. Misalnya, jika area adalah fitur, hal berikut adalah kondisi yang diselaraskan dengan sumbu:

area > 200

Berbeda dengan kondisi miring.

B

mengantongi

#df

Metode untuk melatih ansembel dengan setiap model konstituen dilatih pada subset acak contoh pelatihan diambil sampel dengan penggantian. Misalnya, hutan acak adalah kumpulan pohon keputusan yang dilatih dengan bagging.

Istilah bagging adalah singkatan dari bootstrap aggregating.

kondisi biner

#df

Pada hierarki keputusan, kondisi yang hanya memiliki dua kemungkinan hasil, biasanya yes atau no. Misalnya, berikut adalah kondisi biner:

temperature >= 100

Berbeda dengan kondisi non-biner.

C

kondisi

#df

Dalam hierarki keputusan, setiap node yang mengevaluasi ekspresi. Misalnya, bagian pohon keputusan berikut berisi dua kondisi:

Pohon keputusan yang terdiri dari dua kondisi: (x > 0) dan (y > 0).

Kondisi juga disebut pemisahan atau pengujian.

Kondisi kontras dengan leaf.

Lihat juga:

D

{i>decision Forest<i}

#df

Model yang dibuat dari beberapa pohon keputusan. Forest keputusan membuat prediksi dengan menggabungkan prediksi pohon keputusannya. Jenis hutan keputusan yang populer mencakup hutan acak dan pohon yang ditingkatkan gradien.

pohon keputusan (decision tree)

#df

Model supervised learning yang terdiri dari sekumpulan conditions dan conditions yang disusun secara hierarkis. Misalnya, berikut adalah pohon keputusan:

Pohon keputusan yang terdiri dari empat kondisi yang disusun secara hierarkis, menghasilkan lima daun.

E

entropi

#df

Dalam teori informasi, deskripsi tentang seberapa tidak terduganya distribusi probabilitas. Atau, entropi juga didefinisikan sebagai jumlah informasi yang dimuat oleh setiap contoh. Distribusi memiliki entropi tertinggi jika semua nilai variabel acak memiliki kemungkinan yang sama.

Entropi kumpulan dengan dua kemungkinan nilai "0" dan "1" (misalnya, label dalam masalah klasifikasi biner) memiliki rumus berikut:

  H = -p log p - log q q = -p log p - (1-p) * log (1-p)

dalam hal ini:

  • H adalah entropi.
  • p adalah pecahan dari contoh "1".
  • q adalah pecahan dari contoh "0". Perhatikan bahwa q = (1 - p)
  • log umumnya adalah log2. Dalam hal ini, satuan entropinya adalah bit.

Misalnya, anggap saja hal berikut:

  • 100 contoh berisi nilai "1"
  • 300 contoh berisi nilai "0"

Oleh karena itu, nilai entropinya adalah:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per contoh

Kumpulan yang seimbang secara sempurna (misalnya, 200 "0" dan 200 "1") akan memiliki entropi 1,0 bit per contoh. Saat kumpulan menjadi lebih tidak seimbang, entropinya bergerak menuju 0,0.

Pada hierarki keputusan, entropi membantu merumuskan pendapat informasi untuk membantu pemisah memilih kondisi selama pertumbuhan pohon keputusan klasifikasi.

Bandingkan entropi dengan:

Entropi sering disebut sebagai entropi Shannon.

F

tingkat kepentingan fitur

#df

Sinonim dari nilai penting variabel.

G

kotoran gini

#df

Metrik yang mirip dengan entropi. Pemisah menggunakan nilai yang berasal dari pengotor atau entropi gini untuk menyusun kondisi untuk hierarki keputusan. Perolehan informasi berasal dari entropi. Tidak ada istilah setara yang dapat diterima secara universal untuk metrik yang berasal dari pengotoran gini; namun, metrik tanpa nama ini sama pentingnya dengan perolehan informasi.

Kotoran gini juga disebut indeks gini, atau cukup gini.

pohon peningkatan gradien (keputusan) (GBT)

#df

Jenis hutan keputusan di mana:

peningkatan gradien

#df

Algoritme pelatihan di mana model yang lemah dilatih untuk secara iteratif meningkatkan kualitas (mengurangi kerugian) dari model yang kuat. Misalnya, model lemah dapat berupa model pohon keputusan kecil atau linear. Model kuat menjadi jumlah dari semua model lemah yang dilatih sebelumnya.

Dalam bentuk peningkatan gradien yang paling sederhana, pada setiap iterasi, model yang lemah dilatih untuk memprediksi gradien kehilangan dari model yang kuat. Kemudian, output model yang kuat akan diperbarui dengan mengurangi gradien yang diprediksi, mirip dengan penurunan gradien.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dalam hal ini:

  • $F_{0}$ adalah model awal yang kuat.
  • $F_{i+1}$ adalah model kuat berikutnya.
  • $F_{i}$ adalah model kuat saat ini.
  • $\xi$ adalah nilai antara 0,0 dan 1,0 yang disebut penyingkatan, yang setara dengan kecepatan pembelajaran dalam penurunan gradien.
  • $f_{i}$ adalah model lemah yang dilatih untuk memprediksi gradien kerugian sebesar $F_{i}$.

Variasi modern dari peningkatan gradien juga menyertakan turunan kedua (Hessian) dari kerugian dalam komputasinya.

Pohon keputusan biasanya digunakan sebagai model yang lemah dalam peningkatan gradien. Lihat hierarki yang ditingkatkan (keputusan) gradien.

I

jalur inferensi

#df

Dalam hierarki keputusan, selama inferensi, rute contoh tertentu diambil dari root ke kondisi lainnya, yang diakhiri dengan leaf. Misalnya, pada pohon keputusan berikut, panah lebih tebal menunjukkan jalur inferensi untuk contoh dengan nilai fitur berikut:

  • x = 7
  • y = 12
  • z = -3

Jalur inferensi dalam ilustrasi berikut melewati tiga kondisi sebelum mencapai leaf (Zeta).

Pohon keputusan yang terdiri dari empat kondisi dan lima daun.
          Kondisi akarnya adalah (x > 0). Karena jawabannya adalah Ya, jalur inferensi berpindah dari root ke kondisi berikutnya (y > 0).
          Karena jawabannya adalah Ya, jalur inferensi kemudian menuju ke kondisi berikutnya (z > 0). Karena jawabannya adalah Tidak, jalur inferensi bergerak ke node terminalnya, yang merupakan leaf (Zeta).

Tiga panah tebal menunjukkan jalur inferensi.

perolehan informasi

#df

Di hutan keputusan, perbedaan antara entropi node dan bobot (berdasarkan jumlah contoh) jumlah entropi node turunannya. Entropi node adalah entropi contoh di node tersebut.

Misalnya, pertimbangkan nilai entropi berikut:

  • entropi node induk = 0,6
  • entropi satu node turunan dengan 16 contoh yang relevan = 0,2
  • entropi node turunan lain dengan 24 contoh yang relevan = 0,1

Jadi, 40% contoh berada di satu node turunan dan 60% berada di node turunan lainnya. Jadi:

  • jumlah entropi bobot node turunan = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Jadi, perolehan informasinya adalah:

  • perolehan informasi = entropi node induk - jumlah entropi bobot node turunan
  • penguatan informasi = 0,6 - 0,14 = 0,46

Sebagian besar pemisah mencari kondisi yang memaksimalkan perolehan informasi.

kondisi dalam set

#df

Dalam hierarki keputusan, kondisi yang menguji keberadaan satu item dalam kumpulan item. Misalnya, berikut ini adalah kondisi dalam set:

  house-style in [tudor, colonial, cape]

Selama inferensi, jika nilai feature gaya rumah adalah tudor atau colonial atau cape, kondisi ini akan bernilai Ya. Jika nilai fitur gaya rumah adalah sesuatu yang lain (misalnya, ranch), kondisi ini bernilai Tidak.

Kondisi dalam set biasanya menghasilkan pohon keputusan yang lebih efisien daripada kondisi yang menguji fitur enkode one-hot.

L

daun

#df

Setiap endpoint di hierarki keputusan. Tidak seperti kondisi, leaf tidak melakukan pengujian. Sebaliknya, leaf adalah kemungkinan prediksi. Daun juga merupakan node terminal dari jalur inferensi.

Misalnya, pohon keputusan berikut berisi tiga daun:

Pohon keputusan dengan dua kondisi yang mengarah ke tiga daun.

N

node (pohon keputusan)

#df

Dalam hierarki keputusan, setiap condition atau leaf.

Pohon keputusan dengan dua kondisi dan tiga daun.

kondisi non-biner

#df

Kondisi yang berisi lebih dari dua kemungkinan hasil. Misalnya, kondisi non-biner berikut berisi tiga kemungkinan hasil:

Suatu kondisi (number_of_legs = ?) yang mengarah pada tiga kemungkinan
          hasil. Satu hasil (number_of_legs = 8) mengarah ke daun bernama laba-laba. Hasil kedua (number_of_legs = 4) mengarah ke
          daun bernama dog. Hasil ketiga (number_of_legs = 2) mengarah ke
          daun bernama penguin.

O

kondisi miring

#df

Dalam hierarki keputusan, kondisi yang melibatkan lebih dari satu fitur. Misalnya, jika tinggi dan lebar adalah fitur, maka yang berikut adalah kondisi miring:

  height > width

Berbeda dengan kondisi diselaraskan dengan sumbu.

evaluasi {i>out-of-bag<i} (evaluasi OB)

#df

Mekanisme untuk mengevaluasi kualitas hutan keputusan dengan menguji setiap pohon keputusan berdasarkan contoh yang tidak digunakan selama pelatihan dari pohon keputusan tersebut. Misalnya, dalam diagram berikut, perhatikan bahwa sistem melatih setiap pohon keputusan pada sekitar dua pertiga contoh, lalu mengevaluasi sepertiga contoh lainnya.

Hutan keputusan yang terdiri dari tiga pohon keputusan.
          Satu pohon keputusan melatih dua per tiga contoh,
          lalu menggunakan sepertiga sisanya untuk evaluasi OOB.
          Pohon keputusan kedua dilatih pada dua per tiga
          contoh yang berbeda dari pohon keputusan sebelumnya, lalu
          menggunakan sepertiga yang berbeda untuk evaluasi OOB dibandingkan
          pohon keputusan sebelumnya.

Evaluasi out-of-bag adalah perkiraan yang efisien secara komputasi dan konservatif dari mekanisme validasi silang. Dalam validasi silang, satu model dilatih untuk setiap putaran validasi silang (misalnya, 10 model dilatih dalam validasi silang 10 kali lipat). Dengan evaluasi OOB, satu model dilatih. Karena bagging menahan beberapa data dari setiap hierarki selama pelatihan, evaluasi OOB dapat menggunakan data tersebut untuk memperkirakan validasi silang.

P

nilai penting variabel permutasi

#df

Jenis nilai penting variabel yang mengevaluasi peningkatan error prediksi model setelah mengubah nilai fitur. Nilai penting variabel permutasi adalah metrik agnostik model.

R

hutan acak

#df

Ansambel pohon keputusan yang mana setiap pohon keputusan dilatih dengan derau acak tertentu, seperti bagging.

Forest acak adalah jenis forisi keputusan.

root

#df

Node awal (kondisi pertama) dalam hierarki keputusan. Berdasarkan konvensi, diagram menempatkan akar di bagian teratas pohon keputusan. Contoh:

Pohon keputusan dengan dua kondisi dan tiga daun. Kondisi awal (x > 2) adalah root.

S

pengambilan sampel dengan penggantian

#df

Metode memilih item dari kumpulan item kandidat, tempat item yang sama dapat dipilih beberapa kali. Frasa "dengan penggantian" berarti bahwa setelah setiap pemilihan, item yang dipilih akan ditampilkan ke kumpulan item kandidat. Metode kebalikannya, pengambilan sampel tanpa penggantian, berarti item kandidat hanya dapat diambil sekali.

Misalnya, perhatikan kumpulan buah berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Misalkan sistem memilih fig secara acak sebagai item pertama. Jika menggunakan sampling dengan penggantian, sistem akan memilih item kedua dari set berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ya, kumpulan itu sama seperti sebelumnya, sehingga sistem berpotensi memilih fig lagi.

Jika menggunakan sampling tanpa penggantian, sampel tidak dapat dipilih lagi setelah diambil. Misalnya, jika sistem secara acak memilih fig sebagai sampel pertama, fig tidak dapat dipilih lagi. Oleh karena itu, sistem mengambil sampel kedua dari kumpulan (dikurangi) berikut:

fruit = {kiwi, apple, pear, cherry, lime, mango}

penyusutan

#df

Hyperparameter dalam peningkatan gradien yang mengontrol overfit. Penyusutan dalam peningkatan gradien sama dengan kecepatan pembelajaran dalam penurunan gradien. Penyusutan adalah nilai desimal antara 0,0 dan 1,0. Nilai penyusutan yang lebih rendah akan mengurangi overfit lebih dari nilai penyusutan yang lebih besar.

bagian

#df

Dalam hierarki keputusan, nama lain untuk kondisi.

pemisah

#df

Saat melatih hierarki keputusan, rutinitas (dan algoritma) bertanggung jawab untuk menemukan kondisi terbaik di setiap node.

T

tes

#df

Dalam hierarki keputusan, nama lain untuk kondisi.

ambang batas (untuk pohon keputusan)

#df

Dalam kondisi diselaraskan sumbu, nilai yang dibandingkan dengan fitur. Misalnya, 75 adalah nilai batas dalam kondisi berikut:

grade >= 75

V

nilai penting variabel

#df

Kumpulan skor yang menunjukkan tingkat kepentingan relatif dari setiap fitur terhadap model.

Misalnya, pertimbangkan pohon keputusan yang memperkirakan harga rumah. Misalkan pohon keputusan ini menggunakan tiga fitur: ukuran, usia, dan gaya. Jika serangkaian nilai penting variabel untuk ketiga fitur tersebut dihitung sebagai {size=5.8, age=2.5, style=4.7}, maka ukuran lebih penting untuk pohon keputusan daripada usia atau gaya.

Terdapat metrik tingkat kepentingan variabel yang berbeda, yang dapat memberi tahu pakar ML tentang berbagai aspek model.

W

kebijaksanaan dari kerumunan orang banyak

#df

Gagasan bahwa menghitung rata-rata opini atau estimasi dari sekelompok besar orang ("masyarakat") sering kali memberikan hasil yang sangat bagus. Misalnya, pertimbangkan game yang memungkinkan orang menebak jumlah biji jeli yang dikemas dalam stoples besar. Meskipun sebagian besar perkiraan individu akan tidak akurat, rata-rata semua tebakan telah terbukti secara empiris mendekati jumlah kacang jeli yang sebenarnya dalam stoples.

Ensembles adalah software yang mewakili kebijaksanaan kebanyakan orang. Bahkan jika setiap model membuat prediksi yang sangat tidak akurat, rata-rata prediksi banyak model sering kali menghasilkan prediksi yang ternyata sangat bagus. Misalnya, meskipun pohon keputusan tertentu dapat membuat prediksi yang buruk, hutan keputusan sering kali menghasilkan prediksi yang sangat baik.