Glosarium Machine Learning: Penguatan Penguatan

Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Halaman ini berisi istilah glosarium Penguatan Pembelajaran. Untuk semua istilah glosarium, klik di sini.

A

action

#rl

Dalam pembelajaran penguatan, mekanisme agen yang bertransisi di antara status lingkungan. Agen memilih tindakan dengan menggunakan kebijakan.

agen

#rl

Dalam pembelajaran penguatan, entity yang menggunakan kebijakan untuk memaksimalkan pengembalian yang diharapkan diperoleh dari transisi antara status dari lingkungan.

B

Persamaan Bellman

#rl

Dalam pembelajaran penguatan, identitas berikut terpenuhi oleh fungsi Q yang optimal:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algoritme Pembelajaran penguatan menerapkan identitas ini untuk membuat Q-learning melalui aturan pembaruan berikut:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Selain pembelajaran penguatan, persamaan Bellman memiliki penerapan pada pemrograman dinamis. Lihat entri Wikipedia untuk Persamaan Bellman.

C

kritikus

#rl

Sinonim dari Deep Q-Network.

D

Jaringan Q Dalam (DQN)

#rl

Dalam Q-learning, jaringan neural dalam yang memprediksi Q-functions.

Kritik adalah sinonim dari Deep Q-Network.

DQN

#rl

Singkatan dari Deep Q-Network.

E

lingkungan

#rl

Dalam pembelajaran penguatan, dunia yang berisi agen dan memungkinkan agen mengamati status dunia tersebut. Misalnya, dunia yang direpresentasikan dapat berupa game seperti catur, atau dunia fisik seperti labirin. Saat agen menerapkan tindakan ke lingkungan, lingkungan akan bertransisi antar-status.

episode

#rl

Dalam pembelajaran penguatan, setiap upaya berulang oleh agen untuk mempelajari lingkungan.

kebijakan terkait keserakahan epsilon

#rl

Dalam pembelajaran penguatan, kebijakan yang mengikuti kebijakan acak dengan probabilitas epsilon atau kebijakan keserakahan jika tidak memilikinya. Misalnya, jika epsilon bernilai 0,9, kebijakan tersebut akan mengikuti kebijakan acak sebanyak 90% dari waktu tersebut dan kebijakan yang paling umum dalam waktu 10%.

Melalui episode yang berurutan, algoritme akan mengurangi nilai epsilon untuk beralih dari mengikuti kebijakan acak ke mengikuti kebijakan yang umum. Dengan mengubah kebijakan, agen akan menjelajahi lingkungan secara acak terlebih dahulu, lalu mengeksploitasi hasil eksplorasi acak.

putar ulang pengalaman

#rl

Dalam pembelajaran penguatan, teknik DQN digunakan untuk mengurangi korelasi temporal dalam data pelatihan. Agen menyimpan transisi status dalam buffer replay, lalu mengambil sampel transisi dari buffer replay untuk membuat data pelatihan.

G

kebijakan serakah

#rl

Dalam pembelajaran penguatan, kebijakan yang selalu memilih tindakan dengan pengembalian tertinggi yang diharapkan.

M

Proses keputusan Markov (MDP)

#rl

Grafik yang menunjukkan model pengambilan keputusan tempat keputusan (atau tindakan) diambil untuk membuka urutan status dengan asumsi properti Markov berlaku. Dalam pembelajaran penguatan, transisi antar-status ini menampilkan reward numerik.

Properti Markov

#rl

Properti lingkungan tertentu, tempat transisi status sepenuhnya ditentukan oleh informasi implisit dalam status saat ini dan tindakan agen.

P

kebijakan

#rl

Dalam pembelajaran penguatan, pemetaan probabilistik agen dari status ke tindakan.

T

Fungsi Q

#rl

Dalam pembelajaran berbasis kekuatan, fungsi yang memprediksi pengembalian yang diharapkan dari mengambil tindakan dalam status, lalu mengikuti kebijakan tertentu.

Fungsi q juga dikenal sebagai fungsi nilai tindakan status.

Pembelajaran Kuartal-K

#rl

Dalam pembelajaran penguatan, algoritme yang memungkinkan agen untuk mempelajari fungsi Q yang optimal dari proses keputusan Markov dengan menerapkan persamaan Bellman. Proses keputusan Markov memodelkan lingkungan.

R

kebijakan acak

#rl

Dalam pembelajaran penguatan, kebijakan yang memilih tindakan secara acak.

pembelajaran penguatan (RL)

#rl

Jenis algoritme yang mempelajari kebijakan yang optimal, yang tujuannya adalah memaksimalkan return saat berinteraksi dengan lingkungan. Misalnya, reward akhir dari sebagian besar game adalah kemenangan. Sistem pembelajaran penguatan dapat menjadi ahli dalam memainkan game yang kompleks dengan mengevaluasi urutan gerakan game sebelumnya yang pada akhirnya menghasilkan kemenangan dan urutan yang pada akhirnya menyebabkan kerugian.

buffering pemutaran

#rl

Dalam algoritme seperti DQN, memori yang digunakan oleh agen untuk menyimpan transisi status untuk digunakan dalam replay pengalaman.

return

#rl

Dalam pembelajaran penguatan, dengan kebijakan tertentu dan status tertentu, pengembaliannya adalah jumlah dari semua reward yang diharapkan oleh agen untuk diterima saat mengikuti kebijakan dari status hingga akhir episode. Agen memperhitungkan sifat tertunda dari reward yang diharapkan dengan memberikan diskon pada reward sesuai dengan transisi status yang diperlukan untuk mendapatkan reward.

Oleh karena itu, jika faktor diskonnya adalah \(\gamma\), dan \(r_0, \ldots, r_{N}\) menunjukkan reward hingga akhir episode, maka perhitungan pengembaliannya adalah sebagai berikut:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

bonus

#rl

Dalam pembelajaran penguatan, hasil numerik dari pengambilan tindakan di status, seperti yang ditentukan oleh lingkungan.

S

status

#rl

Dalam pembelajaran penguatan, parameter value yang menjelaskan konfigurasi lingkungan saat ini, yang digunakan agent untuk memilih tindakan.

fungsi nilai tindakan status

#rl

Sinonim dari Fungsi Q.

T

Q-learning berbentuk tabel

#rl

Dalam pembelajaran penguatan, terapkan Q-learning dengan menggunakan tabel untuk menyimpan Q-functions untuk setiap kombinasi state dan action.

jaringan target

#rl

Dalam Deep Q-learning, jaringan neural yang merupakan perkiraan stabil dari jaringan neural utama, tempat jaringan neural utama mengimplementasikan Q-function atau policy. Kemudian, Anda dapat melatih jaringan utama pada nilai Q yang diprediksi oleh jaringan target. Oleh karena itu, Anda mencegah feedback loop yang terjadi saat jaringan utama melatih nilai Q yang diprediksi dengan sendirinya. Dengan menghindari masukan ini, stabilitas pelatihan akan meningkat.

kondisi penghentian

#rl

Dalam pembelajaran penguatan, kondisi yang menentukan kapan episode berakhir, seperti saat agen mencapai status tertentu atau melebihi jumlah ambang batas transisi status. Misalnya, dalam tic-tac-toe (disebut juga sebagai nned and crosses), sebuah episode akan berakhir saat pemain menandai tiga spasi berturut-turut atau saat semua spasi ditandai.

lintasan

#rl

Dalam pembelajaran penguatan, urutan tupel yang mewakili urutan transisi status dari agen, dengan setiap tuple sesuai dengan status, tindakan, reward, dan status berikutnya untuk transisi status tertentu.