อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง: การเรียนรู้เสริม

หน้านี้มีคําศัพท์ในอภิธานศัพท์เกี่ยวกับการเรียนรู้แบบเสริมกําลัง สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

การดำเนินการ

#rl

ในการเรียนรู้แบบเสริมกําลัง กลไกที่ตัวแทน สลับไปมาระหว่างรัฐของสภาพแวดล้อม ตัวแทนจะเลือกการดําเนินการโดยใช้นโยบาย

ตัวแทน

#rl

ในการเรียนเสริม เอนทิตีที่ใช้นโยบายเพื่อเพิ่มการคืนสินค้าที่คาดว่าจะได้รับจากการเปลี่ยนระหว่างรัฐของสภาพแวดล้อม

สมการ Bellman

#rl

ในการเรียนเสริม เอกลักษณ์ต่อไปนี้ตอบโจทย์โดยฟังก์ชัน Q

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

อัลกอริทึมการเรียนเสริมใช้ข้อมูลระบุตัวตนนี้เพื่อสร้าง Q-learning ผ่านกฎการอัปเดตต่อไปนี้

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

นอกเหนือจากการเรียนรู้แบบเสริมพลังแล้ว สมการ Bellman ยังมีแอปพลิเคชันในการเขียนโปรแกรมแบบไดนามิกอีกด้วย ดูรายการ Wikipedia สําหรับ Bellman Equation

นักวิจารณ์

#rl

คําพ้องความหมายสําหรับ Deep Q-Network

D

เครือข่าย Q-Deep (DQN)

#rl

ในQ-learning โครงข่ายระบบประสาทเทียมเชิงลึกซึ่งคาดการณ์ฟังก์ชัน Q

Critic คือคําพ้องความหมายสําหรับเครือข่าย Deep Q-Network

DQN

#rl

ตัวย่อของ De- Q-Network

จ.

สภาพแวดล้อม

#rl

ในการเรียนรู้เสริม โลกที่มีตัวแทน และทําให้ตัวแทนสังเกตได้รัฐในโลก เช่น โลกที่เราเป็นตัวแทนอาจเป็นเกมอย่างหมากรุก หรือโลกที่เหมือนเขาวงกต เมื่อ Agent ใช้การดําเนินการกับสภาพแวดล้อม ระบบจะเปลี่ยนสภาพแวดล้อมระหว่างสถานะต่างๆ

ตอน

#rl

ในการเรียนรู้เพื่อเน้นย้ํา ให้แต่ละ agent พยายามเรียนรู้สภาพแวดล้อมซ้ําๆ

นโยบาย epsilon greedy

#rl

ในการเรียนเสริม ให้ถือว่านโยบายที่เป็นไปตามนโยบายแบบสุ่มที่มีความน่าจะเป็นของเรื่องปกครองตนเองหรือนโยบายความโล่งเป็นอย่างอื่น เช่น หาก epsilon มีค่าเป็น 0.9 นโยบายจะเป็นไปตามนโยบายแบบสุ่ม 90% ของเวลาทั้งหมด และนโยบายความโลภ 10% ของเวลาทั้งหมด

ตลอดตอนต่างๆ ที่เกิดขึ้นต่อเนื่อง อัลกอริทึมจะลดคุณค่าของ epsilon เพื่อที่จะเปลี่ยนจากการทําตามนโยบายแบบสุ่มไปเป็นการปฏิบัติตามนโยบายความโลภ ด้วยการเปลี่ยนนโยบาย ตัวแทนจะสํารวจสภาพแวดล้อมอย่างสุ่มๆ ก่อน จากนั้นจึงค่อยๆ ใช้ประโยชน์จากผลการสํารวจแบบสุ่ม

การเล่นซ้ําด้วยประสบการณ์

#rl

ในการเรียนเสริม เทคนิค DQN ที่ใช้เพื่อลดความสัมพันธ์ชั่วคราวในข้อมูลการฝึกอบรม ตัวแทนจะจัดเก็บการเปลี่ยนสถานะในบัฟเฟอร์การเล่นซ้ํา จากนั้นตัวอย่างจากบัฟเฟอร์การเล่นซ้ําเพื่อสร้างข้อมูลการฝึก

G

นโยบายความโลภ

#rl

ในการส่งเสริมการเรียนรู้ นโยบายที่จะเลือกการดําเนินการที่มีการคืนสินค้าที่คาดไว้สูงสุดเสมอ

M

ขั้นตอนการตัดสินของ Markov (MDP)

#rl

กราฟที่แทนโมเดลการตัดสินใจซึ่งใช้ในการตัดสินใจ (หรือการกระทํา) เพื่อไปยังลําดับสถานะภายใต้สมมติฐานที่พร็อพเพอร์ตี้ Markov เก็บไว้ ในการเสริมกําลัง การเปลี่ยนเหล่านี้จะเกิดขึ้นระหว่าง เลขรางวัลที่เป็นตัวเลข

พร็อพเพอร์ตี้ Markov

#rl

พร็อพเพอร์ตี้ของสภาพแวดล้อมหนึ่งๆ ซึ่งการเปลี่ยนรัฐทั้งหมดจะเป็นไปตามข้อมูลโดยนัยในรัฐปัจจุบันและการดําเนินการของตัวแทน

P

นโยบาย

#rl

ในการเรียนรู้แบบเพิ่มประสิทธิภาพ การแมปแนวโน้มagent's จากรัฐไปยังการกระทํา

ฟังก์ชัน Q

#rl

ในการเรียนเสริม ฟังก์ชันที่คาดการณ์การคืนสินค้าที่คาดไว้จากการดําเนินการในรัฐ จากนั้นเป็นไปตามนโยบายที่ระบุ

ฟังก์ชัน Q หรือที่เรียกว่าฟังก์ชันค่าการกระทําของรัฐ

การเรียนรู้ทางไกล

#rl

ในการเรียนรู้แบบเสริมกําลัง อัลกอริทึมที่ช่วยให้ตัวแทน เรียนรู้ฟังก์ชัน Q ที่เหมาะสมของ กระบวนการตัดสินใจของ Markov โดยใช้ สมการ Bellman กระบวนการตัดสินใจของ Markov เป็นโมเดลสภาพแวดล้อม

R

นโยบายแบบสุ่ม

#rl

ในการเรียนรู้แบบเสริมกําลัง นโยบายที่เลือกการดําเนินการแบบสุ่ม

การเรียนรู้โดยใช้ทรัพยากรเสริม (RSA)

#rl

กลุ่มของอัลกอริทึมที่มีการเรียนรู้เกี่ยวกับนโยบายที่เหมาะสม ซึ่งมีเป้าหมายเพื่อเพิ่มผลตอบแทนให้สูงสุดเมื่อโต้ตอบกับสภาพแวดล้อม ตัวอย่างเช่น รางวัลใหญ่ที่สุดของเกมส่วนใหญ่คือชัยชนะ ระบบการเรียนรู้แบบฝึกทักษะอาจกลายเป็นผู้เชี่ยวชาญในการเล่นเกมที่ซับซ้อนโดยประเมินลําดับการย้ายเกมก่อนหน้าซึ่งจะนําไปสู่การชนะและลําดับในที่สุดจนแพ้

บัฟเฟอร์การเล่นซ้ํา

#rl

ในอัลกอริทึมที่คล้ายกับ DQN หน่วยความจําที่ Agent ใช้เก็บการเปลี่ยนสถานะเพื่อนําไปใช้ในการเล่นซ้ําประสบการณ์

คำสั่ง "return"

#rl

ในการเรียนรู้แบบเพิ่มประสิทธิภาพ นโยบายและรัฐหนึ่งๆ ชี้ให้เห็นว่าการคืนสินค้านี้คือผลรวมของรางวัลทั้งหมดซึ่งตัวแทนคาดว่าจะได้รับเมื่อทําตามนโยบายจากรัฐจนถึงตอน Agent จะคํานึงถึงความล่าช้าของรางวัลที่คาดหวังโดยการมอบส่วนลดตามการเปลี่ยนแปลงของสถานะที่จําเป็นในการรับรางวัล

ดังนั้น หากปัจจัยส่วนลดคือ \(\gamma\)และ \(r_0, \ldots, r_{N}\) แสดงถึงรางวัลได้จนกว่าจะสิ้นสุดตอน การคํานวณการคืนสินค้าจะเป็นดังนี้

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

รางวัล

#rl

ในการเรียนเสริม ผลของการใช้การดําเนินการในรัฐ ตามที่กําหนดไว้ในสภาพแวดล้อม

รัฐ

#rl

ในการเรียนเสริม ค่าพารามิเตอร์ที่อธิบายการกําหนดค่าปัจจุบันของสภาพแวดล้อม ซึ่ง agent ใช้เลือกaction

ฟังก์ชันค่าการกระทําของรัฐ

#rl

คําพ้องความหมายสําหรับฟังก์ชัน Q

การเรียนรู้เชิงตารางแบบตาราง

#rl

ในการเรียนเสริม การใช้การเรียนรู้ทางไกลโดยใช้ตารางสําหรับเก็บฟังก์ชัน Q สําหรับการรวมรัฐและการดําเนินการ

เครือข่ายเป้าหมาย

#rl

ใน De- Q-learning โครงข่ายระบบประสาทเทียมที่เป็นค่าโดยประมาณของโครงข่ายระบบประสาทหลัก ที่โครงข่ายระบบประสาทหลักใช้ฟังก์ชัน Q หรือนโยบาย จากนั้น คุณจะสามารถฝึกเครือข่ายหลักใน Q-Value ที่คาดการณ์ไว้โดยเครือข่ายเป้าหมาย ดังนั้น คุณจึงป้องกันลูปความคิดเห็นที่เกิดขึ้นเมื่อเครือข่ายหลักฝึกค่า Q ตามการคาดการณ์เอง หลีกเลี่ยงความคิดเห็นนี้ ทําให้ความเสถียรในการฝึกเพิ่มขึ้น

เงื่อนไขการสิ้นสุด

#rl

ในการเรียนรู้แบบเสริมกําลัง เงื่อนไขที่กําหนดเมื่อตอนสิ้นสุดลง เช่น เมื่อ Agent ถึงสถานะหนึ่งๆ หรือมีจํานวนเกินเกณฑ์การเปลี่ยนรัฐ ตัวอย่างเช่น ใน tic-tac-toe (หรือที่รู้จักกันในชื่อ N และ N Crosses) ตอนหนึ่งจะสิ้นสุดลงเมื่อผู้เล่นทําเครื่องหมายเว้นวรรคติดกัน 3 จุดหรือเมื่อเว้นวรรคทั้งหมด

วิถีกระสุน

#rl

ในการเรียนรู้แบบเสริมกําลัง ลําดับรอยต่อที่แสดงลําดับของการเปลี่ยนสถานะของตัวแทน โดยแต่ละ Tuple จะสัมพันธ์กับรัฐ การกระทํา รางวัล และรัฐถัดไปสําหรับการเปลี่ยนสู่สถานะที่ระบุ