หน้านี้มีคําศัพท์ในอภิธานศัพท์เกี่ยวกับการเรียนรู้เชิงส่งเสริม สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่
ก
การดำเนินการ
ในการเรียนรู้แบบเสริมกําลัง กลไกที่ตัวแทน สลับไปมาระหว่างสถานะของสภาพแวดล้อม ตัวแทนจะเลือกการดําเนินการโดยใช้นโยบาย
ตัวแทน
ในการเสริมการเรียนรู้ เอนทิตีที่ใช้นโยบายเพื่อเพิ่มผลตอบแทนที่คาดหวังไว้สูงสุดจาก การเปลี่ยนระหว่างรัฐของสภาพแวดล้อม
ข
สมการ Bellman
ในการเรียนรู้แบบส่งเสริม อัตลักษณ์ต่อไปนี้จะสอดคล้องกับ ฟังก์ชัน Qที่เหมาะสมที่สุด
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
อัลกอริทึมการเรียนรู้แบบเสริมกําลังใช้ข้อมูลระบุตัวตนนี้เพื่อสร้าง Q-learning โดยใช้กฎการอัปเดตต่อไปนี้
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
นอกเหนือจากการเรียนรู้เสริมแล้ว สมการ Bellman ยังมีแอปพลิเคชันในการเขียนโปรแกรมแบบไดนามิกอีกด้วย ดู ผลงานของ Wikipedia เกี่ยวกับ Bellman Equation
ค
นักวิจารณ์
คําพ้องสําหรับ De- Q-Network
ง
เครือข่ายเชิงลึก (DQN)
ในการเรียนรู้ผ่านระบบ โครงข่ายระบบประสาทเชิงลึกจะคาดการณ์ฟังก์ชันถามตอบ
Critic เป็นคําพ้องความหมายของ Deep Q-Network
DQN
ตัวย่อของ De-Q Network
จ
สภาพแวดล้อม
ในการเรียนรู้เสริม โลกที่มีตัวแทน และช่วยให้ตัวแทนสังเกตสถานะของโลกได้ ตัวอย่างเช่น โลกตัวแทนอาจเป็นเกม เช่น หมากรุก หรือโลกทางกายภาพ เช่น เขาวงกต เมื่อ Agent ใช้การดําเนินการกับสภาพแวดล้อม ระบบจะเปลี่ยนสภาพแวดล้อมระหว่างสถานะต่างๆ
ตอน
ในการเรียนรู้แบบเสริมแรง แต่ละครั้งที่ agent พยายามเรียนรู้สภาพแวดล้อม
นโยบายความโล่งของเอปซิออน
ในการเรียนรู้แบบเพิ่มประสิทธิภาพ ให้อ่านนโยบายที่เป็นไปตามนโยบายแบบสุ่มเกี่ยวกับความน่าจะเป็นของ epsilon หรือนโยบายความคลุมเครือ เช่น หาก epsilon เท่ากับ 0.9 นโยบายจะสุ่มใช้นโยบาย 90% ของเวลาและนโยบายความโลภ 10% ของเวลาทั้งหมด
ตอนต่างๆ ที่ต่อเนื่องกัน อัลกอริทึมจะลดค่าของ epsilon เพื่อเปลี่ยนจากการปฏิบัติตามนโยบายแบบสุ่มไปเป็นการปฏิบัติตามนโยบายความโลภ หากเปลี่ยนนโยบาย ตัวแทนจะสุ่มสํารวจสภาพแวดล้อมก่อน จากนั้นจึงค่อยๆ ใช้ประโยชน์จากผลการสํารวจแบบสุ่ม
ประสบการณ์การเล่นซ้ํา
ในการเรียนรู้แบบเพิ่มประสิทธิภาพ เทคนิค DQN ที่ใช้เพื่อลดความสัมพันธ์ชั่วคราวในข้อมูลการฝึกอบรม ตัวแทนจะจัดเก็บการเปลี่ยนแปลงของสถานะในบัฟเฟอร์การเล่นซ้ํา จากนั้นตัวอย่างการเปลี่ยนแปลงจากบัฟเฟอร์การเล่นซ้ําเพื่อสร้างข้อมูลการฝึก
G
นโยบายความโลภ
ในการเรียนรู้แบบเพิ่มประสิทธิภาพ จะมีนโยบายที่เลือกการดําเนินการที่มีผลตอบแทนสูงสุดเสมอ
M
ขั้นตอนการตัดสินใจของ Markov (MDP)
กราฟที่แทนโมเดลการตัดสินใจซึ่งมีการใช้การตัดสินใจ (หรือการกระทํา) เพื่อไปยังสถานะตามลําดับ โดยมีสมมติฐานว่าพร็อพเพอร์ตี้ Markov มีการระงับ ในการเสริมการเรียนรู้ การเปลี่ยนระหว่างสถานะเหล่านี้จะส่งคืนรางวัลเป็นตัวเลข
พร็อพเพอร์ตี้ของ Markov
พร็อพเพอร์ตี้ของสภาพแวดล้อมบางรายการที่การเปลี่ยนสถานะจะกําหนดโดยข้อมูลโดยนัยในสถานะปัจจุบันและการดําเนินการของตัวแทน
P
policy
ในการเรียนรู้แบบเสริม การแมปความน่าจะเป็นของตัวแทนจากรัฐไปยังการดําเนินการ
Q
ฟังก์ชัน Q
ในการเสริมการเรียนรู้ ฟังก์ชันที่คาดคะเนการส่งคืนที่คาดหวังจากการรับการดําเนินการในสถานะ แล้วทําตามนโยบายนั้นๆ
ฟังก์ชัน Q เรียกอีกอย่างว่าฟังก์ชันค่าการทํางานรัฐ
Q-learning
ในการเรียนรู้แบบเสริมกําลัง อัลกอริทึมที่ช่วยให้ตัวแทน ได้เรียนรู้ฟังก์ชัน Q ที่เหมาะสมที่สุดของ กระบวนการตัดสินใจของ Markov โดยใช้ สมการ Bellman กระบวนการตัดสินใจของ Markov เป็นแบบอย่าง สภาพแวดล้อม
ขวา
นโยบายแบบสุ่ม
ในการเสริมการเรียนรู้ ระบบจะกําหนดนโยบายที่เลือกการดําเนินการแบบสุ่ม
การเรียนรู้เชิงส่งเสริมการเรียนรู้ (RL)
กลุ่มของอัลกอริทึมที่มีการเรียนรู้เกี่ยวกับนโยบายที่เหมาะสม ซึ่งมีเป้าหมายเพื่อเพิ่มผลตอบแทนให้ได้สูงสุดเมื่อโต้ตอบกับสภาพแวดล้อม ตัวอย่างเช่น รางวัลสูงสุดของเกมส่วนใหญ่คือชัยชนะ ระบบการเรียนรู้ที่สนับสนุนสามารถกลายเป็นผู้เชี่ยวชาญในการเล่นเกมที่ซับซ้อนได้ด้วยการประเมินลําดับการย้ายเกมก่อนหน้านี้ซึ่งนําไปสู่การแพ้และลําดับในท้ายที่สุด ซึ่งนําไปสู่การสูญเสียในที่สุด
การเรียนรู้แบบเสริมแรงจากมนุษย์ (RLHF)
การใช้ความคิดเห็นจากเจ้าหน้าที่ตรวจสอบเพื่อปรับปรุงคุณภาพของคําตอบของโมเดล เช่น กลไก RLHF ขอให้ผู้ใช้ให้คะแนนคุณภาพของการตอบกลับด้วยอีโมจิ 👍 หรือ 👎 แล้วระบบจะสามารถปรับเปลี่ยนคําตอบในอนาคต โดยอิงจากความคิดเห็นนั้นได้
บัฟเฟอร์การเล่นซ้ํา
ในอัลกอริทึมที่คล้ายกับ DQN หน่วยความจําที่ Agent ใช้ในการจัดเก็บการเปลี่ยนสถานะเพื่อใช้ในการเล่นซ้ําประสบการณ์
รีเทิร์น
ในการเรียนรู้เสริม ตามนโยบายที่กําหนดและสถานะหนึ่งๆ ผลตอบแทนจะเป็นผลรวมของรางวัลทั้งหมดที่ agent คาดว่าจะได้รับเมื่อทําตามนโยบายจากสถานะจนถึงจุดสิ้นสุดของ ตอน ตัวแทนจะชะลอของรางวัลที่คาดหมายไว้ด้วยการมอบรางวัลส่วนลดตามการเปลี่ยนแปลงรัฐที่ต้องใช้ในการรับรางวัล
ดังนั้น หากปัจจัยส่วนลดคือ \(\gamma\)และ \(r_0, \ldots, r_{N}\) แสดงถึงรางวัลจนกว่าจะจบตอน การคํานวณการคืนสินค้าจะเป็นดังนี้
รางวัล
ในการเรียนรู้แบบเสริม ผลลัพธ์เป็นตัวเลขของการดําเนินการในรัฐตามที่กําหนดโดยสภาพแวดล้อม
S
รัฐ
ในการเรียนรู้แบบเพิ่มประสิทธิภาพ ค่าพารามิเตอร์ที่อธิบายการกําหนดค่าปัจจุบันของสภาพแวดล้อม ซึ่ง agent ใช้เพื่อเลือกใช้ action
ฟังก์ชันค่าสถานะการดําเนินการ
คําพ้องสําหรับ Q-function
T
Q-learning แบบตาราง
ในการสนับสนุนการเรียนรู้ ให้ติดตั้งใช้งาน Q-learning โดยใช้ตารางจัดเก็บฟังก์ชัน Q สําหรับรัฐและการดําเนินการทั้งหมด
เครือข่ายเป้าหมาย
ใน De-Q-learning ซึ่งเป็นโครงข่ายระบบประสาทเทียมที่เสถียรแบบโครงข่ายระบบประสาทเทียมหลัก ที่โครงข่ายระบบประสาทเทียมหลักจะใช้ฟังก์ชัน Q หรือนโยบาย จากนั้น คุณจะสามารถฝึกเครือข่ายหลักกับค่า Q ที่เครือข่ายเป้าหมายคาดการณ์ไว้ ดังนั้น คุณจึงป้องกันไม่ให้เกิดลูปความคิดเห็นที่เกิดขึ้นเมื่อเครือข่ายหลัก ฝึกความรู้เกี่ยวกับค่า Q ที่คาดการณ์ไว้ การหลีกเลี่ยงความคิดเห็นนี้ ทําให้ความเสถียรเพิ่มขึ้น
เงื่อนไขการยกเลิก
ในการเสริมการเรียนรู้ เงื่อนไขที่กําหนดว่าตอนจะสิ้นสุดลงหรือไม่ เช่น เมื่อตัวแทนถึงสถานะหนึ่งๆ หรือมีจํานวนเกินเกณฑ์การเปลี่ยนรัฐ ตัวอย่างเช่น ใน tic-tac-toe (หรือที่เรียกว่า nens หรือ crosses) ระบบจะจบตอนเมื่อผู้เล่นทําเครื่องหมายติดกัน 3 วรรคหรือเมื่อทุก Space มีการทําเครื่องหมาย
วิถี
ในการเพิ่มประสิทธิภาพการเรียนรู้ ลําดับของเป้าหมายที่แสดงลําดับของการเปลี่ยนสถานะของตัวแทน โดยที่แต่ละค่าสอดคล้องกับรัฐ การดําเนินการ รางวัล และสถานะถัดไปสําหรับการเปลี่ยนสถานะนั้นๆ