อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง: การเรียนรู้เสริม

หน้านี้มีคําศัพท์ในอภิธานศัพท์เกี่ยวกับการเรียนรู้เชิงส่งเสริม สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่

การดำเนินการ

#rl

ในการเรียนรู้แบบเสริมกําลัง กลไกที่ตัวแทน สลับไปมาระหว่างสถานะของสภาพแวดล้อม ตัวแทนจะเลือกการดําเนินการโดยใช้นโยบาย

ตัวแทน

#rl

ในการเสริมการเรียนรู้ เอนทิตีที่ใช้นโยบายเพื่อเพิ่มผลตอบแทนที่คาดหวังไว้สูงสุดจาก การเปลี่ยนระหว่างรัฐของสภาพแวดล้อม

สมการ Bellman

#rl

ในการเรียนรู้แบบส่งเสริม อัตลักษณ์ต่อไปนี้จะสอดคล้องกับ ฟังก์ชัน Qที่เหมาะสมที่สุด

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

อัลกอริทึมการเรียนรู้แบบเสริมกําลังใช้ข้อมูลระบุตัวตนนี้เพื่อสร้าง Q-learning โดยใช้กฎการอัปเดตต่อไปนี้

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

นอกเหนือจากการเรียนรู้เสริมแล้ว สมการ Bellman ยังมีแอปพลิเคชันในการเขียนโปรแกรมแบบไดนามิกอีกด้วย ดู ผลงานของ Wikipedia เกี่ยวกับ Bellman Equation

นักวิจารณ์

#rl

คําพ้องสําหรับ De- Q-Network

เครือข่ายเชิงลึก (DQN)

#rl

ในการเรียนรู้ผ่านระบบ โครงข่ายระบบประสาทเชิงลึกจะคาดการณ์ฟังก์ชันถามตอบ

Critic เป็นคําพ้องความหมายของ Deep Q-Network

DQN

#rl

ตัวย่อของ De-Q Network

สภาพแวดล้อม

#rl

ในการเรียนรู้เสริม โลกที่มีตัวแทน และช่วยให้ตัวแทนสังเกตสถานะของโลกได้ ตัวอย่างเช่น โลกตัวแทนอาจเป็นเกม เช่น หมากรุก หรือโลกทางกายภาพ เช่น เขาวงกต เมื่อ Agent ใช้การดําเนินการกับสภาพแวดล้อม ระบบจะเปลี่ยนสภาพแวดล้อมระหว่างสถานะต่างๆ

ตอน

#rl

ในการเรียนรู้แบบเสริมแรง แต่ละครั้งที่ agent พยายามเรียนรู้สภาพแวดล้อม

นโยบายความโล่งของเอปซิออน

#rl

ในการเรียนรู้แบบเพิ่มประสิทธิภาพ ให้อ่านนโยบายที่เป็นไปตามนโยบายแบบสุ่มเกี่ยวกับความน่าจะเป็นของ epsilon หรือนโยบายความคลุมเครือ เช่น หาก epsilon เท่ากับ 0.9 นโยบายจะสุ่มใช้นโยบาย 90% ของเวลาและนโยบายความโลภ 10% ของเวลาทั้งหมด

ตอนต่างๆ ที่ต่อเนื่องกัน อัลกอริทึมจะลดค่าของ epsilon เพื่อเปลี่ยนจากการปฏิบัติตามนโยบายแบบสุ่มไปเป็นการปฏิบัติตามนโยบายความโลภ หากเปลี่ยนนโยบาย ตัวแทนจะสุ่มสํารวจสภาพแวดล้อมก่อน จากนั้นจึงค่อยๆ ใช้ประโยชน์จากผลการสํารวจแบบสุ่ม

ประสบการณ์การเล่นซ้ํา

#rl

ในการเรียนรู้แบบเพิ่มประสิทธิภาพ เทคนิค DQN ที่ใช้เพื่อลดความสัมพันธ์ชั่วคราวในข้อมูลการฝึกอบรม ตัวแทนจะจัดเก็บการเปลี่ยนแปลงของสถานะในบัฟเฟอร์การเล่นซ้ํา จากนั้นตัวอย่างการเปลี่ยนแปลงจากบัฟเฟอร์การเล่นซ้ําเพื่อสร้างข้อมูลการฝึก

G

นโยบายความโลภ

#rl

ในการเรียนรู้แบบเพิ่มประสิทธิภาพ จะมีนโยบายที่เลือกการดําเนินการที่มีผลตอบแทนสูงสุดเสมอ

M

ขั้นตอนการตัดสินใจของ Markov (MDP)

#rl

กราฟที่แทนโมเดลการตัดสินใจซึ่งมีการใช้การตัดสินใจ (หรือการกระทํา) เพื่อไปยังสถานะตามลําดับ โดยมีสมมติฐานว่าพร็อพเพอร์ตี้ Markov มีการระงับ ในการเสริมการเรียนรู้ การเปลี่ยนระหว่างสถานะเหล่านี้จะส่งคืนรางวัลเป็นตัวเลข

พร็อพเพอร์ตี้ของ Markov

#rl

พร็อพเพอร์ตี้ของสภาพแวดล้อมบางรายการที่การเปลี่ยนสถานะจะกําหนดโดยข้อมูลโดยนัยในสถานะปัจจุบันและการดําเนินการของตัวแทน

P

policy

#rl

ในการเรียนรู้แบบเสริม การแมปความน่าจะเป็นของตัวแทนจากรัฐไปยังการดําเนินการ

Q

ฟังก์ชัน Q

#rl

ในการเสริมการเรียนรู้ ฟังก์ชันที่คาดคะเนการส่งคืนที่คาดหวังจากการรับการดําเนินการในสถานะ แล้วทําตามนโยบายนั้นๆ

ฟังก์ชัน Q เรียกอีกอย่างว่าฟังก์ชันค่าการทํางานรัฐ

Q-learning

#rl

ในการเรียนรู้แบบเสริมกําลัง อัลกอริทึมที่ช่วยให้ตัวแทน ได้เรียนรู้ฟังก์ชัน Q ที่เหมาะสมที่สุดของ กระบวนการตัดสินใจของ Markov โดยใช้ สมการ Bellman กระบวนการตัดสินใจของ Markov เป็นแบบอย่าง สภาพแวดล้อม

ขวา

นโยบายแบบสุ่ม

#rl

ในการเสริมการเรียนรู้ ระบบจะกําหนดนโยบายที่เลือกการดําเนินการแบบสุ่ม

การเรียนรู้เชิงส่งเสริมการเรียนรู้ (RL)

#rl

กลุ่มของอัลกอริทึมที่มีการเรียนรู้เกี่ยวกับนโยบายที่เหมาะสม ซึ่งมีเป้าหมายเพื่อเพิ่มผลตอบแทนให้ได้สูงสุดเมื่อโต้ตอบกับสภาพแวดล้อม ตัวอย่างเช่น รางวัลสูงสุดของเกมส่วนใหญ่คือชัยชนะ ระบบการเรียนรู้ที่สนับสนุนสามารถกลายเป็นผู้เชี่ยวชาญในการเล่นเกมที่ซับซ้อนได้ด้วยการประเมินลําดับการย้ายเกมก่อนหน้านี้ซึ่งนําไปสู่การแพ้และลําดับในท้ายที่สุด ซึ่งนําไปสู่การสูญเสียในที่สุด

การเรียนรู้แบบเสริมแรงจากมนุษย์ (RLHF)

#สร้างด้วย AI
#rl

การใช้ความคิดเห็นจากเจ้าหน้าที่ตรวจสอบเพื่อปรับปรุงคุณภาพของคําตอบของโมเดล เช่น กลไก RLHF ขอให้ผู้ใช้ให้คะแนนคุณภาพของการตอบกลับด้วยอีโมจิ 👍 หรือ 👎 แล้วระบบจะสามารถปรับเปลี่ยนคําตอบในอนาคต โดยอิงจากความคิดเห็นนั้นได้

บัฟเฟอร์การเล่นซ้ํา

#rl

ในอัลกอริทึมที่คล้ายกับ DQN หน่วยความจําที่ Agent ใช้ในการจัดเก็บการเปลี่ยนสถานะเพื่อใช้ในการเล่นซ้ําประสบการณ์

รีเทิร์น

#rl

ในการเรียนรู้เสริม ตามนโยบายที่กําหนดและสถานะหนึ่งๆ ผลตอบแทนจะเป็นผลรวมของรางวัลทั้งหมดที่ agent คาดว่าจะได้รับเมื่อทําตามนโยบายจากสถานะจนถึงจุดสิ้นสุดของ ตอน ตัวแทนจะชะลอของรางวัลที่คาดหมายไว้ด้วยการมอบรางวัลส่วนลดตามการเปลี่ยนแปลงรัฐที่ต้องใช้ในการรับรางวัล

ดังนั้น หากปัจจัยส่วนลดคือ \(\gamma\)และ \(r_0, \ldots, r_{N}\) แสดงถึงรางวัลจนกว่าจะจบตอน การคํานวณการคืนสินค้าจะเป็นดังนี้

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

รางวัล

#rl

ในการเรียนรู้แบบเสริม ผลลัพธ์เป็นตัวเลขของการดําเนินการในรัฐตามที่กําหนดโดยสภาพแวดล้อม

S

รัฐ

#rl

ในการเรียนรู้แบบเพิ่มประสิทธิภาพ ค่าพารามิเตอร์ที่อธิบายการกําหนดค่าปัจจุบันของสภาพแวดล้อม ซึ่ง agent ใช้เพื่อเลือกใช้ action

ฟังก์ชันค่าสถานะการดําเนินการ

#rl

คําพ้องสําหรับ Q-function

T

Q-learning แบบตาราง

#rl

ในการสนับสนุนการเรียนรู้ ให้ติดตั้งใช้งาน Q-learning โดยใช้ตารางจัดเก็บฟังก์ชัน Q สําหรับรัฐและการดําเนินการทั้งหมด

เครือข่ายเป้าหมาย

#rl

ใน De-Q-learning ซึ่งเป็นโครงข่ายระบบประสาทเทียมที่เสถียรแบบโครงข่ายระบบประสาทเทียมหลัก ที่โครงข่ายระบบประสาทเทียมหลักจะใช้ฟังก์ชัน Q หรือนโยบาย จากนั้น คุณจะสามารถฝึกเครือข่ายหลักกับค่า Q ที่เครือข่ายเป้าหมายคาดการณ์ไว้ ดังนั้น คุณจึงป้องกันไม่ให้เกิดลูปความคิดเห็นที่เกิดขึ้นเมื่อเครือข่ายหลัก ฝึกความรู้เกี่ยวกับค่า Q ที่คาดการณ์ไว้ การหลีกเลี่ยงความคิดเห็นนี้ ทําให้ความเสถียรเพิ่มขึ้น

เงื่อนไขการยกเลิก

#rl

ในการเสริมการเรียนรู้ เงื่อนไขที่กําหนดว่าตอนจะสิ้นสุดลงหรือไม่ เช่น เมื่อตัวแทนถึงสถานะหนึ่งๆ หรือมีจํานวนเกินเกณฑ์การเปลี่ยนรัฐ ตัวอย่างเช่น ใน tic-tac-toe (หรือที่เรียกว่า nens หรือ crosses) ระบบจะจบตอนเมื่อผู้เล่นทําเครื่องหมายติดกัน 3 วรรคหรือเมื่อทุก Space มีการทําเครื่องหมาย

วิถี

#rl

ในการเพิ่มประสิทธิภาพการเรียนรู้ ลําดับของเป้าหมายที่แสดงลําดับของการเปลี่ยนสถานะของตัวแทน โดยที่แต่ละค่าสอดคล้องกับรัฐ การดําเนินการ รางวัล และสถานะถัดไปสําหรับการเปลี่ยนสถานะนั้นๆ