หน้านี้มีคําศัพท์ในอภิธานศัพท์เกี่ยวกับการเรียนรู้แบบเสริมกําลัง สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่
A
การดำเนินการ
ในการเรียนรู้แบบเสริมกําลัง กลไกที่ตัวแทน สลับไปมาระหว่างรัฐของสภาพแวดล้อม ตัวแทนจะเลือกการดําเนินการโดยใช้นโยบาย
ตัวแทน
ในการเรียนเสริม เอนทิตีที่ใช้นโยบายเพื่อเพิ่มการคืนสินค้าที่คาดว่าจะได้รับจากการเปลี่ยนระหว่างรัฐของสภาพแวดล้อม
ข
สมการ Bellman
ในการเรียนเสริม เอกลักษณ์ต่อไปนี้ตอบโจทย์โดยฟังก์ชัน Q
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
อัลกอริทึมการเรียนเสริมใช้ข้อมูลระบุตัวตนนี้เพื่อสร้าง Q-learning ผ่านกฎการอัปเดตต่อไปนี้
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
นอกเหนือจากการเรียนรู้แบบเสริมพลังแล้ว สมการ Bellman ยังมีแอปพลิเคชันในการเขียนโปรแกรมแบบไดนามิกอีกด้วย ดูรายการ Wikipedia สําหรับ Bellman Equation
ค
นักวิจารณ์
คําพ้องความหมายสําหรับ Deep Q-Network
D
เครือข่าย Q-Deep (DQN)
ในQ-learning โครงข่ายระบบประสาทเทียมเชิงลึกซึ่งคาดการณ์ฟังก์ชัน Q
Critic คือคําพ้องความหมายสําหรับเครือข่าย Deep Q-Network
DQN
ตัวย่อของ De- Q-Network
จ.
สภาพแวดล้อม
ในการเรียนรู้เสริม โลกที่มีตัวแทน และทําให้ตัวแทนสังเกตได้รัฐในโลก เช่น โลกที่เราเป็นตัวแทนอาจเป็นเกมอย่างหมากรุก หรือโลกที่เหมือนเขาวงกต เมื่อ Agent ใช้การดําเนินการกับสภาพแวดล้อม ระบบจะเปลี่ยนสภาพแวดล้อมระหว่างสถานะต่างๆ
ตอน
ในการเรียนรู้เพื่อเน้นย้ํา ให้แต่ละ agent พยายามเรียนรู้สภาพแวดล้อมซ้ําๆ
นโยบาย epsilon greedy
ในการเรียนเสริม ให้ถือว่านโยบายที่เป็นไปตามนโยบายแบบสุ่มที่มีความน่าจะเป็นของเรื่องปกครองตนเองหรือนโยบายความโล่งเป็นอย่างอื่น เช่น หาก epsilon มีค่าเป็น 0.9 นโยบายจะเป็นไปตามนโยบายแบบสุ่ม 90% ของเวลาทั้งหมด และนโยบายความโลภ 10% ของเวลาทั้งหมด
ตลอดตอนต่างๆ ที่เกิดขึ้นต่อเนื่อง อัลกอริทึมจะลดคุณค่าของ epsilon เพื่อที่จะเปลี่ยนจากการทําตามนโยบายแบบสุ่มไปเป็นการปฏิบัติตามนโยบายความโลภ ด้วยการเปลี่ยนนโยบาย ตัวแทนจะสํารวจสภาพแวดล้อมอย่างสุ่มๆ ก่อน จากนั้นจึงค่อยๆ ใช้ประโยชน์จากผลการสํารวจแบบสุ่ม
การเล่นซ้ําด้วยประสบการณ์
ในการเรียนเสริม เทคนิค DQN ที่ใช้เพื่อลดความสัมพันธ์ชั่วคราวในข้อมูลการฝึกอบรม ตัวแทนจะจัดเก็บการเปลี่ยนสถานะในบัฟเฟอร์การเล่นซ้ํา จากนั้นตัวอย่างจากบัฟเฟอร์การเล่นซ้ําเพื่อสร้างข้อมูลการฝึก
G
นโยบายความโลภ
ในการส่งเสริมการเรียนรู้ นโยบายที่จะเลือกการดําเนินการที่มีการคืนสินค้าที่คาดไว้สูงสุดเสมอ
M
ขั้นตอนการตัดสินของ Markov (MDP)
กราฟที่แทนโมเดลการตัดสินใจซึ่งใช้ในการตัดสินใจ (หรือการกระทํา) เพื่อไปยังลําดับสถานะภายใต้สมมติฐานที่พร็อพเพอร์ตี้ Markov เก็บไว้ ในการเสริมกําลัง การเปลี่ยนเหล่านี้จะเกิดขึ้นระหว่าง เลขรางวัลที่เป็นตัวเลข
พร็อพเพอร์ตี้ Markov
พร็อพเพอร์ตี้ของสภาพแวดล้อมหนึ่งๆ ซึ่งการเปลี่ยนรัฐทั้งหมดจะเป็นไปตามข้อมูลโดยนัยในรัฐปัจจุบันและการดําเนินการของตัวแทน
P
นโยบาย
ในการเรียนรู้แบบเพิ่มประสิทธิภาพ การแมปแนวโน้มagent's จากรัฐไปยังการกระทํา
ถ
ฟังก์ชัน Q
ในการเรียนเสริม ฟังก์ชันที่คาดการณ์การคืนสินค้าที่คาดไว้จากการดําเนินการในรัฐ จากนั้นเป็นไปตามนโยบายที่ระบุ
ฟังก์ชัน Q หรือที่เรียกว่าฟังก์ชันค่าการกระทําของรัฐ
การเรียนรู้ทางไกล
ในการเรียนรู้แบบเสริมกําลัง อัลกอริทึมที่ช่วยให้ตัวแทน เรียนรู้ฟังก์ชัน Q ที่เหมาะสมของ กระบวนการตัดสินใจของ Markov โดยใช้ สมการ Bellman กระบวนการตัดสินใจของ Markov เป็นโมเดลสภาพแวดล้อม
R
นโยบายแบบสุ่ม
ในการเรียนรู้แบบเสริมกําลัง นโยบายที่เลือกการดําเนินการแบบสุ่ม
การเรียนรู้โดยใช้ทรัพยากรเสริม (RSA)
กลุ่มของอัลกอริทึมที่มีการเรียนรู้เกี่ยวกับนโยบายที่เหมาะสม ซึ่งมีเป้าหมายเพื่อเพิ่มผลตอบแทนให้สูงสุดเมื่อโต้ตอบกับสภาพแวดล้อม ตัวอย่างเช่น รางวัลใหญ่ที่สุดของเกมส่วนใหญ่คือชัยชนะ ระบบการเรียนรู้แบบฝึกทักษะอาจกลายเป็นผู้เชี่ยวชาญในการเล่นเกมที่ซับซ้อนโดยประเมินลําดับการย้ายเกมก่อนหน้าซึ่งจะนําไปสู่การชนะและลําดับในที่สุดจนแพ้
บัฟเฟอร์การเล่นซ้ํา
ในอัลกอริทึมที่คล้ายกับ DQN หน่วยความจําที่ Agent ใช้เก็บการเปลี่ยนสถานะเพื่อนําไปใช้ในการเล่นซ้ําประสบการณ์
คำสั่ง "return"
ในการเรียนรู้แบบเพิ่มประสิทธิภาพ นโยบายและรัฐหนึ่งๆ ชี้ให้เห็นว่าการคืนสินค้านี้คือผลรวมของรางวัลทั้งหมดซึ่งตัวแทนคาดว่าจะได้รับเมื่อทําตามนโยบายจากรัฐจนถึงตอน Agent จะคํานึงถึงความล่าช้าของรางวัลที่คาดหวังโดยการมอบส่วนลดตามการเปลี่ยนแปลงของสถานะที่จําเป็นในการรับรางวัล
ดังนั้น หากปัจจัยส่วนลดคือ \(\gamma\)และ \(r_0, \ldots, r_{N}\) แสดงถึงรางวัลได้จนกว่าจะสิ้นสุดตอน การคํานวณการคืนสินค้าจะเป็นดังนี้
รางวัล
ในการเรียนเสริม ผลของการใช้การดําเนินการในรัฐ ตามที่กําหนดไว้ในสภาพแวดล้อม
ส
รัฐ
ในการเรียนเสริม ค่าพารามิเตอร์ที่อธิบายการกําหนดค่าปัจจุบันของสภาพแวดล้อม ซึ่ง agent ใช้เลือกaction
ฟังก์ชันค่าการกระทําของรัฐ
คําพ้องความหมายสําหรับฟังก์ชัน Q
อ
การเรียนรู้เชิงตารางแบบตาราง
ในการเรียนเสริม การใช้การเรียนรู้ทางไกลโดยใช้ตารางสําหรับเก็บฟังก์ชัน Q สําหรับการรวมรัฐและการดําเนินการ
เครือข่ายเป้าหมาย
ใน De- Q-learning โครงข่ายระบบประสาทเทียมที่เป็นค่าโดยประมาณของโครงข่ายระบบประสาทหลัก ที่โครงข่ายระบบประสาทหลักใช้ฟังก์ชัน Q หรือนโยบาย จากนั้น คุณจะสามารถฝึกเครือข่ายหลักใน Q-Value ที่คาดการณ์ไว้โดยเครือข่ายเป้าหมาย ดังนั้น คุณจึงป้องกันลูปความคิดเห็นที่เกิดขึ้นเมื่อเครือข่ายหลักฝึกค่า Q ตามการคาดการณ์เอง หลีกเลี่ยงความคิดเห็นนี้ ทําให้ความเสถียรในการฝึกเพิ่มขึ้น
เงื่อนไขการสิ้นสุด
ในการเรียนรู้แบบเสริมกําลัง เงื่อนไขที่กําหนดเมื่อตอนสิ้นสุดลง เช่น เมื่อ Agent ถึงสถานะหนึ่งๆ หรือมีจํานวนเกินเกณฑ์การเปลี่ยนรัฐ ตัวอย่างเช่น ใน tic-tac-toe (หรือที่รู้จักกันในชื่อ N และ N Crosses) ตอนหนึ่งจะสิ้นสุดลงเมื่อผู้เล่นทําเครื่องหมายเว้นวรรคติดกัน 3 จุดหรือเมื่อเว้นวรรคทั้งหมด
วิถีกระสุน
ในการเรียนรู้แบบเสริมกําลัง ลําดับรอยต่อที่แสดงลําดับของการเปลี่ยนสถานะของตัวแทน โดยแต่ละ Tuple จะสัมพันธ์กับรัฐ การกระทํา รางวัล และรัฐถัดไปสําหรับการเปลี่ยนสู่สถานะที่ระบุ