Bảng thuật ngữ về máy học: Học tăng cường

Trang này chứa các thuật ngữ trong bảng thuật ngữ về Học viện tăng cường. Để biết tất cả các thuật ngữ trong bảng thuật ngữ, hãy nhấp vào đây.

Đáp

hành động

#rl

Trong phương pháp học tăng cường, cơ chế mà tác nhân chuyển đổi giữa trạng thái của môi trường. Nhân viên hỗ trợ chọn thao tác bằng cách sử dụng một chính sách.

nhân viên hỗ trợ

#rl

Trong môi trường học tăng cường, thực thể sử dụng chính sách để tối đa hoá lợi tức dự kiến thu được từ quá trình chuyển đổi giữa trạng thái của môi trường.

Nhìn chung, tác nhân hỗ trợ là phần mềm tự lập kế hoạch và thực hiện một loạt hành động để đạt được một mục tiêu, với khả năng thích ứng với những thay đổi trong môi trường. Ví dụ: các tác nhân dựa trên LLM có thể sử dụng LM để tạo kế hoạch, thay vì áp dụng chính sách học tăng cường.

B

Phương trình Bellman

#rl

Trong học tăng cường, danh tính sau được hàm Q tối ưu đáp ứng:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Thuật toán Học tăng cường áp dụng danh tính này để tạo Q-learn thông qua quy tắc cập nhật sau:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Ngoài việc học tăng cường, phương trình Bellman còn có nhiều ứng dụng cho việc lập trình động. Vui lòng xem mục trên Wikipedia về phương trình Bellman.

C

phê bình

#rl

Từ đồng nghĩa với Deep Q-Network.

D

Mạng Q sâu (DQN)

#rl

Trong Q-học, một mạng nơron sâu dự đoán hàm Q.

Phê bình là một từ đồng nghĩa với Deep Q-Network.

DQN (Mã số sản phẩm thương mại toàn cầu)

#rl

Tên viết tắt của Deep Q-Network.

E

môi trường

#rl

Trong mô hình học tăng cường, thế giới chứa tác nhân và cho phép tác nhân quan sát trạng thái của thế giới đó. Ví dụ: thế giới được đại diện có thể là một trò chơi như cờ vua hoặc thế giới thực như một mê cung. Khi tác nhân áp dụng một hành động cho môi trường, thì môi trường sẽ chuyển đổi giữa các trạng thái.

tập

#rl

Trong mô hình học tăng cường, mỗi lần tác nhân lặp lại để tìm hiểu một môi trường.

chính sách về mục đích tham lam của epsilon

#rl

Trong mô hình học tăng cường, một chính sách tuân theo chính sách ngẫu nhiên với xác suất epsilon hoặc chính sách tham lam. Ví dụ: nếu epsilon là 0, 9, thì chính sách này sẽ tuân theo một chính sách ngẫu nhiên 90% thời gian và chính sách tham lam là 10%.

Trong các tập liên tiếp, thuật toán sẽ giảm giá trị của epsilon để chuyển từ tuân theo một chính sách ngẫu nhiên sang tuân theo một chính sách tham lam. Bằng cách thay đổi chính sách, trước tiên, tác nhân sẽ khám phá ngẫu nhiên môi trường, sau đó khai thác kết quả khám phá ngẫu nhiên một cách tham lam.

phát lại trải nghiệm

#rl

Trong học tăng cường, một kỹ thuật DQN được dùng để giảm các mối tương quan tạm thời trong dữ liệu huấn luyện. Tác nhân lưu trữ hoạt động chuyển đổi trạng thái trong vùng đệm phát lại, sau đó lấy mẫu hiệu ứng chuyển đổi từ vùng đệm phát lại để tạo dữ liệu huấn luyện.

G

chính sách tham lam

#rl

Trong mô hình học tăng cường, một chính sách luôn chọn hành động có trả về dự kiến cao nhất.

M

Quy trình quyết định Markov (MDP)

#rl

Một biểu đồ biểu thị mô hình ra quyết định trong đó các quyết định (hoặc hành động) được đưa ra để điều hướng một chuỗi các trạng thái theo giả định là thuộc tính Markov. Trong phương pháp học tăng cường, những hoạt động chuyển đổi này giữa các trạng thái sẽ trả về một phần thưởng dạng số.

Thuộc tính Markov

#rl

Thuộc tính của một số môi trường nhất định, trong đó việc chuyển đổi trạng thái được xác định hoàn toàn theo thông tin ngầm ẩn trong trạng thái hiện tại và hành động của tác nhân.

Điểm

policy

#rl

Trong mô hình học tăng cường, việc ánh xạ xác suất của tác nhân từ trạng thái đến hành động.

Hỏi

Hàm Q

#rl

Trong học tăng cường, hàm dự đoán trả về dự kiến từ việc thực hiện một hành động ở một trạng thái và sau đó tuân theo một chính sách nhất định.

Hàm Q còn được gọi là hàm giá trị hành động trạng thái.

Hỏi đáp

#rl

Trong phương pháp học tăng cường, một thuật toán cho phép tác nhân tìm hiểu hàm Q tối ưu của quá trình quyết định của Markov bằng cách áp dụng phương trình Bellman. Quy trình quyết định Markov mô hình hoá một môi trường.

R

chính sách ngẫu nhiên

#rl

Trong phương pháp học tăng cường, một chính sách chọn một hành động một cách ngẫu nhiên.

học tăng cường (RL)

#rl

Một nhóm thuật toán học chính sách tối ưu có mục tiêu là tối đa hoá lợi tức khi tương tác với một môi trường. Ví dụ: Phần thưởng cuối cùng trong hầu hết các trò chơi là chiến thắng. Các hệ thống học tăng cường có thể trở thành chuyên gia khi chơi các trò chơi phức tạp bằng cách đánh giá trình tự của các lượt di chuyển trước đó trong trò chơi dẫn đến chiến thắng và những trình tự cuối cùng dẫn đến thua.

Học tăng cường từ phản hồi của con người (RLHF)

#AI tạo sinh
#rl

Sử dụng ý kiến phản hồi của nhân viên đánh giá để cải thiện chất lượng câu trả lời của mô hình. Ví dụ: cơ chế RLHF có thể yêu cầu người dùng đánh giá chất lượng câu trả lời của mô hình bằng biểu tượng cảm xúc 👍 hoặc 👎. Sau đó, hệ thống có thể điều chỉnh các câu trả lời trong tương lai dựa trên ý kiến phản hồi đó.

vùng đệm phát lại

#rl

Trong các thuật toán giống DQN, bộ nhớ mà tác nhân dùng để lưu trữ các lượt chuyển đổi trạng thái nhằm sử dụng trong phát lại trải nghiệm.

return

#rl

Trong mô hình học tăng cường, với một chính sách nhất định và một trạng thái nhất định, kết quả trả về là tổng tất cả phần thưởngtác nhân mong muốn nhận được khi tuân theo chính sách từ trạng thái đến cuối tập. Nhân viên hỗ trợ có tính đến tính chất chậm trễ của phần thưởng dự kiến bằng cách chiết khấu phần thưởng theo các lượt chuyển đổi trạng thái cần thiết để nhận được phần thưởng.

Do đó, nếu hệ số chiết khấu là \(\gamma\)và \(r_0, \ldots, r_{N}\)biểu thị phần thưởng cho đến cuối tập, thì phép tính trả về sẽ như sau:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

phần thưởng

#rl

Trong mô hình học tăng cường, kết quả dạng số của việc thực hiện một hành động ở một trạng thái, do môi trường xác định.

S

state

#rl

Trong mô hình học tăng cường, các giá trị tham số mô tả cấu hình hiện tại của môi trường mà tác nhân sử dụng để chọn một hành động.

hàm giá trị hành động trạng thái

#rl

Từ đồng nghĩa với Q-function.

T

Q- Learning theo bảng

#rl

Trong bài học củng cố, hãy triển khai học tập Q bằng cách sử dụng một bảng để lưu trữ hàm Q cho mọi tổ hợp giữa trạng tháihành động.

mạng mục tiêu

#rl

Trong Deep Q- Learning, một mạng nơron gần đúng với mạng nơron chính, trong đó mạng nơron chính triển khai hàm Q hoặc chính sách. Sau đó, bạn có thể huấn luyện mạng chính trên các giá trị Q do mạng mục tiêu dự đoán. Do đó, bạn sẽ ngăn được vòng lặp phản hồi xảy ra khi mạng chính huấn luyện trên các giá trị Q do chính nó dự đoán. Bằng cách tránh phản hồi này, độ ổn định của quá trình huấn luyện sẽ tăng lên.

điều kiện chấm dứt

#rl

Trong bài học củng cố, các điều kiện xác định thời điểm một tập kết thúc, chẳng hạn như khi tác nhân đạt đến một trạng thái nhất định hoặc vượt quá số lần chuyển đổi trạng thái ngưỡng nhất định. Ví dụ: trong tic-tac-toe (còn gọi là chơi chỉ và chữ thập), một tập phim sẽ kết thúc khi người chơi đánh dấu ba dấu cách liên tiếp hoặc khi tất cả các dấu cách đều được đánh dấu.

quỹ đạo

#rl

Trong học tăng cường, một chuỗi bộ dữ liệu đại diện cho một chuỗi chuyển đổi trạng thái của tác nhân, trong đó mỗi bộ dữ liệu tương ứng với trạng thái, tác nhân, phần thưởng và trạng thái tiếp theo cho một lượt chuyển đổi trạng thái nhất định.