Bảng thuật ngữ máy học: Học tập tăng cường

Trang này chứa các thuật ngữ về Học thuật củng cố. Đối với tất cả các thuật ngữ, hãy nhấp vào đây.

A

hành động

#rl

Trong củng cố học tập, cơ chế mà tác nhân chuyển đổi giữa trạng thái của môi trường. Nhân viên hỗ trợ chọn thao tác bằng cách sử dụng chính sách.

nhân viên hỗ trợ

#rl

Trong phương pháp củng cố, thực thể dùng chính sách để tối đa hoá lợi tức dự kiến thu được từ việc chuyển đổi giữa các trạng thái của môi trường.

B

Phương trình Bellman

#rl

Trong quá trình tìm hiểu củng cố, bạn hãy thỏa mãn bản sắc sau bằng phương thức tối ưu Q-function:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Các thuật toán Củng cố học tập áp dụng danh tính này để tạo Q-learning thông qua quy tắc cập nhật sau:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Ngoài việc học cách củng cố, phương trình Bellman còn có các ứng dụng cho lập trình động. Xem mục Wikipedia trên phương trình Bellman.

C

nhà phê bình

#rl

Từ đồng nghĩa với Deep Q-Network.

D

Mạng Q sâu (DQN)

#rl

Trong Q-learning, mạng nơ-ron sâu dự đoán hàm Q.

Critic là một từ đồng nghĩa với Deep Q-Network.

Hàm DQN

#rl

Tên viết tắt cho Deep Q-Network.

E

môi trường

#rl

Trong quá trình học tập củng cố, thế giới chứa tác nhân và cho phép tác nhân quan sát trạng thái của thế giới đó. Ví dụ: thế giới đại diện có thể là một trò chơi như cờ vua hay thế giới thực như một mê cung. Khi tác nhân áp dụng một hành động cho môi trường, thì môi trường sẽ chuyển đổi giữa các trạng thái.

tập

#rl

Trong quá trình học tập củng cố, mỗi nỗ lực lặp lại của agent để tìm hiểu môi trường.

chính sách của epsilon

#rl

Trong quá trình học tập củng cố, chính sách tuân theo chính sách ngẫu nhiên với xác suất theo thời gian hoặc chính sách tham lam. Ví dụ: nếu epsilon là 0, 9, thì chính sách sẽ tuân theo một chính sách ngẫu nhiên 90% thời gian và chính sách tham lam 10% thời gian.

Trong các tập liên tiếp, thuật toán sẽ giảm giá trị của tập tài nguyên để chuyển từ việc tuân theo một chính sách ngẫu nhiên sang tuân theo một chính sách tham lam. Bằng cách thay đổi chính sách, trước tiên, nhân viên hỗ trợ sẽ khám phá ngẫu nhiên môi trường, sau đó tham lam khai thác kết quả của kỹ thuật khám phá ngẫu nhiên.

phát lại trải nghiệm

#rl

Trong quá trình học tập củng cố, kỹ thuật DQN dùng để giảm tương quan tạm thời trong dữ liệu huấn luyện. agent lưu trữ các chuyển đổi trạng thái trong một bộ đệm phát lại, sau đó lấy mẫu các chuyển đổi từ bộ đệm phát lại để tạo dữ liệu huấn luyện.

G

chính sách tham lam

#rl

Trong quá trình tìm hiểu củng cố, chính sách luôn chọn hành động có lợi nhuận dự kiến cao nhất.

T2

Quá trình ra quyết định của Markov (MDP)

#rl

Một biểu đồ biểu thị mô hình ra quyết định mà trong đó người dùng đưa ra quyết định (hoặc thực hiện hành động) để di chuyển theo trình tự trạng thái theo giả định là thuộc tính Markov. Trong phương pháp củng cố, quá trình chuyển đổi giữa các trạng thái sẽ trả về một phần thưởng dạng số.

Thuộc tính Markov

#rl

Thuộc tính của một số môi trường nhất định, trong đó các lượt chuyển đổi trạng thái hoàn toàn được xác định bằng thông tin ngầm ẩn trong trạng thái hiện tại và hành động của tác nhân.

P

policy

#rl

Trong quá trình học tập củng cố, tác nhân liên kết xác suất từ trạng thái đến hành động.

Hỏi

Hàm Q

#rl

Trong tìm hiểu về việc củng cố, hàm dự đoán sự trả về dự kiến từ việc thực hiện một hành độngtrạng thái, sau đó tuân theo chính sách nhất định.

Hàm Q còn được gọi là hàm giá trị trạng thái hành động.

Q-learning

#rl

Trong phương pháp củng cố, một thuật toán cho phép tác nhân tìm hiểu hàm Q tối ưu của quy trình quyết định Markov bằng cách áp dụng phương trình Bellman. Quy trình ra quyết định của Markov mô hình môi trường.

(phải)

chính sách ngẫu nhiên

#rl

Trong phương pháp củng cố, chính sách sẽ chọn ngẫu nhiên một hành động.

học củng cố (RL)

#rl

Một nhóm thuật toán học chính sách tối ưu, có mục tiêu là tối đa hoá lợi tức khi tương tác với môi trường. Ví dụ: phần thưởng cuối cùng của hầu hết các trò chơi là chiến thắng. Hệ thống củng cố có thể trở thành chuyên gia trong việc chơi các trò chơi phức tạp bằng cách đánh giá trình tự của các nước đi trước đó để dẫn đến chiến thắng và trình tự cuối cùng dẫn đến thua lỗ.

Tìm hiểu phương pháp củng cố dựa trên ý kiến phản hồi của con người (RLHF)

#generativeAI
#rl

Sử dụng phản hồi từ những người đánh giá để cải thiện chất lượng phản hồi của mô hình. Ví dụ: cơ chế RLHF có thể yêu cầu người dùng đánh giá chất lượng phản hồi của mô hình bằng biểu tượng cảm xúc 👍 hoặc 👎. Sau đó, hệ thống có thể điều chỉnh các phản hồi trong tương lai dựa trên phản hồi đó.

vùng đệm phát lại

#rl

Trong các thuật toán giống DQN, bộ nhớ mà tác nhân sử dụng để lưu trữ các chuyển đổi trạng thái để sử dụng trong phát lại trải nghiệm.

câu lệnh trả về

#rl

Trong quá trình học tập củng cố, căn cứ vào một chính sách nhất định và một trạng thái nhất định, kết quả trả về là tổng của tất cả phần thưởngagent dự kiến sẽ nhận được khi tuân thủ chính sách của trạng thái đến cuối tập. Nhân viên hỗ trợ giải thích bản chất trì hoãn của các phần thưởng dự kiến bằng cách chiết khấu phần thưởng theo trạng thái chuyển đổi trạng thái cần thiết để nhận phần thưởng.

Do đó, nếu hệ số chiết khấu là \(\gamma\)và \(r_0, \ldots, r_{N}\)mô tả phần thưởng cho đến cuối tập thì phép tính lợi nhuận sẽ như sau:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

phần thưởng

#rl

Trong quá trình học tập củng cố, kết quả bằng số là thực hiện một hành độngtrạng thái, như được xác định bởi môi trường.

CN

tiểu bang

#rl

Trong quá trình tìm hiểu về phương pháp củng cố, các giá trị tham số mô tả cấu hình hiện tại của môi trường mà agent sử dụng để chọn action.

hàm giá trị hành động

#rl

Từ đồng nghĩa của Q-function.

T

học qua Q

#rl

Trong gia tăng cường học, hãy triển khai Q-learning bằng cách sử dụng một bảng để lưu trữ hàm Q cho mọi tổ hợp trạng tháihành động.

mạng đích

#rl

Trong Học sâu Q, một mạng nơron là một phương thức ước tính ổn định cho mạng nơron chính, tại đó mạng nơron chính triển khai hàm Q hoặc chính sách. Sau đó, bạn có thể huấn luyện mạng chính trên các giá trị Q được mạng mục tiêu dự đoán. Do đó, bạn sẽ tránh vòng lặp phản hồi xảy ra khi mạng chính huấn luyện về các giá trị Q. Bằng cách tránh phản hồi này, việc ổn định đào tạo sẽ tăng lên.

điều kiện chấm dứt

#rl

Trong chương trình tìm hiểu về việc củng cố, các điều kiện xác định thời điểm kết thúc một tập, chẳng hạn như khi tác nhân đạt đến một trạng thái nhất định hoặc vượt quá số lần chuyển đổi ngưỡng. Ví dụ: trong tic-tac-toe (còn gọi là gnn và cross), một tập sẽ kết thúc khi người chơi đánh dấu 3 dấu cách liên tiếp hoặc đánh dấu tất cả các dấu cách.

quỹ đạo

#rl

Trong chương trình tìm hiểu về việc củng cố, một trình tự tuples đại diện cho một trình tự chuyển đổi state của agent, trong đó mỗi bộ ứng dụng tương ứng với trạng thái, action, reward và trạng thái tiếp theo cho một chuyển đổi trạng thái nhất định.