Tốc độ học

Phụ lục này chứa một số thông tin chi tiết bổ sung về tốc độ học.

Lịch trình giảm tốc độ học

Họ đường cong suy giảm tốc độ học tập tốt nhất là một vấn đề chưa được giải quyết; không rõ cách xây dựng một bộ thí nghiệm nghiêm ngặt để tự tin trả lời câu hỏi này. Mặc dù không biết lịch trình nào là phù hợp nhất cho gia đình, nhưng chúng tôi tin tưởng vào những điều sau:

  • Bạn nên có một lịch trình (không cố định).
  • Việc điều chỉnh lịch biểu đó là rất quan trọng.

Các tốc độ học tập khác nhau sẽ hoạt động hiệu quả nhất vào những thời điểm khác nhau trong quá trình tối ưu hoá. Việc có một lịch trình nào đó sẽ giúp mô hình đạt được tốc độ học tập tốt hơn.

Mức giảm tốc độ học tập mặc định tốt nhất

Bạn nên sử dụng một trong các họ tốc độ học tập giảm dần sau đây làm mặc định:

  • Phân rã tuyến tính
  • Giảm theo hàm cosin

Nhiều họ lịch biểu khác cũng có thể phù hợp.

Tại sao một số bài viết có lịch trình tốc độ học tập phức tạp?

Nhiều bài báo khoa học sử dụng lịch trình suy giảm tốc độ học tập (LR) theo từng phần phức tạp. Độc giả thường thắc mắc làm thế nào các tác giả có thể đưa ra một lịch trình phức tạp như vậy. Nhiều lịch trình giảm tốc độ học phức tạp là kết quả của việc điều chỉnh lịch trình dưới dạng một hàm của hiệu suất tập hợp xác thực theo cách đặc biệt. Đó là:

  1. Bắt đầu một lượt huấn luyện duy nhất với độ trễ LR đơn giản (hoặc tốc độ học tập không đổi).
  2. Tiếp tục huấn luyện cho đến khi hiệu suất có vẻ chững lại. Nếu điều này xảy ra, hãy tạm dừng quá trình huấn luyện. Sau đó, hãy tiếp tục với lịch trình giảm tốc độ học (hoặc tốc độ học hằng số nhỏ hơn) có thể dốc hơn kể từ thời điểm này. Lặp lại quy trình này (cho đến thời hạn tổ chức hội nghị hoặc ra mắt).

Việc sao chép một cách vô tư lịch biểu thu được thường không phải là một ý tưởng hay vì lịch biểu cụ thể tốt nhất rất nhạy cảm với nhiều lựa chọn siêu tham số khác. Bạn nên sao chép thuật toán đã tạo ra lịch biểu, mặc dù hiếm khi có thể thực hiện được việc này khi lịch biểu được tạo ra dựa trên phán đoán tuỳ ý của con người. Bạn có thể sử dụng loại lịch biểu nhạy cảm với lỗi xác thực này nếu có thể tự động hoá hoàn toàn, nhưng lịch biểu có sự tham gia của con người là một hàm của lỗi xác thực thì không ổn định và không dễ tái tạo, vì vậy, bạn nên tránh sử dụng. Trước khi xuất bản kết quả sử dụng lịch biểu như vậy, vui lòng cố gắng tái tạo hoàn toàn kết quả đó.

Bạn nên điều chỉnh siêu tham số của Adam như thế nào?

Không phải tất cả siêu tham số trong Adam đều quan trọng như nhau. Các quy tắc chung sau đây tương ứng với các "ngân sách" khác nhau cho số lượng thử nghiệm trong một nghiên cứu.

  • Nếu có < 10 lượt thử trong một nghiên cứu, chỉ cần điều chỉnh tốc độ học tập (cơ bản).
  • Nếu có 10-25 lượt thử trong một nghiên cứu, hãy điều chỉnh tốc độ học và beta_1.
  • Nếu có hơn 25 lượt thử, hãy điều chỉnh tốc độ học, beta_1epsilon.
  • Nếu có nhiều hơn 25 lượt thử đáng kể, hãy điều chỉnh thêm beta_2.

Do khó có thể đưa ra các quy tắc chung về không gian tìm kiếm và số lượng điểm bạn nên lấy mẫu từ không gian tìm kiếm, hãy xem các quy tắc chung được nêu trong phần này là hướng dẫn sơ bộ."