Trang này được dịch bởi Cloud Translation API.

Chuẩn hoá để đơn giản hoá: Lambda

Các nhà phát triển mô hình điều chỉnh tác động tổng thể của thuật ngữ chính quy bằng cách nhân giá trị của thuật ngữ đó với đại lượng vô hướng có tên là lambda (còn gọi là tỷ lệ chuẩn hoá). Tức là, các nhà phát triển mô hình sẽ muốn làm những việc sau:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

Việc chính quy hoá L₂ có ảnh hưởng sau đây đối với mô hình

Khuyến khích giá trị trọng số về 0 (nhưng không chính xác là 0)
Khuyến khích giá trị trung bình của trọng số tiến về 0 với phân phối chuẩn (hình chuông hoặc Gaussian).

Việc tăng giá trị lambda sẽ củng cố hiệu quả của quy trình chính quy. Ví dụ: biểu đồ trọng số cho giá trị cao của lambda có thể như trong Hình 2.

Biểu đồ trọng số của một mô hình có giá trị trung bình bằng 0 và phân phối chuẩn.

Hình 2. Biểu đồ trọng lượng.

Việc giảm giá trị của lambda có xu hướng tạo ra biểu đồ phẳng hơn, như minh hoạ trong Hình 3.

Biểu đồ về trọng số của một mô hình có giá trị trung bình bằng 0, nằm đâu đó giữa phân phối phẳng và phân phối chuẩn.

Hình 3. Biểu đồ trọng số được tạo bởi giá trị lambda thấp hơn.

Khi chọn giá trị lambda, mục tiêu là tạo ra sự cân bằng hợp lý giữa tính đơn giản và phù hợp với dữ liệu huấn luyện:

Nếu giá trị lambda quá cao, mô hình của bạn sẽ trở nên đơn giản, nhưng bạn có nguy cơ rút gọn dữ liệu. Mô hình của bạn sẽ không tìm hiểu đủ về dữ liệu huấn luyện để đưa ra các dự đoán hữu ích.
Nếu giá trị lambda quá thấp, mô hình sẽ phức tạp hơn và bạn sẽ có nguy cơ trùng khớp dữ liệu. Mô hình của bạn sẽ tìm hiểu quá nhiều về các đặc điểm của dữ liệu huấn luyện và sẽ không thể khái quát hoá cho dữ liệu mới.

Giá trị lý tưởng của lambda tạo ra một mô hình có thể khái quát hoá tốt cho dữ liệu mới, chưa từng thấy trước đó. Rất tiếc, giá trị lý tưởng đó của lambda phụ thuộc vào dữ liệu, vì vậy, bạn cần phải điều chỉnh.

Nhấp vào biểu tượng dấu cộng để tìm hiểu về quy trình chính quy và tốc độ học L₂.

Có một mối liên hệ chặt chẽ giữa tốc độ học và lambda. Các giá trị chính quy L₂ mạnh có xu hướng tăng trọng số tính năng về gần 0. Tốc độ tìm hiểu thấp hơn (có dừng sớm) thường tạo ra cùng một hiệu quả vì các bước so với 0 không lớn. Do đó, việc điều chỉnh tốc độ học và lambda đồng thời có thể có tác động gây nhầm lẫn.

Dừng sớm có nghĩa là kết thúc quá trình huấn luyện trước khi mô hình đạt được sự hội tụ hoàn toàn. Trong thực tế, chúng tôi thường kết thúc bằng một số điểm dừng sớm ngầm khi huấn luyện theo cách trực tuyến (liên tục). Điều đó có nghĩa là một số xu hướng mới chưa có đủ dữ liệu để hội tụ.

Như đã lưu ý, ảnh hưởng từ những thay đổi đối với tham số chính quy có thể bị nhầm lẫn với tác động từ những thay đổi về tốc độ học tập hoặc số lần lặp lại. Một phương pháp hữu ích (khi huấn luyện trên một lô dữ liệu cố định) là tạo cho bản thân số vòng lặp đủ cao mà việc dừng sớm không ảnh hưởng đến mọi thứ.

Trung tâm trợ giúp

Chuẩn hoá L2

Tiếp

Bài tập trên sân chơi: Chuẩn hoá L2

Chuẩn hoá để đơn giản hoá: Lambda

Nhấp vào biểu tượng dấu cộng để tìm hiểu về quy trình chính quy và tốc độ học L2.

Nhấp vào biểu tượng dấu cộng để tìm hiểu về quy trình chính quy và tốc độ học L₂.