Chuẩn hoá để đơn giản hoá: Lambda

Các nhà phát triển mô hình điều chỉnh tác động tổng thể của thuật ngữ chính quy bằng cách nhân giá trị của thuật ngữ đó với đại lượng vô hướng có tên là lambda (còn gọi là tỷ lệ chuẩn hoá). Tức là, các nhà phát triển mô hình sẽ muốn làm những việc sau:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

Việc chính quy hoá L2 có ảnh hưởng sau đây đối với mô hình

  • Khuyến khích giá trị trọng số về 0 (nhưng không chính xác là 0)
  • Khuyến khích giá trị trung bình của trọng số tiến về 0 với phân phối chuẩn (hình chuông hoặc Gaussian).

Việc tăng giá trị lambda sẽ củng cố hiệu quả của quy trình chính quy. Ví dụ: biểu đồ trọng số cho giá trị cao của lambda có thể như trong Hình 2.

Biểu đồ trọng số của một mô hình có giá trị trung bình bằng 0 và phân phối chuẩn.

Hình 2. Biểu đồ trọng lượng.

Việc giảm giá trị của lambda có xu hướng tạo ra biểu đồ phẳng hơn, như minh hoạ trong Hình 3.

Biểu đồ về trọng số của một mô hình có giá trị trung bình bằng 0, nằm đâu đó giữa phân phối phẳng và phân phối chuẩn.

Hình 3. Biểu đồ trọng số được tạo bởi giá trị lambda thấp hơn.

Khi chọn giá trị lambda, mục tiêu là tạo ra sự cân bằng hợp lý giữa tính đơn giản và phù hợp với dữ liệu huấn luyện:

  • Nếu giá trị lambda quá cao, mô hình của bạn sẽ trở nên đơn giản, nhưng bạn có nguy cơ rút gọn dữ liệu. Mô hình của bạn sẽ không tìm hiểu đủ về dữ liệu huấn luyện để đưa ra các dự đoán hữu ích.

  • Nếu giá trị lambda quá thấp, mô hình sẽ phức tạp hơn và bạn sẽ có nguy cơ trùng khớp dữ liệu. Mô hình của bạn sẽ tìm hiểu quá nhiều về các đặc điểm của dữ liệu huấn luyện và sẽ không thể khái quát hoá cho dữ liệu mới.

Giá trị lý tưởng của lambda tạo ra một mô hình có thể khái quát hoá tốt cho dữ liệu mới, chưa từng thấy trước đó. Rất tiếc, giá trị lý tưởng đó của lambda phụ thuộc vào dữ liệu, vì vậy, bạn cần phải điều chỉnh.