Chuẩn hoá cho tính đơn giản

Thông thường có nghĩa là phạt độ phức tạp của một mô hình để giảm tình trạng trùng lặp.

Quy tắc hoá để đơn giản hoá

Hàm ngừng sử dụng cho tập hợp huấn luyện giảm dần. Ngược lại, hàm mất dữ liệu của tập hợp xác thực giảm, nhưng sau đó bắt đầu tăng lên.
  • Chúng tôi muốn tránh tính phức tạp của mô hình khi có thể.
  • Chúng tôi có thể đưa ý tưởng này vào hoạt động tối ưu hoá mà chúng tôi thực hiện trong thời gian huấn luyện.
  • Giảm thiểu rủi ro theo thực nghiệm:
    • nhắm đến lỗi huấn luyện thấp
    • $$ \text{minimize: } Loss(Data\;|\;Model) $$

  • Chúng tôi muốn tránh tính phức tạp của mô hình khi có thể.
  • Chúng tôi có thể đưa ý tưởng này vào hoạt động tối ưu hoá mà chúng tôi thực hiện trong thời gian huấn luyện.
  • Giảm thiểu rủi ro về cấu trúc:
    • nhắm đến lỗi huấn luyện thấp
    • trong khi vẫn cân bằng giữa sự phức tạp
    • $$ \text{minimize: } Loss(Data\;|\;Model) + complexity(Model) $$

  • Làm thế nào để xác định độ phức tạp(Mô hình)?
  • Làm thế nào để xác định độ phức tạp(Mô hình)?
  • Ưu tiên trọng số nhỏ hơn
  • Làm thế nào để xác định độ phức tạp(Mô hình)?
  • Ưu tiên trọng số nhỏ hơn
  • Việc phân biệt từ chỉ số này sẽ phát sinh chi phí
  • Có thể mã hoá ý tưởng này thông qua quy trình chuẩn hoá L2 (còn gọi là đỉnh)
    • độ phức tạp(mô hình) = tổng các bình phương của trọng số
    • phạt các quả tạ thực sự lớn
    • Đối với mô hình tuyến tính: ưu tiên đường dốc phẳng hơn
    • Tiếng Bayesian trước:
      • trọng số phải ở giữa khoảng 0
      • trọng số phải được phân phối bình thường

$$ Loss(Data|Model) + \lambda \left(w_1^2 + \ldots + w_n^2 \right) $$

\(\text{Where:}\)

\(Loss\text{: Aims for low training error}\) \(\lambda\text{: Scalar value that controls how weights are balanced}\) \(w_1^2+\ldots+w_n^2\text{: Square of}\;L_2\;\text{norm}\)