การปรับให้เป็นมาตรฐานสําหรับความเรียบง่าย

การทำให้เป็นมาตรฐานหมายถึงการลงโทษความซับซ้อนของโมเดลเพื่อลดการซ้อนทับ

การปรับให้เป็นมาตรฐานเพื่อความเรียบง่าย

ฟังก์ชันการสูญเสียชุดการฝึกจะค่อยๆ ลดลง ในทางตรงกันข้าม ฟังก์ชันการสูญหายของชุดการตรวจสอบจะลดลง แต่หลังจากนั้นจะเริ่มเพิ่มขึ้น
  • หากทำได้ เราต้องการหลีกเลี่ยงความซับซ้อนของโมเดล
  • เราสามารถนำไอเดียนี้ไปปรับใช้ในการเพิ่มประสิทธิภาพในการฝึกอบรม
  • การลดความเสี่ยงเชิงประจักษ์:
    • มุ่งเป้าไปที่ข้อผิดพลาดในการฝึกต่ำ
    • $$ \text{minimize: } Loss(Data\;|\;Model) $$

  • หากทำได้ เราต้องการหลีกเลี่ยงความซับซ้อนของโมเดล
  • เราสามารถนำไอเดียนี้ไปปรับใช้ในการเพิ่มประสิทธิภาพในการฝึกอบรม
  • การลดความเสี่ยงด้านโครงสร้าง:
    • มุ่งเป้าไปที่ข้อผิดพลาดในการฝึกต่ำ
    • และสร้างความสมดุลกับความซับซ้อน
    • $$ \text{minimize: } Loss(Data\;|\;Model) + complexity(Model) $$

  • วิธีกำหนดความซับซ้อน(โมเดล)
  • วิธีกำหนดความซับซ้อน(โมเดล)
  • ชอบน้ำหนักที่น้อยกว่า
  • วิธีกำหนดความซับซ้อน(โมเดล)
  • ชอบน้ำหนักที่น้อยกว่า
  • การแบ่งจากจุดนี้ควรมีค่าใช้จ่าย
  • เข้ารหัสแนวคิดนี้ได้ผ่าน L2 regularization (หรือที่เรียกว่า ridge)
    • complexity(model) = ผลรวมของกำลังสองของน้ำหนัก
    • ทำโทษมีน้ำหนักสูงมาก
    • สำหรับโมเดลเชิงเส้น: ต้องการทางลาดที่ราบเรียบมากกว่า
    • ก่อนหน้าแบบ Bayes:
      • น้ำหนักควรอยู่ตรงกลางประมาณ 0
      • โดยปกติแล้วควรกระจายน้ำหนัก

$$ Loss(Data|Model) + \lambda \left(w_1^2 + \ldots + w_n^2 \right) $$

\(\text{Where:}\)

\(Loss\text{: Aims for low training error}\) \(\lambda\text{: Scalar value that controls how weights are balanced}\) \(w_1^2+\ldots+w_n^2\text{: Square of}\;L_2\;\text{norm}\)