การปรับให้เป็นมาตรฐานเพื่อความเรียบง่าย: Lambda

นักพัฒนาซอฟต์แวร์โมเดลจะปรับผลกระทบโดยรวมของคำศัพท์เกี่ยวกับการปรับให้เป็นมาตรฐานด้วยการคูณค่าด้วยสเกลาร์ที่เรียกว่า lambda (หรือที่เรียกว่าอัตราการทำให้เป็นมาตรฐาน) กล่าวคือ นักพัฒนาซอฟต์แวร์โมเดลมีจุดมุ่งหมายที่จะทำสิ่งต่อไปนี้

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

การดำเนินการปรับรูปแบบ L2 จะส่งผลต่อโมเดลต่อไปนี้

  • กระตุ้นให้ค่าน้ำหนักไปที่ 0 (แต่ไม่ถึง 0)
  • ส่งเสริมให้ค่าเฉลี่ยน้ำหนักไปที่ 0 โดยมีการแจกแจงแบบปกติ (ทรงระฆังหรือเกาส์)

การเพิ่มมูลค่าแลมบ์ดาจะทำให้ผลของการปรับเป็นประจำดีขึ้น เช่น ฮิสโตแกรมน้ำหนักของค่าแลมบ์ดาค่าสูงอาจมีลักษณะดังแสดงในรูปที่ 2

ฮิสโตแกรมน้ำหนักของโมเดลที่มีค่าเฉลี่ยเป็น 0 และการกระจายปกติ

รูปที่ 2 ฮิสโตแกรมน้ำหนัก

การลดค่าของแลมบ์ดามีแนวโน้มที่จะได้ฮิสโตแกรมคงที่ ดังที่แสดงในรูปที่ 3

ฮิสโตแกรมน้ำหนักของโมเดลที่มีค่าเฉลี่ยเป็น 0 ซึ่งอยู่ระหว่างการกระจายแบบแบนและการกระจายปกติ

รูปที่ 3 ฮิสโตแกรมของน้ำหนักที่เกิดจากค่าแลมบ์ดาที่ต่ำกว่า

เมื่อเลือกค่า lambda เป้าหมายคือการสร้างสมดุลระหว่างความเรียบง่าย และความสอดคล้องของข้อมูลการฝึก

  • หากค่า lambda สูงเกินไป โมเดลก็จะไม่ซับซ้อน แต่มีความเสี่ยงที่จะทำให้ข้อมูลไม่พอดี โมเดลจะเรียนรู้เกี่ยวกับข้อมูลการฝึกได้ไม่มากพอ เพื่อทำการคาดการณ์ที่มีประโยชน์

  • หากค่า lambda ต่ำเกินไป โมเดลจะซับซ้อนมากขึ้น และคุณมีความเสี่ยงที่จะปรับแต่งข้อมูลให้มากเกินไป โมเดลจะเรียนรู้เกี่ยวกับความเจาะจงของข้อมูลการฝึกมากเกินไปและจะไม่สามารถทำให้ข้อมูลใหม่เป็นแบบทั่วไปได้

คุณค่าในอุดมคติของ lambda จะสร้างโมเดลที่สรุปข้อมูลได้ดีกับข้อมูลใหม่ที่ไม่เคยเห็นมาก่อนได้ น่าเสียดายที่ค่าแลมบ์ดาที่เหมาะสมนั้นจะขึ้นอยู่กับข้อมูล คุณจึงจำเป็นต้องปรับแต่ง