L2 การทำให้เป็นมาตรฐาน
ลองดูตัวเลือกด้านล่าง
สมมติว่าโมเดลเชิงเส้นที่มีฟีเจอร์อินพุต 100 รายการ
10 ให้ข้อมูลได้ดีมาก
รหัส 90 ไม่ได้ให้ข้อมูล
สมมติว่าจุดสนใจทั้งหมดมีค่าระหว่าง -1 ถึง 1
ข้อความใดต่อไปนี้เป็นจริง
การกำหนดกฎ L2 จะส่งเสริมให้น้ำหนักที่ไม่ได้ข้อมูลจำนวนมากมีค่าเกือบ (แต่ไม่ตรง) 0.0
ใช่ การกำหนดกฎ L2 ส่งเสริมให้น้ำหนักอยู่ใกล้ 0.0 แต่ไม่ใช่ 0.0 พอดี
การกำหนดกฎ L2 จะส่งเสริมให้น้ำหนักที่ไม่ได้ข้อมูลส่วนใหญ่มีค่าเป็น 0.0 พอดี
การกำหนดกฎ L2 ไม่ได้มีแนวโน้มที่จะบังคับให้น้ำหนักเป็น 0.0 พอดี การกำหนดกฎ L2 จะให้ผลเสียมากกว่าน้ำหนักที่น้อยกว่า เมื่อน้ำหนักเข้าใกล้ 0.0 แล้ว L2 "จะผลักดัน" แรงน้อยลงจนไปถึง 0.0
การกำหนดกฎ L2 อาจทำให้โมเดลเรียนรู้
ว่าฟีเจอร์บางอย่างที่ไม่ได้ให้ข้อมูลมีน้ำหนักปานกลาง
แต่เป็นเรื่องที่น่าประหลาดใจที่กรณีนี้อาจเกิดขึ้นเมื่อฟีเจอร์ที่ไม่ได้ระบุข้อมูลมีความเกี่ยวข้องกับป้ายกำกับ ในกรณีนี้ โมเดลจะให้ "เครดิต" บางอย่างแก่ฟีเจอร์ที่ให้ข้อมูลซึ่งไม่ถูกต้องในลักษณะดังกล่าว
L2 คุณลักษณะการปรับเป็นประจำและความสัมพันธ์
ลองดูตัวเลือกด้านล่าง
สมมติว่าโมเดลเชิงเส้นที่มีฟีเจอร์ 2 อย่างที่มีความสัมพันธ์กันอย่างมาก กล่าวคือ ฟีเจอร์ 2 อย่างนี้มีความคล้ายคลึงกันเกือบเหมือนกัน แต่ฟีเจอร์หนึ่งมีสัญญาณรบกวนแบบสุ่มอยู่จำนวนเล็กน้อย หากเราฝึกโมเดลนี้ด้วยการกำหนดให้เป็นปกติ L2 จะเกิดอะไรขึ้นกับน้ำหนักของฟีเจอร์ 2 รายการนี้
ทั้งสองคุณลักษณะจะมีน้ำหนักเท่าๆ กันและโดยประมาณพอๆ กัน
การกำหนดกฎ L2 จะบังคับให้ฟีเจอร์มีน้ำหนักเทียบเท่ากันโดยประมาณครึ่งหนึ่งของจำนวนทั้งหมดที่จะได้รับ แต่มีเพียงฟีเจอร์เดียวเท่านั้นจาก 2 ฟีเจอร์ที่อยู่ในโมเดล
ฟีเจอร์หนึ่งจะมีน้ำหนักมาก ส่วนอีกฟีเจอร์หนึ่งจะมีน้ำหนักเกือบ 0.0
การสร้างแบบปกติ L2 จะให้น้ำหนักมากกว่าการถ่วงน้ำหนักที่น้อยมาก ดังนั้นแม้ว่าน้ำหนักตัวหนึ่งจะเริ่มลดลงเร็วกว่าปกติ แต่การปรับแบบ L2 ก็มีแนวโน้มที่จะทำให้น้ำหนักลดลงอย่างรวดเร็วกว่าน้ำหนักที่น้อยกว่า
ฟีเจอร์หนึ่งจะมีน้ำหนักมาก ส่วนอีกฟีเจอร์หนึ่งจะมีน้ำหนักเท่ากันที่ 0.0
การสร้างแบบแผน L2 แทบจะไม่บังคับให้มีน้ำหนักเป็น 0.0 พอดี ในทางตรงกันข้าม การกำหนดกฎ L1 (เราจะกล่าวถึงภายหลัง) จะบังคับให้น้ำหนักเป็น 0.0 พอดี