สำรวจตัวเลือกด้านล่าง
ลองจินตนาการถึงโมเดลเชิงเส้นที่มีคุณลักษณะ 2 อย่างที่เกี่ยวข้องกันอย่างมาก ซึ่งก็คือ
คุณลักษณะทั้งสองนี้แทบจะเหมือนกันทุกประการ แต่กลับเหมือนกัน
มีสัญญาณรบกวนแบบสุ่มจำนวนเล็กน้อย หากเราฝึกขั้นตอนนี้
โมเดลที่มีค่าเป็นมาตรฐาน L2 จะเกิดอะไรขึ้นกับน้ำหนัก
สำหรับฟีเจอร์ทั้ง 2 อย่างนี้หรือเปล่า
ทั้ง 2 ฟีเจอร์จะมีน้ำหนักพอๆ กันโดยประมาณ
การกำหนดมาตรฐาน L2 จะบังคับให้ฟีเจอร์ไปยัง
น้ำหนักที่เทียบเท่ากันโดยประมาณซึ่งประมาณครึ่งหนึ่งของ
สิ่งที่จะได้รับคือฟีเจอร์เพียง 1 ใน 2 อย่างนี้
เคยอยู่ในโมเดลมาแล้ว
สถานที่หนึ่งจะมีน้ำหนักมาก อีกแอปจะมี
น้ำหนักเกือบ 0.0
การกำหนดมาตรฐาน L2 จะลงโทษน้ำหนักขนาดใหญ่มากกว่า
กว่าน้ำหนักที่น้อย แม้ว่าน้ำหนักจะเริ่มลดลง
เร็วกว่ามาตรฐานอื่นๆ การกำหนดมาตรฐาน L2 จะ
มีแนวโน้มที่จะทำให้น้ำหนักที่ใหญ่กว่าลดลงได้เร็วกว่า
น้ำหนักที่น้อยลง
สถานที่หนึ่งจะมีน้ำหนักมาก อีกแอปจะมี
มีน้ำหนักเท่ากับ 0.0
การกำหนดมาตรฐาน L2 แทบจะไม่บังคับใช้
ให้เท่ากับ 0.0 ในทางตรงกันข้าม การกำหนดมาตรฐาน L1
(กล่าวถึงในภายหลัง) จะบังคับน้ำหนักให้เป็น 0.0 พอดี