ฟังก์ชันการสูญเสียสําหรับการถดถอยแบบโลจิสติก
ฟังก์ชันการสูญเสียสําหรับการถดถอยเชิงเส้นคือการสูญเสียกําลังสอง ฟังก์ชันการสูญเสียสําหรับการถดถอยแบบโลจิสติกคือการสูญเสียบันทึก ซึ่งมีคําจํากัดความดังนี้
ที่ไหน:
- \((x,y)\in D\) คือชุดข้อมูลที่มีตัวอย่างป้ายกํากับจํานวนมาก ซึ่งเป็น \((x,y)\) การจับคู่
- \(y\) คือป้ายกํากับในตัวอย่างที่มีป้ายกํากับ เนื่องจากเป็นการถดถอยแบบโลจิสติกส์ ค่าทั้งหมดของ \(y\) จึงต้องเป็น 0 หรือ 1
- \(y'\) คือค่าที่คาดการณ์ไว้ (ระหว่าง 0 ถึง 1) โดยพิจารณาจากชุดฟีเจอร์ใน \(x\)
การปรับให้ปกติในการถดถอยแบบโลจิสติก
การปรับให้สอดคล้องตามมาตรฐาน มีความสําคัญอย่างยิ่งในการประมาณการถดถอยแบบโลจิสติก หากไม่มีการปรับให้สอดคล้องตามมาตรฐาน ลักษณะการถดถอยแบบโลจิสติกส์ก็จะไม่เสื่อมเสียเพราะจะทําให้ข้อมูลหายไป โดยมีความสูงเป็น 0 ด้วยเหตุนี้ โมเดลการถดถอยแบบโลจิสติกส์ส่วนใหญ่จึงใช้กลยุทธ์หนึ่งใน 2 แบบต่อไปนี้เพื่อลดความซับซ้อนของโมเดล
- กฎมาตรฐานของ L2
- การหยุดงานในช่วงต้นคือจํากัดจํานวนการฝึกหรืออัตราการเรียนรู้
(เราจะพูดถึงกลยุทธ์ที่ 3 ซึ่งก็คือกฎ L1 ในโมดูลหลัง)
ลองจินตนาการว่าคุณกําหนดรหัสที่ไม่ซ้ํากันให้กับแต่ละตัวอย่าง แล้วแมปรหัสแต่ละรายการกับฟีเจอร์ของผลิตภัณฑ์นั้นๆ หากคุณไม่ระบุฟังก์ชันการปรับให้สอดคล้องตามมาตรฐาน โมเดลจะมีขนาดใหญ่เกินไป เนื่องจากรูปแบบดังกล่าวจะพยายามเพิ่มการสูญเสีย 0 ในตัวอย่างทั้งหมด และไม่ไปถึงจุดนั้นเลย ทําให้น้ําหนักของฟีเจอร์ตัวบ่งชี้แต่ละรายการเป็น + อนันต์หรือ -อนันต์ การดําเนินการนี้อาจเกิดขึ้นในข้อมูลที่มีมิติสูงที่มีไม้กางเขนฟีเจอร์ เมื่อมีกากบาทจํานวนมากที่พบได้ในแต่ละตัวอย่างเท่านั้น
โชคดีที่การใช้ L2 หรือการหยุดแวะครั้งแรกจะช่วยป้องกันไม่ให้เกิดปัญหานี้