การถดถอยแบบโลจิสติกส์: การสูญเสียและการติดตาม

ฟังก์ชันการสูญเสียสําหรับการถดถอยแบบโลจิสติก

ฟังก์ชันการสูญเสียสําหรับการถดถอยเชิงเส้นคือการสูญเสียกําลังสอง ฟังก์ชันการสูญเสียสําหรับการถดถอยแบบโลจิสติกคือการสูญเสียบันทึก ซึ่งมีคําจํากัดความดังนี้

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

ที่ไหน:

  • \((x,y)\in D\) คือชุดข้อมูลที่มีตัวอย่างป้ายกํากับจํานวนมาก ซึ่งเป็น \((x,y)\) การจับคู่
  • \(y\) คือป้ายกํากับในตัวอย่างที่มีป้ายกํากับ เนื่องจากเป็นการถดถอยแบบโลจิสติกส์ ค่าทั้งหมดของ \(y\) จึงต้องเป็น 0 หรือ 1
  • \(y'\) คือค่าที่คาดการณ์ไว้ (ระหว่าง 0 ถึง 1) โดยพิจารณาจากชุดฟีเจอร์ใน \(x\)

การปรับให้ปกติในการถดถอยแบบโลจิสติก

การปรับให้สอดคล้องตามมาตรฐาน มีความสําคัญอย่างยิ่งในการประมาณการถดถอยแบบโลจิสติก หากไม่มีการปรับให้สอดคล้องตามมาตรฐาน ลักษณะการถดถอยแบบโลจิสติกส์ก็จะไม่เสื่อมเสียเพราะจะทําให้ข้อมูลหายไป โดยมีความสูงเป็น 0 ด้วยเหตุนี้ โมเดลการถดถอยแบบโลจิสติกส์ส่วนใหญ่จึงใช้กลยุทธ์หนึ่งใน 2 แบบต่อไปนี้เพื่อลดความซับซ้อนของโมเดล

  • กฎมาตรฐานของ L2
  • การหยุดงานในช่วงต้นคือจํากัดจํานวนการฝึกหรืออัตราการเรียนรู้

(เราจะพูดถึงกลยุทธ์ที่ 3 ซึ่งก็คือกฎ L1 ในโมดูลหลัง)

ลองจินตนาการว่าคุณกําหนดรหัสที่ไม่ซ้ํากันให้กับแต่ละตัวอย่าง แล้วแมปรหัสแต่ละรายการกับฟีเจอร์ของผลิตภัณฑ์นั้นๆ หากคุณไม่ระบุฟังก์ชันการปรับให้สอดคล้องตามมาตรฐาน โมเดลจะมีขนาดใหญ่เกินไป เนื่องจากรูปแบบดังกล่าวจะพยายามเพิ่มการสูญเสีย 0 ในตัวอย่างทั้งหมด และไม่ไปถึงจุดนั้นเลย ทําให้น้ําหนักของฟีเจอร์ตัวบ่งชี้แต่ละรายการเป็น + อนันต์หรือ -อนันต์ การดําเนินการนี้อาจเกิดขึ้นในข้อมูลที่มีมิติสูงที่มีไม้กางเขนฟีเจอร์ เมื่อมีกากบาทจํานวนมากที่พบได้ในแต่ละตัวอย่างเท่านั้น

โชคดีที่การใช้ L2 หรือการหยุดแวะครั้งแรกจะช่วยป้องกันไม่ให้เกิดปัญหานี้