หน้านี้ได้รับการแปลโดย Cloud Translation API

การถดถอยแบบโลจิสติกส์: การสูญเสียและการติดตาม

ฟังก์ชันการสูญเสียสําหรับการถดถอยแบบโลจิสติก

ฟังก์ชันการสูญเสียสําหรับการถดถอยเชิงเส้นคือการสูญเสียกําลังสอง ฟังก์ชันการสูญเสียสําหรับการถดถอยแบบโลจิสติกคือการสูญเสียบันทึก ซึ่งมีคําจํากัดความดังนี้

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

ที่ไหน:

$(x,y)\in D$ คือชุดข้อมูลที่มีตัวอย่างป้ายกํากับจํานวนมาก ซึ่งเป็น $(x,y)$ การจับคู่
$y$ คือป้ายกํากับในตัวอย่างที่มีป้ายกํากับ เนื่องจากเป็นการถดถอยแบบโลจิสติกส์ ค่าทั้งหมดของ $y$ จึงต้องเป็น 0 หรือ 1
$y'$ คือค่าที่คาดการณ์ไว้ (ระหว่าง 0 ถึง 1) โดยพิจารณาจากชุดฟีเจอร์ใน $x$

การปรับให้ปกติในการถดถอยแบบโลจิสติก

การปรับให้สอดคล้องตามมาตรฐาน มีความสําคัญอย่างยิ่งในการประมาณการถดถอยแบบโลจิสติก หากไม่มีการปรับให้สอดคล้องตามมาตรฐาน ลักษณะการถดถอยแบบโลจิสติกส์ก็จะไม่เสื่อมเสียเพราะจะทําให้ข้อมูลหายไป โดยมีความสูงเป็น 0 ด้วยเหตุนี้ โมเดลการถดถอยแบบโลจิสติกส์ส่วนใหญ่จึงใช้กลยุทธ์หนึ่งใน 2 แบบต่อไปนี้เพื่อลดความซับซ้อนของโมเดล

กฎมาตรฐานของ L₂
การหยุดงานในช่วงต้นคือจํากัดจํานวนการฝึกหรืออัตราการเรียนรู้

(เราจะพูดถึงกลยุทธ์ที่ 3 ซึ่งก็คือ_{กฎ L1} ในโมดูลหลัง)

ลองจินตนาการว่าคุณกําหนดรหัสที่ไม่ซ้ํากันให้กับแต่ละตัวอย่าง แล้วแมปรหัสแต่ละรายการกับฟีเจอร์ของผลิตภัณฑ์นั้นๆ หากคุณไม่ระบุฟังก์ชันการปรับให้สอดคล้องตามมาตรฐาน โมเดลจะมีขนาดใหญ่เกินไป เนื่องจากรูปแบบดังกล่าวจะพยายามเพิ่มการสูญเสีย 0 ในตัวอย่างทั้งหมด และไม่ไปถึงจุดนั้นเลย ทําให้น้ําหนักของฟีเจอร์ตัวบ่งชี้แต่ละรายการเป็น + อนันต์หรือ -อนันต์ การดําเนินการนี้อาจเกิดขึ้นในข้อมูลที่มีมิติสูงที่มีไม้กางเขนฟีเจอร์ เมื่อมีกากบาทจํานวนมากที่พบได้ในแต่ละตัวอย่างเท่านั้น

โชคดีที่การใช้ L₂ หรือการหยุดแวะครั้งแรกจะช่วยป้องกันไม่ให้เกิดปัญหานี้

ศูนย์ช่วยเหลือ

การคํานวณความน่าจะเป็น

การบรรยายผ่านวิดีโอ

การหยุดก่อนกําหนด	การสูญหายของบันทึก
กฎเกณฑ์มาตรฐาน ₁	แบบแผน L₂