เจาะลึก ML: การฝึกอบรมและการสูญเสีย

การฝึกโมเดลหมายถึงการเรียนรู้ (พิจารณา) ค่าที่ดีของน้ําหนักทั้งหมดและการให้น้ําหนักพิเศษจากตัวอย่างที่ติดป้ายกํากับ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล อัลกอริทึมแมชชีนเลิร์นนิงจะสร้างโมเดลด้วยการตรวจสอบตัวอย่างจํานวนมากและพยายามค้นหาโมเดลที่ช่วยลดการสูญเสียได้ กระบวนการนี้เรียกว่าการลดความเสี่ยงในความเสี่ยงชั่วคราว

Loss เป็นการลงโทษสําหรับการคาดการณ์ที่ไม่ถูกต้อง กล่าวคือ loss คือตัวเลขที่บ่งบอกว่าการคาดการณ์ของโมเดลนั้นแย่เพียงใดในตัวอย่างเดียว หากการคาดการณ์ของโมเดลสมบูรณ์แบบ ค่าเป็นศูนย์จะแพ้ 0 หากแพ้ ค่าดีกว่า เป้าหมายของการฝึกโมเดลคือการหาชุดของน้ําหนักและการให้น้ําหนักพิเศษที่เสียต่ําโดยเฉลี่ยในทุกๆ ตัวอย่าง เช่น รูปที่ 3 แสดง รูปแบบการแพ้ที่สูงทางซ้าย และรูปแบบสูญเสียต่ําทางด้านขวา ข้อควรทราบเกี่ยวกับตัวเลขมีดังนี้

  • ลูกศรเหล่านี้หมายถึงการสูญเสีย
  • เส้นสีน้ําเงินแสดงถึงการคาดคะเน

กราฟ Cartesian 2 แบบ โดยแต่ละกราฟจะแสดงเส้นและจุดข้อมูลบางจุด ในพล็อตแรก เส้นกราฟมีความเหมาะสมกับข้อมูลอย่างมาก การสูญเสียจึงสูง สําหรับพล็อตที่ 2 เส้นนี้เหมาะสําหรับข้อมูลมากกว่า ข้อมูลจึงสูญเสียไปน้อย

รูปที่ 3 ส่วนโมเดลด้านซ้ายจะแพ้มาก ส่วนอีกโมเดลให้เสียโอกาสน้อยลง

 

สังเกตพบว่าลูกศรในพล็อตซ้ายนั้นยาวกว่าส่วนพล็อตในพล็อตขวามาก เห็นได้ชัดว่าเส้นในพล็อตด้านขวาเป็นโมเดลการคาดการณ์ที่ดีกว่าเส้นในพล็อตซ้ายมาก

คุณอาจสงสัยว่าจะสร้างฟังก์ชันทางคณิตศาสตร์ หรือฟังก์ชันการสูญเสีย ซึ่งจะรวบรวมการสูญเสียทีละอย่างไว้ในรูปแบบที่มีความหมาย

โมเดลการถดถอยเชิงเส้นที่เราจะตรวจสอบที่นี่จะใช้ฟังก์ชันการสูญเสียที่เรียกว่าการสูญเสียกําลังสอง (หรือที่เรียกว่าการสูญเสีย 2) การสูญเสียยกกําลัง 2 สําหรับตัวอย่างเดียวมีดังนี้

  = the square of the difference between the label and the prediction
  = (observation - prediction(x))2
  = (y - y')2

ข้อผิดพลาดกําลังสองเฉลี่ย (MSE) คือการสูญเสียกําลังสองเฉลี่ยต่อตัวอย่างเหนือชุดข้อมูลทั้งหมด หากต้องการคํานวณ MSE ให้สรุปการสูญเสียทั้งหมดที่ยกกําลัง 2 ของแต่ละตัวอย่างแล้วหารด้วยจํานวนตัวอย่าง

$$ MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2 $$

ที่ไหน:

  • \((x, y)\) เป็นตัวอย่างที่
    • \(x\) คือชุดของฟีเจอร์ (เช่น เสียงประสาน/นาที อายุ เพศ) ที่โมเดลใช้ในการคาดการณ์
    • \(y\) เป็นป้ายกํากับของตัวอย่าง (เช่น อุณหภูมิ)
  • \(prediction(x)\) เป็นฟังก์ชันของน้ําหนักและการให้น้ําหนักกับชุดฟีเจอร์ \(x\)
  • \(D\) เป็นชุดข้อมูลที่มีตัวอย่างป้ายกํากับจํานวนมาก ซึ่งเป็น \((x, y)\) การจับคู่
  • \(N\) คือจํานวนตัวอย่างใน \(D\)

แม้ว่า MSE จะใช้กันโดยทั่วไปในแมชชีนเลิร์นนิง แต่ก็ไม่ได้เป็นฟังก์ชันการสูญเสียการทํางานเพียงอย่างเดียวหรือฟังก์ชันการสูญเสียที่ดีที่สุดสําหรับทุกสถานการณ์