หน้านี้ได้รับการแปลโดย Cloud Translation API

เจาะลึก ML: การฝึกอบรมและการสูญเสีย

การฝึกโมเดลหมายถึงการเรียนรู้ (พิจารณา) ค่าที่ดีของน้ําหนักทั้งหมดและการให้น้ําหนักพิเศษจากตัวอย่างที่ติดป้ายกํากับ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล อัลกอริทึมแมชชีนเลิร์นนิงจะสร้างโมเดลด้วยการตรวจสอบตัวอย่างจํานวนมากและพยายามค้นหาโมเดลที่ช่วยลดการสูญเสียได้ กระบวนการนี้เรียกว่าการลดความเสี่ยงในความเสี่ยงชั่วคราว

Loss เป็นการลงโทษสําหรับการคาดการณ์ที่ไม่ถูกต้อง กล่าวคือ loss คือตัวเลขที่บ่งบอกว่าการคาดการณ์ของโมเดลนั้นแย่เพียงใดในตัวอย่างเดียว หากการคาดการณ์ของโมเดลสมบูรณ์แบบ ค่าเป็นศูนย์จะแพ้ 0 หากแพ้ ค่าดีกว่า เป้าหมายของการฝึกโมเดลคือการหาชุดของน้ําหนักและการให้น้ําหนักพิเศษที่เสียต่ําโดยเฉลี่ยในทุกๆ ตัวอย่าง เช่น รูปที่ 3 แสดง รูปแบบการแพ้ที่สูงทางซ้าย และรูปแบบสูญเสียต่ําทางด้านขวา ข้อควรทราบเกี่ยวกับตัวเลขมีดังนี้

ลูกศรเหล่านี้หมายถึงการสูญเสีย
เส้นสีน้ําเงินแสดงถึงการคาดคะเน

กราฟ Cartesian 2 แบบ โดยแต่ละกราฟจะแสดงเส้นและจุดข้อมูลบางจุด ในพล็อตแรก เส้นกราฟมีความเหมาะสมกับข้อมูลอย่างมาก การสูญเสียจึงสูง สําหรับพล็อตที่ 2 เส้นนี้เหมาะสําหรับข้อมูลมากกว่า ข้อมูลจึงสูญเสียไปน้อย

รูปที่ 3 ส่วนโมเดลด้านซ้ายจะแพ้มาก ส่วนอีกโมเดลให้เสียโอกาสน้อยลง

สังเกตพบว่าลูกศรในพล็อตซ้ายนั้นยาวกว่าส่วนพล็อตในพล็อตขวามาก เห็นได้ชัดว่าเส้นในพล็อตด้านขวาเป็นโมเดลการคาดการณ์ที่ดีกว่าเส้นในพล็อตซ้ายมาก

คุณอาจสงสัยว่าจะสร้างฟังก์ชันทางคณิตศาสตร์ หรือฟังก์ชันการสูญเสีย ซึ่งจะรวบรวมการสูญเสียทีละอย่างไว้ในรูปแบบที่มีความหมาย

การสูญเสียยกกําลังสอง: ฟังก์ชันการสูญเสียยอดนิยม

โมเดลการถดถอยเชิงเส้นที่เราจะตรวจสอบที่นี่จะใช้ฟังก์ชันการสูญเสียที่เรียกว่าการสูญเสียกําลังสอง (หรือที่เรียกว่าการสูญเสีย ₂) การสูญเสียยกกําลัง 2 สําหรับตัวอย่างเดียวมีดังนี้

  = the square of the difference between the label and the prediction
  = (observation - prediction(x))²
  = (y - y')²

ข้อผิดพลาดกําลังสองเฉลี่ย (MSE) คือการสูญเสียกําลังสองเฉลี่ยต่อตัวอย่างเหนือชุดข้อมูลทั้งหมด หากต้องการคํานวณ MSE ให้สรุปการสูญเสียทั้งหมดที่ยกกําลัง 2 ของแต่ละตัวอย่างแล้วหารด้วยจํานวนตัวอย่าง

$$ MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2 $$

ที่ไหน:

$(x, y)$ เป็นตัวอย่างที่
- $x$ คือชุดของฟีเจอร์ (เช่น เสียงประสาน/นาที อายุ เพศ) ที่โมเดลใช้ในการคาดการณ์
- $y$ เป็นป้ายกํากับของตัวอย่าง (เช่น อุณหภูมิ)
$prediction(x)$ เป็นฟังก์ชันของน้ําหนักและการให้น้ําหนักกับชุดฟีเจอร์ $x$
$D$ เป็นชุดข้อมูลที่มีตัวอย่างป้ายกํากับจํานวนมาก ซึ่งเป็น $(x, y)$ การจับคู่
$N$ คือจํานวนตัวอย่างใน $D$

แม้ว่า MSE จะใช้กันโดยทั่วไปในแมชชีนเลิร์นนิง แต่ก็ไม่ได้เป็นฟังก์ชันการสูญเสียการทํางานเพียงอย่างเดียวหรือฟังก์ชันการสูญเสียที่ดีที่สุดสําหรับทุกสถานการณ์

ศูนย์ช่วยเหลือ

การถดถอยเชิงเส้น

ทดสอบความเข้าใจ

การลดความเสี่ยงความเสี่ยงชั่วคราว	แพ้
ข้อผิดพลาดกําลังสองหมายถึง	การสูญเสียยกกําลังสอง
การฝึกอบรม