ชุดการตรวจสอบ: พาร์ติชันอื่น

โมดูลก่อนหน้าได้แนะนำการแบ่งพาร์ติชันชุดข้อมูลเป็นชุดการฝึกและชุดทดสอบ การแบ่งพาร์ติชันนี้ช่วยให้คุณฝึกกับตัวอย่างชุดหนึ่ง และเพื่อทดสอบโมเดลกับชุดตัวอย่างที่แตกต่างกันได้ เมื่อใช้ 2 พาร์ติชัน เวิร์กโฟลว์อาจมีลักษณะดังนี้

แผนภาพเวิร์กโฟลว์ที่ประกอบด้วย 3 ขั้นตอน 1. ฝึกโมเดลในชุดการฝึก 2. ประเมินโมเดลในชุดทดสอบ 3. ปรับแต่งโมเดลตามผลลัพธ์ของชุดทดสอบ ทำซ้ำในวันที่ 1, 2 และ 3 โดยให้เลือกโมเดลที่มีประสิทธิภาพดีที่สุดในชุดทดสอบ

รูปที่ 1 ขั้นตอนการทำงานที่เป็นไปได้หรือไม่

ในรูปนี้ "ปรับแต่งโมเดล" หมายถึงการปรับแต่งทุกอย่างเกี่ยวกับโมเดลที่คุณจะฝันได้ ตั้งแต่การเปลี่ยนอัตราการเรียนรู้ การเพิ่มหรือนำฟีเจอร์ออก ไปจนถึงการออกแบบโมเดลใหม่ตั้งแต่ต้น ในตอนท้ายของเวิร์กโฟลว์นี้ ให้คุณเลือกโมเดลที่มีประสิทธิภาพดีที่สุดในชุดทดสอบ

การแบ่งชุดข้อมูลออกเป็น 2 ชุดเป็นความคิดที่ดี แต่ไม่ใช่ยาแผนร้าย คุณลดโอกาสในการแสดงผลมากเกินไปได้อย่างมากด้วยการแบ่งพาร์ติชันชุดข้อมูลเป็นชุดย่อย 3 ชุดที่แสดงในรูปต่อไปนี้

แถบแนวนอนแบ่งออกเป็น 3 ส่วน โดย 70% ของชุดการฝึก, 15% ของชุดการตรวจสอบ และ 15% ของชุดทดสอบ

รูปที่ 2 การแบ่งชุดข้อมูลเดียวออกเป็น 3 ชุดย่อย

ใช้ชุดการตรวจสอบเพื่อประเมินผลลัพธ์จากชุดการฝึก จากนั้นใช้ชุดทดสอบเพื่อตรวจสอบการประเมินอีกครั้งหลังจากที่โมเดล "ผ่าน" ชุดการตรวจสอบแล้ว รูปต่อไปนี้แสดงเวิร์กโฟลว์ใหม่นี้

เวิร์กโฟลว์คล้ายกับรูปที่ 1 ยกเว้นว่าแทนที่จะประเมินโมเดลกับชุดทดสอบ เวิร์กโฟลว์จะประเมินโมเดลเทียบกับชุดการตรวจสอบ จากนั้น เมื่อชุดการฝึกและการตรวจสอบมีการยอมรับให้เห็นด้วยมากกว่าหรือน้อยกว่า ให้ยืนยันโมเดลกับชุดทดสอบ

รูปที่ 3 เวิร์กโฟลว์ที่ดีกว่า

ด้วยเวิร์กโฟลว์ที่ปรับปรุงใหม่นี้

  1. เลือกโมเดลที่มีประสิทธิภาพดีที่สุดในชุดการตรวจสอบ
  2. ตรวจสอบโมเดลดังกล่าวอีกครั้งเทียบกับชุดทดสอบ

ซึ่งเป็นวิธีที่ดีกว่า เพราะจะทำให้ชุดทดสอบเห็นการแสดงผลน้อยกว่า