ชุดข้อมูล การทั่วไป และการปรับให้พอดีมากเกินไป

บทนำ

โมดูลนี้เริ่มต้นด้วยคำถามนำ เลือกคำตอบข้อใดข้อหนึ่งต่อไปนี้

ถ้าคุณจำเป็นต้องให้ความสำคัญกับการปรับปรุงด้านใดด้านหนึ่งต่อไปนี้ ในโปรเจ็กต์แมชชีนเลิร์นนิง ผลกระทบหรือไม่
การปรับปรุงคุณภาพชุดข้อมูล
ข้อมูลสำคัญกว่าสิ่งอื่นใด คุณภาพและขนาดของชุดข้อมูลมีความสำคัญมากกว่าที่ อัลกอริทึมแวววาวที่คุณใช้ในการสร้างโมเดล
การใช้ฟังก์ชันการสูญเสียที่ฉลาดขึ้นเพื่อฝึกโมเดล
จริงอยู่ที่ฟังก์ชันการสูญเสียที่ดีขึ้นจะช่วยให้โมเดลฝึกได้เร็วขึ้น แต่ก็ยังถือว่ามีประสิทธิภาพต่ำกว่ารายการอื่นๆ ในรายการนี้

และนี่คือคำถามที่ชี้นำมากกว่า

ลองเดาดูว่าปกติแล้วคุณใช้เวลาเตรียมและเปลี่ยนรูปแบบข้อมูลในโปรเจ็กต์แมชชีนเลิร์นนิงนานเท่าใด
มากกว่าครึ่งหนึ่งของเวลาในโปรเจ็กต์
ใช่ ผู้ปฏิบัติงาน ML ใช้เวลาส่วนใหญ่ การสร้างชุดข้อมูล และการทำวิศวกรรมฟีเจอร์
น้อยกว่าครึ่งหนึ่งของเวลาในโปรเจ็กต์
วางแผนรับประโยชน์เพิ่มเติม ปกติแล้ว 80% ของเวลาทั้งหมดที่ใช้แมชชีนเลิร์นนิง ใช้เวลาสร้างชุดข้อมูลและเปลี่ยนรูปแบบข้อมูล

ในโมดูลนี้ คุณจะได้เรียนรู้เพิ่มเติมเกี่ยวกับลักษณะของชุดข้อมูลแมชชีนเลิร์นนิง และวิธีเตรียมข้อมูลเพื่อให้ได้ผลลัพธ์ที่มีคุณภาพสูงเมื่อฝึกและประเมินโมเดล