การจัดเตรียมข้อมูลและวิศวกรรมฟีเจอร์ใน ML

แมชชีนเลิร์นนิงช่วยให้เราพบรูปแบบในข้อมูล ซึ่งเป็นรูปแบบที่เราใช้ในการคาดการณ์เกี่ยวกับจุดข้อมูลใหม่ๆ เพื่อให้คาดการณ์ได้อย่างถูกต้อง เราต้องสร้างชุดข้อมูลและเปลี่ยนรูปแบบข้อมูลอย่างถูกต้อง หลักสูตรนี้ครอบคลุม 2 ขั้นตอนสําคัญเหล่านี้ เราจะดูว่าการฝึกอบรม/การพิจารณาการเล่นมีขั้นตอนอย่างไร

เป็นโปรเจ็กต์แมชชีนเลิร์นนิงที่มีทั้งหมด 5 ขั้นตอน 1. กําหนดปัญหา ML
และเสนอวิธีแก้ปัญหา 2. สร้างชุดข้อมูล 3. แปลงข้อมูล
4. ฝึกโมเดล 5. ใช้โมเดลเพื่อคาดการณ์  หลักสูตรนี้ครอบคลุม
การสร้างชุดข้อมูลและการเปลี่ยนรูปแบบข้อมูล

สิ่งที่ต้องดำเนินการก่อน

หลักสูตรนี้จะถือว่าคุณมี

ทําไมจึงต้องเรียนรู้เกี่ยวกับการจัดเตรียมข้อมูลและวิศวกรรมฟีเจอร์

คุณอาจลองคิดว่าวิศวกรรมฟีเจอร์ช่วยให้โมเดลเข้าใจข้อมูลในลักษณะเดียวกับที่ทําได้ ผู้เรียนมักจะเข้ามาที่หลักสูตรแมชชีนเลิร์นนิงที่มุ่งเน้นที่การสร้างโมเดล แต่สุดท้ายก็ใช้เวลามากขึ้นกับการมุ่งเน้นที่ข้อมูล

สําหรับคําถามต่อไปนี้ ให้คลิกลูกศรที่ต้องการเพื่อค้นหาคําตอบ

หากคุณต้องให้ความสําคัญกับการปรับปรุงด้านใดด้านหนึ่งด้านล่างของโปรเจ็กต์แมชชีนเลิร์นนิง สิ่งใดที่มีผลกระทบมากที่สุด
คุณภาพและขนาดของข้อมูลของคุณ
ข้อมูลทั้งหมดมีมากกว่าทุกกฎ การอัปเดตอัลกอริทึมการเรียนรู้หรือสถาปัตยกรรมโมเดลจะช่วยให้คุณเรียนรู้รูปแบบที่แตกต่างกันได้ แต่หากข้อมูลไม่ถูกต้อง คุณจะสร้างฟังก์ชันที่เหมาะกับสิ่งที่ไม่ถูกต้องได้ คุณภาพและขนาดของชุดข้อมูลสําคัญกว่าอัลกอริทึมที่ใช้มาก
การใช้อัลกอริทึมการเพิ่มประสิทธิภาพล่าสุด
คุณอาจจะเห็นว่าการเพิ่มประสิทธิภาพพุชมีประสิทธิภาพดีขึ้นอีกเล็กน้อย แต่จะไม่ส่งผลกระทบต่อโมเดลของคุณมากเท่ากับรายการอื่นในรายการนี้
เครือข่ายที่ลึกกว่า
แม้ว่าเครือข่ายที่ละเอียดยิ่งขึ้นอาจช่วยปรับปรุงโมเดลของคุณ แต่ผลกระทบจะไม่สําคัญเท่ากับรายการอื่นในรายการนี้
ฟังก์ชันการสูญเสียอย่างชาญฉลาดมากขึ้น
เกือบใช่ ฟังก์ชันการสูญเสียที่ดียิ่งขึ้นจะช่วยให้คุณชนะครั้งใหญ่ แต่ก็ยังเป็นรายการที่ 2 ในอีกรายการในรายการนี้

ทําไมการรวบรวมชุดข้อมูลที่ดีจึงสําคัญ

Google แปลภาษา

"...ความก้าวหน้าด้านคุณภาพที่สําคัญที่สุดอย่างหนึ่งของเรา เนื่องจากการแปลด้วยระบบนิวรัลของคอมพิวเตอร์ได้ระบุกลุ่มย่อยของข้อมูลการฝึกอบรมที่ดีที่สุดที่จะใช้"

- วิศวกรซอฟต์แวร์, Google แปลภาษา

ทีม Google แปลภาษามีข้อมูลการฝึกอบรมมากกว่าที่ทีมสามารถใช้ได้ แทนที่จะปรับแต่งโมเดลของพวกเขา ทีมได้รับ ผลตอบแทนที่ยิ่งใหญ่กว่าโดยการใช้คุณลักษณะที่ดีที่สุดในข้อมูลของพวกเขา

 

 

 

"...ส่วนใหญ่เมื่อฉันพยายามแก้ไขข้อบกพร่องของข้อผิดพลาดที่มีรูปลักษณ์ด้วยตนเอง ระบบก็อาจนําการติดตามกลับไปที่ปัญหาเกี่ยวกับข้อมูลการฝึกอบรม" - วิศวกรซอฟต์แวร์, Google แปลภาษา

ข้อผิดพลาด "ดูน่าสนใจ" มักเกิดจากข้อมูล ข้อมูลผิดพลาดอาจทําให้โมเดลเรียนรู้รูปแบบที่ไม่ถูกต้อง ไม่ว่าคุณลองใช้เทคนิคการประมาณใด

 

 

โครงการจอตาเหตุเบาหวานของสมอง

โครงการจอตาเหตุเบาหวานของ Google Brain ใช้สถาปัตยกรรมเครือข่ายระบบประสาทที่เรียกว่า Inception เพื่อตรวจหาโรคโดยการแยกประเภทรูปภาพ ทีมงานไม่ได้ปรับเปลี่ยนโมเดล พวกเขาประสบความสําเร็จได้โดยการสร้างชุดข้อมูลตัวอย่าง 120,000 ตัวอย่างที่กําหนดโดยจักษุแพทย์ (เรียนรู้เพิ่มเติมที่ https://research.google.com/pubs/pub43022.html)