หากต้องการเตรียมไปป์ไลน์ ML สำหรับการใช้งานจริง คุณต้องทำสิ่งต่อไปนี้
- จัดสรรทรัพยากรการประมวลผลสำหรับไปป์ไลน์
- เปิดใช้การบันทึก การตรวจสอบ และการแจ้งเตือน
การจัดสรรทรัพยากรการประมวลผล
การเรียกใช้ไปป์ไลน์ ML ต้องใช้ทรัพยากรการประมวลผล เช่น RAM, CPU และ GPU/TPU หากไม่มีการประมวลผลที่เพียงพอ คุณจะเรียกใช้ไปป์ไลน์ไม่ได้ ดังนั้น โปรดตรวจสอบ ว่าได้รับโควต้าเพียงพอที่จะจัดสรรทรัพยากรที่จำเป็นซึ่งไปป์ไลน์ ต้องใช้ในการเรียกใช้ในสภาพแวดล้อมที่ใช้งานจริง
ไปป์ไลน์การแสดงผล การฝึก และการตรวจสอบ ไปป์ไลน์เหล่านี้ต้องใช้ TPU, GPU หรือ CPU คุณอาจฝึกและแสดงโมเดลในฮาร์ดแวร์ที่แตกต่างกัน หรือใช้ฮาร์ดแวร์เดียวกันก็ได้ ทั้งนี้ขึ้นอยู่กับกรณีการใช้งาน ตัวอย่างเช่น การฝึกอาจ เกิดขึ้นใน CPU แต่การแสดงผลอาจใช้ TPU หรือในทางกลับกัน โดยทั่วไปแล้ว การฝึกโมเดลในฮาร์ดแวร์ขนาดใหญ่แล้วนำไปใช้งานในฮาร์ดแวร์ขนาดเล็กเป็นเรื่องปกติ
เมื่อเลือกฮาร์ดแวร์ ให้พิจารณาสิ่งต่อไปนี้
- คุณฝึกโมเดลบนฮาร์ดแวร์ที่มีราคาถูกกว่าได้ไหม
- การเปลี่ยนไปใช้ฮาร์ดแวร์อื่นจะช่วยเพิ่มประสิทธิภาพได้ไหม
- โมเดลมีขนาดเท่าใดและฮาร์ดแวร์ใดที่จะเพิ่มประสิทธิภาพของโมเดล
- ฮาร์ดแวร์ใดที่เหมาะที่สุดตามสถาปัตยกรรมของโมเดล
Data Pipeline ไปป์ไลน์ข้อมูลต้องมีโควต้าสำหรับ RAM และ CPU คุณจะต้องประมาณโควต้าที่ไปป์ไลน์ต้องการเพื่อสร้างชุดข้อมูลการฝึกและชุดข้อมูลการทดสอบ
คุณอาจไม่จัดสรรโควต้าสำหรับแต่ละไปป์ไลน์ แต่คุณอาจ จัดสรรโควต้าที่ไปป์ไลน์ใช้ร่วมกันแทนได้ ในกรณีดังกล่าว ให้ตรวจสอบว่าคุณมีโควต้าเพียงพอที่จะเรียกใช้ไปป์ไลน์ทั้งหมด และตั้งค่าการตรวจสอบและการแจ้งเตือนเพื่อป้องกันไม่ให้ไปป์ไลน์เดียวที่ทำงานผิดพลาดใช้โควต้าทั้งหมด
โควต้าการประมาณ
หากต้องการประมาณโควต้าที่คุณจะต้องใช้สำหรับไปป์ไลน์ข้อมูลและการฝึก ให้ค้นหาโปรเจ็กต์ที่คล้ายกันเพื่อใช้เป็นพื้นฐานในการประมาณ หากต้องการประมาณโควต้าการแสดงผล ให้ลอง คาดการณ์จำนวนคำค้นหาต่อวินาทีของบริการ วิธีการเหล่านี้เป็นพื้นฐาน เมื่อเริ่มสร้างต้นแบบโซลูชันในระยะการทดลอง คุณจะเริ่มได้รับการประมาณโควต้าที่แม่นยำยิ่งขึ้น
เมื่อประมาณโควต้า อย่าลืมพิจารณาโควต้าไม่เพียงแต่สำหรับไปป์ไลน์การผลิต เท่านั้น แต่ยังรวมถึงการทดสอบที่กำลังดำเนินการด้วย
ทดสอบความเข้าใจ
การบันทึก การตรวจสอบ และการแจ้งเตือน
การบันทึกและการตรวจสอบลักษณะการทำงานของโมเดลเวอร์ชันที่ใช้งานจริงเป็นสิ่งสำคัญ โครงสร้างพื้นฐานการตรวจสอบที่แข็งแกร่ง ช่วยยืนยันว่าโมเดลของคุณให้การคาดการณ์ที่เชื่อถือได้และมีคุณภาพสูง
แนวทางปฏิบัติในการบันทึกและการตรวจสอบที่ดีจะช่วยระบุปัญหาในไปป์ไลน์ ML ได้อย่างรวดเร็วและลดผลกระทบที่อาจเกิดขึ้นกับธุรกิจ เมื่อเกิดปัญหา การแจ้งเตือน จะแจ้งให้สมาชิกในทีมทราบ และบันทึกที่ครอบคลุมจะช่วยในการวินิจฉัย สาเหตุหลักของปัญหา
คุณควรติดตั้งใช้งานการบันทึกและการตรวจสอบเพื่อตรวจหาปัญหาต่อไปนี้ ในไปป์ไลน์ ML
ไปป์ไลน์ | ตรวจสอบ |
---|---|
ทำงาน |
|
ข้อมูล |
|
การฝึกอบรม |
|
การตรวจสอบความถูกต้อง |
|
นอกจากนี้ คุณยังต้องมีการบันทึก การตรวจสอบ และการแจ้งเตือนสำหรับสิ่งต่อไปนี้ด้วย
- เวลาในการตอบสนอง ระบบใช้เวลานานเท่าใดในการแสดงผลการคาดการณ์
- การหยุดทำงาน โมเดลหยุดแสดงการคาดการณ์แล้วใช่ไหม
ทดสอบความเข้าใจ
การทำให้โมเดลใช้งานได้
สําหรับการติดตั้งใช้งานโมเดล คุณจะต้องบันทึกข้อมูลต่อไปนี้
- ต้องมีการอนุมัติเพื่อเริ่มการติดตั้งใช้งานและเพิ่มการเปิดตัว
- วิธีนำโมเดลไปใช้งานจริง
- ตำแหน่งที่จะติดตั้งใช้งานโมเดล เช่น หากมีสภาพแวดล้อมการจัดเตรียมหรือสภาพแวดล้อม Canary
- สิ่งที่ต้องทำหากการติดตั้งใช้งานล้มเหลว
- วิธีย้อนกลับโมเดลที่ใช้งานจริงอยู่แล้ว
หลังจากทำให้การฝึกโมเดลเป็นแบบอัตโนมัติแล้ว คุณจะต้องทำให้การตรวจสอบและการติดตั้งใช้งานเป็นแบบอัตโนมัติด้วย การติดตั้งใช้งานอัตโนมัติจะกระจายความรับผิดชอบและลดโอกาสที่การติดตั้งใช้งานจะถูกจำกัดโดยบุคคลเพียงคนเดียว นอกจากนี้ ยังช่วยลดข้อผิดพลาดที่อาจเกิดขึ้น เพิ่มประสิทธิภาพและความน่าเชื่อถือ รวมถึงเปิดใช้การหมุนเวียนการเข้าเวรและการสนับสนุนจาก SRE
โดยปกติแล้ว คุณจะติดตั้งใช้งานโมเดลใหม่กับผู้ใช้กลุ่มย่อยเพื่อตรวจสอบว่าโมเดลทํางานตามที่คาดไว้ หรือไม่ หากใช่ ให้ดำเนินการติดตั้งต่อไป หากไม่เป็นเช่นนั้น คุณจะย้อนกลับการติดตั้งใช้งานและเริ่มการวินิจฉัยและแก้ไขข้อบกพร่องของปัญหา