การผลิต

หากต้องการเตรียมไปป์ไลน์ ML สำหรับการใช้งานจริง คุณต้องทำสิ่งต่อไปนี้

  • จัดสรรทรัพยากรการประมวลผลสำหรับไปป์ไลน์
  • เปิดใช้การบันทึก การตรวจสอบ และการแจ้งเตือน

การจัดสรรทรัพยากรการประมวลผล

การเรียกใช้ไปป์ไลน์ ML ต้องใช้ทรัพยากรการประมวลผล เช่น RAM, CPU และ GPU/TPU หากไม่มีการประมวลผลที่เพียงพอ คุณจะเรียกใช้ไปป์ไลน์ไม่ได้ ดังนั้น โปรดตรวจสอบ ว่าได้รับโควต้าเพียงพอที่จะจัดสรรทรัพยากรที่จำเป็นซึ่งไปป์ไลน์ ต้องใช้ในการเรียกใช้ในสภาพแวดล้อมที่ใช้งานจริง

  • ไปป์ไลน์การแสดงผล การฝึก และการตรวจสอบ ไปป์ไลน์เหล่านี้ต้องใช้ TPU, GPU หรือ CPU คุณอาจฝึกและแสดงโมเดลในฮาร์ดแวร์ที่แตกต่างกัน หรือใช้ฮาร์ดแวร์เดียวกันก็ได้ ทั้งนี้ขึ้นอยู่กับกรณีการใช้งาน ตัวอย่างเช่น การฝึกอาจ เกิดขึ้นใน CPU แต่การแสดงผลอาจใช้ TPU หรือในทางกลับกัน โดยทั่วไปแล้ว การฝึกโมเดลในฮาร์ดแวร์ขนาดใหญ่แล้วนำไปใช้งานในฮาร์ดแวร์ขนาดเล็กเป็นเรื่องปกติ

    เมื่อเลือกฮาร์ดแวร์ ให้พิจารณาสิ่งต่อไปนี้

    • คุณฝึกโมเดลบนฮาร์ดแวร์ที่มีราคาถูกกว่าได้ไหม
    • การเปลี่ยนไปใช้ฮาร์ดแวร์อื่นจะช่วยเพิ่มประสิทธิภาพได้ไหม
    • โมเดลมีขนาดเท่าใดและฮาร์ดแวร์ใดที่จะเพิ่มประสิทธิภาพของโมเดล
    • ฮาร์ดแวร์ใดที่เหมาะที่สุดตามสถาปัตยกรรมของโมเดล
  • Data Pipeline ไปป์ไลน์ข้อมูลต้องมีโควต้าสำหรับ RAM และ CPU คุณจะต้องประมาณโควต้าที่ไปป์ไลน์ต้องการเพื่อสร้างชุดข้อมูลการฝึกและชุดข้อมูลการทดสอบ

คุณอาจไม่จัดสรรโควต้าสำหรับแต่ละไปป์ไลน์ แต่คุณอาจ จัดสรรโควต้าที่ไปป์ไลน์ใช้ร่วมกันแทนได้ ในกรณีดังกล่าว ให้ตรวจสอบว่าคุณมีโควต้าเพียงพอที่จะเรียกใช้ไปป์ไลน์ทั้งหมด และตั้งค่าการตรวจสอบและการแจ้งเตือนเพื่อป้องกันไม่ให้ไปป์ไลน์เดียวที่ทำงานผิดพลาดใช้โควต้าทั้งหมด

โควต้าการประมาณ

หากต้องการประมาณโควต้าที่คุณจะต้องใช้สำหรับไปป์ไลน์ข้อมูลและการฝึก ให้ค้นหาโปรเจ็กต์ที่คล้ายกันเพื่อใช้เป็นพื้นฐานในการประมาณ หากต้องการประมาณโควต้าการแสดงผล ให้ลอง คาดการณ์จำนวนคำค้นหาต่อวินาทีของบริการ วิธีการเหล่านี้เป็นพื้นฐาน เมื่อเริ่มสร้างต้นแบบโซลูชันในระยะการทดลอง คุณจะเริ่มได้รับการประมาณโควต้าที่แม่นยำยิ่งขึ้น

เมื่อประมาณโควต้า อย่าลืมพิจารณาโควต้าไม่เพียงแต่สำหรับไปป์ไลน์การผลิต เท่านั้น แต่ยังรวมถึงการทดสอบที่กำลังดำเนินการด้วย

ทดสอบความเข้าใจ

เมื่อเลือกฮาร์ดแวร์เพื่อแสดงผลการคาดการณ์ คุณควรเลือกฮาร์ดแวร์ที่มีประสิทธิภาพมากกว่าที่ใช้ฝึกโมเดลเสมอ
เท็จ
ถูกต้อง โดยปกติแล้ว การฝึกโมเดลต้องใช้ฮาร์ดแวร์ที่ใหญ่กว่าการแสดงผล
จริง

การบันทึก การตรวจสอบ และการแจ้งเตือน

การบันทึกและการตรวจสอบลักษณะการทำงานของโมเดลเวอร์ชันที่ใช้งานจริงเป็นสิ่งสำคัญ โครงสร้างพื้นฐานการตรวจสอบที่แข็งแกร่ง ช่วยยืนยันว่าโมเดลของคุณให้การคาดการณ์ที่เชื่อถือได้และมีคุณภาพสูง

แนวทางปฏิบัติในการบันทึกและการตรวจสอบที่ดีจะช่วยระบุปัญหาในไปป์ไลน์ ML ได้อย่างรวดเร็วและลดผลกระทบที่อาจเกิดขึ้นกับธุรกิจ เมื่อเกิดปัญหา การแจ้งเตือน จะแจ้งให้สมาชิกในทีมทราบ และบันทึกที่ครอบคลุมจะช่วยในการวินิจฉัย สาเหตุหลักของปัญหา

คุณควรติดตั้งใช้งานการบันทึกและการตรวจสอบเพื่อตรวจหาปัญหาต่อไปนี้ ในไปป์ไลน์ ML

ไปป์ไลน์ ตรวจสอบ
ทำงาน
  • ความเบ้หรือการเปลี่ยนแปลงในข้อมูลการแสดงเทียบกับข้อมูลการฝึก
  • ความเบ้หรือการเปลี่ยนแปลงในการคาดการณ์
  • ปัญหาเกี่ยวกับประเภทข้อมูล เช่น ค่าที่ขาดหายไปหรือเสียหาย
  • การใช้โควต้า
  • เมตริกคุณภาพของโมเดล
ข้อมูล
  • ความเบ้และความคลาดเคลื่อนในค่าฟีเจอร์
  • ความเบ้และความคลาดเคลื่อนในค่าป้ายกำกับ
  • ปัญหาเกี่ยวกับประเภทข้อมูล เช่น ค่าที่ขาดหายไปหรือเสียหาย
  • อัตราการใช้โควต้า
  • โควต้ากำลังจะเต็ม
การฝึกอบรม
  • เวลาการฝึก
  • การฝึกไม่สำเร็จ
  • การใช้โควต้า
การตรวจสอบความถูกต้อง
  • ความเบ้หรือการเปลี่ยนแปลงในชุดข้อมูลทดสอบ

นอกจากนี้ คุณยังต้องมีการบันทึก การตรวจสอบ และการแจ้งเตือนสำหรับสิ่งต่อไปนี้ด้วย

  • เวลาในการตอบสนอง ระบบใช้เวลานานเท่าใดในการแสดงผลการคาดการณ์
  • การหยุดทำงาน โมเดลหยุดแสดงการคาดการณ์แล้วใช่ไหม

ทดสอบความเข้าใจ

เหตุผลหลักในการบันทึกและตรวจสอบไปป์ไลน์ ML คือข้อใดต่อไปนี้
ตรวจหาปัญหาก่อนที่จะส่งผลกระทบต่อผู้ใช้
ติดตามโควต้าและการใช้ทรัพยากร
ระบุปัญหาด้านความปลอดภัยที่อาจเกิดขึ้น
ทุกข้อที่กล่าวมา
ถูกต้อง การบันทึกและการตรวจสอบไปป์ไลน์ ML ช่วยป้องกันและ วินิจฉัยปัญหาได้ก่อนที่จะกลายเป็นปัญหาร้ายแรง

การทำให้โมเดลใช้งานได้

สําหรับการติดตั้งใช้งานโมเดล คุณจะต้องบันทึกข้อมูลต่อไปนี้

  • ต้องมีการอนุมัติเพื่อเริ่มการติดตั้งใช้งานและเพิ่มการเปิดตัว
  • วิธีนำโมเดลไปใช้งานจริง
  • ตำแหน่งที่จะติดตั้งใช้งานโมเดล เช่น หากมีสภาพแวดล้อมการจัดเตรียมหรือสภาพแวดล้อม Canary
  • สิ่งที่ต้องทำหากการติดตั้งใช้งานล้มเหลว
  • วิธีย้อนกลับโมเดลที่ใช้งานจริงอยู่แล้ว

หลังจากทำให้การฝึกโมเดลเป็นแบบอัตโนมัติแล้ว คุณจะต้องทำให้การตรวจสอบและการติดตั้งใช้งานเป็นแบบอัตโนมัติด้วย การติดตั้งใช้งานอัตโนมัติจะกระจายความรับผิดชอบและลดโอกาสที่การติดตั้งใช้งานจะถูกจำกัดโดยบุคคลเพียงคนเดียว นอกจากนี้ ยังช่วยลดข้อผิดพลาดที่อาจเกิดขึ้น เพิ่มประสิทธิภาพและความน่าเชื่อถือ รวมถึงเปิดใช้การหมุนเวียนการเข้าเวรและการสนับสนุนจาก SRE

โดยปกติแล้ว คุณจะติดตั้งใช้งานโมเดลใหม่กับผู้ใช้กลุ่มย่อยเพื่อตรวจสอบว่าโมเดลทํางานตามที่คาดไว้ หรือไม่ หากใช่ ให้ดำเนินการติดตั้งต่อไป หากไม่เป็นเช่นนั้น คุณจะย้อนกลับการติดตั้งใช้งานและเริ่มการวินิจฉัยและแก้ไขข้อบกพร่องของปัญหา