ไปป์ไลน์ ML

ใน ML ที่ใช้งานจริง เป้าหมายไม่ใช่การสร้างโมเดลเดียวและนําไปใช้งาน เป้าหมาย คือการสร้างไปป์ไลน์อัตโนมัติสำหรับการพัฒนา ทดสอบ และการทำให้โมเดลใช้งานได้ เมื่อเวลาผ่านไป เหตุผล เมื่อโลกเปลี่ยนแปลงไป เทรนด์ในข้อมูลก็จะเปลี่ยนตาม ทำให้โมเดลใน การใช้งานจริงล้าสมัย โดยปกติแล้ว โมเดลจะต้องได้รับการฝึกซ้ำด้วยข้อมูลล่าสุดเพื่อ ให้บริการการคาดการณ์คุณภาพสูงต่อไปในระยะยาว กล่าวคือ คุณจะต้องมีวิธีแทนที่โมเดลที่ล้าสมัยด้วยโมเดลใหม่

หากไม่มีไปป์ไลน์ การแทนที่โมเดลที่ล้าสมัยจะเป็นกระบวนการที่เกิดข้อผิดพลาดได้ง่าย ตัวอย่างเช่น เมื่อโมเดลเริ่มแสดงการคาดการณ์ที่ไม่ดี ก็จะมีคนต้องรวบรวมและประมวลผลข้อมูลใหม่ ฝึกโมเดลใหม่ ตรวจสอบคุณภาพ และสุดท้ายก็ต้องนําไปใช้งาน ไปป์ไลน์ ML จะช่วยทำให้กระบวนการที่ซ้ำกันเหล่านี้เป็นแบบอัตโนมัติ ซึ่งจะช่วยให้การจัดการและการบำรุงรักษาโมเดลมีประสิทธิภาพและเชื่อถือได้มากขึ้น

การสร้างไปป์ไลน์

ไปป์ไลน์ ML จะจัดระเบียบขั้นตอนในการสร้างและใช้งานโมเดลเป็นงานที่กำหนดไว้อย่างดี ไปป์ไลน์มีฟังก์ชันอย่างใดอย่างหนึ่ง 2 อย่าง ได้แก่ การแสดงผลการคาดคะเน หรือการอัปเดตโมเดล

การแสดงการคาดการณ์

ไปป์ไลน์การแสดงผลจะแสดงผลการคาดการณ์ โดยจะแสดงโมเดลของคุณต่อโลกแห่งความเป็นจริง เพื่อให้ผู้ใช้เข้าถึงได้ ตัวอย่างเช่น เมื่อผู้ใช้ต้องการ การคาดคะเน เช่น สภาพอากาศในวันพรุ่งนี้จะเป็นอย่างไร หรือใช้เวลา กี่นาทีในการเดินทางไปสนามบิน หรือรายการวิดีโอแนะนำ ไปป์ไลน์การแสดงผลจะรับและประมวลผลข้อมูลของผู้ใช้ ทำการคาดคะเน แล้ว ส่งให้ผู้ใช้

การอัปเดตโมเดล

โมเดลมีแนวโน้มที่จะล้าสมัยในทันทีหลังจากที่นำไปใช้งานจริง กล่าวโดยสรุปคือ โมเดลเหล่านี้ทำการคาดการณ์โดยใช้ข้อมูลเก่า ชุดข้อมูลการฝึกของโมเดลเหล่านี้ บันทึกสถานะของโลกเมื่อ 1 วันที่ผ่านมา หรือในบางกรณีอาจเป็นเมื่อ 1 ชั่วโมงที่ผ่านมา โลกได้เปลี่ยนแปลงไปอย่างหลีกเลี่ยงไม่ได้ ผู้ใช้ดูวิดีโอมากขึ้นและต้องการรายการคำแนะนำใหม่ ฝนตกทำให้การจราจรช้าลงและผู้ใช้ต้องการเวลาถึงโดยประมาณที่อัปเดตแล้ว เทรนด์ยอดนิยมทำให้ผู้ค้าปลีกขอการคาดการณ์สินค้าคงคลังที่อัปเดตแล้วสำหรับสินค้าบางรายการ

โดยปกติแล้ว ทีมจะฝึกโมเดลใหม่ก่อนที่โมเดลที่ใช้งานจริงจะล้าสมัย ในบางกรณี ทีมจะฝึกและใช้งานโมเดลใหม่ทุกวันในวงจรการฝึกและการใช้งานอย่างต่อเนื่อง ในอุดมคติ การฝึกโมเดลใหม่ควรเกิดขึ้นก่อนที่โมเดลที่ใช้งานจริงจะล้าสมัย

ไปป์ไลน์ต่อไปนี้ทำงานร่วมกันเพื่อฝึกโมเดลใหม่

  • Data Pipeline ไปป์ไลน์ข้อมูลจะประมวลผลข้อมูลผู้ใช้เพื่อสร้าง ชุดข้อมูลการฝึกและชุดข้อมูลการทดสอบ
  • ไปป์ไลน์การฝึก ไปป์ไลน์การฝึกจะฝึกโมเดลโดยใช้ชุดข้อมูลการฝึกใหม่จากไปป์ไลน์ข้อมูล
  • ไปป์ไลน์การตรวจสอบความถูกต้อง ไปป์ไลน์การตรวจสอบจะตรวจสอบโมเดลที่ฝึกแล้ว โดยเปรียบเทียบกับโมเดลที่ใช้งานจริงโดยใช้ชุดข้อมูลทดสอบที่สร้างขึ้นโดย ไปป์ไลน์ข้อมูล

รูปที่ 4 แสดงอินพุตและเอาต์พุตของไปป์ไลน์ ML แต่ละรายการ

ไปป์ไลน์ ML

ไปป์ไลน์ ML ที่แสดงอินพุตและเอาต์พุต ไปป์ไลน์การแสดงผล
รับอินพุตของผู้ใช้และแสดงผลการคาดการณ์ ไปป์ไลน์ข้อมูลจะประมวลผล
บันทึกข้อมูลแอปพลิเคชันเพื่อสร้างชุดข้อมูลการฝึกและทดสอบที่ไปป์ไลน์การฝึกและการตรวจสอบใช้เพื่อฝึกและตรวจสอบโมเดลใหม่

รูปที่ 4 ไปป์ไลน์ ML จะทำให้กระบวนการต่างๆ ในการพัฒนาและ ดูแลรักษารุ่นเป็นอัตโนมัติ ไปป์ไลน์แต่ละรายการจะแสดงอินพุตและเอาต์พุต

โดยทั่วไปแล้ว ไปป์ไลน์จะช่วยให้โมเดลใหม่ล่าสุดพร้อมใช้งานใน การผลิตอยู่เสมอด้วยวิธีต่อไปนี้

  1. ก่อนอื่น โมเดลจะเข้าสู่การใช้งานจริง และไปป์ไลน์การแสดงผลจะเริ่ม แสดงผลการคาดการณ์

  2. ไปป์ไลน์ข้อมูลจะเริ่มรวบรวมข้อมูลทันทีเพื่อสร้างชุดข้อมูลการฝึกและชุดข้อมูลการทดสอบใหม่

  3. ไปป์ไลน์การฝึกและการตรวจสอบจะฝึกและตรวจสอบโมเดลใหม่โดยใช้ชุดข้อมูลที่ไปป์ไลน์ข้อมูลสร้างขึ้นตามกำหนดเวลาหรือทริกเกอร์

  4. เมื่อไปป์ไลน์การตรวจสอบยืนยันว่าโมเดลใหม่ไม่ได้แย่กว่าโมเดลที่ใช้งานจริง ระบบจะนําโมเดลใหม่ไปใช้งาน

  5. กระบวนการนี้จะเกิดขึ้นซ้ำไปเรื่อยๆ

ความล้าสมัยของโมเดลและความถี่ในการฝึก

โมเดลเกือบทั้งหมดจะล้าสมัย โมเดลบางรายการอาจล้าสมัยเร็วกว่ารายการอื่นๆ ตัวอย่างเช่น โมเดลที่แนะนำเสื้อผ้ามักจะล้าสมัยอย่างรวดเร็วเนื่องจากความชอบของผู้บริโภคเปลี่ยนแปลงอยู่บ่อยๆ ในทางกลับกัน โมเดลที่ระบุดอกไม้อาจไม่เคยล้าสมัย ลักษณะเฉพาะที่ใช้ระบุตัวตนของดอกไม้ จะยังคงเหมือนเดิม

โมเดลส่วนใหญ่จะเริ่มล้าสมัยทันทีหลังจากนำไปใช้งานจริง คุณจะต้องกำหนดความถี่ในการฝึกที่สอดคล้องกับลักษณะของข้อมูล หากข้อมูลเป็นแบบไดนามิก ให้ฝึกโมเดลบ่อยๆ หากมีการเปลี่ยนแปลงน้อย คุณอาจไม่จำเป็นต้องฝึกบ่อยนัก

ฝึกโมเดลก่อนที่จะล้าสมัย การฝึกในช่วงแรก จะช่วยให้มีเวลาในการแก้ไขปัญหาที่อาจเกิดขึ้น เช่น หากข้อมูลหรือ ไปป์ไลน์การฝึกไม่สำเร็จ หรือคุณภาพของโมเดลไม่ดี

แนวทางปฏิบัติแนะนำคือการฝึกและติดตั้งใช้งานโมเดลใหม่ทุกวัน เช่นเดียวกับโปรเจ็กต์ซอฟต์แวร์ทั่วไปที่มีกระบวนการสร้างและเผยแพร่รายวัน ไปป์ไลน์ ML สำหรับการฝึกและการตรวจสอบมักจะทำงานได้ดีที่สุดเมื่อเรียกใช้ทุกวัน

ทดสอบความเข้าใจ

โมเดลใดต่อไปนี้ที่น่าจะล้าสมัยอย่างรวดเร็วและจะต้อง แทนที่ด้วยโมเดลที่ฝึกด้วยข้อมูลใหม่กว่าอยู่เสมอ เลือกได้มากกว่า 1 ข้อ
คาดการณ์ว่าเป็นจดหมายขยะ
ถูกต้อง โมเดลเหล่านี้ใช้ข้อมูลที่มีการเปลี่ยนแปลงอยู่ตลอดเวลาเพื่อตอบสนองต่อ ชุดปัจจัยต่างๆ เช่น กลยุทธ์สแปมใหม่ๆ ด้วยเหตุนี้ จึงต้อง อัปเดตอย่างต่อเนื่องเพื่อตอบสนองต่อเทรนด์ที่เปลี่ยนแปลงไปอยู่เสมอ
แนะนำเสื้อผ้า
ถูกต้อง โมเดลเหล่านี้ใช้ข้อมูลที่มีการเปลี่ยนแปลงอยู่ตลอดเวลาเพื่อตอบสนองต่อ ชุดปัจจัยต่างๆ เช่น ความชอบของผู้บริโภค ด้วยเหตุนี้ จึงต้องอัปเดตอย่างต่อเนื่องเพื่อตอบสนองต่อเทรนด์ที่เปลี่ยนแปลงไปอยู่เสมอ
จัดประเภทนก
สายพันธุ์นกจะไม่เปลี่ยนแปลงเมื่อเวลาผ่านไป
คาดการณ์ว่าธุรกรรมเป็นการฉ้อโกงหรือไม่
ถูกต้อง โมเดลเหล่านี้ใช้ข้อมูลที่มีการเปลี่ยนแปลงอยู่ตลอดเวลาเพื่อตอบสนองต่อ ชุดปัจจัยต่างๆ เช่น กลยุทธ์การประพฤติมิชอบใหม่ๆ ด้วยเหตุนี้ จึงต้อง อัปเดตอย่างต่อเนื่องเพื่อตอบสนองต่อเทรนด์ที่เปลี่ยนแปลงไปอยู่เสมอ

ไปป์ไลน์การแสดง

ไปป์ไลน์การแสดงโฆษณาจะสร้างและแสดงการคาดการณ์ด้วยวิธีใดวิธีหนึ่งต่อไปนี้ ออนไลน์หรือออฟไลน์

  • การคาดคะเนออนไลน์ การคาดการณ์ออนไลน์ เกิดขึ้นแบบเรียลไทม์ โดยปกติแล้วจะส่งคำขอไปยังเซิร์ฟเวอร์ออนไลน์และส่งคืน การคาดการณ์ เช่น เมื่อผู้ใช้ต้องการการคาดการณ์ ระบบจะส่งข้อมูลของผู้ใช้ไปยังโมเดล และโมเดลจะส่งการคาดการณ์กลับมา

  • การคาดการณ์ออฟไลน์ การคาดการณ์แบบออฟไลน์ ได้รับการคำนวณล่วงหน้า และแคชไว้ หากต้องการแสดงการคาดคะเน แอปจะค้นหาการคาดคะเนที่แคชไว้ ในฐานข้อมูลแล้วส่งคืน เช่น บริการแบบสมัครใช้บริการ อาจคาดการณ์อัตราการเลิกใช้งานสำหรับสมาชิก โมเดล จะคาดการณ์ความน่าจะเป็นของการเลิกใช้งานสำหรับสมาชิกทุกคนและแคชไว้ เมื่อแอปต้องการการคาดการณ์ เช่น เพื่อให้สิ่งจูงใจแก่ผู้ใช้ที่อาจกำลังจะเลิกใช้งาน แอปจะเพียงค้นหาการคาดการณ์ที่คำนวณไว้ล่วงหน้า

รูปที่ 5 แสดงวิธีสร้างและส่งการคาดการณ์ออนไลน์และออฟไลน์

การคาดการณ์ออนไลน์และออฟไลน์

การคาดคะเนสามารถแสดงผลแบบเรียลไทม์ หรือจัดกลุ่มและแคชไว้เพื่อการค้นหา

รูปที่ 5 การคาดการณ์ออนไลน์จะแสดงผลการคาดการณ์แบบเรียลไทม์ ระบบจะแคชการคาดการณ์แบบออฟไลน์และค้นหาในเวลาที่แสดง

การประมวลผลภายหลังการคาดการณ์

โดยปกติแล้ว ระบบจะประมวลผลภายหลังการคาดการณ์ก่อนที่จะส่ง เช่น ระบบอาจประมวลผลคำทำนายภายหลังเพื่อนำเนื้อหาที่เป็นพิษหรือลำเอียงออก ผลการจัดประเภทอาจ ผ่านกระบวนการ เพื่อจัดลำดับผลการค้นหาใหม่แทนที่จะแสดงเอาต์พุตดิบของโมเดล เช่น เพื่อเพิ่มเนื้อหาที่น่าเชื่อถือมากขึ้น แสดงผลการค้นหาที่หลากหลาย ลดอันดับผลการค้นหาบางรายการ (เช่น คลิกเบต) หรือนำผลการค้นหาออกด้วยเหตุผลทางกฎหมาย

รูปที่ 6 แสดงไปป์ไลน์การแสดงผลและงานทั่วไปที่เกี่ยวข้องกับการแสดงผล การคาดการณ์

การคาดคะเนหลังการประมวลผล

โดยทั่วไปแล้วไปป์ไลน์การแสดงโฆษณาจะประมวลผลภายหลังการคาดการณ์

รูปที่ 6 ไปป์ไลน์การแสดงโฆษณาที่แสดงให้เห็นถึงงานทั่วไปที่เกี่ยวข้องกับการ แสดงผลการคาดการณ์

โปรดทราบว่าโดยปกติแล้วขั้นตอน การออกแบบฟีเจอร์ จะสร้างขึ้นภายในโมเดล ไม่ใช่กระบวนการแบบสแตนด์อโลนที่แยกต่างหาก โค้ดการประมวลผลข้อมูล ในไปป์ไลน์การแสดงมักจะเกือบเหมือนกับโค้ดการประมวลผลข้อมูล ที่ไปป์ไลน์ข้อมูลใช้เพื่อสร้างชุดข้อมูลการฝึกและทดสอบ

การจัดเก็บเนื้อหาและข้อมูลเมตา

ไปป์ไลน์การแสดงควรมีที่เก็บเพื่อบันทึกการคาดการณ์ของโมเดล และข้อมูลจากการสังเกตการณ์โดยตรง (หากเป็นไปได้)

การบันทึกการคาดการณ์ของโมเดลช่วยให้คุณตรวจสอบคุณภาพของโมเดลได้ การรวบรวมการคาดการณ์ช่วยให้คุณตรวจสอบคุณภาพทั่วไปของโมเดลและพิจารณาได้ว่าโมเดลเริ่มมีคุณภาพลดลงหรือไม่ โดยทั่วไป การคาดการณ์ของโมเดลที่ใช้งานจริงควรมีค่าเฉลี่ยเท่ากับป้ายกำกับจากชุดข้อมูลการฝึก ดูข้อมูลเพิ่มเติมได้ที่อคติในการคาดการณ์

การบันทึกข้อมูลจากการสังเกตการณ์โดยตรง

ในบางกรณี Ground Truth จะพร้อมใช้งาน ในภายหลัง เช่น หากแอปสภาพอากาศคาดการณ์สภาพอากาศในอีก 6 สัปดาห์ข้างหน้า ความจริงภาคพื้น (สภาพอากาศที่เป็นจริง) จะไม่พร้อมใช้งานเป็นเวลา 6 สัปดาห์

หากเป็นไปได้ ให้ผู้ใช้รายงานความจริงพื้นฐานโดยเพิ่มกลไก ความคิดเห็นลงในแอป แอปอีเมลจะบันทึกความคิดเห็นของผู้ใช้โดยนัยเมื่อ ผู้ใช้ย้ายอีเมลจากกล่องจดหมายไปยังโฟลเดอร์จดหมายขยะ อย่างไรก็ตาม วิธีนี้จะใช้ได้ก็ต่อเมื่อผู้ใช้จัดหมวดหมู่อีเมลอย่างถูกต้องเท่านั้น เมื่อผู้ใช้ปล่อยให้จดหมายขยะอยู่ในกล่องจดหมาย (เนื่องจากทราบว่าเป็นจดหมายขยะและไม่เคยเปิด) ข้อมูลการฝึกจะคลาดเคลื่อน อีเมลดังกล่าวจะได้รับการติดป้ายกำกับว่า "ไม่ใช่จดหมายขยะ" ทั้งที่ควรเป็น "จดหมายขยะ" กล่าวอีกนัยหนึ่งคือ พยายามหาวิธี จับภาพและบันทึกความจริงภาคพื้นอยู่เสมอ แต่โปรดทราบถึงข้อบกพร่อง ที่อาจมีอยู่ในกลไกความคิดเห็น

รูปที่ 7 แสดงการส่งการคาดการณ์ไปยังผู้ใช้และการบันทึกไปยังที่เก็บ

การบันทึกการคาดคะเน

ไปป์ไลน์การแสดงโฆษณาควรบันทึกการคาดการณ์เพื่อตรวจสอบความล้าสมัยของโมเดล

รูปที่ 7 บันทึกการคาดการณ์เพื่อตรวจสอบคุณภาพของโมเดล

Data Pipeline

ไปป์ไลน์ข้อมูลจะสร้างชุดข้อมูลการฝึกและทดสอบจากข้อมูลแอปพลิเคชัน จากนั้นไปป์ไลน์การฝึกและการตรวจสอบจะใช้ชุดข้อมูลเพื่อฝึกและตรวจสอบโมเดลใหม่

ไปป์ไลน์ข้อมูลจะสร้างชุดข้อมูลการฝึกและชุดข้อมูลการทดสอบที่มีฟีเจอร์และป้ายกำกับเดียวกันกับที่ใช้ฝึกโมเดลในตอนแรก แต่มีข้อมูลที่ใหม่กว่า ตัวอย่างเช่น แอปแผนที่จะสร้างชุดข้อมูลการฝึกและทดสอบจากเวลาเดินทางล่าสุดระหว่างจุดต่างๆ สำหรับผู้ใช้หลายล้านคน พร้อมกับข้อมูลอื่นๆ ที่เกี่ยวข้อง เช่น สภาพอากาศ

แอปวิดีโอแนะนำจะสร้างชุดข้อมูลการฝึกและชุดข้อมูลการทดสอบที่รวมวิดีโอที่ผู้ใช้คลิกจากรายการวิดีโอแนะนำ (รวมถึงวิดีโอที่ไม่ได้คลิก) ตลอดจนข้อมูลอื่นๆ ที่เกี่ยวข้อง เช่น ประวัติการดู

รูปที่ 8 แสดงไปป์ไลน์ข้อมูลที่ใช้ข้อมูลแอปพลิเคชันเพื่อสร้างชุดข้อมูลการฝึกและชุดข้อมูลทดสอบ

Data Pipeline

Data Pipeline จะสร้างชุดข้อมูลการฝึกและชุดข้อมูลการทดสอบ

รูปที่ 8 Data Pipeline จะประมวลผลข้อมูลแอปพลิเคชันเพื่อสร้าง ชุดข้อมูลสำหรับไปป์ไลน์การฝึกและการตรวจสอบ

การเก็บรวบรวมและการประมวลผลข้อมูล

งานสำหรับการรวบรวมและประมวลผลข้อมูลในไปป์ไลน์ข้อมูลอาจแตกต่างจากระยะการทดลอง (ซึ่งคุณได้พิจารณาแล้วว่าโซลูชันของคุณเป็นไปได้) ดังนี้

  • การเก็บรวบรวมข้อมูล โดยปกติแล้วการเก็บรวบรวมข้อมูลระหว่างการทดสอบ ต้องมีการเข้าถึงข้อมูลที่บันทึกไว้ สําหรับไปป์ไลน์ข้อมูล การรวบรวมข้อมูลอาจต้องค้นหาและขออนุมัติเพื่อเข้าถึงข้อมูลบันทึกการสตรีม

    หากต้องการข้อมูลที่ติดป้ายกำกับโดยมนุษย์ (เช่น รูปภาพทางการแพทย์) คุณจะต้องมี กระบวนการรวบรวมและอัปเดตข้อมูลด้วย

  • การประมวลผลข้อมูล ในระหว่างการทดลอง ฟีเจอร์ที่เหมาะสมมาจากการ คัดลอก การรวม และการสุ่มตัวอย่างชุดข้อมูลการทดลอง สำหรับไปป์ไลน์ข้อมูล การสร้างฟีเจอร์เดียวกันอาจต้องใช้กระบวนการที่แตกต่างกันโดยสิ้นเชิง อย่างไรก็ตาม อย่าลืมทำซ้ำการเปลี่ยนรูปแบบข้อมูลจาก ระยะการทดลองโดยใช้การดำเนินการทางคณิตศาสตร์เดียวกัน กับฟีเจอร์และป้ายกำกับ

การจัดเก็บเนื้อหาและข้อมูลเมตา

คุณจะต้องมีกระบวนการจัดเก็บ การควบคุมเวอร์ชัน และการจัดการชุดข้อมูลการฝึกและชุดข้อมูลการทดสอบ ที่เก็บที่ควบคุมเวอร์ชันมีประโยชน์ดังนี้

  • ความสามารถในการทำซ้ำ สร้างสภาพแวดล้อมการฝึกโมเดลใหม่และกำหนดมาตรฐาน รวมถึงเปรียบเทียบคุณภาพการคาดการณ์ในโมเดลต่างๆ

  • การปฏิบัติตามข้อกำหนด ปฏิบัติตามข้อกำหนดด้านการปฏิบัติตามกฎระเบียบเพื่อ ความสามารถในการตรวจสอบและความโปร่งใส

  • การเก็บรักษา ตั้งค่าการเก็บรักษาข้อมูลเพื่อกำหนดระยะเวลาในการจัดเก็บข้อมูล

  • การจัดการการเข้าถึง จัดการผู้ที่มีสิทธิ์เข้าถึงข้อมูลของคุณผ่านสิทธิ์แบบละเอียด

  • ความสมบูรณ์ของข้อมูล ติดตามและทำความเข้าใจการเปลี่ยนแปลงชุดข้อมูลเมื่อเวลาผ่านไป เพื่อให้วินิจฉัยปัญหาเกี่ยวกับข้อมูลหรือโมเดลได้ง่ายขึ้น

  • การค้นพบได้ ช่วยให้ผู้อื่นค้นหาชุดข้อมูลและฟีเจอร์ของคุณได้ง่ายๆ จากนั้นทีมอื่นๆ จะพิจารณาได้ว่าเครื่องมือดังกล่าวมีประโยชน์ต่อวัตถุประสงค์ของตนหรือไม่

การบันทึกข้อมูล

เอกสารที่ดีจะช่วยให้ผู้อื่นเข้าใจข้อมูลสำคัญเกี่ยวกับข้อมูลของคุณ เช่น ประเภท แหล่งที่มา ขนาด และข้อมูลเมตาที่จำเป็นอื่นๆ ในกรณีส่วนใหญ่ การบันทึกข้อมูลในเอกสารการออกแบบ ก็เพียงพอแล้ว หากวางแผนที่จะแชร์หรือเผยแพร่ข้อมูล ให้ใช้ การ์ดข้อมูล เพื่อจัดโครงสร้างข้อมูล การ์ดข้อมูลช่วยให้ผู้อื่นค้นพบและเข้าใจชุดข้อมูลของคุณได้ง่ายขึ้น

ไปป์ไลน์การฝึกและการตรวจสอบ

ไปป์ไลน์การฝึกและไปป์ไลน์การตรวจสอบจะสร้างโมเดลใหม่เพื่อแทนที่โมเดลเวอร์ชันที่ใช้งานจริง ก่อนที่โมเดลจะล้าสมัย การฝึกและตรวจสอบโมเดลใหม่อย่างต่อเนื่อง ช่วยให้มั่นใจได้ว่าโมเดลที่ดีที่สุดจะพร้อมใช้งานอยู่เสมอ

ไปป์ไลน์การฝึกจะสร้างโมเดลใหม่จากชุดข้อมูลการฝึก และไปป์ไลน์การตรวจสอบจะเปรียบเทียบคุณภาพของโมเดลใหม่กับโมเดลที่ใช้งานจริงโดยใช้ชุดข้อมูลทดสอบ

รูปที่ 9 แสดงไปป์ไลน์การฝึกโดยใช้ชุดข้อมูลการฝึกเพื่อ ฝึกโมเดลใหม่

ไปป์ไลน์การฝึก

ไปป์ไลน์การฝึกจะฝึกโมเดลใหม่ๆ จากข้อมูลล่าสุด

รูปที่ 9 ไปป์ไลน์การฝึกจะฝึกโมเดลใหม่โดยใช้ชุดข้อมูลการฝึกที่ ล่าสุด

หลังจากฝึกโมเดลแล้ว ไปป์ไลน์การตรวจสอบจะใช้ชุดข้อมูลทดสอบเพื่อ เปรียบเทียบคุณภาพของโมเดลที่ใช้งานจริงกับโมเดลที่ฝึก

โดยทั่วไป หากโมเดลที่ฝึกมาไม่ได้แย่กว่าโมเดลเวอร์ชันที่ใช้งานจริงอย่างมีนัยสำคัญ โมเดลที่ฝึกมาจะเข้าสู่เวอร์ชันที่ใช้งานจริง หากโมเดลที่ฝึกแล้วแย่ลง โครงสร้างพื้นฐานการตรวจสอบควรสร้างการแจ้งเตือน โมเดลที่ได้รับการฝึกซึ่งมีคุณภาพการคาดการณ์แย่กว่าอาจบ่งบอกถึงปัญหาที่อาจเกิดขึ้นกับไปป์ไลน์ข้อมูลหรือการตรวจสอบ แนวทางนี้ช่วยให้มั่นใจได้ว่าโมเดลที่ดีที่สุดซึ่งได้รับการฝึกด้วยข้อมูลล่าสุดจะพร้อมใช้งานอยู่เสมอ

การจัดเก็บเนื้อหาและข้อมูลเมตา

ควรจัดเก็บโมเดลและข้อมูลเมตาของโมเดลไว้ในที่เก็บเวอร์ชันเพื่อจัดระเบียบ และติดตามการติดตั้งใช้งานโมเดล ที่เก็บโมเดลมีประโยชน์ดังนี้

  • การติดตามและการประเมิน ติดตามโมเดลที่ใช้งานจริงและทําความเข้าใจเมตริกคุณภาพการประเมินและการคาดการณ์

  • กระบวนการเผยแพร่โมเดล ตรวจสอบ อนุมัติ เผยแพร่ หรือย้อนกลับ โมเดลได้อย่างง่ายดาย

  • การทำซ้ำและการแก้ไขข้อบกพร่อง สร้างผลลัพธ์ของโมเดลซ้ำและแก้ไขข้อบกพร่องได้อย่างมีประสิทธิภาพมากขึ้นโดยการติดตามชุดข้อมูลและการขึ้นต่อกันของโมเดลในการติดตั้งใช้งานต่างๆ

  • การค้นพบได้ ช่วยให้ผู้อื่นค้นพบโมเดลของคุณได้ง่ายๆ จากนั้นทีมอื่นๆ จะพิจารณาได้ว่าโมเดลของคุณ (หรือบางส่วนของโมเดล) สามารถใช้เพื่อวัตถุประสงค์ของตนได้หรือไม่

รูปที่ 10 แสดงโมเดลที่ตรวจสอบแล้วซึ่งจัดเก็บไว้ในที่เก็บโมเดล

พื้นที่เก็บข้อมูลโมเดล

จัดเก็บโมเดลในที่เก็บที่มีการควบคุมเวอร์ชัน

รูปที่ 10 ระบบจะจัดเก็บโมเดลที่ผ่านการตรวจสอบแล้วไว้ในที่เก็บโมเดลเพื่อการติดตาม และการค้นพบ

ใช้ การ์ดโมเดล เพื่อบันทึกและแชร์ข้อมูลสำคัญเกี่ยวกับโมเดล เช่น วัตถุประสงค์ สถาปัตยกรรม ข้อกำหนดของฮาร์ดแวร์ เมตริกการประเมิน ฯลฯ

ทดสอบความเข้าใจ

เหตุผลหลักบางประการในการใช้ที่เก็บเวอร์ชันเพื่อจัดเก็บการคาดการณ์ ชุดข้อมูล และโมเดลมีอะไรบ้าง เลือกได้มากกว่า 1 ข้อ
จำลองและแก้ไขข้อบกพร่อง
ถูกต้อง การจัดเก็บชิ้นงานในที่เก็บเวอร์ชันมีความสำคัญอย่างยิ่งต่อ การวินิจฉัยและแก้ไขข้อบกพร่องของปัญหา
ตรวจสอบคุณภาพของโมเดล
ถูกต้อง การจัดเก็บชิ้นงานในที่เก็บเวอร์ชันมีความสำคัญอย่างยิ่งต่อ การตรวจสอบคุณภาพของโมเดล
ลดโควต้าการคำนวณ

ความท้าทายในการสร้างไปป์ไลน์

เมื่อสร้างไปป์ไลน์ คุณอาจพบความท้าทายต่อไปนี้

  • การเข้าถึงข้อมูลที่คุณต้องการ การเข้าถึงข้อมูลอาจต้องมีการ ให้เหตุผลว่าทำไมคุณจึงต้องการข้อมูลดังกล่าว เช่น คุณอาจต้องอธิบายวิธีใช้ข้อมูลและชี้แจงวิธีแก้ไขปัญหาเกี่ยวกับข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้ (PII) เตรียมพร้อม ที่จะแสดงการพิสูจน์แนวคิดที่แสดงให้เห็นว่าโมเดลของคุณทําการคาดการณ์ได้ดีขึ้นอย่างไร เมื่อเข้าถึงข้อมูลบางประเภท

  • การใช้ฟีเจอร์ที่เหมาะสม ในบางกรณี ฟีเจอร์ที่ใช้ใน ระยะการทดลองอาจไม่พร้อมใช้งานจากข้อมูลแบบเรียลไทม์ ดังนั้น เมื่อทำการทดลอง ให้พยายามยืนยันว่าคุณจะได้รับฟีเจอร์เดียวกัน ในเวอร์ชันที่ใช้งานจริง

  • ทําความเข้าใจวิธีรวบรวมและแสดงข้อมูล การเรียนรู้วิธีการเก็บรวบรวมข้อมูล ผู้ที่เก็บรวบรวม และวิธีการเก็บรวบรวม (รวมถึงปัญหาอื่นๆ) อาจต้องใช้เวลาและความพยายาม คุณควรทำความเข้าใจข้อมูลอย่างละเอียด อย่าใช้ข้อมูลที่คุณไม่มั่นใจในการฝึกโมเดล ที่อาจนำไปใช้จริง

  • ทำความเข้าใจข้อดีข้อเสียระหว่างความพยายาม ค่าใช้จ่าย และคุณภาพของโมเดล การรวมฟีเจอร์ใหม่เข้ากับไปป์ไลน์ข้อมูลอาจต้องใช้ความพยายามอย่างมาก อย่างไรก็ตาม ฟีเจอร์เพิ่มเติมอาจช่วยปรับปรุงคุณภาพของโมเดลได้เพียงเล็กน้อย ในกรณีอื่นๆ การเพิ่มฟีเจอร์ใหม่อาจเป็นเรื่องง่าย อย่างไรก็ตาม แหล่งข้อมูลในการรับและจัดเก็บฟีเจอร์นี้อาจมีราคาสูงเกินไป

  • การรับการประมวลผล หากคุณต้องการใช้ TPU สำหรับการฝึกโมเดลซ้ำ คุณอาจขอโควต้าที่จำเป็นได้ยาก นอกจากนี้ การจัดการ TPU ยังมีความซับซ้อน เช่น ชิ้นส่วนบางส่วนของโมเดลหรือข้อมูลอาจต้องได้รับการออกแบบมาโดยเฉพาะสำหรับ TPU โดยการแยกชิ้นส่วนเหล่านั้นออกเป็นชิป TPU หลายชิป

  • การค้นหาชุดข้อมูลทองคำที่เหมาะสม หากข้อมูลมีการเปลี่ยนแปลงบ่อย การได้รับ ชุดข้อมูลที่เชื่อถือได้ พร้อมป้ายกำกับที่สอดคล้องและถูกต้องอาจเป็นเรื่องยาก

การตรวจพบปัญหาประเภทนี้ในระหว่างการทดสอบจะช่วยประหยัดเวลาได้ เช่น คุณไม่ต้องการพัฒนาฟีเจอร์และโมเดลที่ดีที่สุดเพียงเพื่อจะพบว่าฟีเจอร์และโมเดลเหล่านั้นไม่สามารถใช้งานจริงได้ ดังนั้น โปรดพยายามยืนยันโดยเร็วที่สุดว่าโซลูชันของคุณจะทำงานได้ภายในข้อจำกัดของสภาพแวดล้อมการใช้งานจริง การใช้เวลาในการยืนยันว่าโซลูชันใช้งานได้ดีกว่าการต้องกลับไปที่ระยะการทดลองเนื่องจากระยะไปป์ไลน์พบปัญหาที่แก้ไขไม่ได้