คุณจะทราบได้อย่างไรว่าการติดตั้งใช้งาน ML คุ้มค่ากับงานที่ทำ คุณควรเริ่มฉลองเมื่อใด: ทันทีหลังจากที่โมเดลเข้าสู่การผลิตและแสดงผลการคาดการณ์แรก หรือหลังจากที่เมตริกทางธุรกิจเชิงปริมาณเริ่มเคลื่อนไหวไปในทิศทางที่ถูกต้องเท่านั้น
ก่อนเริ่มโปรเจ็กต์ คุณต้อง กำหนดเมตริกวัดความสำเร็จและตกลงเกี่ยวกับผลงาน คุณจะต้องกําหนดและ ติดตามเมตริก 2 ประเภทต่อไปนี้
เมตริกธุรกิจ เมตริกสําหรับการวัดประสิทธิภาพทางธุรกิจ เช่น รายได้ อัตราการคลิกผ่าน หรือจํานวนผู้ใช้
เมตริกของโมเดล เมตริก สำหรับวัดคุณภาพโมเดล เช่น สแควรูทของความคลาดเคลื่อนกำลังสองเฉลี่ย ความแม่นยำ หรือ การเรียกคืน
เมตริกทางธุรกิจ
เมตริกทางธุรกิจมีความสําคัญมากที่สุด ซึ่งเป็นเหตุผลที่คุณใช้ ML เพราะคุณ ต้องการปรับปรุงธุรกิจ
เริ่มต้นด้วยเมตริกผลิตภัณฑ์หรือธุรกิจที่วัดผลได้ เมตริกควรมีความละเอียดและมุ่งเน้นมากที่สุด ตัวอย่างต่อไปนี้คือเมตริกทางธุรกิจที่เฉพาะเจาะจงและวัดผลได้
- ลดค่าไฟฟ้าของศูนย์ข้อมูลรายเดือนลง 30 เปอร์เซ็นต์
- เพิ่มรายได้จากสินค้าแนะนำขึ้น 12%
- เพิ่มอัตราการคลิกผ่าน 9%
- เพิ่มความรู้สึกของลูกค้าจากแบบสำรวจการเลือกรับอีเมล 20%
- เพิ่มเวลาที่ใช้ในหน้าเว็บขึ้น 4%
การติดตามเมตริกทางธุรกิจ
หากไม่ได้ติดตามเมตริกทางธุรกิจที่ต้องการปรับปรุง ให้เริ่มด้วยการ ติดตั้งใช้งานโครงสร้างพื้นฐานเพื่อดำเนินการดังกล่าว การตั้งเป้าหมายเพื่อเพิ่ม อัตราการคลิกผ่าน 15% ไม่สมเหตุสมผลหากคุณไม่ได้วัดอัตราการคลิกผ่านในขณะนี้
ที่สำคัญกว่านั้นคือ ตรวจสอบว่าคุณวัดเมตริกที่ถูกต้องสำหรับปัญหาของคุณ เช่น อย่าเสียเวลาเขียนการวัดผลเพื่อติดตามอัตราการคลิกผ่าน หากเมตริกที่สำคัญกว่าอาจเป็นรายได้จากคำแนะนำ
เมื่อโปรเจ็กต์คืบหน้า คุณจะทราบว่าเมตริกความสําเร็จเป้าหมายเป็นเป้าหมายที่ทําได้จริงหรือไม่ ในบางกรณี คุณอาจพิจารณาว่า โปรเจ็กต์ไม่สามารถดำเนินการได้เนื่องจากเมตริกวัดความสำเร็จที่กำหนดไว้
เมตริกโมเดล
คุณควรนำโมเดลไปใช้จริงเมื่อใด เมื่อ AUC มีค่าหนึ่งๆ เมื่อโมเดลมีคะแนน F1 ถึงระดับหนึ่ง คำตอบของคำถามนี้ ขึ้นอยู่กับประเภทของปัญหาที่คุณกำลังแก้ไขและคุณภาพการคาดการณ์ที่คุณ คิดว่าต้องปรับปรุงเมตริกทางธุรกิจ
เมื่อพิจารณาว่าจะประเมินโมเดลกับเมตริกใด ให้พิจารณาสิ่งต่อไปนี้
กำหนดเมตริกเดียวที่จะเพิ่มประสิทธิภาพ เช่น โมเดลการจัดประเภท สามารถประเมินเทียบกับเมตริกต่างๆ ได้ (AUC, AUC-PR ฯลฯ) การเลือกโมเดลที่ดีที่สุดอาจเป็นเรื่องท้าทายเมื่อเมตริกต่างๆ สนับสนุนโมเดลที่แตกต่างกัน ดังนั้น ให้ตกลงเลือกเมตริกเดียวเพื่อ ประเมินโมเดล
กำหนดเป้าหมายความสามารถในการยอมรับเพื่อให้บรรลุ เป้าหมายด้านความเหมาะสม แตกต่างจากเมตริกการประเมินโมเดล โดยอ้างอิงถึงเป้าหมายที่โมเดลต้อง บรรลุเพื่อให้ถือว่ายอมรับได้สําหรับกรณีการใช้งานที่ต้องการ ตัวอย่างเช่น เป้าหมายความยอมรับอาจเป็น "เอาต์พุตที่ไม่ถูกต้องน้อยกว่า 0.1%" หรือ "การเรียกคืนสำหรับหมวดหมู่ 5 อันดับแรกมากกว่า 97%"
ตัวอย่างเช่น สมมติว่าโมเดลการจัดประเภทแบบไบนารี ตรวจพบธุรกรรมที่เป็นการฉ้อโกง เมตริกการเพิ่มประสิทธิภาพอาจเป็นความอ่อนไหว ขณะที่เป้าหมายการยอมรับอาจเป็นความแม่นยำ กล่าวคือ เราจะให้ความสำคัญกับ การเรียกคืน (ระบุการฉ้อโกงได้อย่างถูกต้องเกือบทุกครั้ง) ขณะเดียวกันก็ต้องการให้ความแม่นยำ คงอยู่หรือสูงกว่าค่าหนึ่งๆ (ระบุธุรกรรมที่เป็นการฉ้อโกงจริง)
ความเชื่อมโยงระหว่างเมตริกโมเดลกับเมตริกทางธุรกิจ
โดยพื้นฐานแล้ว คุณกำลังพยายามพัฒนารูปแบบที่มีคุณภาพการคาดการณ์ เชื่อมโยงเชิงสาเหตุกับเมตริกทางธุรกิจ เมตริกโมเดลที่ยอดเยี่ยมไม่ได้ หมายความว่าเมตริกทางธุรกิจจะดีขึ้นเสมอไป ทีมของคุณอาจพัฒนาโมเดลที่มีเมตริกที่น่าประทับใจ แต่การคาดการณ์ของโมเดลอาจไม่สามารถปรับปรุงเมตริกทางธุรกิจได้
เมื่อพอใจกับคุณภาพการคาดการณ์ของโมเดลแล้ว ให้พยายามพิจารณาว่าเมตริกของโมเดลส่งผลต่อเมตริกทางธุรกิจอย่างไร โดยปกติแล้ว ทีมจะ ติดตั้งใช้งานโมเดลกับผู้ใช้ 1% แล้วตรวจสอบเมตริกทางธุรกิจ
เช่น สมมติว่าทีมของคุณพัฒนาโมเดลเพื่อเพิ่มรายได้โดย การคาดการณ์การเลิกใช้งานของลูกค้า ในทางทฤษฎี หากคุณคาดการณ์ได้ว่าลูกค้ามีแนวโน้มที่จะออกจากแพลตฟอร์มหรือไม่ คุณก็สามารถกระตุ้นให้ลูกค้าอยู่ต่อได้
ทีมของคุณสร้างโมเดลที่มีคุณภาพการคาดการณ์ 95% และทดสอบกับกลุ่มตัวอย่างผู้ใช้ขนาดเล็ก แต่รายได้จะไม่เพิ่มขึ้น การเลิกใช้งานของลูกค้าเพิ่มขึ้น จริง สาเหตุที่เป็นไปได้มีดังนี้
การคาดการณ์ไม่เกิดขึ้นเร็วพอที่จะนำไปใช้ได้ โมเดลนี้ คาดการณ์การเลิกใช้งานของลูกค้าได้ภายในกรอบเวลา 7 วันเท่านั้น ซึ่ง ไม่เร็วพอที่จะเสนอสิ่งจูงใจให้ลูกค้าอยู่บนแพลตฟอร์มต่อไป
ฟีเจอร์ไม่สมบูรณ์ อาจมีปัจจัยอื่นๆ ที่ทำให้ลูกค้าเลิกใช้บริการ ซึ่งไม่ได้อยู่ในชุดข้อมูลการฝึก
เกณฑ์ไม่สูงพอ โมเดลอาจต้องมีความแม่นยำในการคาดการณ์ตั้งแต่ 97% ขึ้นไปจึงจะมีประโยชน์
ตัวอย่างง่ายๆ นี้เน้น 2 ประเด็นต่อไปนี้
- คุณควรทำการทดสอบกับผู้ใช้ในช่วงแรกๆ เพื่อพิสูจน์ (และทำความเข้าใจ) ความเชื่อมโยงระหว่างเมตริกของโมเดลกับเมตริกทางธุรกิจ
- เมตริกของโมเดลที่ยอดเยี่ยมไม่ได้เป็นการรับประกันว่าเมตริกทางธุรกิจจะดีขึ้น
Generative AI
การประเมินผลลัพธ์ของ Generative AI เป็นความท้าทายที่ไม่เหมือนใคร ในหลายกรณี เช่น เอาต์พุตแบบปลายเปิดหรือเอาต์พุตที่สร้างสรรค์ การประเมินจะยากกว่าการประเมินเอาต์พุต ML แบบเดิม
คุณวัดและประเมิน LLM ได้โดยใช้เมตริกที่หลากหลาย การพิจารณา เมตริกที่จะใช้ประเมินโมเดลขึ้นอยู่กับกรณีการใช้งานของคุณ
โปรดทราบ
อย่าสับสนระหว่างความสำเร็จของโมเดลกับความสำเร็จของธุรกิจ กล่าวอีกนัยหนึ่งคือ โมเดลที่มี เมตริกที่โดดเด่นไม่ได้เป็นการรับประกันความสําเร็จทางธุรกิจ
วิศวกรที่มีทักษะหลายคนสามารถสร้างโมเดลที่มีเมตริกที่น่าประทับใจได้ โดยปกติแล้ว ปัญหาไม่ได้อยู่ที่การฝึกโมเดลที่ ดีพอ แต่เป็นเพราะโมเดลไม่ได้ ปรับปรุงเมตริกทางธุรกิจ โปรเจ็กต์ ML อาจล้มเหลวเนื่องจาก เมตริกทางธุรกิจและเมตริกโมเดลไม่สอดคล้องกัน