การวัดความสำเร็จ

คุณจะทราบได้อย่างไรว่าการติดตั้งใช้งาน ML คุ้มค่ากับงานที่ทำ คุณควรเริ่มฉลองเมื่อใด: ทันทีหลังจากที่โมเดลเข้าสู่การผลิตและแสดงผลการคาดการณ์แรก หรือหลังจากที่เมตริกทางธุรกิจเชิงปริมาณเริ่มเคลื่อนไหวไปในทิศทางที่ถูกต้องเท่านั้น

ก่อนเริ่มโปรเจ็กต์ คุณต้อง กำหนดเมตริกวัดความสำเร็จและตกลงเกี่ยวกับผลงาน คุณจะต้องกําหนดและ ติดตามเมตริก 2 ประเภทต่อไปนี้

เมตริกธุรกิจ เมตริกสําหรับการวัดประสิทธิภาพทางธุรกิจ เช่น รายได้ อัตราการคลิกผ่าน หรือจํานวนผู้ใช้
เมตริกของโมเดล เมตริก สำหรับวัดคุณภาพโมเดล เช่น สแควรูทของความคลาดเคลื่อนกำลังสองเฉลี่ย ความแม่นยำ หรือ การเรียกคืน

เมตริกทางธุรกิจ

เมตริกทางธุรกิจมีความสําคัญมากที่สุด ซึ่งเป็นเหตุผลที่คุณใช้ ML เพราะคุณ ต้องการปรับปรุงธุรกิจ

เริ่มต้นด้วยเมตริกผลิตภัณฑ์หรือธุรกิจที่วัดผลได้ เมตริกควรมีความละเอียดและมุ่งเน้นมากที่สุด ตัวอย่างต่อไปนี้คือเมตริกทางธุรกิจที่เฉพาะเจาะจงและวัดผลได้

ลดค่าไฟฟ้าของศูนย์ข้อมูลรายเดือนลง 30 เปอร์เซ็นต์
เพิ่มรายได้จากสินค้าแนะนำขึ้น 12%
เพิ่มอัตราการคลิกผ่าน 9%
เพิ่มความรู้สึกของลูกค้าจากแบบสำรวจการเลือกรับอีเมล 20%
เพิ่มเวลาที่ใช้ในหน้าเว็บขึ้น 4%

การติดตามเมตริกทางธุรกิจ

หากไม่ได้ติดตามเมตริกทางธุรกิจที่ต้องการปรับปรุง ให้เริ่มด้วยการ ติดตั้งใช้งานโครงสร้างพื้นฐานเพื่อดำเนินการดังกล่าว การตั้งเป้าหมายเพื่อเพิ่ม อัตราการคลิกผ่าน 15% ไม่สมเหตุสมผลหากคุณไม่ได้วัดอัตราการคลิกผ่านในขณะนี้

ที่สำคัญกว่านั้นคือ ตรวจสอบว่าคุณวัดเมตริกที่ถูกต้องสำหรับปัญหาของคุณ เช่น อย่าเสียเวลาเขียนการวัดผลเพื่อติดตามอัตราการคลิกผ่าน หากเมตริกที่สำคัญกว่าอาจเป็นรายได้จากคำแนะนำ

เมื่อโปรเจ็กต์คืบหน้า คุณจะทราบว่าเมตริกความสําเร็จเป้าหมายเป็นเป้าหมายที่ทําได้จริงหรือไม่ ในบางกรณี คุณอาจพิจารณาว่า โปรเจ็กต์ไม่สามารถดำเนินการได้เนื่องจากเมตริกวัดความสำเร็จที่กำหนดไว้

เมตริกโมเดล

คุณควรนำโมเดลไปใช้จริงเมื่อใด เมื่อ AUC มีค่าหนึ่งๆ เมื่อโมเดลมีคะแนน F1 ถึงระดับหนึ่ง คำตอบของคำถามนี้ ขึ้นอยู่กับประเภทของปัญหาที่คุณกำลังแก้ไขและคุณภาพการคาดการณ์ที่คุณ คิดว่าต้องปรับปรุงเมตริกทางธุรกิจ

เมื่อพิจารณาว่าจะประเมินโมเดลกับเมตริกใด ให้พิจารณาสิ่งต่อไปนี้

กำหนดเมตริกเดียวที่จะเพิ่มประสิทธิภาพ เช่น โมเดลการจัดประเภท สามารถประเมินเทียบกับเมตริกต่างๆ ได้ (AUC, AUC-PR ฯลฯ) การเลือกโมเดลที่ดีที่สุดอาจเป็นเรื่องท้าทายเมื่อเมตริกต่างๆ สนับสนุนโมเดลที่แตกต่างกัน ดังนั้น ให้ตกลงเลือกเมตริกเดียวเพื่อ ประเมินโมเดล
กำหนดเป้าหมายความสามารถในการยอมรับเพื่อให้บรรลุ เป้าหมายด้านความเหมาะสม แตกต่างจากเมตริกการประเมินโมเดล โดยอ้างอิงถึงเป้าหมายที่โมเดลต้อง บรรลุเพื่อให้ถือว่ายอมรับได้สําหรับกรณีการใช้งานที่ต้องการ ตัวอย่างเช่น เป้าหมายความยอมรับอาจเป็น "เอาต์พุตที่ไม่ถูกต้องน้อยกว่า 0.1%" หรือ "การเรียกคืนสำหรับหมวดหมู่ 5 อันดับแรกมากกว่า 97%"

ตัวอย่างเช่น สมมติว่าโมเดลการจัดประเภทแบบไบนารี ตรวจพบธุรกรรมที่เป็นการฉ้อโกง เมตริกการเพิ่มประสิทธิภาพอาจเป็นความอ่อนไหว ขณะที่เป้าหมายการยอมรับอาจเป็นความแม่นยำ กล่าวคือ เราจะให้ความสำคัญกับ การเรียกคืน (ระบุการฉ้อโกงได้อย่างถูกต้องเกือบทุกครั้ง) ขณะเดียวกันก็ต้องการให้ความแม่นยำ คงอยู่หรือสูงกว่าค่าหนึ่งๆ (ระบุธุรกรรมที่เป็นการฉ้อโกงจริง)

ความเชื่อมโยงระหว่างเมตริกโมเดลกับเมตริกทางธุรกิจ

โดยพื้นฐานแล้ว คุณกำลังพยายามพัฒนารูปแบบที่มีคุณภาพการคาดการณ์ เชื่อมโยงเชิงสาเหตุกับเมตริกทางธุรกิจ เมตริกโมเดลที่ยอดเยี่ยมไม่ได้ หมายความว่าเมตริกทางธุรกิจจะดีขึ้นเสมอไป ทีมของคุณอาจพัฒนาโมเดลที่มีเมตริกที่น่าประทับใจ แต่การคาดการณ์ของโมเดลอาจไม่สามารถปรับปรุงเมตริกทางธุรกิจได้

เมื่อพอใจกับคุณภาพการคาดการณ์ของโมเดลแล้ว ให้พยายามพิจารณาว่าเมตริกของโมเดลส่งผลต่อเมตริกทางธุรกิจอย่างไร โดยปกติแล้ว ทีมจะ ติดตั้งใช้งานโมเดลกับผู้ใช้ 1% แล้วตรวจสอบเมตริกทางธุรกิจ

เช่น สมมติว่าทีมของคุณพัฒนาโมเดลเพื่อเพิ่มรายได้โดย การคาดการณ์การเลิกใช้งานของลูกค้า ในทางทฤษฎี หากคุณคาดการณ์ได้ว่าลูกค้ามีแนวโน้มที่จะออกจากแพลตฟอร์มหรือไม่ คุณก็สามารถกระตุ้นให้ลูกค้าอยู่ต่อได้

ทีมของคุณสร้างโมเดลที่มีคุณภาพการคาดการณ์ 95% และทดสอบกับกลุ่มตัวอย่างผู้ใช้ขนาดเล็ก แต่รายได้จะไม่เพิ่มขึ้น การเลิกใช้งานของลูกค้าเพิ่มขึ้น จริง สาเหตุที่เป็นไปได้มีดังนี้

การคาดการณ์ไม่เกิดขึ้นเร็วพอที่จะนำไปใช้ได้ โมเดลนี้ คาดการณ์การเลิกใช้งานของลูกค้าได้ภายในกรอบเวลา 7 วันเท่านั้น ซึ่ง ไม่เร็วพอที่จะเสนอสิ่งจูงใจให้ลูกค้าอยู่บนแพลตฟอร์มต่อไป
ฟีเจอร์ไม่สมบูรณ์ อาจมีปัจจัยอื่นๆ ที่ทำให้ลูกค้าเลิกใช้บริการ ซึ่งไม่ได้อยู่ในชุดข้อมูลการฝึก
เกณฑ์ไม่สูงพอ โมเดลอาจต้องมีความแม่นยำในการคาดการณ์ตั้งแต่ 97% ขึ้นไปจึงจะมีประโยชน์

ตัวอย่างง่ายๆ นี้เน้น 2 ประเด็นต่อไปนี้

คุณควรทำการทดสอบกับผู้ใช้ในช่วงแรกๆ เพื่อพิสูจน์ (และทำความเข้าใจ) ความเชื่อมโยงระหว่างเมตริกของโมเดลกับเมตริกทางธุรกิจ
เมตริกของโมเดลที่ยอดเยี่ยมไม่ได้เป็นการรับประกันว่าเมตริกทางธุรกิจจะดีขึ้น

Generative AI

การประเมินผลลัพธ์ของ Generative AI เป็นความท้าทายที่ไม่เหมือนใคร ในหลายกรณี เช่น เอาต์พุตแบบปลายเปิดหรือเอาต์พุตที่สร้างสรรค์ การประเมินจะยากกว่าการประเมินเอาต์พุต ML แบบเดิม

คุณวัดและประเมิน LLM ได้โดยใช้เมตริกที่หลากหลาย การพิจารณา เมตริกที่จะใช้ประเมินโมเดลขึ้นอยู่กับกรณีการใช้งานของคุณ

โปรดทราบ

อย่าสับสนระหว่างความสำเร็จของโมเดลกับความสำเร็จของธุรกิจ กล่าวอีกนัยหนึ่งคือ โมเดลที่มี เมตริกที่โดดเด่นไม่ได้เป็นการรับประกันความสําเร็จทางธุรกิจ

วิศวกรที่มีทักษะหลายคนสามารถสร้างโมเดลที่มีเมตริกที่น่าประทับใจได้ โดยปกติแล้ว ปัญหาไม่ได้อยู่ที่การฝึกโมเดลที่ ดีพอ แต่เป็นเพราะโมเดลไม่ได้ ปรับปรุงเมตริกทางธุรกิจ โปรเจ็กต์ ML อาจล้มเหลวเนื่องจาก เมตริกทางธุรกิจและเมตริกโมเดลไม่สอดคล้องกัน

ทดสอบความเข้าใจ

คุณมีปัญหาทางธุรกิจที่ชัดเจนและโซลูชันที่กำหนดไว้อย่างดีสำหรับการใช้ LLM เป็นตัวแทนฝ่ายสนับสนุนลูกค้า คุณควรคิดถึงการวัดผลว่าโซลูชันประสบความสำเร็จหรือไม่ อย่างไร

จำนวนเคสขอรับความช่วยเหลือที่แก้ไขแล้วซึ่งต้องมีมนุษย์เข้ามาเกี่ยวข้อง ลดลงจาก 72% เป็น 50%

ถูกต้อง นี่คือเมตริกทางธุรกิจที่วัดผลได้ซึ่งคุณติดตามได้

เมตริกการประเมิน LLM มีค่าสูงอย่างสม่ำเสมอ

เมตริกโมเดลที่ดีไม่ได้รับประกันว่าคุณจะมี เมตริกทางธุรกิจที่ดีขึ้น

ความคิดเห็นจากการทดสอบผู้ใช้ครั้งแรกเป็นไปในทางที่ดี

โดยปกติแล้วความคิดเห็นของผู้ใช้ในช่วงแรกจะเป็นเชิงคุณภาพมากกว่าเชิงปริมาณ คุณจะต้องกำหนดเมตริกทางธุรกิจที่วัดผลได้ เพื่อวัดความสำเร็จ

การวางแผน

การทดสอบ

AUC	AUC-PR
การจัดประเภทแบบไบนารี	คะแนน F1
เมตริก	ความแม่นยำ
เรียกคืน	สแควรูทของความคลาดเคลื่อนกำลังสองเฉลี่ย