ระบบจะใช้ผลบวก ผลลบ ผลบวกลวง และผลลบลวงเพื่อคำนวณเมตริกที่มีประโยชน์หลายอย่าง สำหรับการประเมินโมเดล เมตริกการประเมินที่สำคัญที่สุดจะขึ้นอยู่กับโมเดลและงานที่เฉพาะเจาะจง ต้นทุนของการจัดประเภทผิดที่แตกต่างกัน และไม่ว่าชุดข้อมูลจะสมดุลหรือไม่สมดุล
เมตริกทั้งหมดในส่วนนี้จะคำนวณที่เกณฑ์คงที่เดียว และจะเปลี่ยนแปลงเมื่อเกณฑ์เปลี่ยนแปลง บ่อยครั้งที่ผู้ใช้ปรับเกณฑ์เพื่อเพิ่มประสิทธิภาพเมตริกใดเมตริกหนึ่ง
ความแม่นยำ
ความแม่นยำคือสัดส่วนของการจัดประเภททั้งหมดที่ถูกต้อง ไม่ว่าจะเป็นบวกหรือลบ โดยมีคำจำกัดความทางคณิตศาสตร์ดังนี้
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
ในตัวอย่างการจัดประเภทจดหมายขยะ ความแม่นยำจะวัดเศษส่วนของอีเมลทั้งหมดที่จัดประเภทอย่างถูกต้อง
โมเดลที่สมบูรณ์แบบจะมีผลบวกลวงและผลลบลวงเป็น 0 และ ดังนั้นความแม่นยำจึงเป็น 1.0 หรือ 100%
เนื่องจากความแม่นยำรวมผลลัพธ์ทั้ง 4 รายการจากเมทริกซ์ความสับสน (TP, FP, TN, FN) เมื่อพิจารณาจากชุดข้อมูลที่สมดุลซึ่งมีตัวอย่างจำนวนใกล้เคียงกันในทั้ง 2 คลาส ความแม่นยำจึงใช้เป็นตัววัดคุณภาพโมเดลแบบคร่าวๆ ได้ ด้วยเหตุนี้ จึงมักเป็น เมตริกการประเมินเริ่มต้นที่ใช้กับโมเดลทั่วไปหรือโมเดลที่ไม่ได้ระบุ ซึ่งทำงานทั่วไปหรือไม่ได้ระบุ
อย่างไรก็ตาม เมื่อชุดข้อมูลไม่สมดุล หรือเมื่อข้อผิดพลาดประเภทหนึ่ง (FN หรือ FP) มีต้นทุนสูงกว่าอีกประเภทหนึ่ง ซึ่งเป็น กรณีในการใช้งานจริงส่วนใหญ่ การเพิ่มประสิทธิภาพสำหรับเมตริกใดเมตริกหนึ่ง แทนจึงดีกว่า
สําหรับชุดข้อมูลที่มีความไม่สมดุลอย่างมาก ซึ่งคลาสหนึ่งปรากฏน้อยมาก เช่น 1% ของเวลา โมเดลที่คาดการณ์ค่าลบ 100% ของเวลาจะทําคะแนนความแม่นยําได้ 99% แม้ว่าจะไม่มีประโยชน์ก็ตาม
ความสามารถในการเรียกคืนหรืออัตราผลบวกจริง
อัตราผลบวกจริง (TPR) หรือสัดส่วนของผลบวกจริงทั้งหมดที่ ได้รับการจัดประเภทเป็นผลบวกอย่างถูกต้อง หรือที่เรียกว่า ความสามารถในการเรียกคืน
การเรียกคืนมีการกำหนดทางคณิตศาสตร์ดังนี้
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
ผลลบลวงคือผลบวกจริงที่จัดประเภทผิดเป็นผลลบ ซึ่งเป็นสาเหตุที่ทำให้ผลลบลวงปรากฏในตัวส่วน ในตัวอย่างการจัดประเภทจดหมายขยะ ค่าความจำจะวัดเศษส่วนของอีเมลจดหมายขยะที่จัดประเภทเป็น จดหมายขยะอย่างถูกต้อง ด้วยเหตุนี้ เราจึงเรียกอีกชื่อหนึ่งของค่าความจำว่าความน่าจะเป็นในการตรวจจับ ซึ่งจะ ตอบคำถามที่ว่า "โมเดลนี้ตรวจจับอีเมลที่จัดว่าเป็นจดหมายขยะได้กี่ส่วน จากทั้งหมด"
โมเดลที่สมบูรณ์แบบในอุดมคติจะไม่มีผลลบลวง ดังนั้นจึงมี การเรียกคืน (TPR) เท่ากับ 1.0 ซึ่งหมายถึงอัตราการตรวจจับ 100%
ในชุดข้อมูลที่ไม่สมดุลซึ่งมีจำนวนผลบวกจริงต่ำมาก ค่าระลึกเป็นเมตริกที่มีความหมายมากกว่าความแม่นยำ เนื่องจากค่าระลึกจะวัดความสามารถของโมเดลในการระบุอินสแตนซ์ที่เป็นบวกทั้งหมดได้อย่างถูกต้อง สําหรับแอปพลิเคชัน เช่น การคาดการณ์โรค การระบุเคสที่เป็นบวกอย่างถูกต้องเป็นสิ่งสําคัญ โดยปกติแล้ว ผลลบลวงจะส่งผลร้ายแรงกว่าผลบวกลวง ดูตัวอย่างที่ชัดเจนซึ่งเปรียบเทียบเมตริกความอ่อนไหวและความแม่นยําได้ในหมายเหตุในคําจํากัดความของความอ่อนไหว
อัตราผลบวกเท็จ
อัตราผลบวกลวง (FPR) คือสัดส่วนของผลลบจริงทั้งหมดที่จัดประเภทอย่างไม่ถูกต้อง เป็นผลบวก หรือที่เรียกว่าความน่าจะเป็นของการแจ้งเตือนที่ผิดพลาด โดยมีคำจำกัดความทางคณิตศาสตร์ดังนี้
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
ผลบวกลวงคือผลลบจริงที่ได้รับการจัดประเภทอย่างไม่ถูกต้อง จึงเป็นเหตุผลที่ผลบวกลวง ปรากฏในตัวส่วน ในตัวอย่างการจัดประเภทจดหมายขยะ FPR จะวัดสัดส่วนของอีเมลที่ถูกต้องตามกฎหมายซึ่งได้รับการจัดประเภทเป็นจดหมายขยะอย่างไม่ถูกต้อง หรืออัตราการแจ้งเตือนที่ผิดพลาดของโมเดล
โมเดลที่สมบูรณ์แบบจะไม่มีผลบวกลวง ดังนั้น FPR จะเป็น 0.0 ซึ่งหมายถึงอัตราการแจ้งเตือนที่ผิดพลาด 0%
สําหรับชุดข้อมูลที่ไม่สมดุล โดยทั่วไปแล้ว FPR เป็นเมตริกที่ให้ข้อมูลมากกว่าความแม่นยํา อย่างไรก็ตาม หากจำนวนผลลบจริงต่ำมาก FPR อาจไม่ใช่ตัวเลือกที่เหมาะสมเนื่องจากความผันผวน เช่น หากมีค่าลบจริงเพียง 4 รายการในชุดข้อมูล การจำแนกประเภทผิด 1 รายการจะส่งผลให้ FPR เป็น 25% ในขณะที่การจำแนกประเภทผิดรายการที่ 2 จะทำให้ FPR เพิ่มขึ้นเป็น 50% ในกรณีเช่นนี้ ความแม่นยำ (อธิบายถัดไป) อาจเป็นเมตริกที่เสถียรกว่าสําหรับ การประเมินผลกระทบของผลบวกลวง
ความแม่นยำ
ความแม่นยำ คือสัดส่วนของการจัดประเภทเชิงบวกทั้งหมดของโมเดล ที่เป็นบวกจริง โดยทางคณิตศาสตร์จะกำหนดไว้ดังนี้
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
ในตัวอย่างการจัดประเภทจดหมายขยะ ความแม่นยำจะวัดเศษส่วนของอีเมล ที่จัดประเภทเป็นจดหมายขยะซึ่งเป็นจดหมายขยะจริง
โมเดลที่สมบูรณ์แบบในทางทฤษฎีจะไม่มีผลบวกลวงเลย และมีความแม่นยำเท่ากับ 1.0
ในชุดข้อมูลที่ไม่สมดุลซึ่งมีจำนวนผลบวกจริงต่ำมาก เช่น มีตัวอย่างทั้งหมด 1-2 รายการ ความแม่นยำจะมีความหมายและมีประโยชน์น้อยกว่าในฐานะเมตริก
ความแม่นยำจะดีขึ้นเมื่อผลบวกลดลง ในขณะที่ความสามารถในการเรียกคืนจะดีขึ้นเมื่อผลลบลดลง แต่ดังที่เห็นในส่วนก่อนหน้า การเพิ่มเกณฑ์การจัดประเภทมักจะลดจำนวนผลบวกลวงและเพิ่มจำนวนผลลบลวง ขณะที่การลดเกณฑ์จะมีผลตรงกันข้าม ด้วยเหตุนี้ ความแม่นยำและการเรียกคืนจึงมักแสดงความสัมพันธ์แบบผกผัน ซึ่งการปรับปรุงอย่างใดอย่างหนึ่งจะทำให้อีกอย่างแย่ลง
ลองใช้งานด้วยตัวเองในเรื่องต่อไปนี้
ตัวเลือกเมตริกและข้อแลกเปลี่ยน
เมตริกที่คุณเลือกให้ความสําคัญเมื่อประเมินโมเดลและเลือกเกณฑ์จะขึ้นอยู่กับต้นทุน ประโยชน์ และความเสี่ยงของปัญหาที่เฉพาะเจาะจง ในตัวอย่างการจัดประเภทจดหมายขยะ การจัดลำดับความสำคัญของการเรียกคืน การดักจับอีเมลจดหมายขยะทั้งหมด หรือความแม่นยำ การพยายามตรวจสอบว่าอีเมลที่ติดป้ายกำกับว่าเป็นจดหมายขยะเป็นจดหมายขยะจริง หรือการรักษาสมดุลระหว่าง 2 อย่างนี้ เหนือระดับความแม่นยำขั้นต่ำบางอย่างมักจะสมเหตุสมผล
| เมตริก | คำแนะนำ |
|---|---|
| ความแม่นยำ | ใช้เป็นตัวบ่งชี้คร่าวๆ ของความคืบหน้า/การบรรจบกันของการฝึกโมเดล สำหรับชุดข้อมูลที่สมดุล สําหรับประสิทธิภาพของโมเดล ให้ใช้ร่วมกับเมตริกอื่นๆ เท่านั้น หลีกเลี่ยงสำหรับชุดข้อมูลที่ไม่สมดุล ลองใช้เมตริกอื่น |
| ความอ่อนไหว (อัตราผลบวกจริง) |
ใช้เมื่อผลลบลวงมีค่าใช้จ่ายสูงกว่าผลบวกลวง |
| อัตราผลบวกเท็จ | ใช้เมื่อผลบวกลวงมีค่าใช้จ่าย มากกว่าผลลบลวง |
| ความแม่นยำ | ใช้เมื่อมีความสำคัญอย่างยิ่งที่ การคาดการณ์เชิงบวกจะต้องแม่นยำ |