ความเป็นธรรม: การประเมินการให้น้ําหนักพิเศษ

เมื่อประเมินโมเดล เมตริกที่คํานวณโดยเทียบกับชุดการทดสอบหรือการตรวจสอบทั้งหมดไม่ได้ช่วยให้เห็นภาพว่าโมเดลมีความยุติธรรมเพียงใด

พิจารณาโมเดลใหม่ที่พัฒนาเพื่อคาดการณ์เนื้องอกที่ได้รับการประเมินเทียบกับชุดการตรวจสอบของผู้ป่วย 1,000 รายและ#39 รายการเวชระเบียน บันทึก 500 รายการ มาจากผู้ป่วยเพศหญิง และ 500 ระเบียนมาจากผู้ป่วยชาย เมทริกซ์การเชื่อถือต่อไปนี้จะสรุปผลลัพธ์สําหรับตัวอย่างทั้ง 1,000 รายการ

ผลบวกจริง (TP): 16 False Positives (FPS): 4
คีย์เวิร์ดเชิงลบปลอม (FN): 6 ผลลบจริง (TN): 974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

ผลลัพธ์เหล่านี้มีความเป็นไปได้: ความแม่นยํา 80% และการเรียกคืน 72.7% จะเกิดอะไรขึ้นหากเราคํานวณผลลัพธ์แยกต่างหากสําหรับผู้ป่วยแต่ละกลุ่ม มาแจกแจงผลลัพธ์เป็นเมทริกซ์ความสับสน 2 แบบด้วยกัน คือ แบบสําหรับผู้ป่วยหญิงและสําหรับผู้ป่วยเพศชาย

ผลการค้นหาผู้ป่วยเพศหญิง

ผลบวกจริง (TP): 10 False Positives (FPS): 1
คีย์เวิร์ดเชิงลบปลอม (FN): 1 คีย์เวิร์ดเชิงลบจริง (TN): 488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

ผลการค้นหาผู้ป่วยชาย

ผลบวกจริง (TP): 6 การตรวจสอบที่ผิดพลาด (FPs): 3
คีย์เวิร์ดเชิงลบปลอม (FN): 5 คีย์เวิร์ดเชิงลบจริง (TN): 486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

เมื่อเราคํานวณเมตริกสําหรับผู้ป่วยหญิงและผู้ชายแยกกัน เราจะเห็นความแตกต่างของประสิทธิภาพของโมเดลสําหรับแต่ละกลุ่ม

ผู้ป่วยหญิง:

  • จากผู้ป่วยหญิง 11 รายที่มีเนื้องอกจริงๆ โมเดลคาดการณ์ได้แม่นยํา ต่อผู้ป่วย 10 คน (อัตราการจําได้: 90.9%) กล่าวคือ โมเดลจะไม่ได้วินิจฉัยการวินิจฉัยเนื้องอกใน 9.1% ของกรณีหญิง

  • ในทํานองเดียวกัน เมื่อรูปแบบแสดงค่าบวกสําหรับเนื้องอกในผู้ป่วยเพศหญิง ค่าจะเป็น 10 ใน 11 กรณี (อัตราความแม่นยํา: 90.9%) หรืออีกนัยหนึ่งคือ รูปแบบคาดการณ์เนื้องอกใน 9.1% ของกรณีหญิงอย่างไม่ถูกต้อง

ผู้ป่วยชาย:

  • อย่างไรก็ตาม ในผู้ป่วยชายจํานวน 11 รายที่มีเนื้องอกจริงๆ โมเดลนี้จะคาดการณ์ลักษณะเชิงบวกสําหรับผู้ป่วยเพียง 6 รายเท่านั้น (อัตราการจําได้: 54.5%) นั่นหมายความว่าโมเดลนี้จะพลาดการวินิจฉัยเนื้องอกในเคสผู้ชาย 45.5%

  • และเมื่อโมเดลแสดงค่าบวกสําหรับเนื้องอกในผู้ป่วยชาย จํานวนดังกล่าวจะแสดงถูกต้องใน 6 จาก 9 เคสเท่านั้น (อัตราความแม่นยําคือ 66.7%) หรืออีกนัยหนึ่งคือ โมเดลคาดการณ์เนื้องอกไม่ถูกต้องใน 33.3% ของเคสผู้ชาย

ตอนนี้เราเข้าใจอคติที่มีอยู่มากขึ้นในการคาดคะเนของโมเดล รวมถึงความเสี่ยงของกลุ่มย่อยแต่ละกลุ่มได้ หากมีการนําโมเดลออกเพื่อใช้ทางการแพทย์ในประชากรทั่วไป

แหล่งข้อมูลด้านความเป็นธรรมเพิ่มเติม

ความเป็นธรรมคือสาขาย่อยใหม่ที่ค่อนข้างใหม่และอยู่ในสาขาของแมชชีนเลิร์นนิง หากต้องการดูข้อมูลเพิ่มเติมเกี่ยวกับการวิจัยและโครงการริเริ่มที่พัฒนาขึ้นเพื่อพัฒนาเครื่องมือและเทคนิคใหม่ๆ ในการระบุและบรรเทาอคติในโมเดลแมชชีนเลิร์นนิง โปรดดู หน้าแหล่งข้อมูลเกี่ยวกับความเป็นธรรมของแมชชีนเลิร์นนิงของ Google