Công bằng: Đánh giá theo thành kiến

Khi đánh giá một mô hình, các chỉ số được tính toán cho toàn bộ bộ kiểm thử hoặc xác thực không phải lúc nào cũng cung cấp thông tin chính xác về mức độ công bằng của mô hình.

Hãy xem xét một mô hình mới được phát triển để dự đoán sự hiện diện của các khối u được đánh giá trên tập hợp 1.000 bệnh nhân được xác thực; bệnh án. 500 hồ sơ là của bệnh nhân nữ, và 500 hồ sơ là của bệnh nhân nam. Ma trận nhầm lẫn sau đây tóm tắt kết quả cho tất cả 1.000 ví dụ:

Tích cực thực (TP): 16 Cảnh báo nhầm (FPs): 4
Phủ định sai (FN): 6 Đúng phủ định (TN): 974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

Những kết quả này có vẻ đầy hứa hẹn: độ chính xác 80% và mức độ ghi nhớ là 72,7%. Nhưng điều gì sẽ xảy ra nếu chúng tôi tính toán kết quả riêng cho từng nhóm bệnh nhân? Hãy chia kết quả thành hai ma trận riêng biệt: một dành cho bệnh nhân nữ và một dành cho bệnh nhân nam.

Kết quả về nữ bệnh nhân

Tích cực thực (TP): 10 Cảnh báo nhầm (FPs): 1
Phủ định sai (FN): 1 Đúng phủ định (TN): 488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

Kết quả về bệnh nhân nam

Tích cực thực (TP): 6 Xác định sai (FP): 3
Phủ định sai (FN): 5 Đúng phủ định (TN): 486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

Khi tính toán riêng các chỉ số cho bệnh nhân nữ và nam, chúng ta sẽ thấy sự khác biệt đáng kể về hiệu suất mô hình của từng nhóm.

Bệnh nhân nữ:

  • Trong số 11 bệnh nhân nữ thực sự có khối u, mô hình này dự đoán chính xác dương tính cho 10 bệnh nhân (tỷ lệ gợi nhớ: 90,9%). Nói cách khác, mô hình này bỏ lỡ chẩn đoán khối u trong 9,1% các trường hợp nữ.

  • Tương tự, khi mô hình trả về kết quả dương tính với khối u ở bệnh nhân nữ, mô hình này chính xác trong 10/11 trường hợp (tỷ lệ chính xác: 90,9%); nói cách khác, mô hình này dự đoán không chính xác khối u trong 9,1% các trường hợp nữ.

Bệnh nhân nam:

  • Tuy nhiên, trong số 11 bệnh nhân nam thực sự có khối u, mô hình này dự đoán chính xác chỉ 6 bệnh nhân (tỷ lệ gợi nhớ: 54,5%). Điều đó có nghĩa là mô hình này bỏ lỡ chẩn đoán khối u trong 45,5% các trường hợp nam giới.

  • Và khi mô hình này trả về kết quả dương tính với khối u ở bệnh nhân nam, thì chỉ có 6/9 trường hợp có tỷ lệ chính xác (tỷ lệ chính xác: 66,7%); nói cách khác, mô hình này dự đoán không chính xác khối u trong 33,3% các trường hợp nam giới.

Giờ đây, chúng tôi đã hiểu rõ hơn về sự thiên vị vốn có trong các dự đoán của mô hình, cũng như những rủi ro đối với từng nhóm phụ nếu mô hình được phát hành để sử dụng trong y tế cho dân số chung.

Tài nguyên khác về sự công bằng

Công bằng là một lĩnh vực tương đối mới trong lĩnh vực máy học. Để tìm hiểu thêm về các nghiên cứu và sáng kiến dành cho việc phát triển công cụ và kỹ thuật mới nhằm xác định và giảm thiểu độ chệch trong các mô hình máy học, hãy xem Trang tài nguyên về Công nghệ máy học của Google.