Kết quả dương tính và âm tính thực và giả được dùng để tính một số chỉ số hữu ích nhằm đánh giá các mô hình. Những chỉ số đánh giá có ý nghĩa nhất phụ thuộc vào mô hình cụ thể và nhiệm vụ cụ thể, chi phí của các lỗi phân loại khác nhau và việc tập dữ liệu có cân bằng hay không cân bằng.
Tất cả các chỉ số trong phần này đều được tính toán ở một ngưỡng cố định duy nhất và thay đổi khi ngưỡng thay đổi. Rất thường xuyên, người dùng điều chỉnh ngưỡng để tối ưu hoá một trong các chỉ số này.
Độ chính xác
Độ chính xác là tỷ lệ của tất cả các phân loại chính xác, cho dù là dương tính hay âm tính. Được xác định về mặt toán học như sau:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
Trong ví dụ về phân loại email rác, độ chính xác đo lường phần số của tất cả các email được phân loại chính xác.
Một mô hình hoàn hảo sẽ không có kết quả dương tính giả và không có kết quả âm tính giả, do đó, độ chính xác là 1.0 hoặc 100%.
Vì độ chính xác kết hợp cả 4 kết quả từ ma trận nhầm lẫn (TP, FP, TN, FN), nên khi có một tập dữ liệu cân bằng với số lượng ví dụ tương tự trong cả hai lớp, độ chính xác có thể đóng vai trò là một chỉ số thô về chất lượng mô hình. Vì lý do này, đây thường là chỉ số đánh giá mặc định được dùng cho các mô hình chung chung hoặc không xác định thực hiện các tác vụ chung chung hoặc không xác định.
Tuy nhiên, khi tập dữ liệu không cân bằng hoặc khi một loại lỗi (FN hoặc FP) tốn kém hơn loại còn lại (trường hợp này xảy ra trong hầu hết các ứng dụng thực tế), bạn nên tối ưu hoá cho một trong các chỉ số khác.
Đối với các tập dữ liệu có độ mất cân bằng cao, trong đó một lớp xuất hiện rất hiếm, chẳng hạn như 1% thời gian, một mô hình dự đoán giá trị âm 100% thời gian sẽ đạt điểm 99% về độ chính xác, mặc dù không có tác dụng.
Độ thu hồi hoặc tỷ lệ dương tính thật
Tỷ lệ dương tính thật (TPR), hay tỷ lệ của tất cả kết quả dương tính thực tế được phân loại chính xác là dương tính, còn được gọi là độ thu hồi.
Độ thu hồi được xác định về mặt toán học như sau:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Âm tính giả là những kết quả dương tính thực tế bị phân loại sai thành âm tính, đó là lý do chúng xuất hiện trong mẫu số. Trong ví dụ về phân loại thư rác, độ thu hồi đo lường phần số thư rác được phân loại chính xác là thư rác. Đây là lý do khiến một tên khác của độ thu hồi là xác suất phát hiện: độ thu hồi trả lời câu hỏi "Phân số nào trong số các email rác được mô hình này phát hiện?"
Một mô hình hoàn hảo giả định sẽ không có âm tính giả và do đó có độ thu hồi (TPR) là 1, 0, tức là tỷ lệ phát hiện là 100%.
Trong một tập dữ liệu không cân bằng, trong đó số lượng kết quả dương tính thực tế rất thấp, độ thu hồi là một chỉ số có ý nghĩa hơn độ chính xác vì độ thu hồi đo lường khả năng của mô hình trong việc xác định chính xác tất cả các trường hợp dương tính. Đối với các ứng dụng như dự đoán bệnh, việc xác định chính xác các trường hợp dương tính là rất quan trọng. Thông thường, kết quả âm tính giả sẽ có hậu quả nghiêm trọng hơn so với kết quả dương tính giả. Để xem ví dụ cụ thể so sánh các chỉ số độ chính xác và khả năng thu hồi, hãy xem ghi chú trong định nghĩa về khả năng thu hồi.
Tỷ lệ dương tính giả
Tỷ lệ dương tính giả (FPR) là tỷ lệ của tất cả kết quả âm tính thực tế được phân loại không chính xác là dương tính, còn được gọi là xác suất báo động giả. Được xác định về mặt toán học như sau:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Dương tính giả là những kết quả âm tính thực tế bị phân loại sai, đó là lý do chúng xuất hiện ở mẫu số. Trong ví dụ về phân loại thư rác, FPR đo lường tỷ lệ email hợp lệ bị phân loại nhầm là thư rác hoặc tỷ lệ cảnh báo sai của mô hình.
Một mô hình hoàn hảo sẽ không có kết quả dương tính giả và do đó có FPR là 0,0, tức là tỷ lệ báo động giả là 0%.
Đối với một tập dữ liệu không cân bằng, FPR thường là một chỉ số giàu thông tin hơn độ chính xác. Tuy nhiên, nếu số lượng âm tính thực tế rất thấp, thì FPR có thể không phải là lựa chọn lý tưởng do tính biến động của nó. Ví dụ: nếu chỉ có 4 giá trị âm thực tế trong một tập dữ liệu, thì một lần phân loại sai sẽ dẫn đến FPR là 25%, trong khi lần phân loại sai thứ hai sẽ khiến FPR tăng lên 50%. Trong những trường hợp như thế này, độ chính xác (được mô tả tiếp theo) có thể là một chỉ số ổn định hơn để đánh giá tác động của kết quả dương tính giả.
Chính xác
Độ chính xác là tỷ lệ của tất cả các phân loại dương tính của mô hình thực sự là dương tính. Về mặt toán học, chỉ số này được xác định như sau:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
Trong ví dụ về phân loại thư rác, độ chính xác đo lường phần số email được phân loại là thư rác thực sự là thư rác.
Một mô hình hoàn hảo giả định sẽ không có dương tính giả và do đó có độ chính xác là 1.0.
Trong một tập dữ liệu không cân bằng, trong đó số lượng kết quả dương tính thực tế rất thấp, chẳng hạn như tổng cộng 1-2 ví dụ, độ chính xác sẽ ít có ý nghĩa và ít hữu ích hơn với tư cách là một chỉ số.
Độ chính xác cải thiện khi số lượng kết quả dương tính giả giảm, trong khi độ thu hồi cải thiện khi số lượng kết quả âm tính giả giảm. Nhưng như đã thấy trong phần trước, việc tăng ngưỡng phân loại có xu hướng làm giảm số lượng kết quả dương tính giả và tăng số lượng kết quả âm tính giả, trong khi việc giảm ngưỡng sẽ có tác dụng ngược lại. Do đó, độ chính xác và khả năng thu hồi thường có mối quan hệ nghịch đảo, trong đó việc cải thiện một trong hai chỉ số này sẽ làm giảm chỉ số còn lại.
Hãy tự mình trải nghiệm:
Lựa chọn chỉ số và các điểm đánh đổi
(Các) chỉ số mà bạn chọn ưu tiên khi đánh giá mô hình và chọn ngưỡng phụ thuộc vào chi phí, lợi ích và rủi ro của vấn đề cụ thể. Trong ví dụ về phân loại nội dung rác, việc ưu tiên khả năng thu hồi, thu thập tất cả email rác hoặc độ chính xác, cố gắng đảm bảo rằng email được gắn nhãn là nội dung rác thực sự là nội dung rác hoặc một số cân bằng của hai điều này, trên một mức độ chính xác tối thiểu nào đó thường có ý nghĩa.
| Chỉ số | Hướng dẫn |
|---|---|
| Độ chính xác | Sử dụng làm chỉ báo sơ bộ về tiến trình/sự hội tụ huấn luyện mô hình cho các tập dữ liệu cân bằng. Đối với hiệu suất của mô hình, chỉ sử dụng kết hợp với các chỉ số khác. Tránh dùng cho các tập dữ liệu không cân bằng. Cân nhắc sử dụng một chỉ số khác. |
| Độ thu hồi (Tỷ lệ dương tính thật) |
Sử dụng khi âm tính giả tốn kém hơn dương tính giả. |
| Tỷ lệ dương tính giả | Sử dụng khi dương tính giả tốn kém hơn âm tính giả. |
| Chính xác | Sử dụng khi bạn cần dự đoán chính xác kết quả dương tính. |