Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Phân loại: Độ chính xác, mức độ ghi nhớ, độ chính xác và các chỉ số liên quan

Kết quả dương tính và âm tính thực và giả được dùng để tính một số chỉ số hữu ích nhằm đánh giá các mô hình. Những chỉ số đánh giá có ý nghĩa nhất phụ thuộc vào mô hình cụ thể và nhiệm vụ cụ thể, chi phí của các lỗi phân loại khác nhau và việc tập dữ liệu có cân bằng hay không cân bằng.

Tất cả các chỉ số trong phần này đều được tính toán ở một ngưỡng cố định duy nhất và thay đổi khi ngưỡng thay đổi. Rất thường xuyên, người dùng điều chỉnh ngưỡng để tối ưu hoá một trong các chỉ số này.

Độ chính xác

Độ chính xác là tỷ lệ của tất cả các phân loại chính xác, cho dù là dương tính hay âm tính. Được xác định về mặt toán học như sau:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Trong ví dụ về phân loại email rác, độ chính xác đo lường phần số của tất cả các email được phân loại chính xác.

Một mô hình hoàn hảo sẽ không có kết quả dương tính giả và không có kết quả âm tính giả, do đó, độ chính xác là 1.0 hoặc 100%.

Vì độ chính xác kết hợp cả 4 kết quả từ ma trận nhầm lẫn (TP, FP, TN, FN), nên khi có một tập dữ liệu cân bằng với số lượng ví dụ tương tự trong cả hai lớp, độ chính xác có thể đóng vai trò là một chỉ số thô về chất lượng mô hình. Vì lý do này, đây thường là chỉ số đánh giá mặc định được dùng cho các mô hình chung chung hoặc không xác định thực hiện các tác vụ chung chung hoặc không xác định.

Tuy nhiên, khi tập dữ liệu không cân bằng hoặc khi một loại lỗi (FN hoặc FP) tốn kém hơn loại còn lại (trường hợp này xảy ra trong hầu hết các ứng dụng thực tế), bạn nên tối ưu hoá cho một trong các chỉ số khác.

Đối với các tập dữ liệu có độ mất cân bằng cao, trong đó một lớp xuất hiện rất hiếm, chẳng hạn như 1% thời gian, một mô hình dự đoán giá trị âm 100% thời gian sẽ đạt điểm 99% về độ chính xác, mặc dù không có tác dụng.

Độ thu hồi hoặc tỷ lệ dương tính thật

Tỷ lệ dương tính thật (TPR), hay tỷ lệ của tất cả kết quả dương tính thực tế được phân loại chính xác là dương tính, còn được gọi là độ thu hồi.

Độ thu hồi được xác định về mặt toán học như sau:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Âm tính giả là những kết quả dương tính thực tế bị phân loại sai thành âm tính, đó là lý do chúng xuất hiện trong mẫu số. Trong ví dụ về phân loại thư rác, độ thu hồi đo lường phần số thư rác được phân loại chính xác là thư rác. Đây là lý do khiến một tên khác của độ thu hồi là xác suất phát hiện: độ thu hồi trả lời câu hỏi "Phân số nào trong số các email rác được mô hình này phát hiện?"

Một mô hình hoàn hảo giả định sẽ không có âm tính giả và do đó có độ thu hồi (TPR) là 1, 0, tức là tỷ lệ phát hiện là 100%.

Trong một tập dữ liệu không cân bằng, trong đó số lượng kết quả dương tính thực tế rất thấp, độ thu hồi là một chỉ số có ý nghĩa hơn độ chính xác vì độ thu hồi đo lường khả năng của mô hình trong việc xác định chính xác tất cả các trường hợp dương tính. Đối với các ứng dụng như dự đoán bệnh, việc xác định chính xác các trường hợp dương tính là rất quan trọng. Thông thường, kết quả âm tính giả sẽ có hậu quả nghiêm trọng hơn so với kết quả dương tính giả. Để xem ví dụ cụ thể so sánh các chỉ số độ chính xác và khả năng thu hồi, hãy xem ghi chú trong định nghĩa về khả năng thu hồi.

Tỷ lệ dương tính giả

Tỷ lệ dương tính giả (FPR) là tỷ lệ của tất cả kết quả âm tính thực tế được phân loại không chính xác là dương tính, còn được gọi là xác suất báo động giả. Được xác định về mặt toán học như sau:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Dương tính giả là những kết quả âm tính thực tế bị phân loại sai, đó là lý do chúng xuất hiện ở mẫu số. Trong ví dụ về phân loại thư rác, FPR đo lường tỷ lệ email hợp lệ bị phân loại nhầm là thư rác hoặc tỷ lệ cảnh báo sai của mô hình.

Một mô hình hoàn hảo sẽ không có kết quả dương tính giả và do đó có FPR là 0,0, tức là tỷ lệ báo động giả là 0%.

Đối với một tập dữ liệu không cân bằng, FPR thường là một chỉ số giàu thông tin hơn độ chính xác. Tuy nhiên, nếu số lượng âm tính thực tế rất thấp, thì FPR có thể không phải là lựa chọn lý tưởng do tính biến động của nó. Ví dụ: nếu chỉ có 4 giá trị âm thực tế trong một tập dữ liệu, thì một lần phân loại sai sẽ dẫn đến FPR là 25%, trong khi lần phân loại sai thứ hai sẽ khiến FPR tăng lên 50%. Trong những trường hợp như thế này, độ chính xác (được mô tả tiếp theo) có thể là một chỉ số ổn định hơn để đánh giá tác động của kết quả dương tính giả.

Chính xác

Độ chính xác là tỷ lệ của tất cả các phân loại dương tính của mô hình thực sự là dương tính. Về mặt toán học, chỉ số này được xác định như sau:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Trong ví dụ về phân loại thư rác, độ chính xác đo lường phần số email được phân loại là thư rác thực sự là thư rác.

Một mô hình hoàn hảo giả định sẽ không có dương tính giả và do đó có độ chính xác là 1.0.

Trong một tập dữ liệu không cân bằng, trong đó số lượng kết quả dương tính thực tế rất thấp, chẳng hạn như tổng cộng 1-2 ví dụ, độ chính xác sẽ ít có ý nghĩa và ít hữu ích hơn với tư cách là một chỉ số.

Độ chính xác cải thiện khi số lượng kết quả dương tính giả giảm, trong khi độ thu hồi cải thiện khi số lượng kết quả âm tính giả giảm. Nhưng như đã thấy trong phần trước, việc tăng ngưỡng phân loại có xu hướng làm giảm số lượng kết quả dương tính giả và tăng số lượng kết quả âm tính giả, trong khi việc giảm ngưỡng sẽ có tác dụng ngược lại. Do đó, độ chính xác và khả năng thu hồi thường có mối quan hệ nghịch đảo, trong đó việc cải thiện một trong hai chỉ số này sẽ làm giảm chỉ số còn lại.

Hãy tự mình trải nghiệm:

NaN có nghĩa là gì trong các chỉ số?

NaN (không phải là số) xuất hiện khi chia cho 0. Điều này có thể xảy ra với bất kỳ chỉ số nào trong số này. Ví dụ: khi cả TP và FP đều bằng 0, công thức tính độ chính xác sẽ có 0 ở mẫu số, dẫn đến NaN. Mặc dù trong một số trường hợp, NaN có thể cho biết hiệu suất hoàn hảo và có thể được thay thế bằng điểm số 1.0, nhưng NaN cũng có thể đến từ một mô hình hầu như vô dụng. Ví dụ: một mô hình không bao giờ dự đoán kết quả dương sẽ có 0 TP và 0 FP, do đó, việc tính toán độ chính xác của mô hình sẽ dẫn đến NaN.

Lựa chọn chỉ số và các điểm đánh đổi

(Các) chỉ số mà bạn chọn ưu tiên khi đánh giá mô hình và chọn ngưỡng phụ thuộc vào chi phí, lợi ích và rủi ro của vấn đề cụ thể. Trong ví dụ về phân loại nội dung rác, việc ưu tiên khả năng thu hồi, thu thập tất cả email rác hoặc độ chính xác, cố gắng đảm bảo rằng email được gắn nhãn là nội dung rác thực sự là nội dung rác hoặc một số cân bằng của hai điều này, trên một mức độ chính xác tối thiểu nào đó thường có ý nghĩa.

Chỉ số	Hướng dẫn
Độ chính xác	Sử dụng làm chỉ báo sơ bộ về tiến trình/sự hội tụ huấn luyện mô hình cho các tập dữ liệu cân bằng. Đối với hiệu suất của mô hình, chỉ sử dụng kết hợp với các chỉ số khác. Tránh dùng cho các tập dữ liệu không cân bằng. Cân nhắc sử dụng một chỉ số khác.
Độ thu hồi (Tỷ lệ dương tính thật)	Sử dụng khi âm tính giả tốn kém hơn dương tính giả.
Tỷ lệ dương tính giả	Sử dụng khi dương tính giả tốn kém hơn âm tính giả.
Chính xác	Sử dụng khi bạn cần dự đoán chính xác kết quả dương tính.

(Không bắt buộc, nâng cao) Điểm F1

Điểm F1 là trung bình điều hoà (một loại giá trị trung bình) của độ chính xác và độ thu hồi.

Về mặt toán học, giá trị này được tính theo công thức:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Chỉ số này cân bằng tầm quan trọng của độ chính xác và khả năng thu hồi, đồng thời thích hợp hơn độ chính xác cho các tập dữ liệu không cân bằng theo lớp. Khi độ chính xác và độ thu hồi đều đạt điểm tuyệt đối là 1.0, F1 cũng sẽ đạt điểm tuyệt đối là 1.0. Nói chung, khi độ chính xác và độ thu hồi có giá trị gần nhau, F1 sẽ gần với giá trị của chúng. Khi độ chính xác và độ thu hồi khác nhau đáng kể, F1 sẽ tương tự như chỉ số nào kém hơn.

Bài tập: Kiểm tra kiến thức

Một mô hình xuất ra 5 TP, 6 TN, 3 FP và 2 FN. Tính toán độ thu hồi.

0,714

Độ thu hồi được tính theo công thức \(\frac{TP}{TP+FN}=\frac{5}{7}\).

0,455

Độ thu hồi xem xét tất cả kết quả dương tính thực tế, chứ không phải tất cả kết quả phân loại chính xác. Công thức tính độ thu hồi là \(\frac{TP}{TP+FN}\).

0,625

Độ thu hồi xem xét tất cả kết quả dương tính thực tế, chứ không phải tất cả kết quả phân loại dương tính. Công thức tính độ thu hồi là \(\frac{TP}{TP+FN}\)

Một mô hình đưa ra 3 TP, 4 TN, 2 FP và 1 FN. Tính độ chính xác.

0,6

Độ chính xác được tính theo công thức \(\frac{TP}{TP+FP}=\frac{3}{5}\).

0,75

Độ chính xác xem xét tất cả các phân loại dương tính, chứ không phải tất cả các kết quả dương tính thực tế. Công thức tính độ chính xác là \(\frac{TP}{TP+FP}\).

0,429

Độ chính xác xem xét tất cả các phân loại dương tính, chứ không phải tất cả các phân loại chính xác. Công thức tính độ chính xác là \(\frac{TP}{TP+FP}\)

Bạn đang xây dựng một bộ phân loại nhị phân để kiểm tra ảnh chụp bẫy côn trùng nhằm xác định xem có loài xâm lấn nguy hiểm nào xuất hiện hay không. Nếu mô hình phát hiện thấy loài này, nhà côn trùng học (nhà khoa học về côn trùng) đang làm nhiệm vụ sẽ được thông báo. Việc phát hiện sớm loài côn trùng này là rất quan trọng để ngăn chặn tình trạng xâm nhập. Cảnh báo sai (dương tính giả) rất dễ xử lý: nhà côn trùng học nhận thấy ảnh bị phân loại sai và đánh dấu là như vậy. Giả sử mức độ chính xác có thể chấp nhận được, mô hình này nên được tối ưu hoá cho chỉ số nào?

Nhớ lại

Trong trường hợp này, cảnh báo sai (FP) có chi phí thấp và âm tính giả có chi phí cao, vì vậy, bạn nên tối đa hoá khả năng thu hồi hoặc xác suất phát hiện.

Tỷ lệ dương tính giả (FPR)

Trong trường hợp này, cảnh báo sai (FP) có chi phí thấp. Việc cố gắng giảm thiểu các trường hợp dương tính giả có nguy cơ bỏ lỡ các trường hợp dương tính thực sự là điều không nên.

Chính xác

Trong trường hợp này, cảnh báo sai (FP) không gây hại, vì vậy, việc cố gắng cải thiện độ chính xác của các phân loại dương tính là không hợp lý.

Trung tâm trợ giúp

Ngưỡng và ma trận nhầm lẫn (12 phút)

Tiếp

ROC và AUC (10 phút)

Phân loại: Độ chính xác, mức độ ghi nhớ, độ chính xác và các chỉ số liên quan Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Độ chính xác

Độ thu hồi hoặc tỷ lệ dương tính thật

Tỷ lệ dương tính giả

Chính xác

NaN có nghĩa là gì trong các chỉ số?

Lựa chọn chỉ số và các điểm đánh đổi

(Không bắt buộc, nâng cao) Điểm F1

Bài tập: Kiểm tra kiến thức

Phân loại: Độ chính xác, mức độ ghi nhớ, độ chính xác và các chỉ số liên quan