Công bằng: Kiểm tra kiến thức

Các loại Bias

Hãy khám phá các lựa chọn bên dưới.

Những dự đoán của mô hình nào sau đây đã bị ảnh hưởng bởi lựa chọn thiên vị?
Ứng dụng điện thoại thông minh nhận dạng chữ viết tay của Đức sử dụng mô hình thường xuyên phân loại không chính xác các ký tự ß (Eszett) là ký tự B, vì ứng dụng này được đào tạo về kho nội dung mẫu chữ viết tay của Mỹ, chủ yếu bằng tiếng Anh.
Mô hình này chịu ảnh hưởng của một loại xu hướng lựa chọn gọi là sự thiên vị về mức độ phù hợp: dữ liệu huấn luyện (chữ viết tay tiếng Anh của người Mỹ) không đại diện cho loại dữ liệu mà đối tượng mục tiêu của mẫu đó cung cấp (viết tay tiếng Đức).
Các kỹ sư đã xây dựng một mô hình để dự đoán xác suất một người mắc bệnh tiểu đường dựa trên lượng thức ăn hằng ngày họ tiêu thụ. Mô hình này đã được đào tạo trên 10.000 &nhật ký thức ăn&tquot; ẩm thực; được thu thập từ một nhóm người được chọn ngẫu nhiên trên toàn thế giới đại diện cho nhiều nhóm tuổi, hoàn cảnh dân tộc và giới tính. Tuy nhiên, khi được triển khai, mô hình có độ chính xác rất kém. Các kỹ sư sau đó phát hiện ra rằng những người tham gia nhật ký thực phẩm không muốn chấp nhận lượng thực phẩm không lành mạnh họ đã ăn và có nhiều khả năng ghi nhận việc tiêu thụ các loại thực phẩm bổ dưỡng hơn so với những món ăn nhẹ kém lành mạnh.
Không có độ chệch lựa chọn trong mô hình này; những người tham gia cung cấp dữ liệu đào tạo là ví dụ đại diện cho người dùng và được chọn ngẫu nhiên. Thay vào đó, mô hình này đã chịu ảnh hưởng của độ lệch báo cáo. Việc nhập thông tin về thực phẩm không tốt cho sức khỏe được báo cáo với tần suất thấp hơn nhiều so với tỷ lệ nhập thực tế thực tế.
Các kỹ sư tại một công ty đã phát triển một mô hình để dự đoán tỷ lệ nhân viên nghỉ việc (tỷ lệ phần trăm nhân viên nghỉ việc mỗi năm) dựa trên dữ liệu thu thập được từ một cuộc khảo sát được gửi đến tất cả nhân viên. Sau vài năm sử dụng, các kỹ sư đã xác định rằng mô hình này đánh giá thấp doanh thu hơn 20%. Khi tiến hành phỏng vấn nhân viên rời khỏi công ty, họ biết được rằng hơn 80% người dùng không hài lòng với công việc của họ chọn không hoàn thành khảo sát, so với tỷ lệ chọn không tham gia trên toàn công ty là 15%.
Mô hình này đã chịu ảnh hưởng của một loại độ chệch lựa chọn gọi là độ chệch không phản hồi. Những người không hài lòng với công việc của họ được đánh giá thấp hơn trong tập dữ liệu đào tạo vì họ chọn không tham gia khảo sát trên toàn công ty với tỷ lệ cao hơn nhiều so với toàn bộ nhân viên.
Các kỹ sư phát triển một hệ thống đề xuất phim giả định rằng những người thích phim kinh dị cũng sẽ thích các bộ phim khoa học viễn tưởng. Tuy nhiên, khi họ đào tạo một mô hình trên 50.000 người dùng, tuy nhiên, danh sách theo dõi không cho thấy mối tương quan nào giữa lựa chọn ưu tiên về kinh dị và khoa học viễn tưởng. Thay vào đó, họ cho thấy mối tương quan chặt chẽ giữa lựa chọn ưu tiên về kinh dị và phim tài liệu. Điều này có vẻ bất thường đối với họ, vì vậy họ đã đào tạo lại mô hình thêm 5 lần bằng các tham số siêu dữ liệu khác nhau. Mô hình đã qua đào tạo cuối cùng của họ cho thấy mối tương quan 70% giữa các lựa chọn ưu tiên về phim kinh dị và khoa học viễn tưởng, nên họ tự tin phát hành phiên bản chính thức của trò chơi.
Không có bằng chứng về độ chệch lựa chọn, nhưng mô hình này có thể đã bị ảnh hưởng bởi độ chệch của thử nghiệm, vì các kỹ sư tiếp tục lặp lại trên mô hình của họ cho đến khi xác nhận giả thuyết trước đó của họ.

Đánh giá theo thành kiến

Một mô hình phát hiện nguỵ lý đã được đào tạo về 80.000 tin nhắn văn bản: 40.000 tin nhắn do người lớn (18 tuổi trở lên) gửi và 40.000 tin nhắn do trẻ vị thành niên (dưới 18 tuổi) gửi. Sau đó, mô hình này được đánh giá trên 20.000 thông báo thử nghiệm: 10.000 đối với người lớn và 10.000 đối với trẻ vị thành niên. Các ma trận nhầm lẫn sau đây cho thấy kết quả cho từng nhóm (thông tin dự đoán dương tính biểu thị sự phân loại của "quot;sarcastic"; thông tin dự đoán tiêu cực biểu thị một phân loại của "quot;không phải châm biếm"):

Người lớn

True dương tính (TP): 512 Cảnh báo nhầm (FPs): 51
Phủ định sai (FN): 36 Đúng phủ định (TN): 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

Trẻ vị thành niên

Tích cực thực (TP): 2147 False dương tính (FP): 96
Sai phủ định (FN): 2177 Đúng phủ định (TN): 5580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

Hãy khám phá các lựa chọn bên dưới.

Câu nào sau đây là đúng khi nói về hiệu suất của nhóm kiểm thử mô hình?
Nhìn chung, mô hình này hoạt động hiệu quả hơn trong các ví dụ về người lớn so với ví dụ từ trẻ vị thành niên.

Mô hình này đạt cả tỷ lệ chính xác và mức độ ghi nhớ quảng cáo trên 90% khi phát hiện chế độ châm biếm trong tin nhắn văn bản của người lớn.

Mặc dù mô hình giúp đạt được tỷ lệ chính xác cao hơn một chút đối với trẻ vị thành niên so với người lớn, nhưng tỷ lệ thu hồi của trẻ vị thành niên lại thấp hơn đáng kể, dẫn đến kết quả dự đoán không đáng tin cậy hơn cho nhóm này.

Mô hình này không phân loại được khoảng 50% trẻ vị thành niên ' thông điệp châm biếm là "sarcastic&"
Tỷ lệ thu hồi là 0,497 đối với trẻ vị thành niên cho biết rằng mô hình này sẽ dự đoán "không phải & không hài lòng; đối với khoảng 50% trẻ vị thành niên\39; văn bản châm biếm.
Khoảng 50% tin nhắn do trẻ vị thành niên gửi là được phân loại là "chăm sóc và trích dẫn; không chính xác.
Tỷ lệ chính xác là 0,957 cho thấy rằng hơn 95% trẻ vị thành niên' thông điệp được phân loại là "sarcastic" thực chất là châm biếm.
10.000 tin nhắn do người lớn gửi là tập dữ liệu không cân bằng lớp.
Nếu chúng tôi so sánh số lượng thư từ người lớn thực sự châm biếm (TP+FN = 548) với số lượng thư thực sự không phải châm biếm (TN + FP = 9452), chúng tôi sẽ thấy rằng "không phải châm biếm" nhãn nhiều hơn "sarcastic" nhãn theo tỷ lệ là khoảng 1:
10.000 tin nhắn do trẻ vị thành niên gửi là một tập dữ liệu không cân bằng lớp.
Nếu so sánh số lượng tin nhắn của những trẻ vị thành niên thực ra không phải là châm biếm (TP+FN = 4324) với số lượng tin nhắn thực sự không phải châm biếm (TN + FP = 5676), thì chúng ta thấy có tỷ lệ "rác Vì việc phân phối nhãn giữa hai lớp này gần như gần bằng 50/50, nên đây không phải là một tập dữ liệu không cân bằng giữa các lớp.

Hãy khám phá các lựa chọn bên dưới.

Các kỹ sư đang nỗ lực đào tạo lại mô hình này để giải quyết vấn đề không nhất quán về khả năng phát hiện chế độ châm biếm đối với thông tin nhân khẩu học về độ tuổi, nhưng mô hình đã được phát hành chính thức. Chiến lược dừng sau đây sẽ giúp giảm thiểu lỗi trong mô hình dự đoán của mô hình nào?
Hạn chế việc sử dụng mô hình này đối với tin nhắn văn bản do người lớn gửi.

Mô hình này hoạt động hiệu quả đối với các tin nhắn văn bản của người lớn (có độ chính xác và tỷ lệ thu hồi đều trên 90%). Vì vậy, việc hạn chế sử dụng mô hình này cho nhóm này sẽ giúp ngăn chặn các lỗi có tính hệ thống trong việc phân loại trẻ vị thành niên\39; các tin nhắn văn bản.

Khi mô hình dự đoán "không phải châm biếm" đối với các tin nhắn văn bản do trẻ vị thành niên gửi, hãy điều chỉnh kết quả để mô hình trả về giá trị "unsure" thay vào đó.

Tỷ lệ chính xác của tin nhắn văn bản do trẻ vị thành niên gửi là cao. Điều này có nghĩa là khi mô hình này dự đoán "sarcastic" đối với nhóm này, kết quả gần như luôn chính xác.

Vấn đề là khả năng ghi nhớ rất thấp đối với trẻ vị thành niên; trong khoảng 50% ví dụ, mô hình này không xác định được nội dung châm biếm. Vì dự đoán tiêu cực của mô hình đối với trẻ vị thành niên không tốt hơn dự đoán ngẫu nhiên, nên chúng tôi có thể tránh những lỗi này bằng cách không đưa ra dự đoán trong những trường hợp như vậy.

Giới hạn việc sử dụng mô hình này đối với tin nhắn văn bản do trẻ vị thành niên gửi.

Các lỗi có hệ thống trong mô hình này chỉ áp dụng cho các tin nhắn văn bản do trẻ vị thành niên gửi. Việc hạn chế sử dụng mô hình trong nhóm dễ bị lỗi sẽ không hữu ích.

Điều chỉnh đầu ra của mô hình để kết quả trả về "sarcastic" cho tất cả tin nhắn văn bản do trẻ vị thành niên gửi, bất kể mô hình đó dự đoán được điều gì ban đầu.

Hãy luôn dự đoán "không thích và trích dẫn; đối với trẻ vị thành niên\39; tin nhắn văn bản sẽ tăng tỷ lệ thu hồi từ 0,497 lên 1,0 vì mô hình này sẽ không còn xác định bất kỳ tin nhắn nào là châm biếm. Tuy nhiên, mức độ ghi nhớ này tăng lên sẽ ảnh hưởng đến độ chính xác. Tất cả các âm tính thực sự sẽ được thay đổi thành dương tính giả:

Tích cực thực (TP): 4324 False dương tính (FP): 5676
Phủ định sai (FN): 0 Đúng phủ định (TN): 0

sẽ làm giảm tỷ lệ chính xác từ 0.957 xuống 0.432. Vì vậy, việc thêm phần hiệu chỉnh này sẽ thay đổi loại lỗi nhưng sẽ không giảm thiểu được mức độ lỗi.