公平性:检查您的理解情况

偏差类型

查看以下选项。

以下哪个模型的预测受到了选择偏差的影响?
一款德语手写识别智能手机应用使用的模型经常将 ß (Eszett) 字符错误分类为 B 字符,原因是该模型基于美国的手写样本语料库训练而成,该语料库的大部分内容都是用英语书写的。
该模型受一种名为覆盖偏差的选择偏差的影响:训练数据(美式英语手写内容)不能代表模型的目标受众群体提供的数据类型(德语手写内容)。
工程师们构建了一个模型,根据每日饮食摄入量预测一个人患糖尿病的可能性。此模型基于 10000 份“食物日记”进行了训练,这些食物是从世界各地随机选择的一群人收集而来,代表了不同的年龄段、种族背景和性别。但是,部署该模型时,准确率非常差。工程师随后发现,饮食日记的参与者不愿透露不健康食物的真实摄入量,比起不健康的零食,他们更有可能记录营养食物的摄入量。
此模型中没有选择偏差;提供训练数据的参与者是随机选择的代表性样本。而是受到了报告偏差的影响。报告的不健康食物摄入频率比实际水平要低得多。
一家公司的工程师开发了一个模型,根据发送给所有员工的调查问卷收集的数据,预测员工的离职率(每年的员工离职百分比)。几年后,工程师们发现该模型低估了 20% 以上的营业额。在对离职员工进行离职面试时,他们发现超过 80% 对其工作不满意的人选择不填写调查问卷,而整个公司的退订率为 15%。
该模型受到了一种名为未回答偏差的选择偏差的影响。在培训数据集中,对工作不满意的人数较少,因为他们选择不参与全公司范围的问卷调查而远远高于整个员工群体的问卷调查率。
工程师们开发了一款电影推荐系统,并假设喜欢恐怖片的人也会喜欢科幻片。然而,他们基于 5 万名用户观看列表训练了模型后,恐怖和科幻电影的偏好之间并无这种相关性;相反,恐怖电影和纪录片的偏好之间有着很强的相关性。这对他们来说似乎很奇怪,因此他们使用不同的超参数再次训练模型五次。他们最终训练的模型表明,恐怖电影和科幻电影的偏好之间存在 70% 的相关性,因此他们满怀信心地将其发布正式版。
没有选择偏差,但该模型可能受到了实验者偏差的影响,因为工程师们不断对模型进行迭代,直到模型的确证实了他们先前的假设。

评估偏差

我们在 80000 条短信中训练了一个讽刺性检测模型:40000 条短信是由成年人(18 岁及以上)和 40000 条短信(未满 18 周岁)发出的。然后,测试了包含 20000 条消息的测试集:其中 10000 条来自成年人,另外 10000 条来自未成年人。以下混淆矩阵显示了每组的结果(正预测表示分类为“嘲讽内容”,负预测表示分类为“非嘲讽内容”):

成人

真正例 (TP):512 假正例 (FP):51
假负例 (FN):36 真负例 (TN):9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

未成年人

真正例 (TP):2147 假正例 (FP):96
假负例 (FN):2177 真负例 (TN):5580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

查看以下选项。

以下关于模型测试集性能的表述中哪些是正确的?
总体而言,该模型在成年人样本上的表现优于未成年人样本的表现。

在检测成年人短信中的嘲讽内容时,该模型的准确率和召回率均超过 90%。

虽然该模型对未成年人的精确率略高于成人,但未成年人的召回率显著降低,从而导致针对此群体的预测不太可靠。

该模型未能将近 50% 的未成年人嘲讽内容归为“讽刺性报道”。
未成年人 0.497 的召回率表示该模型对约 50% 的未成年人文本进行“非嘲讽”预测。
未成年人发送的消息中有大约 50% 被错误地归类为“讽刺性报道”。
精确率为 0.957 表示有超过 95% 的未成年人被归类为“讽刺性报道”。
成人发送的 10000 条消息是一个分类不平衡的数据集。
如果我们比较从实际为嘲讽内容 (TP+FN = 548) 的邮件数与实际非讽刺性邮件的数量 (TN + FP = 9452),我们会发现“非嘲讽内容”标签的数量远远超过 <sarcastic> 标签。
未成年人发送的 10000 条短信为分类不平衡的数据集。
将来自未成年人的真正为讽刺性消息 (TP+FN = 4324) 的消息数与实际非讽刺性消息的数量 (TN + FP = 5676) 进行比较后,我们发现“非讽刺性”标签与“非讽刺性”标签的比例为 1.3:1。鉴于这两个类别之间的标签分布非常接近 50/50,这不是分类不平衡的数据集。

查看以下选项。

工程师们正在努力重新训练该模型,以解决不同年龄段的讽刺性检测准确率不一致的问题,但该模型已发布到生产环境中。以下哪种权宜之计策略有助于减少模型预测中的错误?
仅将该模型用于成人发送的短信。

此模型在成人短信方面表现良好(精确率和召回率均超过 90%),因此将模型限制为仅可归入这组人群,可避免对未成年人短信进行分类时出现系统错误。

如果模型预测未成年人发送的短信不是“嘲讽内容”,请调整输出结果,让模型改为返回“不确定”值。

未成年人发送的短信的精确率较高,这意味着,对于该模型,预测的“嘲讽内容”几乎总是正确的。

问题在于未成年人的召回率很低;该模型在大约 50% 的示例中无法识别讽刺。鉴于该模型对未成年人的负面预测与随机猜测差不多,因此我们可以在这些情况下不提供预测来避免这些错误。

仅将短信用于未成年人发送的短信。

该模型中的系统错误特定于未成年人发送的短信。将模型用于更易出错的群组会无济于事。

调整模型输出,使其针对未成年人发送的所有短信返回“嘲笑内容”,无论模型最初预测是什么。

始终预测未成年人的“嘲笑内容”短信会将召回率从 0.497 提高到 1.0,因为该模型不会再将任何信息识别为讽刺性内容。但是,召回率的提高会降低精确率。所有真负例都将被更改为假正例:

真正例 (TP):4324 假正例 (FP):5676
假负例 (FN):0 真负例 (TN):0

这会将精确率从 0.957 降至 0.432。因此,添加这种校准会改变错误类型,但不会降低错误程度。