公平性:检查您的理解情况

偏差类型

请查看以下选项。

以下哪个模型的预测受到了选择偏差的影响?
一款德语手写识别智能手机应用使用的模型经常将 ß (Eszett) 字符错误地识别为 B 字符,原因是该模型基于美国的手写样本语料库训练而成,该语料库的大部分内容都是用英语书写的。
该模型受一种名为覆盖偏差的选择偏差的影响:训练数据(美式英语手写内容)不能代表模型的目标受众群体提供的数据类型(德语手写内容)。
工程师们构建了一个模型,根据人们每天摄入的食物预测患糖尿病的可能性。该模型基于从世界各地随机选择的一群人提供的 10000 份饮食日记训练而成,这群人代表各种不同的年龄段、种族背景和性别。不过,部署该模型后,工程师们发现其准确率非常低。他们随后发现,饮食日记的参与者不愿透露不健康食物的真实摄入量,比起不健康的零食,他们更多记录的是营养食物的摄入量。
该模型没有选择偏差,提供训练数据的参与者是随机选择的代表性样本。该模型受到的是报告偏差的影响。报告的不健康食物摄入频率比真实的摄入频率低得多。
某公司的工程师们开发了一个模型,根据通过发给所有员工的调查问卷收集到的数据来预测员工的离职率(每年的员工离职百分比)。经过几年的使用,工程师们发现该模型预测的离职率比实际值低估了超过 20%。在与即将离职的员工进行离职面谈时,他们了解到,对工作不满意的员工中超过 80% 的员工选择不填写调查问卷,而整个公司范围的放弃率则是 15%。
该模型受到了一种名为未回答偏差的选择偏差的影响。训练数据集中没有代表对工作不满意的员工的数据,因为这部分员工选择不参加公司范围问卷调查的概率远高于全体员工。
开发电影推荐系统的工程师们猜测喜欢看恐怖电影的人也会喜欢看科幻电影。当他们基于 50000 名用户的观看列表对模型进行训练后,预测结果显示恐怖电影喜好与科幻电影喜好之间没有这种相关性,而恐怖电影喜好与纪录片喜好之间却有很强的相关性。这种结果让他们感到很意外,因此他们使用不同的超参数对该模型又训练了 5 次。最终训练出的模型显示恐怖电影喜好与科幻电影喜好之间具有 70% 的相关性,因此他们充满信心地将该模型部署到了生产环境中。
这里不存在选择偏差,但该模型可能受到了实验者偏差的影响,因为工程师们不断对模型进行迭代,直到模型的预测结果证实他们先前的猜测为止。

评估偏差

一个用于检测嘲讽内容的模型基于 80000 条短信训练而成:其中有 40000 条来自成年人(18 岁及以上),另外 40000 条来自未成年人(未满 18 周岁)。然后,用包含 20000 条短信的测试集对该模型进行评估:其中有 10000 条来自成年人,另外 10000 条来自未成年人。以下混淆矩阵显示了每组的测试结果(正预测表示分类为“嘲讽内容”,负预测表示分类为“非嘲讽内容”):

成年人

真正例 (TP):512 假正例 (FP):51
假负例 (FN):36 真负例 (TN):9401
$$\text{精确率} = \frac{TP}{TP+FP} = 0.909$$
$$\text{召回率} = \frac{TP}{TP+FN} = 0.934$$

未成年人

真正例 (TP):2147 假正例 (FP):96
假负例 (FN):2177 真负例 (TN):5580
$$\text{精确率} = \frac{TP}{TP+FP} = 0.957$$
$$\text{召回率} = \frac{TP}{TP+FN} = 0.497$$

请查看以下选项。

以下关于该模型的测试集性能的表述中哪些是正确的?
总体而言,该模型检测成年人样本的表现优于检测未成年人样本的表现。

在检测成年人短信中的嘲讽内容时,该模型的精确率和召回率均超过了 90%。

虽然该模型检测未成年人短信的精确率略高于成年人,但未成年人的召回率低得多,导致对该群体的预测不可靠。

该模型未能将近 50% 的嘲讽短信归类为“嘲讽内容”。
未成年人 0.497 的召回率表示该模型将近 50% 的未成年人嘲讽短信预测为“非嘲讽内容”。
未成年人发送的短信中有近 50% 被错误地归类为“嘲讽内容”。
0.957 的精确率表示超过 95% 被归类为“嘲讽内容”的未成年人短信实际上就是嘲讽内容。
成年人发送的 10000 条短信为分类不平衡的数据集。
如果我们将成年人短信中实际为嘲讽内容的短信数 (TP+FN = 548) 与实际为非嘲讽内容的短信数 (TN + FP = 9452) 相比,会发现“非嘲讽内容”标签数比“嘲讽内容”标签数多,它们之间的比例约为 17:1。
未成年人发送的 10000 条短信为分类不平衡的数据集。
如果我们将未成年人短信中实际为嘲讽内容的短信数 (TP+FN = 4324) 与实际为非嘲讽内容的短信数 (TN + FP = 5676) 相比,会发现“非嘲讽内容”标签数与“嘲讽内容”标签数之间的比例为 1.3:1。这两类标签的分布非常接近 1:1,因此这不是分类不平衡的数据集。

请查看以下选项。

工程师们正再次对该模型进行训练,以解决不同年龄段的嘲讽内容检测准确率不一致的问题,但该模型已部署到生产环境中。以下哪种补救措施有助于减少模型预测中的错误?
仅将该模型用于检测成年人发送的短信。

该模型在检测成年人短信时表现良好(精确率和召回率均超过 90%),因此仅将模型用于该群体可避免对未成年人短信进行分类时出现的系统错误。

当该模型预测未成年人短信为“非嘲讽内容”时,调整输出以使模型改为返回“不确定”一值。

该模型在检测未成年人短信时精确率较高,这意味着当该群体的预测结果为“嘲讽内容”时,基本上正确。

问题在于未成年人短信的召回率非常低,该模型无法识别近 50% 的样本属于嘲讽内容。该模型针对未成年人短信的负预测跟随机猜测差不多,我们可以通过在此类情况下不提供预测来避免错误。

仅将该模型用于检测未成年人发送的短信。

该模型中的系统错误特定于未成年人发送的短信。仅将该模型用于预测时更易出错的群体对预测结果不会有任何帮助。

调整模型输出,使之针对未成年人发送的所有短信均返回“嘲讽内容”,无论模型最初的预测结果是什么。

始终将未成年人的短信预测为“嘲讽内容”会使召回率从 0.497 升至 1.0,因为模型会将所有短信识别为嘲讽内容。但是,召回率的升高将导致精确率变低。所有真负例都将被改为假正例:

真正例 (TP):4324 假正例 (FP):5676
假负例 (FN):0 真负例 (TN):0

这会使精确率从 0.957 降至 0.432。进行此校准可改变错误类型,但不会降低错误的程度。