公平性:偏差类型

机器学习模型本身并非就客观。工程师通过将训练样本数据集馈送至模型来对其进行训练,提供和挑选这些数据过程中的人为干预会使模型的预测容易存在偏差。

构建模型时,务必要留意数据中可能会出现的常见人为偏差,以便采取主动措施来削弱偏差的影响。

报告偏差

如果数据集中收集的事件、属性和/或结果的频率未准确反映它们的真实频率,便会出现报告偏差。出现这种偏差的原因是,人们倾向于记录不寻常或特别难忘的情况,认为大家都知道一般情况。

自动化偏差

与非自动化系统生成的结果相比,自动化偏差倾向于自动化系统生成的结果(不考虑各自的错误率)。

选择偏差

如果数据集中选择的样本未能反映样本的真实分布情况,便会出现选择偏差。选择偏差的形式有多种:

  • 覆盖偏差:未以典型方式选择数据。
  • 未回答偏差(或参与偏差):由于数据收集过程中存在参与缺口,导致收集的数据不具代表性。
  • 采样偏差:收集数据的过程中未适当地随机化。

群体归因偏差

群体归因偏差倾向于将个体的真实情况泛化到其所属的整个群体。这种偏差的两个主要表现形式为:

  • 群内偏差:偏向于您所属群体或具有共同特征的群体内成员。
  • 群外同质性偏差:倾向于对您不属于的某个群体的个体成员抱有成见,或者认为他们都差不多。

隐性偏差

如果根据不一定普遍适用的个人心智模型和个人经验做出假设,便会出现隐性偏差

隐性偏差的一种常见形式是确认偏差,即模型构建者无意中以认可已有观念和假设的方式处理数据。在某些情况下,模型构建者实际上会不断地训练模型,直到得出的结果与最初的假设一致为止,我们称之为实验者偏差