分类 (Classification):检查您的理解情况(ROC 和 AUC)

ROC 和 AUC

查看以下选项。

以下哪条 ROC 曲线可产生大于 0.5 的 AUC 值?
ROC 曲线中一条水平线的范围为 (0,0) 到 (0,1),另一条的范围为 (0,1) 到 (1,1)。对于所有 FP 率来说,TP 率都是 1.0

这是可能达到的最好 ROC 曲线,因为它将所有正类别排列在所有负类别之上。该曲线的 AUC 为 1.0。

实际上,如果您有一个 AUC 为 1.0 的“完美”分类器,您应该感到可疑,因为这可能表明您的模型中存在错误。例如,您的训练数据可能过拟合,或者带标签数据可能被复制到其中一项特征中。

ROC 曲线中一条水平线的范围为 (0,0) 到 (1,0),另一条的范围为 (1,0) 到 (1,1)。对于所有 TP 率来说,FP 率都是 1.0
这是可能出现的最差 ROC 曲线;它将所有负分类排列在正分类之上,其 AUC 为 0.0。如果您要逆转每一项预测结果(将负分类翻转为正分类,将正分类翻转为负分类),还真的需要一个完美分类器!
ROC 曲线中一条对角线的范围为 (0,0) 到 (1,1)。TP 率和 FP 率以相同的速率线性增长。
该 ROC 曲线的 AUC 为 0.5,这意味着 50% 的情况下它将某个随机正分类样本排列在某个随机负分类样本之上。因此,相应的分类模型基本上毫无价值,因为其预测能力与随机猜测差不多。
沿着上方和右方弧形上升的 ROC 曲线,范围为 (0,0) 到 (1,1)。TP 率增长的速率比 FP 率快。
该 ROC 曲线的 AUC 介于 0.5 到 1.0 之间,这意味着它在超过 50% 以上的情况下将某个随机正分类样本排列在某个随机负分类样本之上。实际二元分类的 AUC 值通常在此范围内。
沿着右方和上方弧形上升的 ROC 曲线,范围为 (0,0) 到 (1,1)。FP 率增长的速率比 TP 率快
该 ROC 曲线的 AUC 介于 0 到 0.5 之间,这意味着它在不到 50% 的情况下将某个随机正分类样本排列在某个随机负分类样本之上。相应的模型实际上比随机猜测的效果更差!如果您看到这样的 ROC 曲线,可能表明您的数据中存在错误。

AUC 和预测结果的尺度

查看以下选项。

将给定模型的所有预测结果都乘以 2.0(例如,如果模型预测的结果为 0.4,我们将其乘以 2.0 得到 0.8),会使按 AUC 衡量的模型效果产生何种变化?
没有变化。AUC 只关注相对预测分数。
没错,AUC 以相对预测为依据,因此保持相对排名的任何预测变化都不会对 AUC 产生影响。而对其他指标而言显然并非如此,例如平方误差、对数损失函数或预测偏差(稍后讨论)。
这会使 AUC 变得很糟糕,因为预测值现在相差太大。
有趣的是,即使预测值不同(可能与事实相差很大),将它们全部乘以 2.0 会使预测值的相对排序保持不变。由于 AUC 只关注相对排名,因此不会受到任何简单的预测大小缩放的影响。
这会使 AUC 变得更好,因为预测值之间相差都很大。
预测结果之间的差距实际上并不会影响 AUC。即使随机抽取的真正例的预测分数只比随机抽取的负类别样本的预测分数大一点点,也会被当作对总体 AUC 分数有贡献。