分類: ROC Curve と AUC

ROC 曲線

ROC 曲線(受信者操作特性曲線)は、すべての分類しきい値で分類モデルのパフォーマンスを示すグラフです。この曲線では、次の 2 つのパラメータがプロットされます。

  • 真陽性率
  • 偽陽性率

真陽性率TPR)は再現率の同義語であり、次のように定義されます。

$$TPR = \frac{TP} {TP + FN}$$

偽陽性率FPR)は、次のように定義されます。

$$FPR = \frac{FP} {FP + TN}$$

ROC 曲線は、さまざまな分類しきい値で TPR と FPR をプロットしたものです。分類しきい値を下げると、より多くの項目が陽性に分類され、偽陽性と真陽性の両方が増加します。次の図は、典型的な ROC 曲線を示しています。

さまざまな分類しきい値での TP レートと FP レートの比較を示す ROC 曲線。

図 4. 分類しきい値ごとの TP と FP のレートの比較

ROC 曲線内の点を計算するには、さまざまな分類しきい値でロジスティック回帰モデルを何度も評価しますが、この方法は非効率的です。幸いなことに、この情報を AUC と呼ばれる、並べ替えのための効率的なアルゴリズムを提供しています。

AUC: ROC 曲線の下の面積

AUC は「ROC Curve」の「Area」を意味します。つまり、AUC は ROC 曲線全体(積分計算を考える)の下 2 次元領域を(0,0)から(1,1)まで測定します。

AUC(ROC 曲線の下の面積)。

図 5. AUC(ROC 曲線の下の面積)

AUC により、あり得るすべての分類しきい値でパフォーマンスを総合的に測定できます。AUC の解釈方法の一つは、モデルがランダムな陽性のサンプルをランダムなネガティブ サンプルよりも上位にランク付けする確率です。たとえば、ロジスティック回帰予測の昇順で左から右に並べられた次の例を考えてみましょう。

ポジティブ サンプルとネガティブ サンプルをロジスティック回帰スコアの昇順で並べ替え

図 6: 予測はロジスティック回帰スコアの昇順で並べ替えられます。

AUC は、ランダムな正(緑)の例がランダムな負(赤)の例の右側に配置される確率を表します。

AUC の範囲は 0 ~ 1 です。予測が 100% 間違ったモデルの AUC は 0.0 で、予測が 100% 正しいモデルは AUC が 1.0 です。

AUC が望ましい理由は次の 2 つです。

  • AUC は「スケール不変」です。絶対値ではなく、予測がどれだけ適切にランク付けされるかを測定します。
  • AUC は分類しきい値しきい値です。選択された分類しきい値に関係なく、モデルの予測の品質を測定します。

ただし、これらの理由の両方に注意点があり、特定のユースケースでは AUC の有用性が制限される場合があります。

  • スケールの不変性が常に望ましいとは限りません。たとえば、適切に調整された確率の出力が必要になる場合もありますが、AUC ではこの情報が得られません。

  • 分類しきい値の不変性は常に望ましいとは限りません。偽陰性と偽陽性のコストの差が大きい場合は、1 種類の分類エラーを最小限に抑えることが重要になります。たとえば、メールスパム検出を行う場合、偽陽性の最小化を(たとえ偽陰性が大幅に増加した場合でも)優先する必要がある場合があります。AUC は、この種の最適化に役立つ指標ではありません。