指標を使用してモデルを評価する

ML モデルのデバッグは大変に思えるかもしれませんが、モデル指標は開始点を示します。以降のセクションでは、指標を使用してパフォーマンスを評価する方法について説明します。

モデルの指標を使用して品質を評価する

モデルの品質を評価するためによく使用される指標は次のとおりです。

これらの指標の解釈方法については、リンクされた機械学習によるクラッシュ コンテンツをご覧ください。特定の問題についてのその他のガイダンスについては、次の表をご覧ください。

問題 品質の評価
回帰 絶対二乗誤差(MSE)を削減するだけでなく、ラベル値を基準に MSE を小さくしてください。たとえば、平均価格が 5 と 100 の 2 つのアイテムの価格を予測するとします。どちらの場合も、MSE が 5 であると仮定します。最初のケースでは、MSE は平均価格の 100% であり、明らかに大きな誤差です。2 番目のケースでは、MSE は平均価格の 5% であり、これは合理的なエラーです。
マルチクラス分類 少数のクラスを予測する場合は、クラスごとの指標を個別に確認します。多数のクラスを予測する場合、クラスごとの指標の平均化によって、全体的な分類指標を追跡できます。また、必要に応じて品質目標を優先することもできます。たとえば、画像内のオブジェクトを分類する場合は、他のオブジェクトよりも分類品質を優先できます。

重要なデータ スライスの指標を確認する

高品質のモデルを作成した後、データのサブセットに対するモデルのパフォーマンスが低下する可能性があります。たとえば、ユニコーン予測器は、サハラ砂漠とニューヨーク市、そして終日の両方について、適切に予測を行う必要があります。サハラ砂漠のトレーニング データは減少しています。そのため、サハラ砂漠に特有のモデル品質を追跡する必要があります。サハラ砂漠に対応するサブセットなどのデータのサブセットは、データスライスと呼ばれます。パフォーマンスが特に重要な場合や、モデルのパフォーマンスが低下する可能性がある場合は、データスライスを別途モニタリングする必要があります。

データの内容に基づいて、関心のあるデータスライスを特定します。次に、データスライスのモデル指標をデータセット全体の指標と比較します。すべてのデータスライスに対するモデルのパフォーマンスを確認することで、バイアスを排除できます。詳細については、公平性: バイアスの評価をご覧ください。

実際の指標を使用する

モデル指標は、モデルの実際の影響を測定するとは限りません。たとえば、ハイパーパラメータを変更して AUC を上げた場合、その変更がユーザー エクスペリエンスにどのように影響するでしょうか。実際の影響を測定するには、別の指標を定義する必要があります。たとえば、ユニコーンの外観予測を確認したユーザーを調査して、ユニコーンが現れたかどうかを確認できます。実際の影響を測定することで、モデルの異なるイテレーションの品質を比較できます。