ML モデルのデバッグは大変に思えるかもしれませんが、モデル指標は開始点を示します。以降のセクションでは、指標を使用してパフォーマンスを評価する方法について説明します。
モデルの指標を使用して品質を評価する
モデルの品質を評価するためによく使用される指標は次のとおりです。
これらの指標の解釈方法については、リンクされた機械学習によるクラッシュ コンテンツをご覧ください。特定の問題についてのその他のガイダンスについては、次の表をご覧ください。
重要なデータ スライスの指標を確認する
高品質のモデルを作成した後、データのサブセットに対するモデルのパフォーマンスが低下する可能性があります。たとえば、ユニコーン予測器は、サハラ砂漠とニューヨーク市、そして終日の両方について、適切に予測を行う必要があります。サハラ砂漠のトレーニング データは減少しています。そのため、サハラ砂漠に特有のモデル品質を追跡する必要があります。サハラ砂漠に対応するサブセットなどのデータのサブセットは、データスライスと呼ばれます。パフォーマンスが特に重要な場合や、モデルのパフォーマンスが低下する可能性がある場合は、データスライスを別途モニタリングする必要があります。
データの内容に基づいて、関心のあるデータスライスを特定します。次に、データスライスのモデル指標をデータセット全体の指標と比較します。すべてのデータスライスに対するモデルのパフォーマンスを確認することで、バイアスを排除できます。詳細については、公平性: バイアスの評価をご覧ください。
実際の指標を使用する
モデル指標は、モデルの実際の影響を測定するとは限りません。たとえば、ハイパーパラメータを変更して AUC を上げた場合、その変更がユーザー エクスペリエンスにどのように影響するでしょうか。実際の影響を測定するには、別の指標を定義する必要があります。たとえば、ユニコーンの外観予測を確認したユーザーを調査して、ユニコーンが現れたかどうかを確認できます。実際の影響を測定することで、モデルの異なるイテレーションの品質を比較できます。