モデルの健全性スコア

メリディアン モデルの健全性スコアは、6 つの個別のヘルスチェックを 1 つの指標(0~100)に統合することで、モデルの完全性に関する統合ビューを提供します。個別の診断では、特定のモデル コンポーネントに関する詳細な分析情報が得られますが、メリディアン モデルの健全性スコアでは、因果推論におけるモデルの健全性に関する集約的な相対指標が得られます。基盤となる診断について詳しくは、モデルのヘルスチェックをご覧ください。

健全性スコアを解釈する

健全性スコアは、モデルの品質の絶対的なランキングではなく、方向性を示す分析情報として解釈することをおすすめします。スコアが 90 以上の場合、モデルに統計上の重大な問題はなく、意思決定のための一般的な信頼性があることを示します。逆にスコアが 70 以下の場合は、体系的なエラーの可能性を示しています。個々の診断を詳しく調べて、根本原因を特定することをおすすめします。

重要な注意点として、因果推論ではスコア 95 がスコア 90 より優れているとは限りません。こうした高いスコアの場合、変動は信頼性の有意な差ではなく、特定のチャネルのニュアンスやデータノイズを反映していることがよくあります。たとえば、事前分布と事後分布の間に差がないことは、必ずしもネガティブなシグナルではありません。事前分布が観測データとすでに十分に一致していることを意味している可能性があります。モデルのパフォーマンスを包括的に把握し、費用対効果(ROI)や貢献度などの主要な結果が広範なビジネス目標と一致していることを確認するには、基盤となる健全性の結果を詳しく分析することをおすすめします。

モデルの健全性スコアの計算方法を理解する

健全性スコアのロジックは、統計的妥当性が有意な結果のための前提条件になる、厳格な階層構造に従っています。モデルの収束がプライマリ ゲートとして機能します。MCMC チェーンが収束していない場合、事後分布の推定値は信頼性が低く、モデルの健全性スコアはゼロになります。

収束モデルの場合、健全性スコアは、実行されたヘルスチェック(適合度、負のベースライン、ROI の一貫性など)のコンポーネント スコア($S_i$)の加重平均として計算されます。

$$ \text{Model health score} = \frac{\sum w_i S_i}{\sum w_i}, $$

$w_i$ は各チェックに割り当てられた重みを表します。詳しくは、各ヘルスチェックの重み付けを理解するをご覧ください。

基本の各ヘルスチェックは、特定の数学的変換を使用して、診断出力を 0~100 のスケールにマッピングします。

ベイズ事後予測 P 値(PPP)

ベイズ PPP は、モデルの適合度を評価するための基本的な妥当性ゲートとして機能します。連続的な品質指標として機能するのではなく、モデルが統計的妥当性のしきい値を満たしているかどうかのバイナリ指標として扱われます。詳しくは、ベイズ事後予測 P 値をご覧ください。

  • PASS(ベイズ PPP >= 0.05): コンポーネント スコア = 100

  • FAIL(ベイズ PPP < 0.05): コンポーネント スコア = 0

負のベースライン

このチェックでは、ベースラインが負になる事後確率($P_{\text{neg baseline}}$)を評価します。スコア判定は、確率が 0.2 未満の場合は統計ノイズが無視できる程度であり、0.8 を超える場合はモデルの根本的な障害を示すというヘルスチェックの原則に沿っています。このチェックについて詳しくは、負のベースラインのセクションをご覧ください。

負のベースラインの確率からコンポーネント スコアへの変換
  • PASS(負のベースラインの確率 < 0.2): コンポーネント スコア = 100

  • REVIEW(負のベースラインの確率 0.20.8): スコアは線形補間されます。

$$ \text{Component score} = 100 \times \left(1-\frac{P_{\text{neg baseline}} - 0.2}{0.6}\right) $$
  • FAIL(負のベースラインの確率 > 0.8): コンポーネント スコア = 0

適合度

適合度については、シグモイド関数を使用して決定係数を 0~100 のスケールにマッピングし、収益逓減の法則を反映します。この曲線は、適合度が低いとペナルティが大きくなり、中間範囲(0.3~0.7)では急上昇し、決定係数が 1.0 に近づくにつれて平坦になります。

決定係数をコンポーネント スコアに変換するシグモイド関数

これにより、因果推論が真の目的である場合に、予測精度がより高い健全性スコアを達成するための主な手段になることを防げます。たとえば、推定値を 0.91 から 0.93 に引き上げるために必要な増分労力は、因果関係の分析の改善と相関しない可能性があるため、低く扱われます。

ROI の事前分布と事後分布の変化

ROI の事前分布と事後分布の変化のスコアは、適用可能なチャネルの総数に対する不合格チャネルの比率として定義される障害率から導出され、その後、べき変換関数に渡されます。

障害率からコンポーネント スコアへのべき変換
$$ \text{Component score} = 100 \times \left(1- \text{failure rate}\right)^{0.4} $$

これにより、一部のチャネルで軽微なノイズが発生しても許容範囲内となりますが、マーケティング ミックス全体の体系的な障害の場合は、スコアが急速に低下します。

ROI の一貫性

ROI の一貫性のスコアは、ROI の事前分布と事後分布の変化に使用されるものと同じべき変換手法を使用して、チャネルの障害率から導き出されます。これにより、ベースラインの推定やモデルの仕様に関する問題を示唆する極端な ROI 値が、健全性スコアに反映されます。

各ヘルスチェックの重み付けを理解する

健全性スコアは、ビジネスにおけるガードレールと因果関係の妥当性を予測能力よりも重視する、因果関係優先の原則に従います。過去のデータに完全に適合するものの、基本的なビジネス ロジックに違反する(負のベースラインを提案するなど)モデルは低スコアになります。これにより、モデルは単に高い決定係数値を返すだけでなく、意思決定に役立つ信頼性の高いものになります。各チェックに割り当てられた重みは、こうした基準の原則的な階層を反映しています。各診断の重要性を比較するための経験的なグラウンド トゥルースは存在しないため、事前構成済みの値によって優先順位付けされたフレームワークが提供されます。このフレームワークは、モデルの方向性に関する信頼性を維持するように設計されています。モデルの健全性を完全に把握するには、各チェックを調査することをおすすめします。

ヘルスチェック 重み
負のベースライン 30%
ベイズ PPP 30%
適合度(決定係数) 10%
ROI の事前分布と事後分布の変化 15%
ROI の一貫性 15%

チェックがスキップされた場合のスコア計算について

さまざまなモデル構成に対応するため、健全性スコアでは動的正規化が使用されます。特定のチェックがスキップされた場合、その重みは分子と分母の両方から削除されます。たとえば、デフォルトの事前分布が使用された場合、ROI の一貫性のチェックは実行されません。このような場合、その重みは計算から除外されます。残りの重みは、アクティブなチェックの数に関係なく、最終スコアが 0~100 のスケールに保たれるように正規化されます。