このガイドは、メリディアンで使用される数学表記の参考資料です。
介入変数の因果効果を推定する方程式の解釈と理解を支援し、予算の最適化を行えるようにすることを目的としています。
目次
基本の変数と入力データ
これらの記号は、メリディアンのモデル方程式で使用される入力値を表し、完全にスケーリングされ変換されたデータを表します。文字は指標を示し、角かっこで囲まれた上付き添字はデータの具体的なタイプまたはカテゴリを定義します。
| 記号 | 説明 |
|---|---|
| $y$ | KPI: モデルの応答(目標、従属)変数。収益、売上数、コンバージョン数など、介入変数が因果効果をもたらす可能性のあるものを KPI として指定できます。 |
| $z^{[C]}$ | コントロール変数: モデル内の変数のうち介入変数でないもの(天気や価格など)。ベースラインの結果を推定するために使用されます。 |
| $x^{[M]}$ | 有料メディア変数: 有料メディア チャネルのメディア施策レベル(クリック数や費用など)。 |
| $r^{[RF]}$ | 有料リーチ: 有料メディアに触れたユニーク ユーザーの数。 |
| $f^{[RF]}$ | 有料フリークエンシー: ユニーク視聴者 1 人あたりの有料インプレッション数。 |
| $x^{[OM]}$ | オーガニック メディア変数: オーガニック メディア チャネルのメディア施策レベル(ニュースレターの開封など)。 |
| $r^{[ORF]}$ | オーガニック リーチ: オーガニック メディアに触れたユニーク ユーザーの数。 |
| $f^{[ORF]}$ | オーガニック フリークエンシー: ユニーク視聴者 1 人あたりのオーガニック インプレッション数。 |
| $x^{[N]}$ | メディア以外の介入変数: メディア以外の介入(プロモーションや価格設定など)の施策レベル。 |
| $p$ | 人口: 各地域の人口規模。データのスケーリングに使用され、小規模な地域と大規模な地域を比較できる。 |
| $u$ | 単位値: 費用対効果の計算で、単位を費用に変換するために使用される通貨の値。 |
関連リンク
- 入力データ: $y$、$z^{[C]}$、$x^{[M]}$ などの基本の変数について、正確なデータ構造とディメンションの要件を定義します。
- リーチとフリークエンシー: 標準的な施策指標に代わって、リーチ($r^{[RF]}$)とフリークエンシー($f^{[RF]}$)が飽和状態を正確にモデル化する仕組みを説明します。
- オーガニック メディアとメディア以外の介入変数: 有料メディア、オーガニック メディア($x^{[OM]}$)、メディア以外の介入群($x^{[N]}$)の違い(コスト構造や変数の挙動など)について詳述します。
- コントロール変数: 推定値のバイアスを取り除くために交絡因子($z^{[C]}$)を選択する因果的根拠を説明します。
データ状態と変換の表記
メリディアン フレームワークでは、変数はモデルに投入される前に変換関数を通ります。特殊なマーカー(ドットやダガーなど)は、データが変換のどの段階にあるかを示します。
| 記号 | 説明 | 例 |
|---|---|---|
| $\ddot{(\cdot)}$ | 未加工の入力データ(ダブルドット): スケーリングが行われる前の、ユーザーが提供した「そのまま」のデータ。 | $\ddot{y}$ は、地域の未加工の KPI の数値を表します。 |
| $(\cdot)^\dagger$ | 人口でスケーリング(ダガー): 中間データ状態。元データを地域の人口($p_ {g}$)で割ったものです。 | $y^\dagger_ {g,t} = \ddot{y}_ {g,t} / p_ {g}$ |
| $(\cdot)$ | 完全に変換された変数: モデル方程式で使用される最終的な変換データ。KPI の場合、平均が 0 になるよう調整され、標準偏差が 1 になるようにスケーリングされたダガー変数です。 | $y$ は、モデルが学習する最終的な販売額です。 |
| $L(\cdot)$ | 変換関数: 元の単位を完全にスケーリングされた単位に変換するために適用される特定の線形変換関数。 メリディアンで行われる各変換の詳細については、入力データ セクションをご覧ください。 |
$y = L^{[Y]}(\ddot{y})$ |
関連リンク
- 入力データ: 各変数タイプに適用される正確な線形スケーリング関数 $L(\cdot)$ が含まれ、未加工の入力を完全にスケーリングされた単位に変換します。
- モデル仕様: 完全にスケーリングされた変数が最終的に回帰方程式でどのように使用されるかを示します。
インデックス変数(下付き添字)
インデックスはデータ配列の「座標」であり、参照されているデータのスライスを正確に示します。メリディアンでは、基本の変数に下付き添字を付けて、地域や時間などのディメンションを指定します(例: $x^{[M]}_ {g,t,i}$)。
| 記号 | 説明 | 例 |
|---|---|---|
| $g$ | 地域: 特定の地域単位($1, \dots, G$)をインデックスに登録します。 | $g$ = ニューヨークまたはロンドン。 |
| $t$ | 時間: 特定の期間をインデックスに登録します($1, \dots, T$)。 | $t$ = MMM のトレーニングに使用される期間の 10 週目。 |
| $i$ | 変数インデックス: カテゴリ内の特定のチャネルまたは介入群を指定するために使用される汎用インデックス。 | $i = 3$ は、3 番目の有料メディア チャネルを表します。 |
| $G$ | 合計地域数: 地域単位の合計数。 | 米国の州レベルのモデルの場合、$G = 50$ です。 |
| $T$ | 合計期間数: 期間の合計数。 | 2 年間の週次データの場合、$T = 104$ です。 |
| $N_ {C}$ | 合計コントロール数: コントロール変数の合計数。 | $N_ {C} = 3$(価格、天気、休日など)。 |
| $N_ {M}$ | 合計有料メディア数: R&F なしの有料メディア変数の合計数。 | $N_ {M} = 4$(テレビ、ラジオ、印刷物、検索など)。 |
| $N_ {RF}$ | 合計有料 R&F 数: R&F を伴う有料メディア変数の合計数。 | $N_ {RF} = 2$(Facebook、YouTube など)。 |
| $N_ {OM}$ | 合計オーガニック メディア数: R&F なしのオーガニック メディア変数の合計数。 | $N_ {OM} = 2$(SEO、ソーシャル投稿など)。 |
| $N_ {ORF}$ | 合計オーガニック R&F 数: R&F を伴うオーガニック メディア変数の合計数。 | $N_ {ORF} = 1$(オーガニック ニュースレターなど)。 |
| $N_ {N}$ | 合計非メディア介入群数: メディア以外の介入変数の合計数。 | $N_ {N} = 2$(店舗限定プロモーション、クーポンなど)。 |
関連リンク
- 地域レベルのモデリング: 地域($g$)別にデータをインデックス登録することと、全国的にデータを集計することの統計的な利点について解説します。
- ホールドアウト観測値: モデルのトレーニング中に特定の時間($t$)と地域($g$)の座標を除外して、サンプル外の適合度を計算する方法を示します。
- 全国レベルのモデリング: 単一の地域($G=1$)をモデリングする際にメリディアンが自動的に適用するパラメータの制限について詳しく説明します。
モデル パラメータ
モデルがデータから推定する「学習済み」のパラメータと係数(ギリシャ文字で表記)です。
| 記号 | 説明 |
|---|---|
| $\theta$ | シータ: モデルが推定する観測不可能なパラメータの総称。 |
| $\tau_ {g}$ | タウ(地域の切片): 地域効果。ベースラインの地域を基準とした各地域の平均 KPI。 |
| $\mu_ {t}$ | ミュー(時間変動する切片): ノット値から導出される時間効果。 |
| $b_ {k}$ | ノット パラメータ: ノット $k$ における推定ノット値。 |
| $\beta^{[M]}_ {i}, \beta^{[RF]}_ {i},$ $\beta^{[OM]}_ {i}, \beta^{[ORF]}_ {i}$ |
ベータ(階層メディア効果): 地域レベルのメディア効果の階層分布に関するパラメータ。メディア効果の分布が正規分布に設定されている場合は、階層平均になります。対数正規分布に設定されている場合は、基盤となる対数変換された正規分布の平均の階層パラメータになります。 |
| $\beta^{[M]}_ {g,i}, \beta^{[RF]}_ {g,i},$ $\beta^{[OM]}_ {g,i}, \beta^{[ORF]}_ {g,i}$ |
ベータ(地域レベルのメディア効果): 地域 $g$ 内のチャネル $i$ に関する特定のメディア効果係数。階層分布から抽出されます。 |
| $\gamma^{[C]}_ {i}, \gamma^{[N]}_ {i}$ | ガンマ(階層コントロール平均): コントロールまたはメディア以外のチャネルの係数の階層平均。階層は地域を通じて定義されます。 |
| $\sigma$ | シグマ(残差標準偏差): ノイズの標準偏差。 |
| $\eta$ | イータ(メディア階層分散): 地域レベルのメディア効果の階層分布に関するパラメータ。メディア効果の分布が正規分布に設定されている場合は、階層標準偏差になります。対数正規分布に設定されている場合は、基盤となる対数変換された正規分布の標準偏差の階層パラメータになります。 |
| $\xi$ | クサイ(コントロールとメディア以外の階層分散): コントロールまたはメディア以外のチャネルの係数の階層標準偏差。階層は地域を通じて定義されます。 |
| $\alpha$ | アルファ(アドストック減衰率): 0~1 の値。 |
| $\mathtt{ec}$ | 半飽和: 売上増加の最大値の 50% を達成する「飽和点」。 |
| $\mathtt{slope}$ | 傾き: 応答曲線の形状を制御します。$slope\leq1$ の場合、厳密に凹型の曲線が作成されます。$slope > 1$ の場合、「S 字曲線」が作成されます。 |
関連リンク
- モデル仕様: $\beta$、$\gamma$、$\tau$ などの観測不可能なパラメータが結果の推定にどのように影響するかを示す完全な回帰方程式を提示します。
- デフォルトの事前分布: $\tau_g$、$\beta_i$、$\sigma$ などの学習済みパラメータに割り当てられたデフォルトの統計分布と根拠を掲載しています。
- ベイズ推論: MCMC サンプリングで、観測データから観測不可能なパラメータ($\theta$)とその不確実性を同時に推定する方法を説明します。
ハイパーパラメータ
モデルのトレーニング前に設定される固定パラメータ。学習した係数ではなく構造的な入力として機能します。
| 記号 | 説明 |
|---|---|
| $L$ | 最大遅延期間: 広告が売上に影響を与えると考えられる最大週数を表す固定ハイパーパラメータ。 |
| $K$ | 合計ノット数: 時間変動する時間効果のモデル化に使用されるノットの合計数。 |
| $s_ {k}$ | ノット位置: $k$ 番目のノットが位置する具体的な期間。 |
時間変動パラメータ
メリディアンはノットを使用して時間効果をモデル化します。モデルは、個々の期間ごとに固有の時間効果を推定するのではなく、特定のアンカー ポイント(ノット)における値を推定し、その間の期間の値を補間します。
以下の記号は、その補間を計算するために使用される表記法を表します。
| 記号 | 説明 |
|---|---|
| $b_ {k}$ | ノット パラメータ: ノット $k$ における推定ノット値。 |
| $\ell(t)$ | 下位ノット インデックス: 特定の時刻 $t$ に最も近い先行するノットのインデックス。 |
| $u(t)$ | 上位ノット インデックス: 特定の時刻 $t$ に最も近い後続するノットのインデックス。 |
| $w(t)$ | 時間重み: 時間 $t$ の補間重み。隣接するノット位置($s_ {\ell(t)}$ と $s_ {u(t)}$)の間の距離に基づいて計算されます。 |
| $\mu_ {t}$ | 時間変動する切片: 時間 $t$ における結果の時間効果。加重平均として次のように計算されます。$\mu_ {t} = w(t)b_ {\ell(t)} + (1-w(t))b_ {u(t)}$ |
関連リンク
- ノットを設定する: 合計ノット数 $K$ を選択し、時間効果を推定する際にバイアスと分散のトレードオフのバランスを取る方法を説明します。
- モデル仕様: 隣接するノット位置間で $\mu_t$ を補間するために使用される、正確な距離ベースの重み計算 $w(t)$ について詳しく説明します。
モデル仕様
これらの入力とパラメータをメリディアン モデルにまとめる完全な数式については、モデル仕様ページをご覧ください。
条件とロジック
以下の記号は、依存関係、数学ロジック、統計的関係を表します。
| 記号 | 説明 | 例 |
|---|---|---|
| $\mid$ | パイプ: 「~だとすると」と読みます。条件付き確率または期待値を示します。 | $P(\theta \mid data)$ は、観測されたデータを条件とするパラメータの確率を意味します。 |
| $I_ {\lbrace \dots \rbrace}$ | インジケーター関数: 論理スイッチ。内部の条件が true の場合は 1、それ以外の場合は 0 になります。 |
コントロール変数 $i$ に人口のスケーリングが使用されている場合は $I_ {i}^{[C]} = 1$、それ以外の場合は 0。 |
| $\sim$ | チルダ演算子: 「~として分布」と読みます。パラメータを統計的な事前分布に関連付けます(注: この演算子は、潜在的結果を示すために使用されるチルダ アクセント $\overset \sim Y$ とは異なります)。 | $\gamma^{[C]}_ {i} \sim \text{Normal}(0, 5)$ は、パラメータが平均 0、標準偏差 5 の正規分布に従うことを意味します。 |
| $\lbrace \dots \rbrace$ | 中かっこ: 変数の集合、ベクトル、多次元配列を表します。 | ${x_ {g,t,i}}$ は観測されたメディア施策の配列全体を表し、${q_ {t-s}}^L_ {s=0}$ は期間にわたるシーケンスを表します。 |
| $\forall$ | すべての: 全称記号。特定の集合内のすべての値に式または条件が適用されることを意味します。 | $\forall g,t$ は、条件がすべての地域とすべての期間に適用されることを意味します。 |
関連リンク
- 入力データ: 集合表記(${\dots}$)を使用して、モデリングに必要なコントロール変数と介入変数の完全な配列を定義します。
- ベイズ推論: メリディアンの MCMC サンプリングの中心となる条件付き確率 $P(\theta \mid data)$ について説明します。
- 前提要件: 因果効果を安全に推定するために必要な条件付き交換可能性の仮定($E(\overset \sim Y \mid z)$)について詳しく説明します。
因果推論と予算の最適化
以下の記号は、反事実的シナリオの定義、応答曲線の生成、最適な予算配分の計算に使用されます。
| 記号 | 説明 |
|---|---|
| $\overset \sim Y^{(\lbrace x^{(1)} \rbrace)}$ | 潜在的結果: 特定のシナリオで発生する可能性のある仮定上の結果(販売など)。チルダ($\overset \sim Y$)は潜在的な結果であることを示し、上付き添字($\lbrace x^{(1)} \rbrace$)はテスト対象の特定のメディア施策シナリオを示します。 |
| $x^{(1)}, x^{(0)}$ | 反事実的シナリオ: 異なるメディア施策の現実を比較するために使用されます。通常、$x^{(1)}$ は過去の施策を表し、$x^{(0)}$ はベースライン(特定のチャネルでの費用がゼロなど)を表します。 |
| $b_ {i}$ | 予算: 予算の最適化の際に特定のチャネル $i$ に割り当てられた合計予算。 |
| $\omega$ | 費用スケーリング ファクタ: 過去の費用を増減させるために使用する乗数。応答曲線の生成や限界費用対効果の計算において数学的に使用されます。 |
| $f^*$ | 目標 / 最適フリークエンシー: リーチとフリークエンシーの最適化で算出された、最適な平均の広告の表示頻度。 |
| $(j)$ | MCMC 抽出の上付き添字: 期待される結果の事後分布の平均を計算するために使用される特定のシミュレーション「抽出」(モデルによって生成される数千通りの解の候補の一つ)を示します。 |
関連リンク
- 増分効果、ROI、mROI、応答曲線: 潜在的結果($\overset \sim Y$)を使用して、費用対効果などのビジネス指標を数学的に定義します。
- 回帰を使用して結果の増分を推定する: 期待される結果($\hat{Y}$)と反事実シナリオの比較($x^{(1)}$ と $x^{(0)}$ の比較)を結び付ける数学的証明を示します。
- リーチとフリークエンシーのデータがないメディア チャネルの最適化: 最適な予算ベクトル $b_i$ を求めるために使用される目的関数について説明します。
- リーチとフリークエンシーのデータを使用したメディア チャネルの最適化: 最適なフリークエンシーの目標値($f^*$)の求解を含むように、予算の最適化を拡張します。
- ROI、mROI、貢献度のパラメータ化: 正確なビジネス指標を使用して事前分布を数学的にパラメータ化する方法を説明します。
- ベイズ推論: モデルのシミュレートされた事後分布の抽出($(j)$)を、期待される結果と不確実性区間の計算に結び付けます。