数学符号参考

本指南是 Meridian 中所用数学符号的参考指南。

本指南旨在帮助您解读和理解用于估算处理变量因果影响的方程,并助您进行预算优化。

目录


基本变量和输入数据

这些符号代表 Meridian 模型方程中使用的输入项,即经过完全缩放和转换的数据。字母表示指标,带括号的上标定义了数据的特定类型或类别

符号 说明
$y$ KPI:模型的响应变量(目标变量、因变量)。它可以是收入、销量、转化次数,也可以是处理变量可能带来因果效应的任何其他指标。
$z^{[C]}$ 控制变量:模型中不属于处理变量的变量(例如天气或价格)。这些变量用于估算基准结果。
$x^{[M]}$ 付费媒体变量:付费媒体渠道的媒体投放水平(例如点击次数或支出)。
$r^{[RF]}$ 付费覆盖面:看到付费媒体的唯一身份用户数。
$f^{[RF]}$ 付费频次:每位唯一身份观看者看到的付费展示次数。
$x^{[OM]}$ 自然媒体变量:自然媒体渠道的媒体投放水平(例如简报打开次数)。
$r^{[ORF]}$ 自然覆盖面:看到自然媒体的唯一身份用户数。
$f^{[ORF]}$ 自然频次:每位唯一身份观看者看到的自然展示次数。
$x^{[N]}$ 非媒体处理变量:非媒体干预措施(例如促销活动或定价)的执行水平。
$p$ 人口:每个地理位置的人口规模,用于对数据进行缩放,以便在不同规模的区域之间进行比较。
$u$ 单位价值:用于将原始单位换算为支出金额的货币数值,以便计算投资回报率
  • 输入数据:针对基本变量(例如 $y$、$z^{[C]}$ 和 $x^{[M]}$)定义确切的数据结构和维度要求。
  • 覆盖面和频次:说明覆盖面 ($r^{[RF]}$) 和频次 ($f^{[RF]}$) 如何替代标准投放指标,以更准确地对饱和度进行建模。
  • 自然媒体和非媒体实验组变量:详细说明付费媒体、自然媒体 ($x^{[OM]}$) 和非媒体处理变量 ($x^{[N]}$) 之间的区别,包括费用结构和变量行为。
  • 控制变量:解释了选择混杂变量 ($z^{[C]}$) 的因果依据,旨在消除估计值偏差。

数据状态和转换符号

在 Meridian 框架中,变量在进入模型之前,会先通过转换函数进行处理。特殊标记(如点号和剑号)用于指示数据当前处于转换过程中的哪个阶段。

符号 说明 示例
$\ddot{(\cdot)}$ 原始输入数据(双点):用户提供的“原样”数据,未经过任何缩放。 $\ddot{y}$ 表示某个地区的原始 KPI 计数。
$(\cdot)^\dagger$ 按人口比例缩放(剑号):中间数据状态。这是原始数据除以相应地理位置的人口 ($p_ {g}$) 得到的结果。 $y^\dagger_ {g,t} = \ddot{y}_ {g,t} / p_ {g}$
$(\cdot)$ 完全转换后的变量:模型方程中使用的完成最终转换的数据。对于 KPI,这是指经过中心化(均值为 0)和缩放(标准差为 1)处理后的剑号变量。 $y$ 是模型学习所依据的最终销售数值。
$L(\cdot)$ 转换函数:用于将原始单位转换为完全缩放单位的具体线性转换函数。

有关 Meridian 中执行的每项转换的具体详情,请参阅输入数据部分。
$y = L^{[Y]}(\ddot{y})$
  • 输入数据:包含应用于各类变量的确切线性缩放函数 $L(\cdot)$,用于将原始输入转换为完全缩放后的单位。
  • 模型规范:说明完全缩放后的变量在回归方程中的最终应用方式。

索引变量(下标)

索引是数据数组的“坐标”,明确指出所引用的具体数据切片。Meridian 会为基本变量添加下标,用以指定地理位置和时间等维度(例如 $x^{[M]}_ {g,t,i}$)。

符号 说明 示例
$g$ 地理位置:对特定地理单元进行索引 ($1, \dots, G$)。 $g$ = 纽约或伦敦。
$t$ 时间:对特定时间段进行索引 ($1, \dots, T$)。 $t$ = 用于训练 MMM 的时间段中的第 10 周。
$i$ 变量索引:一种通用索引,用于指定类别中的特定渠道或处理变量。 $i = 3$ 表示第 3 个付费媒体渠道。
$G$ 地理位置总数:地理单元总数。 对于美国州级模型,$G = 50$。
$T$ 时间段总数:时间段的总数量。 如果使用两年的每周数据,则 $T = 104$。
$N_ {C}$ 控制变量总数:控制变量的总数。 $N_ {C} = 3$(例如价格、天气、节假日)。
$N_ {M}$ 付费媒体总数:不含 R&F 数据的付费媒体变量的总数。 $N_ {M} = 4$(例如,电视、电台、平面媒体、搜索)。
$N_ {RF}$ 付费 R&F 总数: R&F 数据的付费媒体变量的总数。 $N_ {RF} = 2$(例如 Facebook、YouTube)。
$N_ {OM}$ 自然媒体总数:不含 R&F 数据的自然媒体变量的总数。 $N_ {OM} = 2$(例如,SEO、社交帖子)。
$N_ {ORF}$ 自然 R&F 总数: R&F 数据的自然媒体变量的总数。 $N_ {ORF} = 1$(例如,自然渠道简报)。
$N_ {N}$ 非媒体处理变量总数:非媒体处理变量的总数。 $N_ {N} = 2$(例如,实体店促销、优惠券)。
  • 地理位置级建模:探讨按地理位置 ($g$) 对数据编制索引与按国家/地区汇总数据在统计方面的优势。
  • 留出观测值:显示在模型训练期间如何排除特定时间 ($t$) 和地理位置 ($g$) 坐标,以计算样本外拟合度。
  • 国家级建模:详细说明了在对单个地理位置 ($G=1$) 进行建模时,Meridian 会自动应用的形参限制。

模型形参

以下是模型根据数据估计的“学习”形参和系数(用希腊字母表示)。

符号 说明
$\theta$ Theta:模型正在估计的任何不可观测形参的通用术语。
$\tau_ {g}$ Tau(地理位置截距):地理位置效应,表示每个地理位置相对于基准地理位置的平均 KPI
$\mu_ {t}$ Mu(时变截距):根据结值推导出的时间效应。
$b_ {k}$ 结形参:结 $k$ 处的估计结值。
$\beta^{[M]}_ {i}, \beta^{[RF]}_ {i},$
$\beta^{[OM]}_ {i}, \beta^{[ORF]}_ {i}$
Beta(分层媒体效应):地理位置级媒体效应的分层分布形参。当媒体效应分布设置为正态分布时,它是分层平均值。如果设置为对数正态,则它是底层对数转换正态分布平均值的分层形参。
$\beta^{[M]}_ {g,i}, \beta^{[RF]}_ {g,i},$
$\beta^{[OM]}_ {g,i}, \beta^{[ORF]}_ {g,i}$
Beta(地理位置级媒体效应):从分层分布中抽取的地理位置 $g$ 内渠道 $i$ 的特定媒体效应系数。
$\gamma^{[C]}_ {i}, \gamma^{[N]}_ {i}$ Gamma(分层控制平均值):控制变量非媒体渠道的系数的分层平均值。层次结构是基于地理位置定义的。
$\sigma$ Sigma(残差标准差):噪声的标准差。
$\eta$ Eta(媒体分层方差):地理位置级媒体效应的分层分布形参。当媒体效应分布设置为正态分布时,它是分层标准差。如果设置为对数正态,则它是底层对数转换正态分布的标准差的分层形参。
$\xi$ Xi(控制变量和非媒体分层方差):控制变量非媒体渠道的系数的分层标准差。层次结构是基于地理位置定义的。
$\alpha$ Alpha(Adstock 衰减率):一个介于 0 到 1 之间的值。
$\mathtt{ec}$ 半饱和度:达到最大可能销售额提升效果 50% 的“饱和点”。
$\mathtt{slope}$ 斜率:控制响应曲线的形状。如果 $slope\leq1$,则会创建严格凹曲线;如果 $slope > 1$,则会创建“S 型曲线”。
  • 模型规范:提供完整的回归方程,显示 $\beta$、$\gamma$ 和 $\tau$ 等不可观测形参如何相互作用来估计结果。
  • 默认先验分布:列出了分配给 $\tau_g$、$\beta_i$ 和 $\sigma$ 等已学习形参的默认统计分布和基本原理。
  • 贝叶斯推理:说明 MCMC 抽样如何从观测数据中联合估计这些不可观测的形参 ($ heta$) 及其不确定性。

超形参

这些是模型训练之前设置的固定形参,充当结构性输入,而不是学习到的系数。

符号 说明
$L$ 滞后期上限:一个固定超形参,表示广告对销售额产生影响所用的周数上限。
$K$ 结总数:用于模拟时变时间效应的结总数。
$s_ {k}$ 结位置:第 $k$ 个结所在的具体时间段。

时变形参

Meridian 使用结来对时间效应进行建模。该模型不会为每个时间段估计唯一的时间效应,而是估计特定定位点(结)的值,并插值计算中间时间段的值。

以下符号表示用于计算该插值的符号表示法。

符号 说明
$b_ {k}$ 结形参:结 $k$ 处的估计结值。
$\ell(t)$ 下结索引:给定时间 $t$ 之前最近的结的索引。
$u(t)$ 上结索引:给定时间 $t$ 之后最近的结的索引。
$w(t)$ 时间权重:时间 $t$ 的插值权重,根据其与相邻结位置($s_ {\ell(t)}$ 和 $s_ {u(t)}$)之间的距离计算得出。
$\mu_ {t}$ 时变截距:时间 $t$ 的时间效应,计算方式为加权平均值:$\mu_ {t} = w(t)b_ {\ell(t)} + (1-w(t))b_ {u(t)}$。
  • 设置结:说明如何选择结的总数 $K$,并在偏差与方差之间进行权衡,以估计时间效应。
  • 模型规范:详细说明了用于在相邻结位置之间插值 $\mu_t$ 的、基于距离的权重 $w(t)$ 的具体计算方法。

模型规范

如需查看将这些输入和形参纳入 Meridian 模型的完整数学方程式,请参阅模型规范页面。

条件和逻辑

以下符号表示依赖关系、数学逻辑或统计关系。

符号 说明 示例
$\mid$ 竖线:读作“给定”。表示条件概率或期望。 $P(\theta \mid data)$ 表示在给定观测数据的情况下,形参的概率。
$I_ {\lbrace \dots \rbrace}$ 指示函数:逻辑开关。如果内部条件为 true,则为 1,否则为 0 如果对控制变量 $i$ 使用了按人口比例缩放,则 $I_ {i}^{[C]} = 1$,否则为 0。
$\sim$ 波浪号运算符:读作“分布为”。将形参与其统计先验分布相关联。(注意:此运算符不同于用于表示潜在结果的波浪号 $\overset \sim Y$)。 $\gamma^{[C]}_ {i} \sim \text{Normal}(0, 5)$ 表示该形参服从均值为 0、标准差为 5 的正态分布。
$\lbrace \dots \rbrace$ 大括号:表示变量的集合、向量或多维数组。 ${x_ {g,t,i}}$ 表示整个观测到的媒体投放数组,${q_ {t-s}}^L_ {s=0}$ 表示滞后时间序列。
$\forall$ 对于所有:全称量词。这意味着该方程或条件适用于特定集合中的每个值。 $\forall g,t$ 表示该条件适用于所有地理区域和所有时间段。
  • 输入数据:使用集合表示法 (${\dots}$) 来定义建模所需的控制变量和处理变量的完整数组。
  • 贝叶斯推理:解释了 Meridian 的 MCMC 抽样的核心条件概率 $P(\theta \mid data)$。
  • 必要假设:详细说明了安全估计因果效应所需的条件可交换性假设 ($E(\overset \sim Y \mid z)$)。

因果推理和预算优化

以下符号用于定义反事实情景、生成响应曲线和计算最佳预算分配。

符号 说明
$\overset \sim Y^{(\lbrace x^{(1)} \rbrace)}$ 潜在结果:在特定情境下可能出现的假设结果(例如销售额)。波浪号 ($\overset \sim Y$) 表示这是潜在结果,上标 ($\lbrace x^{(1)} \rbrace$) 表示正在测试的特定媒体投放方案。
$x^{(1)}, x^{(0)}$ 反事实情景:用于比较不同的媒体投放情况。通常,$x^{(1)}$ 表示历史投放情况,$x^{(0)}$ 表示基准(例如,特定渠道的支出为零)。
$b_ {i}$ 预算:在预算优化期间分配给特定渠道 $i$ 的总预算。
$\omega$ 支出缩放比例:用于按比例调整历史支出的乘数。在数学上用于生成响应曲线或计算边际投资回报率。
$f^*$ 目标/最佳频次:在覆盖面和频次优化期间计算出的最佳平均广告展示频次。
$(j)$ MCMC 抽样上标:表示用于计算预期结果后验平均值的特定模拟“抽样”(模型生成的数千个可能答案之一)。