定义以下指数化处理变量:
- \(g=1,\ldots,G\) 用于对地理位置单位进行指数化处理。
\(t=1,\ldots,T\) 用于对时间单位进行指数化处理。
对于付费和自然媒体变量,可以将时间段 \(t<1\) 的数据纳入到模型输入数据中,以便根据模型准确评估早期时间段的滞后效应。如果未提供 \(t<1\) 的数据,则假设在 \(t=1\)之前没有媒体执行。
\(i=1,\ldots,N_C\) 用于对控制变量进行指数化处理
\(i=1,\ldots,N_N\) 用于对非媒体处理变量进行指数化处理
\(i=1,\ldots,N_M\) 用于对没有覆盖面和频次数据的付费媒体渠道进行指数化处理
\(i=1,\ldots, N_{OM}\) 用于对没有覆盖面和频次数据的自然媒体渠道进行指数化处理
\(i=1,\ldots,N_{RF}\) 用于对具有覆盖面和频次数据的付费媒体渠道进行指数化处理
\(i=1,\ldots, N_{ORF}\) 用于对具有覆盖面和频次数据的自然媒体渠道进行指数化处理
Meridian 需要两个主要数据数组作为模型输入(KPI 和付费媒体)。如果有可用的自然媒体和非媒体处理变量,也可以作为可选输入提供。对于具有覆盖面和频次数据(按地理位置和时间段提供)的付费和自然媒体渠道,可以选择使用覆盖面和频次数据,而不是单个媒体指标。您还可以选择纳入混杂变量或 KPI 的强预测因子作为控制变量。最好提供收入数据(如果 KPI 不是收入)和媒体支出数据(如果媒体单位不是支出),以便在计算投资回报率时将单位转换为货币值。
数据 | 维度 | 模型输入:原始单位 | 模型输入:单位值 | 转换后的单位(用于模型方程) | 价值/费用 |
---|---|---|---|---|---|
KPI | $$G \times T$$ | $$\overset{\cdot \cdot}{y}_{g,t}$$ | $$u^{[Y]}_{g,t}$$ | $$y_{g,t} = L^{[Y]}_{g,t} (\overset{\cdot \cdot}{y}_{g,t})$$ | $$\overset{\sim}y_{g,t} = u^{[Y]}_{g,t} \cdot \overset{\cdot \cdot}{y}_{g,t}$$ |
控制变量 | $$G \times T \times N_C$$ | $$\overset{\cdot \cdot}{z}_{g,t,i}$$ | $$\text{N/A}$$ | $$z_{g,t,i} = L^{[C]}_{g,i}(\overset{\cdot \cdot}{z}_{g,t,i})$$ | $$\text{N/A}$$ |
媒体 | $$G \times T \times N_M$$ | $$\overset{\cdot \cdot}{x}^{[M]}_{g,t,i}$$ | $$u^{[M]}_{g,t,i}$$ | $$x^{[M]}_{g,t,i} = L^{[M]}_{g,i}(\overset{\cdot \cdot}{x}^{[M]}_{g,t,i})$$ | $$\overset{\sim}x_{g,t,i}^{[M]} = u^{[M]}_{g,t,i}\cdot\overset{\cdot \cdot}{x}^{[M]}_{g,t,i}$$ |
覆盖面 | $$G \times T \times N_{RF}$$ | $$\overset{\cdot \cdot}{r}^{[RF]}_{g,t,i}$$ | $$u^{[RF]}_{g,t,i}$$ | $$r_{g,t,i} = L^{[RF]}_{g,i}(\overset{\cdot \cdot}{r}^{[RF]}_{g,t,i})$$ | $$\overset{\sim}r^{[RF]}_{g,t,i} = u^{[RF]}_{g,t,i} \cdot \overset{\cdot \cdot}{r}^{[RF]}_{g,t,i} \cdot f^{[RF]}_{g,t,i}$$ |
频次 | $$G \times T \times N_{RF}$$ | $$f^{[RF]}_{g,t,i}$$ | $$\text{N/A}$$ | ||
自然媒体 | $$G \times T \times N_{OM}$$ | $$\overset{\cdot \cdot}{x}^{[OM]}_{g,t,i}$$ | $$u^{[OM]}_{g,t,i}$$ | $$x^{[OM]}_{g,t,i} = L^{[OM]}_{g,i}(\overset{\cdot \cdot}{x}^{[OM]}_{g,t,i})$$ | $$\overset{\sim}x^{[OM]}_{g,t,i} = u^{[OM]}_{g,t,i}\cdot\overset{\cdot \cdot}{x}^{[OM]}_{g,t,i}$$ |
自然覆盖面 | $$G \times T \times N_{ORF}$$ | $$\overset{\cdot \cdot}{r}^{[ORF]}_{g,t,i}$$ | $$u^{[ORF]}_{g,t,i}$$ | $$r^{[ORF]}_{g,t,i} = L^{[ORF]}_{g,i}(\overset{\cdot \cdot}{r}^{[ORF]}_{g,t,i})$$ | $$\overset{\sim}r^{[ORF]}_{g,t,i} = u^{[ORF]}_{g,t,i} \cdot \overset{\cdot \cdot}{r}^{[ORF]}_{g,t,i} \cdot f^{[ORF]}_{g,t,i}$$ |
自然频次 | $$G \times T \times N_{ORF}$$ | $$f^{[ORF]}_{g,t,i}$$ | $$\text{N/A}$$ | ||
非媒体处理变量 | $$G \times T \times N_N$$ | $$\overset{\cdot \cdot}{x}^{[N]}_{g,t,i}$$ | $$\text{N/A}$$ | $$x^{N}_{g,t,i} = L^{N}_{g,i}(\overset{\cdot \cdot}{x}^{N}_{g,t,i})$$ | $$\text{N/A}$$ |
单位转换由 Meridian 在内部处理。在进行层次化建模时,需要按地理位置人口比例进行缩放,以便将所有地理位置放到同一个可比较的范围内。此外,还需要进行其他标准化,以便使用标准化的先验分布,而无需考虑每个变量的缩放比例。
将 \(p_g\) 定义为每个地理位置的人口规模,这也是一个必须由用户指定的模型输入。现将线性转换总结如下:
转换:KPI 单位
KPI 单位是按人口比例缩放的,以便将所有地理位置大致放到同一个范围内。这样,模型形参就无需随着人口规模进行缩放。
按人口比例进行缩放后,KPI 会归一化,使平均值为 0,标准差为 1。应用居中使平均值为 0 之后,可以合理地为截距项(knot_values
和 tau_g
)选择以 0 为中心的先验。应用缩放使标准差为 1 之后,可以将形参放到一个范围内,以便分配合理的默认先验。
表示法: \(L^{[Y]}_{g,t} (\cdot)\)
说明:
- 除以地理位置人口。
- 将地理位置缩放值居中并缩放,使平均值为 0,标准差为 1。
定义:
\(L^{[Y]}_{g,t} (q) = \dfrac{\dfrac{q}{p_g} - m^{[Y]}}{s^{[Y]}}\)
其中:
- \(y^\dagger_{g,t} = \dfrac{\overset {\cdot \cdot} y_{g,t}}{p_g}\)
- \(m^{[Y]} = \frac{1}{GT}\sum\limits_{g,t} y^\dagger_{g,t}\)
- \(s^{[Y]} = \sqrt{\frac{1}{GT-1} \sum\limits_{g,t} \left( y^\dagger_{g,t}-m^{[Y]} \right)^2}\)
转换:控制变量
只有当值大致按人口规模进行缩放时,才需要按人口比例对控制变量进行缩放。Meridian 具有特定于地理位置的随机效应系数 (gamma_gc
),但最好是缩放变量,而不是依赖模型拟合来获取随着人口规模进行缩放的系数。
将控制变量归一化,使平均值为 0,标准差为 1。应用居中使平均值为 0 之后,可以合理地为截距项(knot_values
和 tau_g
)选择以 0 为中心的先验。应用缩放使标准差为 1 之后,可以将系数平均值 (gamma_c
) 放到一个范围内,以便分配合理的非信息性默认先验。
表示法: \(L^{[C]}_{g,i} (\cdot)\)
说明:
对于某些控制变量,可能需要按人口比例进行缩放。这可以使用
control_population_scaling_id
实参来处理。默认情况下,不会对任何控制变量按人口进行缩放。将每个控制变量居中并缩放,使平均值为 0,标准差为 1。
定义:
\(L^{[C]}_{g,i}(q) = \dfrac{\dfrac{q}{p^{I^{[C]}_i}_g} - m^{[C]}}{s^{[C]}}\)
其中:
如果对变量使用
control_population_scaling_id=True
,则为\(I_i^{[C]} = 1\) ;否则为 \(i;0\) 。- \(z^{\dagger}_{g,t,i} = \dfrac{\overset {\cdot \cdot} z_{g,t,i}}{p_g^{I_i^{[C]}}}\)
- \(m^{[C]} = \frac{1}{GT}\sum\limits_{g,t} z^{\dagger}_{g,t,i}\)
- \(s^{[C]} = \sqrt{\frac{1}{GT-1} \sum\limits_{g,t} \left( z^{\dagger}_{g,t,i}-m^{[C]} \right)^2}\)
转换:媒体单位
媒体单位是按人口比例缩放的,以便将所有地理位置大致放到同一个范围内。这样,半饱和形参 (ec_m
) 就无需随着人口规模进行缩放。
然后,对于每个渠道,按非零的中位数值对媒体单位进行缩放。这样做是为了让 ec_m
形参更容易解读,也就是说,ec_m
值为 1 意味着半饱和点出现在人均非零媒体单位数的中位数处。
表示法: \(L^{[M]}_{g,i} (\cdot)\)
说明:
- 除以地理位置人口。
- 对于每个媒体渠道,按非零的中位数值对地理位置缩放值进行缩放。
定义:
\(L^{[M]}_{g,i} (q) = \dfrac{q}{p_g d^{[M]}}\)
其中:
- \(x^{\dagger [M]}_{g,t,i} = \dfrac{\overset {\cdot \cdot} x_{g,t,i}^{[M]}}{p_g}\)
- \(d^{[M]} = \text{Median}\left( \left\{ x^{\dagger [M]}_{g,t,i}:x^{\dagger [M]}_{g,t,i} > 0 \right\}_{g,t} \right)\)
转换:覆盖面
覆盖面是按人口比例缩放的,以便将所有地理位置大致放到同一个范围内。Meridian 具有特定于地理位置的随机效应系数 (beta_grf
),但最好是缩放变量,而不是依赖模型拟合来获取随着人口规模进行缩放的系数。
对于每个渠道,按非零的中位数值对覆盖面进行缩放,这使默认系数平均值 (beta_rf
) 先验成为大部分数据集的合理选择。请注意,除非使用系数先验,否则按中位数进行缩放不会影响先验选择。
表示法: \(L^{[RF]}_{g,i} (\cdot)\)
说明:
所用转换函数与媒体单位一致。
转换:自然媒体单位
所用转换方式和理由与付费媒体单位一致。
表示法: \(L^{[OM]}_{g,i} (\cdot)\)
说明:
- 除以地理位置人口。
- 对于每个自然媒体渠道,按非零的中位数值对地理位置缩放值进行缩放。
定义:
\(L^{[OM]}_{g,i} (q) = \dfrac{q}{p_g d^{[OM]}}\)
其中:
- \(x^{\dagger [OM]}_{g,t,i} = \dfrac{\overset {\cdot \cdot} x_{g,t,i}^{[OM]}}{p_g}\)
- \(d^{[OM]} = \text{Median}\left( \left\{ x^{\dagger [OM]}_{g,t,i}:x^{\dagger [OM]}_{g,t,i} > 0 \right\}_{g,t} \right)\)
转换:自然覆盖面
所用转换方式和理由与付费媒体覆盖面一致。
表示法: \(L^{[ORF]}_{g,i} (\cdot)\)
说明:
所用转换函数与自然媒体单位一致。
转换:非媒体处理变量
只有当值大致按人口规模进行缩放时,才需要按人口比例对非媒体处理变量进行缩放。Meridian 具有特定于地理位置的随机效应系数 (gamma_gn
),但最好是缩放变量,而不是依赖模型拟合来获取随着人口规模进行缩放的系数。
非媒体处理变量会归一化,使平均值为 0,标准差为 1。应用居中使平均值为 0 之后,可以合理地为截距项(knot_values
和 tau_g
)选择以 0 为中心的先验。应用缩放使标准差为 1 之后,可以将系数平均值形参 (gamma_n
) 放到一个范围内,以便分配合理的默认先验。请注意,除非使用系数先验,否则按中位数进行缩放不会影响先验选择。
表示法: \(L^{[N]}_{g,i} (\cdot)\)
说明:
对于某些非媒体处理变量,可能需要按人口比例进行缩放。这可以使用
non_media_population_scaling_id
实参来处理。默认情况下,非媒体处理变量不会按人口比例进行缩放。将每个非媒体处理变量居中并缩放,使平均值为 0,标准差为 1。
定义:
\(L^{[N]}_{g,i}(q) = \dfrac{\dfrac{q}{p^{I^{[N]}_i}_g} - m^{[N]}}{s^{[N]}}\)
其中:
如果对变量使用
non_media_population_scaling_id=True
,则为\(I_i^{[N]} = 1\) ;否则为 \(i;0\) 。- \(X^{\dagger [N]}_{g,t,i} = \dfrac{\overset {\cdot \cdot} x_{g,t,i}}{p_g^{I_i^{[N]}}}\)
- \(m^{[N]} = \frac{1}{GT}\sum\limits_{g,t} x^{\dagger [N]}_{g,t,i}\)
- \(s^{[N]} = \sqrt{\frac{1}{GT-1} \sum\limits_{g,t} \left( x^{\dagger [N]}_{g,t,i}-m^{[N]} \right)^2}\)