地理位置选择和国家级数据

地理位置选择

在选择地理位置时,请考虑以下指导原则:

  • 首先按总 KPI 舍弃最小的地理位置。较小的地理位置对投资回报率的贡献较小,但仍会对模型拟合产生很大影响,尤其是在所有组都存在单个残差方差时(ModelSpec 中的 unique_sigma_for_each_geo = False)。

  • 对于将特定媒体市场区域 (DMA) 作为地理单位的美国广告客户来说,大致准则是将人口规模最大的前 50-100 个 DMA 纳入到模型中。这通常能包括绝大多数 KPI 单位,同时排除了可能影响模型拟合和收敛的大多数噪声较大的小型 DMA。

  • 当每个地理位置都有自己的残差方差时(ModelSpec 中的 unique_sigma_for_each_geo = True),噪声较大的地理位置对模型拟合的影响较小。不过,此选项为模型增加了很多灵活性,因此可能会导致模型针对某些数据集难以收敛。如果在此选项下 MCMC 抽样确实收敛了,您不妨绘制地理位置人口规模与平均残差标准差(sigma 形参)的对比图,在大多数情况下,您应该会看到一个相当单调的模式。如果您没有看到这种模式,那么最好设置 unique_sigma_for_each_geo = False 并使用一些较小的地理位置。

如果您想确保模型能够反映您的所有 KPI 单位数,可以将较小的地理位置汇总到较大的区域。不过,采用此选项时需要注意以下几点:

  • 认识到地理位置级建模是一项巨大的优势,并且这种优势会随着地理位置上分离的实验组单元数量的增加而增加。如需了解详情,请参阅国家级建模与地理位置级建模

  • 不同的地理位置汇总分组方法可能会导致不同的 MMM 结果。

  • 展示次数或费用等媒体执行变量通常可以跨地理位置汇总。不过,温度等控制变量可能不太容易汇总。

地理位置级模型中的国家级媒体

如果大多数媒体在地理位置级可用,但有一两个媒体仅在国家级可用,我们建议在地理位置级插补国家级媒体数据,并运行地理位置级模型。一种简单的插补方法是,利用地理位置内人口占总人口的比例,根据国家级媒体变量值粗略估计地理位置级媒体变量值。虽然最好能有准确的地理位置级数据,这样就不必进行插补,但插补仍然能提供有关模型形参的有用信息。如需了解详情,请参阅“Geo-level Bayesian Hierarchical Media Mix Modeling”(地理位置级贝叶斯分层媒体组合建模分析)的第 4.4 节。