meridian.data.input_data.InputData

一个数据容器,其中存放的广告数据采用了 Meridian 支持的格式。

kpi 维度为 (n_geos, n_times) 的 DataArray,其中包含非负的因变量。通常是售出数量,但也可以是任何指标,例如收入或转化次数。
kpi_type 一个字符串,用于表示相应 KPI 是 'revenue' 类型还是 'non-revenue' 类型。如果 kpi_type'non-revenue',且存在 revenue_per_kpi,系统会使用投资回报率校准,并针对收入运行分析。如果同一 kpi_type 中不存在 revenue_per_kpi,系统会使用自定义投资回报率校准,并针对 KPI 运行分析。
controls 维度为 (n_geos, n_times, n_controls) 的 DataArray,其中包含控制变量值。
population 维度为 (n_geos,) 的 DataArray,其中包含各群组的人口数量。此变量用于扩缩 KPI 和媒体以进行建模。
revenue_per_kpi 维度为 (n_geos, n_times) 的可选 DataArray,其中包含每个 KPI 单位的平均收入金额。虽然建模是针对 kpi 进行的,但模型分析和优化是针对 KPI * revenue_per_kpi(收入)进行的(如果该值可用的话)。如果 kpi 与收入相对应,则会自动传递一个 1 数组。
media 维度为 (n_geos, n_media_times, n_media_channels) 的可选 DataArray,其中包含非负媒体执行值。通常是展示次数,但也可以是任何指标,例如费用或点击次数。要求 n_media_timesn_times,并且最终的 n_times 时间段必须与 kpicontrols 的时间窗口保持一致。由于存在滞后效应,我们建议媒体的时间窗口最多包含此时间窗口之前的 max_lag 个额外时段。如果 n_media_times < n_times + max_lag,模型会有效地将媒体历史记录估计为零(没有媒体执行)。如果 n_media_times > n_times + max_lag,系统仅使用最后 n_times + max_lag 个时段来拟合模型。mediamedia_spend 必须包含相同数量的媒体渠道,并且顺序一致。如果传递了这两个实参中的任何一个,那么另一个就不能是可选实参。
media_spend 一个可选的 DataArray,其中包含每个媒体渠道的费用。它被用作计算投资回报率的分母。如果数据是按 geotime 维度进行汇总的,DataArray 的形状可以是 (n_geos, n_times, n_media_channels)(n_media_channels,)。我们建议,支出总额应与 kpicontrols 数据的时间窗口(即计算投资回报率分子增量效果的时间窗口)保持一致。但请注意,增量效果受此时间窗口之前的媒体执行的滞后效应影响,不包括此时间窗口内执行的媒体在相应时间窗口外的滞后效应。mediamedia_spend 必须包含相同数量的媒体渠道,并且顺序一致。如果传递了这两个实参中的任何一个,那么另一个就不能是可选实参。
reach 一个维度为 (n_geos, n_media_times, n_rf_channels) 的可选 DataArray,其中包含非负 reach 值。要求 n_media_timesn_times,并且最终的 n_times 时间段必须与 kpicontrols 的时间窗口保持一致。时间窗口必须包含 kpicontrols 数据的时间窗口,但可以选择包含 kpicontrols 数据时间窗口之前的滞后时间段。如果未包含滞后覆盖面,或者滞后覆盖面包含的时间段少于 max_lag,那么模型在计算 Adstock 时会假定在第一个观察时间段之前,覆盖面执行次数为零。我们建议纳入 n_times + max_lag 时间段,除非 max_lag 的值过大。如果仅使用 media 数据,reach 将为 Nonereachfrequencyrf_spend 必须以相同顺序包含数量相同的媒体渠道。如果传递了这些实参中的任何一个,那么其他实参就不是可选实参。
frequency 一个维度为 (n_geos, n_media_times, n_rf_channels) 的可选 DataArray,其中包含非负 frequency 值。要求 n_media_timesn_times,并且最终的 n_times 时间段必须与 kpicontrols 的时间窗口保持一致。时间窗口必须包含 kpicontrols 数据的时间窗口,但可以选择包含 kpicontrols 数据时间窗口之前的滞后时间段。如果未包含滞后频次,或者滞后频次包含的时间段少于 max_lag,那么模型在计算 Adstock 时会假定在第一个观察时间段之前,频次执行次数为零。我们建议纳入 n_times + max_lag 时间段,除非 max_lag 的值过大。如果仅使用 media 数据,frequency 将为 Nonereachfrequencyrf_spend 必须以相同顺序包含数量相同的媒体渠道。如果传递了这些实参中的任何一个,那么其他实参就不是可选实参。
rf_spend 一个可选的 DataArray,其中包含每个覆盖面和频次渠道的费用。它被用作计算投资回报率的分母。DataArray 的形状可以是 (n_rf_channels,)(n_geos, n_times, n_rf_channels)(n_geos, n_rf_channels)。支出应根据未体现的地理位置和/或时间维度进行汇总。我们建议,支出总额应与 kpicontrols 数据的时间窗口(即计算投资回报率分子增量效果的时间窗口)保持一致。但请注意,增量效果受此时间窗口之前的媒体执行的滞后效应影响,不包括此时间窗口内执行的媒体在相应时间窗口外的滞后效应。如果仅使用 media 数据,rf_spend 将为 Nonereachfrequencyrf_spend 必须以相同顺序包含数量相同的媒体渠道。如果传递了这些实参中的任何一个,那么其他实参就不是可选实参。
organic_media 一个维度为 (n_geos, n_media_times, n_organic_media_channels) 的可选 DataArray,其中包含非负自然媒体值。自然媒体变量是指没有直接费用的媒体活动。这些指标可能包括简报、博文、社交媒体活动或电子邮件宣传活动的展示次数,但也可以是点击次数等任何指标。要求 n_media_timesn_times,并且最终的 n_times 时间段必须与 kpicontrols 的时间窗口保持一致。由于存在滞后效应,我们建议自然媒体的时间窗口最多包含此时间窗口之前的 max_lag 个额外时段。如果 n_organic_media_times < n_times + max_lag,模型会有效地估计出自然媒体历史记录。如果 n_organic_media_times > n_times + max_lag,系统仅使用最后 n_times + max_lag 个时段来拟合模型。
organic_reach 一个维度为 (n_geos, n_media_times, n_organic_rf_channels) 的可选 DataArray,其中包含非负的自然覆盖面值。要求 n_media_timesn_times,并且最终的 n_times 时间段必须与 kpicontrols 的时间窗口保持一致。时间窗口必须包含 kpicontrols 数据的时间窗口,但可以选择包含 kpicontrols 数据时间窗口之前的滞后时间段。如果未包含滞后覆盖面,或者滞后覆盖面包含的时间段少于 max_lag,那么模型在计算 Adstock 时会假定在第一个观察时间段之前,覆盖面执行次数为零。我们建议纳入 n_times + max_lag 时间段,除非 max_lag 的值过大。如果未使用任何自然覆盖面和频次数据,则 organic_reachorganic_frequency 将为 Noneorganic_reachorganic_frequency 必须包含相同数量的渠道,并且顺序一致。如果传递了这两个实参中的任何一个,那么另一个就不能是可选实参。
organic_frequency 一个维度为 (n_geos, n_media_times, n_organic_rf_channels) 的可选 DataArray,其中包含非负自然频次值。要求 n_media_timesn_times,并且最终的 n_times 时间段必须与 kpicontrols 的时间窗口保持一致。时间窗口必须包含 kpicontrols 数据的时间窗口,但可以选择包含 kpicontrols 数据时间窗口之前的滞后时间段。如果未包含滞后频次,或者滞后频次包含的时间段少于 max_lag,那么模型在计算 Adstock 时会假定在第一个观察时间段之前,频次执行次数为零。我们建议纳入 n_times + max_lag 时间段,除非 max_lag 的值过大。如果未使用任何自然覆盖面和频次数据,organic_frequency 将为 Noneorganic_reachorganic_frequency 必须包含相同数量的渠道,并且顺序一致。如果传递了这两个实参中的任何一个,那么另一个就不能是可选实参。
non_media_treatments 维度为 (n_geos, n_times, n_non_media_channels) 的可选 DataArray,其中包含非媒体处理变量值。非媒体处理变量是指广告客户开展的与媒体无直接关系的营销活动。它们没有关联的直效营销费用,但与自然媒体变量不同,它们没有 Adstock 和 Hill 效应。它们与控制变量不同,因为它们被视为可干预的变量,因此在因果模型中属于处理变量。举例来说,开展促销活动、产品价格以及产品包装和/或设计的更改。
control_variable 返回控制变量维度。
geo 返回地理位置维度。
media_channel 返回媒体渠道维度。
media_spend_has_geo_dimension 检查 media_spend 数组是否具有地理位置维度。
media_spend_has_time_dimension 检查 media_spend 数组是否具有时间维度。
media_time 返回媒体时间维度坐标。
media_time_coordinates TimeCoordinates 封装容器形式返回媒体时间维度。
non_media_channel 返回非媒体处理渠道维度。
organic_media_channel 返回自然媒体渠道维度。
organic_rf_channel 返回自然 RF 渠道维度。
rf_channel 返回 RF 渠道维度。
rf_spend_has_geo_dimension 检查 rf_spend 数组是否具有地理位置维度。
rf_spend_has_time_dimension 检查 rf_spend 数组是否具有时间维度。
time 返回时间维度坐标。
time_coordinates TimeCoordinates 封装容器形式返回 (KPI) 时间维度。

方法

as_dataset

查看源代码

以单个 xarray.Dataset 对象形式返回数据。

get_all_channels

查看源代码

返回所有渠道维度。

此方法会返回媒体、RF、自然媒体、自然 RF 和非媒体渠道名称,并按此顺序串联到单个数组中。

get_all_media_and_rf

查看源代码

返回所有媒体执行值,包括媒体和 RF。

如果在建模时使用了媒体、覆盖面和频次,则在媒体末尾串联覆盖面 * 频次。

返回结果
维度为 (n_geos, n_media_times, n_channels)np.ndarray,其中包含每个 media_channelrf_channel 的媒体或覆盖面 * 频次。

get_all_paid_channels

查看源代码

返回所有付费渠道维度,包括媒体和 RF。

如果同时存在媒体渠道和 RF 渠道,则 RF 渠道会串联到媒体渠道末尾。

get_n_top_largest_geos

查看源代码

查找指定数量的人口最多的地理位置。

实参
num_geos 要返回的人口最多的地理位置数量。

返回结果
指定数量的人口最多的地理位置列表。

get_total_spend

查看源代码

返回总支出,包括 media_spendrf_spend

__eq__

返回 self==value。

frequency None
media None
media_spend None
non_media_treatments None
organic_frequency None
organic_media None
organic_reach None
reach None
revenue_per_kpi None
rf_spend None