Defina as seguintes variáveis de índice:
- \(g=1,\ldots,G\) indexa as unidades geográficas.
\(t=1,\ldots,T\) indexa as unidades de tempo.
Para variáveis de mídia paga e orgânica, os dados de períodos \(t<1\) podem ser incluídos nos dados de entrada do modelo para estimar com precisão os efeitos de defasagem nos períodos anteriores. Quando dados de \(t<1\) não são fornecidos, presumimos que não há execução de mídia antes de \(t=1\).
\(i=1,\ldots,N_C\) indexa as variáveis de controle.
\(i=1,\ldots,N_N\) indexa as variáveis de tratamento não relacionadas a mídia.
\(i=1,\ldots,N_M\) indexa os canais de mídia paga sem dados de alcance e frequência.
\(i=1,\ldots, N_{OM}\) indexa os canais de mídia orgânica sem dados de alcance e frequência.
\(i=1,\ldots,N_{RF}\) indexa os canais de mídia paga com dados de alcance e frequência.
\(i=1,\ldots, N_{ORF}\) indexa os canais de mídia orgânica com dados de alcance e frequência.
O Meridian exige duas matrizes de dados principais como entradas do modelo (KPI e mídia paga). Variáveis de mídia orgânica e de tratamento não relacionadas a mídia também podem ser fornecidas como entradas opcionais, se estiverem disponíveis. Para canais de mídia paga e orgânica com dados de alcance e frequência disponíveis por região geográfica e período, os dados de alcance e frequência podem ser usados, em vez de uma única métrica de mídia. Você também pode incluir controles como variáveis confundidoras ou preditoras eficientes do KPI. É preferível fornecer dados de receita (se o KPI não for receita) e dados de gastos de mídia (se a unidade de mídia não for gasto), o que permite que as unidades sejam convertidas em um valor monetário para cálculos de ROI.
Dados | Dimensões | Entrada do modelo: unidades brutas | Entrada do modelo: valor unitário | Unidades transformadas (usadas na equação do modelo) | Valor/custo |
---|---|---|---|---|---|
KPI | $$G \times T$$ | $$\overset{\cdot \cdot}{y}_{g,t}$$ | $$u^{[Y]}_{g,t}$$ | $$y_{g,t} = L^{[Y]}_{g,t} (\overset{\cdot \cdot}{y}_{g,t})$$ | $$\overset{\sim}y_{g,t} = u^{[Y]}_{g,t} \cdot \overset{\cdot \cdot}{y}_{g,t}$$ |
Controles | $$G \times T \times N_C$$ | $$\overset{\cdot \cdot}{z}_{g,t,i}$$ | $$\text{N/A}$$ | $$z_{g,t,i} = L^{[C]}_{g,i}(\overset{\cdot \cdot}{z}_{g,t,i})$$ | $$\text{N/A}$$ |
Mídia | $$G \times T \times N_M$$ | $$\overset{\cdot \cdot}{x}^{[M]}_{g,t,i}$$ | $$u^{[M]}_{g,t,i}$$ | $$x^{[M]}_{g,t,i} = L^{[M]}_{g,i}(\overset{\cdot \cdot}{x}^{[M]}_{g,t,i})$$ | $$\overset{\sim}x_{g,t,i}^{[M]} = u^{[M]}_{g,t,i}\cdot\overset{\cdot \cdot}{x}^{[M]}_{g,t,i}$$ |
Alcance | $$G \times T \times N_{RF}$$ | $$\overset{\cdot \cdot}{r}^{[RF]}_{g,t,i}$$ | $$u^{[RF]}_{g,t,i}$$ | $$r_{g,t,i} = L^{[RF]}_{g,i}(\overset{\cdot \cdot}{r}^{[RF]}_{g,t,i})$$ | $$\overset{\sim}r^{[RF]}_{g,t,i} = u^{[RF]}_{g,t,i} \cdot \overset{\cdot \cdot}{r}^{[RF]}_{g,t,i} \cdot f^{[RF]}_{g,t,i}$$ |
Frequência | $$G \times T \times N_{RF}$$ | $$f^{[RF]}_{g,t,i}$$ | $$\text{N/A}$$ | ||
Mídia orgânica | $$G \times T \times N_{OM}$$ | $$\overset{\cdot \cdot}{x}^{[OM]}_{g,t,i}$$ | $$u^{[OM]}_{g,t,i}$$ | $$x^{[OM]}_{g,t,i} = L^{[OM]}_{g,i}(\overset{\cdot \cdot}{x}^{[OM]}_{g,t,i})$$ | $$\overset{\sim}x^{[OM]}_{g,t,i} = u^{[OM]}_{g,t,i}\cdot\overset{\cdot \cdot}{x}^{[OM]}_{g,t,i}$$ |
Alcance orgânico | $$G \times T \times N_{ORF}$$ | $$\overset{\cdot \cdot}{r}^{[ORF]}_{g,t,i}$$ | $$u^{[ORF]}_{g,t,i}$$ | $$r^{[ORF]}_{g,t,i} = L^{[ORF]}_{g,i}(\overset{\cdot \cdot}{r}^{[ORF]}_{g,t,i})$$ | $$\overset{\sim}r^{[ORF]}_{g,t,i} = u^{[ORF]}_{g,t,i} \cdot \overset{\cdot \cdot}{r}^{[ORF]}_{g,t,i} \cdot f^{[ORF]}_{g,t,i}$$ |
Frequência orgânica | $$G \times T \times N_{ORF}$$ | $$f^{[ORF]}_{g,t,i}$$ | $$\text{N/A}$$ | ||
Variáveis de tratamento não relacionadas a mídia | $$G \times T \times N_N$$ | $$\overset{\cdot \cdot}{x}^{[N]}_{g,t,i}$$ | $$\text{N/A}$$ | $$x^{N}_{g,t,i} = L^{N}_{g,i}(\overset{\cdot \cdot}{x}^{N}_{g,t,i})$$ | $$\text{N/A}$$ |
As transformações de unidades são processadas internamente pelo Meridian. O dimensionamento da população geográfica é necessário para que todas as regiões na modelagem hierárquica estejam em uma escala comparável. Outra padronização é feita para que distribuições a priori padronizadas sejam usadas sem considerar a escala de cada variável.
Defina \(p_g\) como o tamanho da população de cada região geográfica, que é outra entrada do modelo que o usuário precisa especificar. Resumo das transformações lineares:
Transformação: unidades de KPI
As unidades de KPI são dimensionadas pela população para colocar todas as regiões geográficas em uma escala aproximada. Assim, os parâmetros do modelo não precisam acompanhar o tamanho da população.
Após o dimensionamento da população, o KPI é normalizado para ter média zero e desvio padrão um. Quando os dados são centralizados para que a média seja zero, faz sentido assumir uma distribuição a priori também centralizada em zero para os termos de intercepção (knot_values
e tau_g
). O dimensionamento para o desvio padrão um coloca os parâmetros em uma escala padronizada, o que permite atribuir distribuições a priori padrão razoáveis.
Notação: \(L^{[Y]}_{g,t} (\cdot)\)
Descrição:
- Divida pela população geográfica.
- Centralize e dimensione os valores transformados para ter média zero e desvio padrão de um.
Definição:
\(L^{[Y]}_{g,t} (q) = \dfrac{\dfrac{q}{p_g} - m^{[Y]}}{s^{[Y]}}\)
Em que:
- \(y^\dagger_{g,t} = \dfrac{\overset {\cdot \cdot} y_{g,t}}{p_g}\)
- \(m^{[Y]} = \frac{1}{GT}\sum\limits_{g,t} y^\dagger_{g,t}\)
- \(s^{[Y]} = \sqrt{\frac{1}{GT-1} \sum\limits_{g,t} \left( y^\dagger_{g,t}-m^{[Y]} \right)^2}\)
Transformação: variáveis de controle
As variáveis de controle só terão que ser dimensionadas pela população se os valores acompanharem, de forma aproximada, o tamanho da população. O Meridian tem coeficientes de efeitos aleatórios específicos por região geográfica (gamma_gc
), mas é melhor dimensionar a variável, em vez de depender do ajuste do modelo para receber coeficientes que variam de acordo com o tamanho da população.
As variáveis de controle são normalizadas para ter média zero e desvio padrão um.
Quando os dados são centralizados para que a média seja zero, faz sentido assumir uma distribuição a priori também centralizada em zero para os termos de intercepção (knot_values
e tau_g
). O dimensionamento para o desvio padrão um coloca a média do coeficiente (gamma_c
) em uma escala padronizada, o que permite atribuir uma distribuição a priori padrão não informativa razoável.
Notação: \(L^{[C]}_{g,i} (\cdot)\)
Descrição:
Para alguns controles, é interessante fazer o dimensionamento pela população. Faça isso usando o argumento
control_population_scaling_id
. Por padrão, nenhum controle é dimensionado pela população.Centralize e dimensione cada variável de controle para ter média zero e desvio padrão de um.
Definição:
\(L^{[C]}_{g,i}(q) = \dfrac{\dfrac{q}{p^{I^{[C]}_i}_g} - m^{[C]}}{s^{[C]}}\)
Em que:
\(I_i^{[C]} = 1\) se
control_population_scaling_id=True
for usado para a variável \(i;0\) .- \(z^{\dagger}_{g,t,i} = \dfrac{\overset {\cdot \cdot} z_{g,t,i}}{p_g^{I_i^{[C]}}}\)
- \(m^{[C]} = \frac{1}{GT}\sum\limits_{g,t} z^{\dagger}_{g,t,i}\)
- \(s^{[C]} = \sqrt{\frac{1}{GT-1} \sum\limits_{g,t} \left( z^{\dagger}_{g,t,i}-m^{[C]} \right)^2}\)
Transformação: unidades de mídia
As unidades de mídia são dimensionadas pela população para colocar todas as regiões geográficas em uma escala aproximada.
Assim, os parâmetros de meia saturação (ec_m
) não precisam acompanhar o tamanho da população.
As unidades de mídia são dimensionadas pelo valor mediano diferente de zero de cada canal. Assim, é possível interpretar o parâmetro ec_m
de forma mais intuitiva, e um valor de ec_m
igual a um sugere que o ponto de meia saturação ocorre na mediana das unidades de mídia diferentes de zero per capita.
Notação: \(L^{[M]}_{g,i} (\cdot)\)
Descrição:
- Divida pela população geográfica.
- Para cada canal de mídia, dimensione os valores transformados pelo valor de mediana diferente de zero.
Definição:
\(L^{[M]}_{g,i} (q) = \dfrac{q}{p_g d^{[M]}}\)
Em que:
- \(x^{\dagger [M]}_{g,t,i} = \dfrac{\overset {\cdot \cdot} x_{g,t,i}^{[M]}}{p_g}\)
- \(d^{[M]} = \text{Median}\left( \left\{ x^{\dagger [M]}_{g,t,i}:x^{\dagger [M]}_{g,t,i} > 0 \right\}_{g,t} \right)\)
Transformação: alcance
O alcance é dimensionado pela população para colocar todas as regiões geográficas em uma escala aproximada. O Meridian tem coeficientes de efeitos aleatórios específicos por região geográfica (beta_grf
), mas é melhor dimensionar a variável, em vez de depender do ajuste do modelo para receber coeficientes que variam de acordo com o tamanho da população.
O alcance é dimensionado pelo valor mediano diferente de zero para cada canal, o que torna a distribuição a priori média do coeficiente padrão (beta_rf
) uma escolha razoável para a maioria dos conjuntos de dados. O dimensionamento pela mediana não afeta a seleção da distribuição a priori, a menos que as distribuições do coeficiente sejam usadas.
Notação: \(L^{[RF]}_{g,i} (\cdot)\)
Descrição:
A função de transformação é a mesma das unidades de mídia.
Transformação: unidades de mídia orgânica
A transformação e a justificativa são as mesmas das unidades de mídia pagas.
Notação: \(L^{[OM]}_{g,i} (\cdot)\)
Descrição:
- Divida pela população geográfica.
- Para cada canal de mídia orgânica, dimensione os valores transformados pelo valor de mediana diferente de zero.
Definição:
\(L^{[OM]}_{g,i} (q) = \dfrac{q}{p_g d^{[OM]}}\)
Em que:
- \(x^{\dagger [OM]}_{g,t,i} = \dfrac{\overset {\cdot \cdot} x_{g,t,i}^{[OM]}}{p_g}\)
- \(d^{[OM]} = \text{Median}\left( \left\{ x^{\dagger [OM]}_{g,t,i}:x^{\dagger [OM]}_{g,t,i} > 0 \right\}_{g,t} \right)\)
Transformação: alcance orgânico
A transformação e a justificativa são as mesmas do alcance da mídia paga.
Notação: \(L^{[ORF]}_{g,i} (\cdot)\)
Descrição:
A função de transformação é a mesma das unidades de mídia orgânica.
Transformação: variáveis de tratamento não relacionadas à mídia
As variáveis de tratamento não relacionadas à mídia só terão que ser dimensionadas pela população se os valores acompanharem, de forma aproximada, o tamanho da população. O Meridian tem coeficientes de efeitos aleatórios específicos por região geográfica (gamma_gn
), mas é melhor dimensionar a variável, em vez de depender do ajuste do modelo para receber coeficientes que variam de acordo com o tamanho da população.
As variáveis de tratamento não relacionadas à mídia são normalizadas para ter média zero e desvio padrão um. Quando os dados são centralizados para que a média seja zero, faz sentido assumir uma distribuição a priori também centralizada em zero para os termos de intercepção (knot_values
e tau_g
). O dimensionamento para o desvio padrão um coloca o parâmetro médio do coeficiente (gamma_n
) em uma escala padronizada, o que permite atribuir uma distribuição a priori padrão razoável. O dimensionamento pela mediana não afeta a seleção da distribuição a priori, a menos que as distribuições do coeficiente sejam usadas.
Notação: \(L^{[N]}_{g,i} (\cdot)\)
Descrição:
Para algumas variáveis de tratamento não relacionadas à mídia, é interessante fazer o dimensionamento pela população. Para isso, use o argumento
non_media_population_scaling_id
. Por padrão, elas não são dimensionadas pela população.Centralize e dimensione cada variável dessas para ter média zero e desvio padrão de um.
Definição:
\(L^{[N]}_{g,i}(q) = \dfrac{\dfrac{q}{p^{I^{[N]}_i}_g} - m^{[N]}}{s^{[N]}}\)
Em que:
\(I_i^{[N]} = 1\) se
non_media_population_scaling_id=True
for usado para a variável \(i;0\) .- \(X^{\dagger [N]}_{g,t,i} = \dfrac{\overset {\cdot \cdot} x_{g,t,i}}{p_g^{I_i^{[N]}}}\)
- \(m^{[N]} = \frac{1}{GT}\sum\limits_{g,t} x^{\dagger [N]}_{g,t,i}\)
- \(s^{[N]} = \sqrt{\frac{1}{GT-1} \sum\limits_{g,t} \left( x^{\dagger [N]}_{g,t,i}-m^{[N]} \right)^2}\)