Variáveis de controle

Ir para:

Visão geral das variáveis de controle

Controles são variáveis no modelo que não são de tratamento. As variáveis de controle são usadas para estimar o resultado do valor de referência, que é o resultado esperado no cenário contrafactual, em que cada variável de tratamento é definida como o valor de referência para todas as regiões geográficas e períodos. Esse valor é sempre atribuído como zero em variáveis de mídia, mas muitas vezes não é zero em variáveis de tratamento não relacionadas à mídia. As variáveis de controle melhoram a estimativa do resultado do valor de referência e também do efeito causal das variáveis de tratamento no resultado.

As variáveis de controle podem ser classificadas assim:

  • Variáveis de confusão: têm um efeito causal nas variáveis de tratamento e no KPI. A inclusão das variáveis de confusão reduz o viés das estimativas causais das variáveis de tratamento no KPI.

  • Variáveis preditoras: têm apenas um efeito causal no KPI. A inclusão dessas variáveis não reduz o viés do efeito causal dos tratamentos. No entanto, preditoras eficientes podem reduzir a variância das estimativas causais.

Outro tipo são as variáveis mediadoras. Elas estão no caminho causal entre o tratamento e o KPI. Ou seja, elas têm um efeito causal no KPI e são afetadas de maneira causal pelas variáveis de tratamento. As variáveis mediadoras não devem ser incluídas como variáveis de controle, porque isso vai gerar um viés nas estimativas de inferência causal nas variáveis de tratamento.

As relações causais entre os tipos de variáveis são explicadas no gráfico acíclico dirigido (DAG) causal a seguir, que mostra o efeito causal da mídia no KPI. Nos nomes dos nós, o número "1" indica valores de variáveis no período 1, o número "2" indica valores no período 2 e assim por diante. A figura mostra apenas os nós dos períodos 1 e 2, mas considere isso por \(T\) vários períodos.

Efeito causal do DAG das variáveis de tratamento no KPI

Selecionar variáveis de controle

A finalidade da Modelagem de Marketing Mix (MMM) é a inferência causal em efeitos de mídia, não a precisão da estimativa. Portanto, o objetivo principal das variáveis de controle é melhorar a inferência do efeito causal das variáveis de tratamento no KPI. Não é necessário nem recomendável incluir todas as variáveis preditoras que podem melhorar a precisão da estimativa, tanto na amostra quanto fora dela. Pequenas melhorias na precisão da estimativa não garantem que o mesmo aconteça na inferência causal. Ter muitas variáveis preditoras pode inflar a variância das estimativas causais e aumentar o risco de viés de especificação incorreta do modelo.

Ao considerar quais variáveis de confusão incluir no modelo, recomendamos priorizar a identificação de variáveis que afetem as decisões de marketing ou que sejam importantes para tomadores de decisão. A lógica é que a maioria das variáveis que afetam as decisões de marketing também têm efeito no KPI e, portanto, são variáveis de confusão. Por outro lado, é quase impossível fazer uma lista abrangente de variáveis que afetam o KPI, e essas variáveis não são de confusão, a menos que também afetem as decisões de marketing.

Embora os gerentes de marketing possam fornecer uma lista de todas as informações quantificáveis usadas para tomar decisões de orçamento, não é uma tarefa fácil. Algumas perguntas básicas para os gerentes de marketing:

  1. Como foi decidido o orçamento total de mídia para o ano ou trimestre?
  2. Como foi decidida a alocação entre os canais de mídia?
  3. Em cada ano, como eles decidiram as semanas de orçamento alto e baixo?
  4. Há picos de gastos que correspondem a determinados eventos, como feriados ou lançamentos de produtos?
  5. Para as perguntas 1 a 4, quais origens de dados têm maior correlação com as decisões de orçamento? Por exemplo, os valores de KPI ou as variáveis econômicas dos anos anteriores?
  6. Houve alguma mídia orgânica e o que influenciou a decisão de veicular tal mídia?
  7. Houve variáveis de tratamento não relacionadas à mídia, como mudanças de preço ou promoções, e como foi tomada a decisão sobre quando e como implementar essas mudanças?

Nossas recomendações para variáveis de controle:

  • Inclua variáveis de confusão.
  • Exclua variáveis mediadoras.
  • Inclua preditoras eficientes que podem reduzir a variância das estimativas causais.
  • Não inclua muitas variáveis com o único objetivo de otimizar a acurácia preditiva, porque isso pode aumentar o risco de viés de especificação do modelo.

Extrair amostras de distribuições a priori e a posteriori de coeficientes de controle

As amostras de distribuições a priori e a posteriori dos coeficientes de controle são armazenadas no objeto do Meridian e podem ser extraídas para criar intervalos ou outras métricas de resumo que ajudam a determinar os controles relevantes.

Se o nome do objeto do Meridian for mmm, as amostras serão encontradas com mmm.inference_data.prior.gamma_c e mmm.inference_data.posterior.gamma_c, respectivamente.

Incluir o volume de consultas como uma variável de controle

Como mencionado em Selecionar variáveis de controle, é necessário incluir variáveis confundidoras para reduzir o viés do efeito causal dos tratamentos no KPI. Também é preciso excluir as variáveis mediadoras para ter estimativas causais imparciais. O volume de consultas pode ser um mediador para alguns canais de mídia, mas um confundidor para outros. Por exemplo, o volume de consultas é um confundidor para anúncios de pesquisa, já que uma consulta relevante costuma ser um pré-requisito para um anúncio de pesquisa. No entanto, outras formas de mídia podem impulsionar o comportamento de pesquisa, e o volume de consultas é um mediador para esses canais. Para mais informações, consulte Modelagem de pesquisa paga.

Como você quer estimar o efeito do tratamento conjunto de todos os tratamentos, use um único modelo para inferência. Decida se vai assumir que o volume de consultas é um confundidor e vai incluí-lo no modelo ou que é um mediador e vai excluí-lo. Use estas considerações para sua premissa:

  • Os canais mais importantes para receber estimativas sem viés
  • Os benefícios presumidos das relações entre tratamentos, volume de consultas e KPI
  • O número presumido de canais em que o volume de consultas é uma variável confundidora, e não mediadora

Acreditamos que considerar o volume de consultas é um confundidor e incluí-lo no modelo será a decisão certa mais vezes devido aos benefícios relativos da relação entre o volume de consultas e a mídia de pesquisa. No entanto, a decisão depende do caso de uso.

Usar variáveis atrasadas

Para algumas variáveis de controle \(Z\), faz sentido incluir valores atrasados. Por exemplo, em cada semana \(t\), inclua \(Z_{t-1},\dots ,Z_{t-L}\)para algum valor de \(L\). Faça isso apenas se achar que os valores atrasados \(t-1, \dots ,t-L\) têm um efeito causal no KPI na semana \(t\).

Quando controles atrasados não são necessários

O diagrama a seguir mostra um gráfico acíclico dirigido causal (DAG) em que se considera que os tratamentos têm um efeito atrasado, mas os controles não. De acordo com este DAG, os controles atrasados não são necessários. Nos nomes dos nós, o número "1" indica valores de variáveis no período 1, e o número "2" indica valores no período 2. A figura mostra apenas os nós dos períodos 1 e 2, mas considere isso por \(N\) vários períodos.

Usando os critérios backdoor (Pearl, J. 2009), é possível estimar o efeito causal dos tratamentos no KPI da semana 2 ajustando um modelo de regressão para estimar\(E\bigl( K2 \big| T2,T1,C2 \bigr) = E\bigl( K2^{(T2, T1)} \big| C2 \bigr)\). Os controles anteriores (\(C1\)) não são necessários.

Controles de atraso não necessários

Quando controles atrasados são necessários

O diagrama a seguir mostra um DAG causal em que os controles atrasados são necessários. O número nos nomes dos nós corresponde ao período. Para estimar o efeito causal dos tratamentos no KPI da semana 2, você precisa condicionar as variáveis de controle na semana 1 com um efeito atrasado no KPI. Caso contrário, será deixado um caminho desbloqueado \(T1 \leftarrow L1 \rightarrow K2\). Usando os critérios backdoor, é possível ajustar um modelo de regressão para estimar \(E\bigl( K2 \big| T2,T1,C2,L2,L1 \bigr) = E\bigl( K2^{(T2,T1)} \big| C2,L2,L1 \bigr)\).

Controles de atraso necessários

O diagrama anterior é um DAG simplificado de duas semanas, mas, de modo geral, para cada semana\(t\), inclua controles da semana \(t,t-1, \dots ,t-L\), em que\(L\) é o maior atraso em que os controles ainda afetam o KPI. O valor de \(L\) muda de acordo com a variável de controle.

Na prática, é possível truncar \(L\) em um valor razoável para evitar o aumento da variância do modelo ao adicionar muitas variáveis. Em muitos casos, você poderá ignorar os controles atrasados se os efeitos forem relativamente fracos. Esse tipo de simplificação do modelo é uma compensação entre viés e variância.

Variáveis de controle de escalonamento pela população

Por padrão, o KPI e a execução de mídia paga e orgânica são dimensionados pela população, mas as variáveis de controle não. O motivo é que esse dimensionamento não é possível em alguns controles, como a temperatura. No entanto, algumas variáveis de controle, como impressões de concorrentes, precisam ser dimensionadas pela população para maximizar a correlação com o KPI e as variáveis de mídia dimensionadas dessa forma. Essas variáveis podem ser dimensionadas usando o argumento control_population_scaling_id em ModelSpec. Da mesma forma, os tratamentos não relacionados à mídia não são dimensionados por padrão. Essas variáveis podem ser dimensionadas usando o argumento non_media_population_scaling_id em ModelSpec.

Motivos por que as variáveis de controle não têm inferência causal ou detalhamento do valor de referência

Os efeitos causais e as porcentagens de contribuição estão disponíveis para mídia paga, mídia orgânica e tratamentos não relacionados a mídia no Meridian. De acordo com o gráfico causal, os efeitos de regressão desses tipos de variáveis podem ser interpretados como causais. No entanto, o mesmo não acontece com os efeitos de regressão das variáveis de controle. Por esse motivo, o Meridian não estima efeitos causais nem porcentagens de contribuição para variáveis de controle.

Além disso, o Meridian não decompõe o resultado do valor de referência em porcentagens de alocação por variável de controle. Não é segredo que algumas variáveis de controle afetam a precisão da estimativa do modelo mais do que outras. No entanto, isso tem mais a ver com a variância de cada variável nas estimativas do resultado do que com o componente aditivo dessas variáveis no cálculo do resultado. Há ambiguidade em como uma alocação de resultado do valor de referência seria definida para variáveis de controle. Uma possível definição seria a mudança no resultado esperado que acontece quando cada variável de controle é definida como zero para todas as regiões geográficas e períodos. Porém, essa quantidade não tem significado prático porque não representa o efeito causal nem a importância preditiva da variável de controle. Além disso, um valor de zero talvez não tenha significado prático (ou nem seja possível) em cada variável de controle, o que atrapalha ainda mais a interpretação.

Uma variável pode ter um coeficiente grande e um componente aditivo no cálculo do resultado esperado e, ainda assim, ter pouca importância como preditor do KPI. Isso é bem comum em uma variável com uma variação baixa. A exclusão dessa variável do modelo terá pouco impacto nas estimativas do resultado se o efeito aditivo puder ser absorvido pela interceptação.

Consulte Variáveis de mídia orgânica e de tratamento não relacionadas à mídia para mais informações sobre esses tipos de variáveis.