Gráfico causal

Em Proposições obrigatórias, foi informado que a proposição de troca condicional é válida se você considera um gráfico causal que atende ao critério de backdoor.

Um gráfico causal mostra a relação entre as variáveis. As variáveis são agrupadas em coleções (nós), e uma seta entre os nós indica que um efeito causal pode existir na direção de uma seta. Uma seta não indica necessariamente que existe uma relação causal entre cada par de variáveis, mas indica que uma relação causal não pode existir na direção inversa de qualquer par.

O critério de backdoor (Pearl, J., 2009) afirma que, em um diagrama causal, um conjunto de variáveis \(Z\) vai satisfazer o critério de backdoor referente a uma variável de tratamento \(X\) e a variável de resposta \(Y\) se as duas condições a seguir forem verdadeiras:

  • Nenhum nó em \(Z\) é um descendente de \(X\)e
  • \(Z\) bloqueia todos os caminhos entre \(X\) e \(Y\) que contêm uma seta para \(X\)

A Modelagem de Marketing Mix (MMM) é usada para estimar o efeito causal de variáveis de mídia paga, mídia orgânica e não relacionadas a mídia em um KPI (como vendas). Assim, essas variáveis são de tratamento (\(X\)), e o KPI é a variável de resposta (\(Y\)). Para estimar esse efeito causal de uma regressão da MMM, a MMM precisa ser condicionada a um conjunto cuidadosamente selecionado de variáveis de controle que atendam ao critério de backdoor. Para parafrasear as condições do critério de backdoor:

  • Você não pode controlar nenhum mediador. Os mediadores são variáveis que estão no caminho causal entre \(X\) e \(Y\).
  • Você precisa controlar todas as variáveis de confusão, que têm um efeito causal tanto em \(X\) quanto em \(Y\).

A variável de tratamento da MMM é uma coleção de qualquer combinação de variáveis de tratamento de mídia paga, mídia orgânica e não relacionadas à mídia indexadas por região geográfica e tempo. É difícil representar todo o tratamento em um gráfico. Portanto, considere um gráfico simplificado que represente apenas dois períodos em uma única região geográfica. Pressupõe-se que as regiões são independentes, então o mesmo gráfico pode ser usado para representar qualquer local, e não há setas ou relações entre eles. Dois períodos são suficientes para descrever o padrão de efeitos de tratamento de defasagem, pressupondo-se que podem se repetir indefinidamente no futuro (ou até um tempo máximo de defasagem).

No diagrama a seguir, \(T\) indica variáveis de tratamento de mídia paga, mídia orgânica e não relacionadas à mídia, \(C\) indica controles e \(K\) indica o KPI. O número após cada variável indica o período. Em cada período, pressuponha que o tratamento afeta as vendas e que os controles afetam o tratamento e as vendas. No diagrama a seguir, \(T\) de um período anterior afeta as vendas no período atual (o "efeito defasado"). O modelo de regressão do Meridian aplica o adstock à mídia paga e orgânica, mas não aos tratamentos não relacionados a mídia. Isso pressupõe que os tratamentos não relacionados a mídia não tenham efeitos defasados. A inclusão de tratamentos não relacionados a mídia no nó \(T\) ainda é válida porque uma seta indica que um efeito causal pode existir entre qualquer par de variáveis em nós conectados. A inclusão de tratamentos não relacionados a mídia no nó \(T\) deixa a apresentação do DAG (gráfico acíclico dirigido) mais limpa, e o DAG ainda é válido para determinar quais variáveis atendem ao critério de backdoor.

Efeito de tratamento defasado

Considere a tarefa de estimar o efeito causal do tratamento (\(T1\) e\(T2\)) no KPI do período 2 (\(K2\)). No gráfico, é possível ver que os controles do período 2 (\(C2\)) atendem ao critério de backdoor.

As principais conclusões são que, para cada período, a regressão da MMM precisa ser condicionada a:

  1. Mídia paga e orgânica do período atual e de todos os períodos anteriores, até um tempo máximo pressuposto de defasagem.
  2. Variáveis de tratamento não relacionadas à mídia apenas do período atual.
  3. Variáveis de controle apenas do período atual.

Confira alguns detalhes importantes:

  • Uma seta de \(C1\) para \(C2\) não tem implicação sobre quais variáveis serão incluídas na regressão.
  • Uma seta de \(C1\) para \(K2\) exige que a regressão inclua variáveis de controle com defasagem. Na prática, é melhor evitar isso, se possível, já que pode aumentar bastante o número de parâmetros de regressão.
  • Uma seta de \(T1\) para \(C2\) é problemática. Nesse caso, \(C2\) é um mediador e uma variável de confusão. Um único modelo de regressão da MMM não pode ser usado para recuperar o efeito causal do tratamento conjunto.
  • Adicionar o caminho \(T2 \leftarrow K1 \rightarrow K2\) é problemático pelo mesmo motivo. Nesse caso, \(K1\) atua como mediador e variável de confusão.