Dans la section Hypothèses requises, il est indiqué que l'hypothèse d'échangeabilité conditionnelle est valable si vous vous basez sur un diagramme causal qui répond au critère backdoor.
Un diagramme causal montre la relation entre des variables. Les variables sont regroupées en collections (nœuds), et une flèche entre les nœuds indique qu'un effet de causalité peut exister dans la direction de la flèche. Une flèche n'indique pas forcément qu'il existe un lien de causalité entre chaque paire de variables, mais elle montre qu'un tel lien ne peut pas exister dans le sens inverse pour une paire de variables.
Le critère backdoor (Pearl J., 2009) indique que pour un diagramme de causalité donné, un ensemble de variables \(Z\) répond au critère backdoor par rapport à une variable de traitement \(X\) et la variable de réponse \(Y\) si les deux conditions suivantes sont vraies :
- Aucun nœud de \(Z\) n'est un descendant de \(X\).
- \(Z\) bloque chaque chemin entre \(X\) et \(Y\) qui contient une flèche vers \(X\).
La Marketing Mix Modeling (MMM, modélisation du mix marketing) permet d'estimer l'effet de causalité des variables média payant, média naturel et non média sur un KPI (comme les ventes). Média payant, média naturel et non média sont donc les variables de traitement (\(X\)), et le KPI est la variable de réponse (\(Y\)). Pour estimer cet effet causal à partir d'une régression MMM, la MMM doit être conditionnée à un ensemble soigneusement sélectionné de variables de contrôle qui répondent au critère backdoor. Pour paraphraser les conditions du critère backdoor :
- Vous ne devez pas contrôler les médiateurs. Les médiateurs sont des variables qui se trouvent dans le chemin de causalité entre \(X\) et \(Y\).
- Vous devez contrôler tous les facteurs de confusion. Les facteurs de confusion sont des variables qui ont un effet de causalité sur \(X\) et \(Y\).
La variable de traitement MMM est une collection de toute combinaison de variables de traitement média payant, média naturel et non média, indexées en fonction de la zone géographique et du temps. Il est difficile de représenter l'intégralité du traitement dans un graphique. Prenez donc l'exemple d'un graphique simplifié qui ne représente que deux périodes dans une seule zone géographique. Les zones géographiques sont supposées être indépendantes. Le même graphique peut donc être utilisé pour représenter n'importe quelle zone géographique, et il n'y a pas de flèches ni de liens entre les zones géographiques. Deux périodes suffisent pour décrire le schéma des effets du traitement différés, dont vous pouvez supposer qu'ils se répéteront indéfiniment dans le futur (ou jusqu'à une durée de décalage maximale).
Dans le schéma suivant, \(T\) désigne les variables de traitement média payant, média naturel et non média, \(C\) désigne les contrôles, et \(K\) désigne le KPI. Le nombre qui suit chaque variable indique la période. Au cours de chaque période, partez du principe que le traitement affecte les ventes, et que les contrôles affectent à la fois le traitement et les ventes. Dans le schéma suivant, \(T\) d'une période précédente a un impact sur les ventes de la période actuelle ("effet différé"). Le modèle de régression Meridian applique la fonction Adstock aux médias payants et naturels, mais pas aux traitements non média. Cela suppose effectivement que les traitements non média n'ont pas d'effets différés. L'inclusion de traitements non média dans le nœud \(T\) reste valide, car une flèche indique qu'un effet causal peut exister entre n'importe quelle paire de variables dans les nœuds connectés. L'inclusion de traitements non média dans le nœud \(T\) améliore la présentation du DAG, qui reste valide pour déterminer les variables qui satisfont le critère de backdoor.
Prenons l'exemple de la tâche consistant à estimer l'effet de causalité du traitement (\(T1\) et\(T2\)) sur le KPI pour la période 2 (\(K2\)). Le graphique montre que les contrôles de la période 2 (\(C2\)) satisfont le critère de backdoor.
Les principales conclusions sont que, pour chaque période, la régression MMM doit être conditionnée :
- aux médias payants et naturels de la période actuelle et de toutes les périodes précédentes, jusqu'à une durée de décalage maximale supposée ;
- aux variables de traitement non média de la période actuelle uniquement ;
- aux variables de contrôle de la période actuelle uniquement.
Voici quelques points importants à prendre en compte :
- Une flèche allant de \(C1\) à \(C2\) n'a aucun impact sur les variables à inclure dans la régression.
- Une flèche allant de \(C1\) à \(K2\) nécessite que la régression inclue des variables de contrôle différées. En pratique, il est préférable d'éviter autant que possible cette situation, car cela pourrait augmenter considérablement le nombre de paramètres de régression.
- Une flèche allant de \(T1\) à \(C2\) pose problème. Dans ce cas, \(C2\) est à la fois un médiateur et un facteur de confusion. Il n'est pas possible d'utiliser un seul modèle de régression MMM pour obtenir l'effet de causalité du traitement conjoint.
- Ajouter le chemin \(T2 \leftarrow K1 \rightarrow K2\) pose le même problème. Dans ce cas, \(K1\) agit à la fois comme médiateur et facteur de confusion.