Cette section peut vous aider à estimer la quantité de données dont vous avez besoin. Les conseils à ce sujet sont approximatifs et généraux, car la réponse idéale dépend de la nature des données. La solution la plus fiable pour évaluer cela consiste à exécuter le modèle et à évaluer la largeur des intervalles crédibles.
La taille des données correspond au nombre de zones géographiques multiplié par le nombre de points temporels.
Ces points temporels et zones géographiques ne sont pas indépendants. Par exemple, 1 000 points de données dans un paramètre de modélisation du mix marketing (MMM, Marketing Mix Modeling) ne sont pas équivalents à 1 000 "pile ou face" ni à 1 000 participants répartis aléatoirement dans un test.
Consultez également les sections sur les modèles nationaux et les modèles géographiques.
Quantité de données pour les modèles nationaux
Dans le modèle national de Meridian, les effets sont modélisés avec des paramètres de modèle, chacun avec des a priori indépendants. Pour les modèles nationaux, le nombre de points de données par paramètre de modèle constitue une métrique clé pour vérifier la fiabilité. Par exemple, si vous disposez de 12 canaux média, 6 contrôles et 8 nœuds, le total est de 26 paramètres. (Ignorez les paramètres Adstock et Hill pour plus de simplicité.) Avec deux ans de données hebdomadaires (104 points de données), vous disposez de quatre points de données par paramètre. Cette taille d'échantillon est trop réduite pour permettre une estimation fiable du modèle. (De plus, une variation insuffisante des dépenses média a un impact négatif sur les modèles nationaux.) Pour en savoir plus sur les nœuds, consultez Fonctionnement de l'argument knots.
Étant donné qu'il est difficile d'obtenir suffisamment de données pour un modèle national, vous pouvez procéder comme suit :
Réduisez le champ d'application de la MMM. Vous pouvez évaluer moins de canaux média (en abandonnant un canal dont les dépenses sont faibles ou en combinant plusieurs canaux), utiliser moins de paramètres de nœud pour estimer les effets temporels (si vous n'utilisez pas le paramètre
knots=1par défaut) et supprimer les contrôles superflus. Toutefois, ne supprimez pas les facteurs de confusion importants.Obtenez beaucoup plus de données. Par exemple, utilisez trois ans de données hebdomadaires au lieu de deux. Si vous ajoutez des données, la variance de l'inférence diminuera, mais l'inférence sera susceptible d'être moins pertinente.
Vous pouvez également ajouter de la précision géographique à vos données et utiliser un modèle géographique au lieu de réduire le champ d'application ou d'ajouter des données.
Prenons l'exemple hypothétique précédent pour le modèle national. Vous pouvez combiner les 12 canaux média dans trois canaux, ce qui réduit le nombre de nœuds à deux. De plus, vous constaterez peut-être qu'un de vos contrôles explique le KPI, mais pas le média. Il ne s'agit donc pas d'un vrai facteur de confusion, et vous pouvez le supprimer. Si vous utilisez aussi trois ans de données hebdomadaires, vous disposerez alors de 156 points de données pour évaluer 10 paramètres. Cela représente environ 15 points de données par paramètre, et vous devriez pouvoir tirer quelques indications de la MMM.
Quantité de données pour les modèles géographiques
Le nombre de points de données par effet estimé par le modèle géographique reste une métrique importante pour vérifier la fiabilité. Cependant, évaluer le nombre d'effets à partir du nombre de paramètres n'est pas aussi simple dans le modèle géographique que dans le modèle national. La complexité provient du fait que la hiérarchie géographique partage des informations entre les zones géographiques, ce qui rend les paramètres au niveau géographique dépendants plutôt qu'indépendants. La quantité d'informations partagées entre ces zones géographiques joue un rôle.
Par exemple, 105 zones géographiques et trois ans de données hebdomadaires génèrent $105 \times 156 = 16 380$ points de données. Si vous estimez 12 canaux média, 6 contrôles et 100 nœuds, vous pouvez évaluer la suffisance des données sous deux angles (ignorez les paramètres Adstock et Hill pour plus de simplicité) :
- Approche stricte (sans pooling) : si vous partez du principe qu'aucune information n'est partagée entre les zones géographiques, vous devez évaluer $(12 \times 105) + (6 \times 105) + 100 + (105 - 1) = 2 094$ paramètres. (On multiplie par 105, car les médias et les contrôles ont des paramètres au niveau géographique.) Cela donne environ 8 points de données par paramètre et représente une limite inférieure stricte.
- Approche souple (pooling parfait) : si vous partez du principe que le partage des informations est parfait (chaque canal de contrôle et média possède un paramètre commun), le modèle comporte $12 + 6 + 100 + (105 - 1) = 222$ paramètres. On obtient ainsi environ 74 points de données par paramètre, ce qui correspond au calcul du ratio données/paramètres utilisé dans le package EDA.
Chaque approche comptabilise différemment les paramètres média et de contrôle :
- Paramètres média : comptabilisés comme $12 \times 105 = 1 260$ paramètres dans l'approche stricte (paramètres indépendants au niveau géographique), mais seulement $12$ paramètres dans l'approche souple (un seul paramètre national commun).
- Paramètres de contrôle : comptabilisés comme $6 \times 105 = 630$ paramètres dans l'approche stricte (paramètres indépendants au niveau géographique), mais seulement $6$ paramètres dans l'approche souple (un seul paramètre national commun).
Chaque approche compte les paramètres de nœuds et géographiques de façon similaire :
- Nœuds : comptabilisés comme $100$ chacun.
- Paramètres géographiques : comptabilisés comme $105 – 1 = 104$ pour chacune des 105 zones géographiques, avec la soustraction d'une zone de référence.
En réalité, comme Meridian utilise le pooling partiel (modélisation hiérarchique), le nombre réel de points de données par paramètre se situe entre 8 (strict) et 74 (souple). La quantité réelle d'informations partagées dépend de la similitude des paramètres entre les zones géographiques, qui est déterminée par les données et les paramètres de variance hiérarchique (eta_m et xi_c).
La seule façon de déterminer les paramètres de variance hiérarchique (eta_m et xi_c) est d'ajuster le modèle. C'est pourquoi nous évitons de prescrire un seul ratio minimum "correct". Au lieu de cela :
- Le calcul strict est un exercice de réflexion utile pour appréhender la complexité potentielle et le scénario le plus défavorable.
- Le package EDA utilise le calcul souple comme garde-fou pratique pour identifier les cas de grave pénurie de données, où le modèle serait sous-déterminé même avec un pooling parfait.
Si vous rencontrez des difficultés pour obtenir suffisamment de données pour un modèle au niveau géographique, nous vous recommandons de combiner des canaux média ou d'en supprimer un dont les dépenses sont faibles. Vous pouvez également appliquer des a priori plus réguliers aux termes de variance hiérarchique eta_m et xi_c, par exemple HalfNormal(0.1), ce qui encourage le partage d'informations entre les zones géographiques.
Puis-je utiliser des données au niveau des campagnes ?
Le modèle Meridian ne s'applique qu'au niveau du canal. En règle générale, nous ne recommandons pas de l'exécuter au niveau de la campagne, car MMM est un outil macro qui fonctionne bien au niveau du canal. Si vous utilisez des campagnes distinctes avec des dates de début et de fin bien définies, vous serez susceptible de perdre la mémoire de l'adstock. Si vous souhaitez obtenir des insights plus précis, nous vous recommandons d'utiliser l'attribution multitouch basée sur les données pour vos canaux numériques.