Quantité de données requises

Cette section peut vous aider à estimer la quantité de données dont vous avez besoin. Les conseils à ce sujet sont approximatifs et généraux, car la réponse idéale dépend de la nature des données.

  • La taille des données correspond au nombre de zones géographiques multiplié par le nombre de points temporels.

  • Ces points temporels et zones géographiques ne sont pas indépendants. Par exemple, 1 000 points de données dans un paramètre de modélisation du mix marketing (MMM, Marketing Mix Modeling) ne sont pas équivalents à 1 000 "pile ou face" ni à 1 000 participants répartis aléatoirement dans un test.

Consultez également les sections sur les modèles nationaux et les modèles géographiques.

Quantité de données pour les modèles nationaux

Le nombre de points de données par effet que vous essayez de mesurer et de comprendre constitue une métrique de vérification de fiabilité importante pour les modèles nationaux. Par exemple, si vous disposez de 12 canaux média, six contrôles et huit nœuds, le total est de 26 effets. Pour plus de simplicité, ignorez les paramètres Adstock et Hill pour cet exemple. Si vous disposez de deux ans de données hebdomadaires, vous aurez 104 points de données et quatre points de données par effet. Il s'agit d'un scénario avec un échantillon de petite taille et dans lequel vous ne disposez pas de suffisamment de données. (De plus, une variation insuffisante des dépenses média a un impact négatif sur les modèles nationaux.) Pour en savoir plus sur les nœuds, consultez Fonctionnement de l'argument knots.

Étant donné qu'il est difficile d'obtenir suffisamment de données pour un modèle national, vous pouvez procéder comme suit :

  • Réduisez le champ d'application de la MMM. Vous pouvez évaluer moins de canaux média (en abandonnant un canal dont les dépenses sont faibles ou en combinant plusieurs canaux), utiliser moins de nœuds pour estimer les effets temporels et supprimer les contrôles superflus. Toutefois, ne supprimez pas les facteurs de confusion importants.

  • Obtenez beaucoup plus de données. Par exemple, utilisez trois ans de données hebdomadaires au lieu de deux. Si vous ajoutez des données, la variance de l'inférence diminuera, mais l'inférence sera susceptible d'être moins pertinente.

  • Vous pouvez également ajouter de la précision géographique à vos données et utiliser un modèle géographique au lieu de réduire le champ d'application ou d'ajouter des données.

Prenons l'exemple hypothétique précédent pour le modèle national. Vous pouvez combiner les 12 canaux média dans trois canaux, ce qui réduit le nombre de nœuds à deux. De plus, vous constaterez peut-être qu'un de vos contrôles explique le KPI, mais pas le média. Il ne s'agit donc pas d'un vrai facteur de confusion, et vous pouvez le supprimer. Si vous utilisez aussi trois ans de données hebdomadaires, vous disposerez alors de 156 points de données pour évaluer 10 effets. Cela représente environ 15 points de données par effet, et vous devriez pouvoir tirer quelques indications de la MMM.

Quantité de données pour les modèles géographiques

Le nombre de points de données par effet que vous essayez de mesurer et de comprendre demeure une métrique de vérification de fiabilité importante. Elle n'est toutefois pas facile à interpréter en raison de la hiérarchie géographique. Par exemple, si vous disposez de 12 canaux média, six contrôles, 100 nœuds et 105 zones géographiques, cela représente environ 1 990 effets à évaluer (12 × 105) + (6 × 105) + 100). Vous multipliez par 105 pour le nombre de zones géographiques, car les médias et les contrôles ont des effets au niveau géographique. Si vous disposez de trois ans de données hebdomadaires, vous aurez 16 380 points de données (105 x (52 x 3)). Cela représente environ huit points de données par effet. Pour plus de simplicité, ignorez les paramètres Adstock et Hill pour cet exemple.

Un détail important n'a pas été pris en compte dans cet exemple : selon la définition d'une hiérarchie géographique, les effets média et les effets des contrôles au niveau géographique ne sont pas indépendants dans les zones géographiques. En d'autres termes, les données sont partagées lors de l'estimation de l'effet du canal média 1 sur la zone géographique 1 et de l'effet du canal média 1 sur la zone géographique 2. Il en va de même pour les contrôles. Comme les données sont partagées, vous disposez de plus de 8 points de données par effet. La quantité de données partagées dépend de la similitude des effets entre les zones géographiques. Cela peut être déterminé par les paramètres eta_m et xi_c.

Si vous rencontrez des difficultés pour obtenir suffisamment de données pour un modèle au niveau géographique, nous vous recommandons de combiner des canaux média ou d'en supprimer un dont les dépenses sont faibles. Vous pouvez également appliquer des a priori plus réguliers aux termes de variance hiérarchique eta_m et xi_c, par exemple HalfNormal(0.1), ce qui encourage le partage d'informations entre les zones géographiques.

Puis-je utiliser des données au niveau des campagnes ?

Le modèle Meridian ne s'applique qu'au niveau du canal. En règle générale, nous ne recommandons pas de l'exécuter au niveau de la campagne, car MMM est un outil macro qui fonctionne bien au niveau du canal. Si vous utilisez des campagnes distinctes avec des dates de début et de fin bien définies, vous serez susceptible de perdre la mémoire de l'adstock. Si vous souhaitez obtenir des insights plus précis, nous vous recommandons d'utiliser l'attribution multitouch basée sur les données pour vos canaux numériques.