Spécifications du modèle

Le modèle Meridian standard est un modèle hiérarchique au niveau géographique avec des transformations paramétriques non linéaires sur les variables média. Les coefficients aléatoires tiennent compte de l'hétérogénéité entre les régions géographiques.

Nous vous recommandons d'utiliser des données au niveau des zones géographiques, car elles fournissent une estimation plus fiable. Un modèle national, essentiellement un modèle à zone géographique unique, est disponible pour les cas où les données au niveau des zones géographiques ne sont pas disponibles.

Le modèle Meridian est une extension des modèles bayésiens proposés précédemment (Jin et al. 2017 et Sun et al. 2017). Les extensions comprennent l'utilisation de données de couverture et de fréquence (Zhang et al. 2023), l'inclusion de termes d'interception à variabilité temporelle pour modéliser les tendances et la saisonnalité (en lien avec la modélisation des tendances et de la saisonnalité par Ng et al. 2021), ainsi que l'ajout de traitements non média et de variables média naturel.

Le modèle est représenté comme suit :

$$ \begin{align*} y_{g,t} = \mu_t + \tau_g &+ \sum\limits_{i=1}^{N_{C}} \gamma^{[C]}_{g,i} z_{g,t,i} \\ &+ \sum\limits_{i=1}^{N_N} \gamma^{[N]}_{g,i} x^{[N]}_{g,t,i} \\ &+ \sum\limits_{i=1}^{N_M} \beta^{[M]}_{g,i} HillAdstock \left( \left\{ x^{[M]}_{g,t-s,i} \right\}^L_{s=0}\ ;\ \alpha^{[M]}_i, ec^{[M]}_i, \ slope^{[M]}_i \right) \\ &+ \sum\limits_{i=1}^{N_{OM}} \beta^{[OM]}_{g,i} HillAdstock \left( \left\{ x^{[OM]}_{g,t-s,i} \right\}^L_{s=0}\ ;\ \alpha^{[OM]}_i, ec^{[OM]}_{i}, \ slope^{[OM]}_{i} \right) \\ &+ \sum\limits_{i=1}^{N_{RF}} \beta^{[RF]}_{g,i} Adstock \left( \left\{ r^{[RF]}_{g,t-s,i} \cdot Hill \left( f^{[RF]}_{g,t-s,i};\ ec^{[RF]}_{i},\ slope^{[RF]}_{i} \right) \right\}^L_{s=0}\ ;\ \alpha^{[RF]}_{i} \right) \\ &+ \sum\limits_{i=1}^{N_{ORF}} \beta^{[ORF]}_{g,i} Adstock \left( \left\{ r^{[ORF]}_{g,t-s,i} \cdot Hill \left( f^{[ORF]}_{g,t-s,i};\ ec^{[ORF]}_{i},\ slope^{[ORF]}_{i} \right) \right\}^L_{s=0}\ ;\ \alpha^{[ORF]}_{i} \right) \\ &+ \epsilon_{g,t} \end{align*} $$

Informations générales

Voici les informations de base :

  • Variables d'index, telles que définies dans les Données d'entrée :

    • \(g=1,\ldots,G\) indexe les unités géographiques
    • \(t=1,\ldots,T\) indexe les unités temporelles
    • \(i=1,\ldots,N_C\) indexe les variables de contrôle.
    • \(i=1,\ldots,N_N\) indexe les traitements non média.
    • \(i=1,\ldots,N_M\) indexe les canaux média payant sans données de couverture et de fréquence.
    • \(i=1,\ldots, N_{OM}\) indexe les canaux média naturel sans données de couverture et de fréquence.
    • \(i=1,\ldots,N_{RF}\) indexe les canaux média payant avec données de couverture et de fréquence.
    • \(i=1,\ldots, N_{ORF}\) indexe les canaux média naturel avec données de couverture et de fréquence.
  • \(\tau_b = 0\) pour l'identification de certaines zones géographiques de référence \(b\). N'importe quelle zone géographique peut être définie comme référence à l'aide de l'argument baseline_group.

  • \(\{q_{t-s}\}^L_{s=0}\) désigne le vecteur\((q_t, q_{t-1}, \ldots, q_{t-L})\). Cette notation est utilisée pour désigner les valeurs d'entrée de la fonction Adstock.

  • La valeur entière \(L\) correspond à la durée maximale de latence média (par exemple, la durée maximale de l'effet média). Ce paramètre peut être défini à l'aide de l'argument max_lag.

  • Notez les points suivants concernant les fonctions \(\text{Hill}()\) et \(\text{Adstock}()\). Pour en savoir plus, consultez Latence et saturation des canaux média.

    $$ \text{Adstock} \left( \left\{ q_{t-s} \right\}^L_{s=0},\ \alpha \right) = \dfrac{\sum\limits^{L}_{s=0}\ \alpha^s q_{t-s} }{\sum\limits^L_{s=0}\ \alpha^s} $$

    Où :

    • \(q>0,\ 0 \leq \alpha \leq 1\)
    • \(\alpha \) est le taux de décroissance géométrique.
    $$ \text{Hill} \left( q, ec, \text{slope} \right) = \left( 1 + \left( \dfrac{q}{ec} \right)^{- \text{slope} } \right)^{-1} $$

    Où :

    • \(q>0,\ ec>0,\ \text{slope} > 0\)
    • \(ec, \text{slope}\) sont les paramètres de forme et de pente de la fonction Hill.
  • La fonction \(\text{HillAdstock}()\) dépend de l'argument hill_before_adstock.

    • Si la valeur par défaut est hill_before_adstock = False, alors\(\text{HillAdstock}(q;\ \alpha, ec, \text{slope}) = \text{Hill}(\text{Adstock}(q;\ \alpha);\ ec, \text{slope})\)
    • Si hill_before_adstock = True, alors\(\text{HillAdstock}(q;\ \alpha, ec, \text{slope}) = \text{Adstock}(\text{Hill}(q;\ ec, \text{slope}); \alpha)\)

Paramètres\( \mu_t \)

Les paramètres \(\mu_t\) sont des interceptions qui varient dans le temps et qui contribuent à un composant de tendance et de saisonnalité du modèle :

  • \(\mu_t\) sont déterminés par une série de paramètres knot\(b_1,b_2,\dots,b_K\) situés aux points temporels correspondants\(s_1,s_2,\dots,s_K\).

  • Les points temporels $s_1,\dots,s_K$ sont situés entre \(1\) et \(T\) , et sont spécifiés par l'argument knots.

    • Vous pouvez spécifier une liste de positions de nœuds ou simplement le nombre de nœuds.

    • Si le nombre de nœuds est spécifié, les nœuds seront espacés régulièrement, deux d'entre eux se trouvant aux points de terminaison ($s_1=1$ et $s_K=T$).

    • Lorsqu'il existe plusieurs zones géographiques (\(G>1\)), la valeur par défaut place un nœud à chaque point temporel ($s_1=1,s_2=2,\dots,s_K=T$, où $K=T$).

    • Lorsque \(G=1\) (par exemple, un modèle au niveau national), la valeur par défaut est un seul nœud, qui est en fait une interception commune à toutes les périodes.

  • Les valeurs \(\mu_t\) sont une moyenne pondérée des deux nœuds voisins les plus proches, le plus proche ayant une pondération plus élevée. Par exemple, supposons qu'il existe des nœuds aux points temporels 9 et 18. L'estimation de $\mu_{16}$ sera influencée à la fois par le nœud au point temporel 9 et par celui au point temporel 18, qui aura une pondération plus élevée. Voici précisément comment la pondération sera calculée. Pour chaque \(t\), définissez ce qui suit :

    • $\ell(t)$ et $u(t)$ représentent les indices de nœud des nœuds voisins les plus proches. En général, $\ell(t) < u(t)$, mais notez que $\ell(t) = u(t)$ si $t$ correspond précisément à l'un des emplacements de nœud, ou si $t$ se trouve avant le premier nœud ou après le dernier (ce qui peut être le cas lorsque des emplacements de nœud personnalisés sont définis, ou si un seul nœud est utilisé).

      • \(\ell(t) = \max \{\{1\} \cup \{k: s_k \leq t\}\}\)

        • Remarque : $\ell(t) = 1$ si $t < s_1$.
      • \(u(t) = \min \{\{K\} \cup \{k: s_k > t\}\}\)

        • Remarque : $u(t) = K$ si $t > s_K$.
    • \(w(t) = 1\) si \(\ell(t) = u(t)\) ; sinon\(w(t) = \dfrac{s_{u(t)}-t}{s_{u(t)}-s_{\ell(t)}}\).

    • \(\mu_t = w(t)b_{\ell(t)} + (1-w(t))b_{u(t)}\)

  • Les valeurs de nœud \(b_1,b_2,\dots,b_K\) ont une distribution a priori spécifiée par l'utilisateur.

Cette méthodologie est basée sur le modèle bayésien à coefficients variables dans le temps avec applications au Marketing Mix Modeling, avec des différences clés telles qu'une fonction de pondération différente, des a priori distincts, l'absence d'autorégression, etc.

Pour en savoir plus sur la définition des nœuds, consultez Fonctionnement de l'argument knots.

Autres distributions de paramètres

Les autres distributions de paramètres sont les suivantes :

  • Notez que Meridian paramètre ici la distribution normale en termes de moyenne et d'écart-type.

    • \(\gamma_{g,i}^{[C]} \sim \text{Normal}(\gamma_i^{[C]},\xi_i^{[C]})\)
    • \(\gamma_{g,i}^{[N]} \sim \text{Normal}(\gamma_i^{[N]},\xi_i^{[N]})\)
  • Les distributions \(\beta\) dépendent de l'argument media_effects_dist, comme suit :

    • \(log(\beta_{g,i}^{[M]})\sim \text{Normal}( \beta_i^{[M]},\eta_i^{[M]})\)
    • \(log(\beta_{g,i}^{[OM]})\sim \text{Normal}( \beta_{i}^{[OM]},\eta_{i}^{[OM]})\)
    • \(log(\beta_{g,i}^{[RF]})\sim \text{Normal}( \beta_{i}^{[RF]},\eta_{i}^{[RF]})\)
    • \(log(\beta_{g,i}^{[ORF]})\sim \text{Normal}( \beta_{i}^{[ORF]},\eta_{i}^{[ORF]})\)

      si media_effects_dist = LOG_NORMAL

    • \(\beta_{g,i}^{[M]} \sim \text{Normal}( \beta_i^{[M]},\eta_i^{[M]})\)

    • \(\beta_{g,i}^{[OM]} \sim \text{Normal}( \beta_{i}^{[OM]},\eta_{i}^{[OM]})\)

    • \(\beta_{g,i}^{[RF]} \sim \text{Normal}( \beta_{i}^{[RF]},\eta_{i}^{[RF]})\)

    • \(\beta_{g,i}^{[ORF]} \sim \text{Normal}( \beta_{i}^{[ORF]},\eta_{i}^{[ORF]})\)

      si media_effects_dist = NORMAL

  • \(\epsilon_{g,t}\sim \text{Normal}(0,\sigma_g)\) :

    • Les résidus sont indépendants les uns des autres, de toutes les variables média et de contrôle, et de tous les paramètres du modèle.

    • Si unique_sigma_for_each_geo = False (valeur par défaut), alors\(\sigma_1=\sigma_2=\cdots=\sigma_G=\sigma\).

  • Les paramètres restants ont tous des distributions a priori spécifiées par l'utilisateur :

    \( \{\gamma_i^{[C]}\}, \{\gamma_i^{[N]}\}, \{\xi_i^{[C]}\}, \{\xi_i^{[N]}\}, \)

    \( \{\beta_i^{[M]}\}, \{ \beta_{i}^{[OM]} \}, \{ \beta_{i}^{[RF]} \}, \{ \beta_{i}^{[ORF]} \}, \)

    \( \{\eta_i^{[M]}\}, \{ \eta_{i}^{[OM]} \}, \{\eta_{i}^{[RF]}\}, \{ \eta_{i}^{[ORF]} \}, \)

    \( \{\alpha_i^{[M]}\}, \{ \alpha_{i}^{[OM]} \}, \{\alpha_{i}^{[RF]}\}, \{ \alpha_{i}^{[ORF]} \}, \)

    \( \{ec_i^{[M]}\}, \{ ec_{i}^{[OM]} \}, \{ec_{i}^{[RF]}\}, \{ ec_{i}^{[ORF]} \}, \)

    \( \{slope_i^{[M]}\}, \{ slope_{i}^{[OM]} \}, \{slope_{i}^{[RF]}\}, \{ slope_{i}^{[ORF]} \}, \)

    \( \{\tau_g\}, \{\sigma_g\}. \)

Vous pouvez modifier certains aspects de la spécification du modèle en fonction des options de modélisation abordées dans les sections suivantes : Latence et saturation des canaux média, Couverture et fréquence, Recherche sponsorisée et A priori du ROI pour la calibration. Vous pouvez également personnaliser les distributions a priori par défaut.