Ce guide sert de référence pour la notation mathématique utilisée dans Meridian.
Il vous permet d'interpréter et de comprendre les équations qui estiment l'impact causal de vos variables de traitement, et à optimiser votre budget de performance.
Table des matières
- Variables de base et données d'entrée
- Notation des états et des transformations des données
- Variables d'index (indices)
- Paramètres du modèle
- Hyperparamètres
- Paramètres variables dans le temps
- Spécifications du modèle
- Relations conditionnelles et logique
- Notation causale et d'optimisation
Variables de base et données d'entrée
Ces symboles représentent les entrées utilisées dans les équations du modèle Meridian, correspondant à des données entièrement mises à l'échelle et transformées. La lettre désigne la métrique, tandis que l'exposant entre crochets définit le type ou la catégorie spécifiques de données.
| Symbole | Description |
|---|---|
| $y$ | KPI : variable (cible ou dépendante) de réponse du modèle. Il peut s'agir de revenus, d'unités de vente, de conversions ou de tout autre élément sur lequel les variables de traitement peuvent avoir un effet causal. |
| $z^{[C]}$ | Variables de contrôle : variables du modèle qui ne sont pas des variables de traitement (par exemple, la météo ou le prix). Elles servent à estimer le résultat de référence. |
| $x^{[M]}$ | Variables média payant : le niveau d'exécution média (par exemple, les clics ou les dépenses) pour les canaux média payant. |
| $r^{[RF]}$ | Couverture payante : nombre d'utilisateurs uniques exposés aux médias payants. |
| $f^{[RF]}$ | Fréquence payante : nombre d'impressions payantes par spectateur unique. |
| $x^{[OM]}$ | Variables média naturel : niveau d'exécution média (par exemple, les ouvertures de newsletters) pour les canaux média naturels. |
| $r^{[ORF]}$ | Couverture naturelle : nombre d'utilisateurs uniques exposés aux médias naturels. |
| $f^{[ORF]}$ | Fréquence naturelle : nombre d'impressions naturelles par spectateur unique. |
| $x^{[N]}$ | Variables de traitement non média : niveau d'exécution des interventions non média (par exemple, les promotions ou les prix). |
| $p$ | Population : taille de la population de chaque zone géographique, utilisée pour mettre les données à l'échelle afin de pouvoir comparer les petites et les grandes régions. |
| $u$ | Valeurs d'unités : valeurs en devise utilisées pour convertir les unités brutes en dépenses pour calculer le ROI. |
Liens associés
- Données d'entrée : définit les structures de données exactes et les exigences concernant les dimensions des variables de base telles que $y$, $z^{[C]}$, and $x^{[M]}$.
- Couverture et fréquence : explique comment la couverture ($r^{[RF]}$) et la fréquence ($f^{[RF]}$) remplacent les métriques d'exécution standards afin de modéliser la saturation de manière plus précise.
- Variables de traitement média naturel et non média : décrit en détail les différences entre les médias payants, les médias naturels ($x^{[OM]}$) et les traitements non média ($x^{[N]}$), y compris les structures de coûts et les comportements des variables.
- Variables de contrôle : explique la logique causale qui sous-tend la sélection des facteurs de confusion ($z^{[C]}$) afin de réduire les biais de vos estimations.
Notation des états et des transformations des données
Dans le framework Meridian, les variables passent par une fonction de transformation avant d'entrer dans le modèle. Des repères spéciaux (comme des points et des obèles) indiquent à quelle étape de la transformation se trouvent les données.
| Symbole | Description | Exemple |
|---|---|---|
| $\ddot{(\cdot)}$ | Données d'entrée brutes (deux points) : données fournies par l'utilisateur "telles quelles", avant toute mise à l'échelle. | $\ddot{y}$ représente le nombre brut de KPI pour une région. |
| $(\cdot)^\dagger$ | Population mise à l'échelle (obèle) : état intermédiaire des données. Il s'agit des données brutes divisées par la population de la zone géographique ($p_ {g}$). | $y^\dagger_ {g,t} = \ddot{y}_ {g,t} / p_ {g}$ |
| $(\cdot)$ | Variable entièrement transformée : données transformées finales utilisées dans les équations du modèle. Pour un KPI, il s'agit de la variable dagger centrée sur une moyenne nulle et mise à l'échelle sur un écart-type de un. | $y$ correspond à la valeur finale des ventes utilisée par le modèle pour l'apprentissage. |
| $L(\cdot)$ | Fonction de transformation : fonction de transformation linéaire spécifique appliquée pour convertir les unités brutes en unités entièrement mises à l'échelle. Pour en savoir plus sur chaque transformation effectuée dans Meridian, consultez la section Données d'entrée. |
$y = L^{[Y]}(\ddot{y})$ |
Liens associés
- Données d'entrée : contient les fonctions de mise à l'échelle linéaire exactes $L(\cdot)$ appliquées à chaque type de variable pour convertir les entrées brutes en unités entièrement mises à l'échelle.
- Spécification du modèle : indique comment les variables entièrement mises à l'échelle sont finalement utilisées dans l'équation de régression.
Variables d'index (indices)
Les index sont les "coordonnées" des tableaux de données. Ils vous indiquent exactement la tranche de données référencée. Meridian ajoute des indices aux variables de base pour spécifier des dimensions telles que la zone géographique et la période (par exemple, $x^{[M]}_ {g,t,i}$).
| Symbole | Description | Exemple |
|---|---|---|
| $g$ | Géographie : indexe des unités géographiques spécifiques ($1, \dots, G$). | $g$ = New York ou Londres. |
| $t$ | Heure : indexe des périodes spécifiques ($1, \dots, T$). | $t$ = semaine 10 de la période utilisée pour entraîner la MMM. |
| $i$ | Index de variable : index universel permettant de spécifier un canal ou un traitement particulier dans une catégorie. | $i = 3$ fait référence au troisième canal média payant. |
| $G$ | Nombre total de zones géographiques : nombre total d'unités géographiques. | $G = 50$ pour un modèle au niveau des États américains. |
| $T$ | Nombre total de périodes : nombre total de périodes. | $T = 104$ pour deux ans de données hebdomadaires. |
| $N_ {C}$ | Nombre total de contrôles : nombre total de variables de contrôle. | $N_ {C} = 3$ (par exemple, prix, météo, jours fériés). |
| $N_ {M}$ | Nombre total de médias payants : nombre total de variables média payant sans couverture et fréquence. | $N_ {M} = 4$ (par exemple, TV, radio, presse écrite, recherche). |
| $N_ {RF}$ | Nombre total de couvertures et fréquences payantes : nombre total de variables média payant avec couverture et fréquence. | $N_ {RF} = 2$ (par exemple, Facebook, YouTube). |
| $N_ {OM}$ | Nombre total de médias naturels : nombre total de variables média naturel sans couverture et fréquence. | $N_ {OM} = 2$ (par exemple, SEO, posts sur les réseaux sociaux). |
| $N_ {ORF}$ | Nombre total de couvertures et fréquences naturelles : nombre total de variables média naturel avec couverture et fréquence. | $N_ {ORF} = 1$ (par exemple, newsletter naturelle). |
| $N_ {N}$ | Nombre total de traitements non média : nombre total de variables de traitement non média. | $N_ {N} = 2$ (par exemple, promotions en magasin, bons de réduction). |
Liens associés
- Modélisation au niveau géographique : présente les avantages statistiques de l'indexation des données par zone géographique ($g$) par rapport à l'agrégation des données au niveau national.
- Observations de validation : indique comment des coordonnées temporelles ($t$) et géographiques ($g$) spécifiques sont exclues pendant l'entraînement du modèle afin de calculer l'ajustement hors échantillon.
- Modélisation au niveau national : décrit en détail les restrictions de paramètres que Meridian applique automatiquement lors de la modélisation d'une seule zone géographique ($G=1$).
Paramètres du modèle
Il s'agit des paramètres et coefficients "appris" (désignés par des lettres grecques) que le modèle estime à partir des données.
| Symbole | Description |
|---|---|
| $\theta$ | Thêta : terme général désignant tout paramètre non observable que le modèle estime. |
| $\tau_ {g}$ | Tau (effets fixes géographiques) : effets géographiques, qui représentent le KPI moyen de chaque zone géographique par rapport à la zone géographique de référence. |
| $\mu_ {t}$ | Mu (effets fixes variables dans le temps) : effets temporels dérivés des valeurs de nœud. |
| $b_ {k}$ | Paramètre de nœud : valeur de nœud estimée au nœud $k$. |
| $\beta^{[M]}_ {i}, \beta^{[RF]}_ {i},$ $\beta^{[OM]}_ {i}, \beta^{[ORF]}_ {i}$ |
Bêta (effets média hiérarchiques) : paramètre pour la distribution hiérarchique des effets média au niveau géographique. Lorsque la distribution des effets média est définie sur normale, il s'agit de la moyenne hiérarchique. Lorsqu'elle est définie sur log-normale, il s'agit du paramètre hiérarchique de la moyenne de la distribution normale sous-jacente log-transformée. |
| $\beta^{[M]}_ {g,i}, \beta^{[RF]}_ {g,i},$ $\beta^{[OM]}_ {g,i}, \beta^{[ORF]}_ {g,i}$ |
Bêta (effets média au niveau géographique) : coefficient d'effet média spécifique pour un canal $i$ dans la zone géographique $g$, issu de la distribution hiérarchique. |
| $\gamma^{[C]}_ {i}, \gamma^{[N]}_ {i}$ | Gamma (moyenne de contrôle hiérarchique) : moyenne hiérarchique du coefficient d'une variable de contrôle ou d'un canal non média. La hiérarchie est définie sur les zones géographiques. |
| $\sigma$ | Sigma (écart-type résiduel) : écart-type du bruit. |
| $\eta$ | Êta (variance hiérarchique média) : paramètre pour la distribution hiérarchique des effets média au niveau géographique. Lorsque la distribution des effets média est définie sur normale, il s'agit de l'écart-type hiérarchique. Lorsqu'elle est définie sur log-normale, il s'agit du paramètre hiérarchique pour l'écart-type de la distribution normale sous-jacente log-transformée. |
| $\xi$ | Xi (variance hiérarchique des variables de contrôle et des canaux non média) : écart-type hiérarchique appliqué au coefficient d'une variable de contrôle ou d'un canal non média. La hiérarchie est définie sur les zones géographiques. |
| $\alpha$ | Alpha (taux de décroissance Adstock) : valeur comprise entre 0 et 1. |
| $\mathtt{ec}$ | Demi-saturation : "point de saturation" correspondant à 50 % de l'augmentation maximale possible des ventes. |
| $\mathtt{slope}$ | Pente : contrôle la forme de la courbe de réponse. Une valeur $slope\leq1$ crée une courbe strictement concave, tandis qu'une valeur $slope > 1$ crée une "courbe en S". |
Liens associés
- Spécification du modèle : fournit l'équation de régression complète indiquant comment les paramètres non observables tels que $\beta$, $\gamma$ et $\tau$ interagissent pour estimer le résultat.
- Distributions a priori par défaut : liste les distributions statistiques par défaut et la justification attribuées aux paramètres appris tels que $\tau_g$, $\beta_i$ et $\sigma$.
- Inférence bayésienne : explique comment l'échantillonnage MCMC permet d'estimer conjointement ces paramètres non observables ($\theta$) et leur incertitude à partir des données observées.
Hyperparamètres
Il s'agit de paramètres fixes définis avant l'entraînement du modèle, qui agissent comme des entrées structurelles plutôt que comme des coefficients appris par le modèle.
| Symbole | Description |
|---|---|
| $L$ | Durée maximale de latence : hyperparamètre fixe représentant le nombre maximal de semaines pendant lesquelles une annonce est censée avoir un impact sur les ventes. |
| $K$ | Nombre total de nœuds : nombre total de nœuds utilisés pour modéliser l'effet temporel variable dans le temps. |
| $s_ {k}$ | Emplacement du nœud : période spécifique dans laquelle se trouve le $k$-ième nœud. |
Paramètres variables dans le temps
Meridian utilise des nœuds pour modéliser les effets temporels. Au lieu d'estimer un effet temporel unique pour chaque période, le modèle estime les valeurs à des points d'ancrage spécifiques (nœuds) et interpole les valeurs pour les périodes intermédiaires.
Ces symboles représentent les mécanismes de notation utilisés pour calculer cette interpolation.
| Symbole | Description |
|---|---|
| $b_ {k}$ | Paramètre de nœud : valeur de nœud estimée au nœud $k$. |
| $\ell(t)$ | Index du nœud inférieur : index du nœud précédent le plus proche pour un instant $t$ donné. |
| $u(t)$ | Index du nœud supérieur : indice du nœud suivant le plus proche pour un instant $t$ donné. |
| $w(t)$ | Pondération temporelle : pondération de l'interpolation pour l'instant $t$, calculée en fonction de la distance entre les emplacements des nœuds voisins ($s_ {\ell(t)}$ et $s_ {u(t)}$). |
| $\mu_ {t}$ | Effet de base variant dans le temps : effet temporel obtenu pour l'instant $t$, calculé sous la forme d'une moyenne pondérée : $\mu_ {t} = w(t)b_ {\ell(t)} + (1-w(t))b_ {u(t)}$. |
Liens associés
- Définir des nœuds : explique comment sélectionner le nombre total de nœuds $K$ et trouver un juste équilibre entre biais et variance pour estimer les effets temporels.
- Spécification du modèle : décrit en détail le calcul de la pondération en fonction de la distance $w(t)$ utilisé pour interpoler $\mu_t$ entre les emplacements de nœuds adjacents.
Spécifications du modèle
Pour connaître l'équation mathématique complète qui combine ces entrées et ces paramètres dans le modèle Meridian, consultez la page Spécifications du modèle.
Relations conditionnelles et logique
Ces symboles représentent des dépendances, une logique mathématique ou des relations statistiques.
| Symbole | Description | Exemple |
|---|---|---|
| $\mid$ | Le caractère | : se lit "Compte tenu". Il indique une attente ou une probabilité conditionnelle. | $P(\theta \mid data)$ désigne la probabilité des paramètres compte tenu des données observées. |
| $I_ {\lbrace \dots \rbrace}$ | Fonction d'indicateur : commutateur logique. Elle est égale à 1 si la condition à l'intérieur est true, et à 0 dans le cas contraire. |
$I_ {i}^{[C]} = 1$ si la mise à l'échelle de la population est utilisée pour la variable de contrôle $i$, et 0 dans le cas contraire. |
| $\sim$ | Opérateur tilde : se lit "est distribué sous forme de". Il associe un paramètre à sa distribution a priori statistique. (Remarque : cet opérateur ne doit pas être confondu avec l'accent tilde $\overset \sim Y$ utilisé pour désigner les résultats potentiels.) | $\gamma^{[C]}_ {i} \sim \text{Normal}(0, 5)$ signifie que le paramètre suit une distribution normale avec une moyenne de 0 et un écart-type de 5. |
| $\lbrace \dots \rbrace$ | Accolades : indiquent un ensemble, un vecteur ou un tableau multidimensionnel de variables. | ${x_ {g,t,i}}$ représente le tableau complet de l'exécution média observée, et ${q_ {t-s}}^L_ {s=0}$ représente une séquence sur un délai avant conversion. |
| $\forall$ | Pour tout : quantificateur universel. Cela signifie que l'équation ou la condition s'applique à chaque valeur d'un ensemble spécifique. | $\forall g,t$ signifie que la condition s'applique à toutes les régions géographiques et à toutes les périodes. |
Liens associés
- Données d'entrée : utilise la notation d'ensemble (${\dots}$) pour définir les tableaux complets de variables de contrôle et de traitement requis pour la modélisation.
- Inférence bayésienne : explique la probabilité conditionnelle $P(\theta \mid data)$ au cœur de l'échantillonnage MCMC de Meridian.
- Hypothèses requises : décrit en détail l'hypothèse d'échangeabilité conditionnelle ($E(\overset \sim Y \mid z)$) requise pour estimer les effets de causalité de manière fiable.
Inférence causale et optimisation du budget
Ces symboles sont utilisés pour définir des scénarios contrefactuels, générer des courbes de réponse et calculer des allocations de budget optimales.
| Symbole | Description |
|---|---|
| $\overset \sim Y^{(\lbrace x^{(1)} \rbrace)}$ | Résultat potentiel : résultat hypothétique (par exemple, les ventes) qui se produirait dans un scénario spécifique. Le tilde ($\overset \sim Y$) indique qu'il s'agit d'un résultat potentiel, et l'exposant ($\lbrace x^{(1)} \rbrace$) désigne le scénario d'exécution média spécifique testé. |
| $x^{(1)}, x^{(0)}$ | Scénarios contrefactuels : permettent de comparer différentes réalités d'exécution média. En règle générale, $x^{(1)}$ représente l'exécution historique et $x^{(0)}$ représente une référence (par exemple, des dépenses nulles sur un canal spécifique). |
| $b_ {i}$ | Budget : budget total alloué à un canal spécifique $i$ lors de l'optimisation du budget. |
| $\omega$ | Facteur de scaling des dépenses : multiplicateur utilisé pour augmenter ou réduire les dépenses historiques. D'un point de vue mathématique, il sert à générer des courbes de réponse ou à calculer le ROI marginal. |
| $f^*$ | Fréquence cible/optimale : fréquence moyenne optimale des annonces calculée lors de l'optimisation de la couverture et de la fréquence. |
| $(j)$ | Exposant de tirage MCMC : désigne un "tirage" de simulation spécifique (l'une des milliers de réponses possibles générées par le modèle) utilisé pour calculer la moyenne a posteriori du résultat attendu. |
Liens associés
- Résultat incrémental, ROI, ROIm et courbes de réponse : définit mathématiquement les métriques métier comme le ROI à l'aide de résultats potentiels ($\overset \sim Y$).
- Estimation du résultat incrémental à l'aide de la régression : présente la preuve mathématique reliant les résultats attendus ($\hat{Y}$) aux comparaisons de scénarios contrefactuels ($x^{(1)}$ par rapport à $x^{(0)}$).
- Optimisation pour les canaux média sans données de couverture et de fréquence : décrit en détail la fonction objectif utilisée pour résoudre les vecteurs de budget optimaux $b_i$.
- Optimisation pour les canaux média avec données de couverture et de fréquence : étend l'optimisation du budget pour inclure la résolution des fréquences optimales cibles ($f^*$).
- Paramétrisation du ROI, du ROIm et de la contribution : explique comment les distributions a priori sont paramétrées mathématiquement à l'aide de ces métriques métier exactes.
- Inférence bayésienne : relie les tirages a posteriori simulés du modèle ($(j)$) au calcul des résultats attendus et des intervalles d'incertitude.