Dieser Abschnitt kann ein Gefühl dafür vermitteln, wie viele Daten Sie benötigen. Die Empfehlungen sind nur grobe Richtwerte. Die tatsächliche Menge richtet sich danach, wie die Daten beschaffen sind. Die genaueste Methode, dies zu beurteilen, besteht darin, das Modell auszuführen und die Breite der glaubwürdigen Intervalle zu bewerten.
Die Datenmenge entspricht der Anzahl der geografischen Einheiten multipliziert mit der Anzahl der Zeitpunkte.
Diese Zeitpunkte und geografischen Einheiten sind nicht voneinander unabhängig. 1.000 Datenpunkte beim Marketing Mix Modeling (MMM) sind beispielsweise nicht mit 1.000 Münzwürfen oder 1.000 zufällig ausgewählten Teilnehmern in einem Test vergleichbar.
Weitere Informationen finden Sie in den Abschnitten zu länderspezifischen und geografischen Modellen.
Datenmenge für länderspezifische Modelle
Beim länderspezifischen Modell von Meridian werden die Effekte mit Modellparametern modelliert, die jeweils unabhängige Priors haben. Bei länderspezifischen Modellen ist die Anzahl der Datenpunkte pro Modellparameter ein wichtiger Messwert zur Überprüfung des Vertrauens. Wenn Sie beispielsweise 12 Media-Channels, 6 Kontrollvariablen und 8 Knoten haben, ergibt das insgesamt 26 Parameter. Ignorieren Sie der Einfachheit halber Adstock- und Hill-Parameter. Bei 2 Jahren mit wöchentlichen Daten (104 Datenpunkte) haben Sie 4 Datenpunkte pro Parameter. Diese Stichprobengröße ist zu gering, um das Modell zuverlässig zu schätzen. Außerdem wirkt sich eine unzureichende Variation der Media-Ausgaben negativ auf länderspezifische Modelle aus. Weitere Informationen zu Knoten finden Sie unter Funktionsweise des Arguments knots.
Da es schwierig ist, genügend Daten für ein länderspezifisches Modell zu erhalten, haben Sie folgende Möglichkeiten:
Umfang des MMM verringern: Sie können die Schätzung auf weniger Media-Channels beschränken. Dazu können Sie entweder einen Channel mit niedrigen Ausgaben entfernen oder Channels kombinieren. Alternativ haben Sie die Möglichkeit, weniger Knotenparameter für die Schätzung von Zeiteffekten zu verwenden (wenn Sie nicht die Standardeinstellung
knots=1nutzen) und alle überflüssigen Kontrollvariablen zu entfernen. Sie dürfen jedoch keine wichtigen Störfaktoren entfernen.Viel mehr Daten erhalten: Sie können beispielsweise wöchentliche Daten von 3 statt 2 Jahren verwenden. Wenn Sie mehr Daten berücksichtigen, verringert sich die Varianz bei der Inferenz, die Inferenz wird aber möglicherweise weniger relevant.
Sie können auch den geografischen Detaillierungsgrad Ihrer Daten erhöhen und ein geografisches Modell verwenden, anstatt den Umfang einzugrenzen oder mehr Daten hinzuzufügen.
Denken Sie an das vorherige hypothetische Beispiel für das länderspezifische Modell. Sie können die 12 Media-Channels in 3 Channels kombinieren und die Knoten auf 2 reduzieren. Möglicherweise stellen Sie auch fest, dass eine Ihrer Kontrollvariablen die KPI erklärt, aber nicht die Media. Das bedeutet, dass sie kein echter Störfaktor ist und entfernt werden kann. Wenn Sie außerdem wöchentliche Daten aus 3 Jahren verwenden, sind 156 Datenpunkte vorhanden, um 10 Parameter zu schätzen. Das sind etwa 15 Datenpunkte pro Parameter. Jetzt können Sie aus dem MMM möglicherweise einige richtungsweisende Informationen ableiten.
Datenmenge für geografische Modelle
Die Anzahl der Datenpunkte pro Effekt, die vom geografischen Modell geschätzt werden, ist weiterhin ein wichtiger Messwert zur Überprüfung des Vertrauens. Die Anzahl der Effekte anhand der Anzahl der Modellparameter zu zählen, ist beim geografischen Modell jedoch nicht so einfach wie beim länderspezifischen Modell. Die Komplexität ergibt sich daraus, dass in der geografischen Hierarchie Informationen zwischen geografischen Einheiten ausgetauscht werden. Dadurch sind die Parameter auf geografischer Ebene voneinander abhängig und nicht unabhängig. Auch die Menge der Informationen, die zwischen diesen geografischen Einheiten geteilt werden, spielt eine Rolle.
Wenn Sie beispielsweise 105 geografische Einheiten und wöchentliche Daten aus 3 Jahren haben, sind das $105 \times 156 = 16.380$ Datenpunkte. Wenn Sie 12 Media-Channels, 6 Kontrollvariablen und 100 Knoten schätzen, können Sie die Datenmenge aus zwei Perspektiven bewerten (Adstock- und Hill-Parameter werden der Einfachheit halber ignoriert):
- Strikte Ansicht (kein Pooling): Wenn Sie davon ausgehen, dass keine Informationen zwischen den geografischen Einheiten ausgetauscht werden, müssen Sie $(12 \times 105) + (6 \times 105) + 100 + (105 - 1) = 2.094$ Parameter schätzen. Die Anzahl der Regionen wird mit 105 multipliziert, da Media- und Kontrollvariablen Parameter auf geografischer Ebene haben. Das ergibt etwa 8 Datenpunkte pro Parameter und stellt eine strikte Untergrenze dar.
- Kulante Ansicht (Perfect Pooling): Wenn Sie von einem perfekten Informationsaustausch ausgehen (jeder Media- und Kontrollkanal hat einen gemeinsamen Parameter), hat das Modell $12 + 6 + 100 + (105 - 1) = 222$ Parameter. Das ergibt etwa 74 Datenpunkte pro Parameter. Diese Berechnung wird vom Verhältnis von Daten zu Parametern im EDA-Paket verwendet.
In jeder Ansicht werden die Media- und Kontrollparameter unterschiedlich berücksichtigt:
- Media-Parameter: In der strikten Ansicht (unabhängige Parameter auf geografischer Ebene) werden sie als $12 \times 105 = 1.260$ Parameter gezählt, in der kulanten Ansicht (ein gemeinsamer länderspezifischer Parameter) jedoch nur als $12$ Parameter.
- Kontrollparameter: In der strikten Ansicht (unabhängige Parameter auf geografischer Ebene) werden sie als $6 \times 105 = 630$ Parameter gezählt, in der kulanten Ansicht (ein gemeinsamer länderspezifischer Parameter) jedoch nur als $6$ Parameter.
In beiden Ansichten werden die Knoten und geografischen Parameter auf ähnliche Weise gezählt:
- Knoten: Jeder Knoten wird mit $100$ gezählt.
- Geografische Parameter: Für jede der 105 geografischen Einheiten werden $105 - 1 = 104$ Parameter gezählt, wobei eine geografische Baseline abgezogen wird.
Da in Meridian Partial Pooling (hierarchische Modellierung) verwendet wird, liegt die tatsächliche effektive Anzahl der „Datenpunkte pro Parameter“ irgendwo zwischen 8 (strikt) und 74 (kulant). Die tatsächliche Menge der ausgetauschten Informationen hängt davon ab, wie ähnlich die Parameter in den verschiedenen geografischen Einheiten sind. Dies wird durch die Daten und die hierarchischen Varianzparameter (eta_m und xi_c) bestimmt.
Die hierarchischen Varianzparameter (eta_m und xi_c) können nur durch Anpassen des Modells bestimmt werden. Aus diesem Grund geben wir kein einzelnes „richtiges“ Mindestverhältnis vor. Stattdessen gilt Folgendes:
- Die strikte Berechnung ist eine nützliche Denkaufgabe, um die potenzielle Komplexität und das Worst-Case-Szenario zu verstehen.
- Beim EDA-Paket wird die kulante Berechnung als praktische, kulante Richtlinie verwendet, um Fälle von schwerwiegendem Datenmangel zu erkennen, in denen das Modell auch bei perfekter Pooling-Methode unterbestimmt wäre.
Wenn Sie nicht genügend Daten für ein Modell auf geografischer Ebene erhalten, sollten Sie Media-Channels kombinieren oder einen Media-Channel mit geringen Ausgaben entfernen. Alternativ können Sie auf die hierarchischen Varianzterme eta_m und xi_c auch eine stärker regulierende Prior-Verteilung anwenden, z. B. HalfNormal(0.1). Dadurch wird das Teilen von Informationen zwischen verschiedenen Regionen gefördert.
Kann ich Daten auf Kampagnenebene verwenden?
Das Meridian-Modell orientiert sich ausschließlich an der Channel-Ebene. Wir empfehlen in der Regel nicht, MMM auf Kampagnenebene auszuführen. Es ist ein Makro-Tool, das gut auf Channel-Ebene funktioniert. Wenn Sie separate Kampagnen mit festen Start- und Endzeiten verwenden, besteht die Gefahr, den Erinnerungseffekt des Adstocks zu verlieren. Wenn Sie detailliertere Informationen benötigen, empfehlen wir die datengetriebene Multi-Touchpoint-Attribution für Ihre digitalen Channels.