Erforderliche Datenmenge

Dieser Abschnitt kann ein Gefühl dafür vermitteln, wie viele Daten Sie benötigen. Die Empfehlungen sind nur grobe Richtwerte. Die tatsächliche Menge richtet sich danach, wie die Daten beschaffen sind.

  • Die Datenmenge entspricht der Anzahl der geografischen Einheiten multipliziert mit der Anzahl der Zeitpunkte.

  • Diese Zeitpunkte und geografischen Einheiten sind nicht voneinander unabhängig. 1.000 Datenpunkte beim Marketing Mix Modeling (MMM) sind beispielsweise nicht mit 1.000 Münzwürfen oder 1.000 zufällig ausgewählten Teilnehmern in einem Test vergleichbar.

Weitere Informationen finden Sie in den Abschnitten zu länderspezifischen und geografischen Modellen.

Datenmenge für länderspezifische Modelle

Ein wichtiger Messwert zur Überprüfung des Vertrauens in länderspezifische Modelle ist die Anzahl der Datenpunkte pro Effekt, den Sie messen und analysieren möchten. Wenn Sie beispielsweise 12 Media-Channels, 6 Kontrollvariablen und 8 Knoten haben, ergibt das insgesamt 26 Effekte. Ignorieren Sie für dieses Beispiel der Einfachheit halber Dinge wie Adstock- und Hill-Parameter. Wenn Sie wöchentliche Daten aus zwei Jahren haben, sind das 104 Datenpunkte und 4 Datenpunkte pro Effekt. Dies ist ein Szenario mit einer geringen Stichprobengröße, bei dem die Daten nicht ausreichen. Außerdem wirkt sich eine unzureichende Variation der Media-Ausgaben negativ auf länderspezifische Modelle aus. Weitere Informationen zu Knoten finden Sie unter Funktionsweise des Arguments knots.

Da es schwierig ist, genügend Daten für ein länderspezifisches Modell zu erhalten, haben Sie folgende Möglichkeiten:

  • Umfang des MMM verringern: Sie können die Schätzung auf weniger Media-Channels beschränken. Dazu können Sie entweder einen Channel mit niedrigen Ausgaben entfernen oder Channels kombinieren. Alternativ haben Sie die Möglichkeit, weniger Knoten für die Schätzung von Zeiteffekten zu verwenden und alle überflüssigen Kontrollvariablen zu entfernen. Sie dürfen jedoch keine wichtigen Störfaktoren entfernen.

  • Viel mehr Daten erhalten: Sie können beispielsweise wöchentliche Daten von 3 statt 2 Jahren verwenden. Wenn Sie mehr Daten berücksichtigen, verringert sich die Varianz bei der Inferenz, die Inferenz wird aber möglicherweise weniger relevant.

  • Sie können auch den geografischen Detaillierungsgrad Ihrer Daten erhöhen und ein geografisches Modell verwenden, anstatt den Umfang einzugrenzen oder mehr Daten hinzuzufügen.

Denken Sie an das vorherige hypothetische Beispiel für das länderspezifische Modell. Sie können die 12 Media-Channels in 3 Channels kombinieren und die Knoten auf 2 reduzieren. Möglicherweise stellen Sie auch fest, dass eine Ihrer Kontrollvariablen die KPI erklärt, aber nicht die Media. Das bedeutet, dass sie kein echter Störfaktor ist und entfernt werden kann. Wenn Sie außerdem wöchentliche Daten aus 3 Jahren verwenden, sind 156 Datenpunkte vorhanden, um 10 Effekte zu schätzen. Das sind etwa 15 Datenpunkte pro Effekt. Jetzt können Sie aus dem MMM möglicherweise einige richtungsweisende Informationen ableiten.

Datenmenge für geografische Modelle

Die Anzahl der Datenpunkte pro Effekt, den Sie messen und analysieren möchten, ist weiter ein wichtiger Messwert zur Überprüfung des Vertrauens. Aufgrund der geografischen Hierarchie ist er jedoch nicht so leicht zu interpretieren. Wenn Sie beispielsweise 12 Media-Channels, 6 Kontrollvariablen, 100 Knoten und 105 Regionen haben, müssen Sie etwa 1.990 Effekte schätzen: $(12 \times 105) + (6 \times 105) + 100 = 1.990$. Die Anzahl der Regionen wird mit 105 multipliziert, da Media und Kontrollvariablen Auswirkungen auf geografischer Ebene haben. Wenn Sie wöchentliche Daten aus 3 Jahren haben, müssen Sie etwa 16.380 Datenpunkte schätzen: $105 \times (52 \times 3) = 16.380$. Das entspricht etwa 8 Datenpunkten pro Effekt. Ignorieren Sie für dieses Beispiel der Einfachheit halber Dinge wie Adstock- und Hill-Parameter.

Ein wichtiges Detail, das in diesem Beispiel nicht berücksichtigt wurde, ist, dass durch die Definition einer geografischen Hierarchie die Media- und Kontrolleffekte auf geografischer Ebene nicht unabhängig voneinander sind. Das bedeutet, dass Daten geteilt werden, wenn die Wirkung von Media-Channel 1 auf Region 1 und von Media-Channel 1 auf Region 2 geschätzt wird. Das gilt in ähnlicher Weise auch für Kontrollvariablen. Da Daten geteilt werden, haben Sie in Wirklichkeit mehr als 8 Datenpunkte pro Effekt. Wie viele Daten geteilt werden, hängt davon ab, wie ähnlich die Auswirkungen auf die verschiedenen Regionen sind. Dies kann durch die Parameter eta_m und xi_c bestimmt werden.

Wenn Sie nicht genügend Daten für ein Modell auf geografischer Ebene erhalten, sollten Sie Media-Channels kombinieren oder einen Media-Channel mit geringen Ausgaben entfernen. Alternativ können Sie auf die hierarchischen Varianzterme eta_m und xi_c auch eine stärker regulierende Prior-Verteilung anwenden, z. B. HalfNormal(0.1). Dadurch wird das Teilen von Informationen zwischen verschiedenen Regionen gefördert.

Kann ich Daten auf Kampagnenebene verwenden?

Das Meridian-Modell orientiert sich ausschließlich an der Channel-Ebene. Wir empfehlen in der Regel nicht, MMM auf Kampagnenebene auszuführen. Es ist ein Makro-Tool, das gut auf Channel-Ebene funktioniert. Wenn Sie separate Kampagnen mit festen Start- und Endzeiten verwenden, besteht die Gefahr, den Erinnerungseffekt des Adstocks zu verlieren. Wenn Sie detailliertere Informationen benötigen, empfehlen wir die datengetriebene Multi-Touchpoint-Attribution für Ihre digitalen Channels.