Modellintegritätswert

Der Meridian-Modellintegritätswert bietet eine einheitliche Übersicht über die Modellintegrität. Dazu werden sechs einzelne Integritätsprüfungen zu einem Wert zwischen 0 und 100 zusammengefasst. Während einzelne Diagnosen detaillierte Einblicke in bestimmte Modellkomponenten liefern, bietet der Modellintegritätswert eine aggregierte Bewertung der Modellqualität für Kausalanalysen. Eine detaillierte Aufschlüsselung der zugrunde liegenden Prüfungen finden Sie unter Modellintegritätsprüfungen.

Integritätswerte interpretieren

Wir empfehlen, diese Werte als Orientierung zu interpretieren und nicht als absolute Bewertung der Modellqualität. Ein Wert von 90 oder höher deutet darauf hin, dass das Modell keine schwerwiegenden statistischen Probleme aufweist und sich in der Regel gut für Entscheidungszwecke eignet. Ein Wert von 70 oder weniger deutet hingegen auf potenzielle systematische Fehler hin. In diesem Fall empfehlen wir, die einzelnen Diagnosewerte genauer zu prüfen, um die Ursache zu ermitteln.

Wichtig: Ein Wert von 95 für Kausalanalysen ist nicht unbedingt besser als ein Wert von 90. In diesen hohen Bereichen spiegeln Variationen oft spezifische Besonderheiten der Channels oder Datenrauschen wider und nicht unbedingt einen aussagekräftigen Unterschied in der Zuverlässigkeit. Beispielsweise ist das Ausbleiben einer Verschiebung zwischen Prior- und Posteriorverteilung nicht immer ein negatives Signal. Es kann vielmehr darauf hinweisen, dass die Priorverteilung bereits gut mit den beobachteten Daten übereinstimmt. Wir empfehlen, die zugrunde liegenden Details der Integritätsprüfungen sorgfältig zu analysieren, um ein umfassendes Verständnis der Modellleistung zu erhalten und sicherzustellen, dass wichtige Ergebnisse wie ROI und Beitrag mit Ihren übergeordneten Geschäftszielen übereinstimmen.

Berechnung des Modellintegritätswerts

Die Logik des Integritätswerts folgt einer strengen Hierarchie, bei der die statistische Validität eine Voraussetzung für ein aussagekräftiges Ergebnis ist. Die Konvergenz des Modells ist dabei die primäre Voraussetzung. Wenn die MCMC-Ketten nicht konvergiert sind, sind die Posterior-Schätzungen unzuverlässig und der Modellintegritätswert ist null.

Bei konvergierten Modellen wird der Integritätswert als gewichteter Durchschnitt der Komponentenwerte ($S_i$) aus den durchgeführten Integritätsprüfungen berechnet, wie Güte der Anpassung, negative Baseline und ROI-Konsistenz:

$$ \text{Model health score} = \frac{\sum w_i S_i}{\sum w_i}, $$

Dabei steht $w_i$ für das zugewiesene Gewicht der einzelnen Prüfungen. Weitere Informationen finden Sie unter Gewichtung der einzelnen Integritätsprüfungen verstehen.

Für jede grundlegende Integritätsprüfung wird eine bestimmte mathematische Transformation verwendet, um ihr Ergebnis auf die Skala von 0 bis 100 abzubilden.

Bayesscher PPP-Wert (Posterior Predictive P)

Der bayessche PPP-Wert dient als grundlegende Plausibilitätsprüfung zur Bewertung der Modellanpassung. Anstatt als kontinuierlicher Qualitätsmesswert wird er als binärer Indikator dafür verwendet, ob ein Modell den Grenzwert für die statistische Plausibilität erreicht. Weitere Informationen finden Sie unter Bayesscher PPP-Wert (Posterior Predictive P).

  • PASS (bayesscher PPP-Wert >= 0.05): Komponentenwert = 100

  • FAIL (bayesscher PPP-Wert < 0.05): Komponentenwert = 0

Negative Baseline

Bei dieser Prüfung wird die Posterior-Wahrscheinlichkeit bewertet, dass die Baseline negativ ist ($P_{\text{neg baseline}}$). Die Bewertungsmethodik folgt dem Prinzip der Integritätsprüfungen: Eine Wahrscheinlichkeit von weniger als 0,2 gilt als vernachlässigbares statistisches Rauschen, während eine Wahrscheinlichkeit von mehr als 0,8 auf ein grundlegendes Modellproblem hinweist. Weitere Informationen zu dieser Prüfung finden Sie im Abschnitt Negative Baseline.

Transformation der Wahrscheinlichkeit einer negativen Baseline in einen Komponentenwert
  • PASS (Wahrscheinlichkeit einer negativen Baseline < 0.2): Komponentenwert = 100

  • REVIEW (Wahrscheinlichkeit einer negativen Baseline zwischen 0.2 und 0.8): Der Wert wird linear interpoliert:

$$ \text{Component score} = 100 \times \left(1-\frac{P_{\text{neg baseline}} - 0.2}{0.6}\right) $$
  • FAIL (Wahrscheinlichkeit einer negativen Baseline > 0.8): Komponentenwert = 0

Güte der Anpassung

Für Güte der Anpassung wird mit einer Sigmoid-Funktion der R-Quadrat-Wert auf die Skala von 0 bis 100 abgebildet. Dabei wird das Prinzip abnehmender Renditen berücksichtigt. Die Kurve bestraft schlechte Anpassungen stark, steigt im mittleren Bereich (0,3 bis 0,7) steil an und flacht ab, wenn sich R-Quadrat 1,0 nähert.

Sigmoid-Transformation von R-Quadrat in Komponentenwert

So wird verhindert, dass die Vorhersagegenauigkeit als primäres Mittel zum Erreichen eines höheren Integritätswerts optimiert wird, wenn die Kausalinferenz das eigentliche Ziel ist. Der zusätzliche Aufwand, eine Schätzung beispielsweise von 0,91 auf 0,93 zu verbessern, wird dabei bewusst geringer gewichtet, da solche Verbesserungen nicht unbedingt mit besseren kausalen Erkenntnissen einhergehen.

Prior-Posterior-Verschiebung für den ROI

Der Wert für Prior-Posterior-Verschiebung für den ROI wird aus der Fehlerrate abgeleitet. Diese ist als Verhältnis von nicht bestandenen Channels zur Gesamtzahl der anwendbaren Channels definiert und wird anschließend durch eine Potenztransformationsfunktion abgebildet.

Potenztransformation der Fehlerrate in den Komponentenwert
$$ \text{Component score} = 100 \times \left(1- \text{failure rate}\right)^{0.4} $$

Dadurch entsteht eine Toleranzzone für geringfügiges Rauschen in einzelnen Channels. Gleichzeitig wird sichergestellt, dass sich der Wert schnell verschlechtert, wenn Ausfälle im gesamten Marketing-Mix auftreten.

ROI-Konsistenz

Der Wert für ROI-Konsistenz wird aus der Channel-Fehlerrate abgeleitet. Dabei wird dieselbe Methode für die Potenztransformation verwendet wie für die Prior-Posterior-Verschiebung für den ROI. So wird sichergestellt, dass extreme ROI-Werte, die auf Probleme mit der Schätzung der Baseline oder der Modellspezifikation hinweisen können, im Integritätswert berücksichtigt werden.

Gewichtung der einzelnen Integritätsprüfungen verstehen

Der Integritätswert folgt einer kausalen Priorität, bei der geschäftliche Leitplanken und kausale Plausibilität stärker gewichtet werden als die reine Vorhersagekraft. Ein Modell, das Verlaufsdaten perfekt abbildet, aber gegen die grundlegende Geschäftslogik verstößt und z. B. eine negative Baseline vorschlägt, erhält einen niedrigen Wert. Dadurch wird sichergestellt, dass das Modell für Entscheidungsprozesse zuverlässig ist, anstatt lediglich hohe R-Quadrat-Werte zu belohnen. Die Gewichte, die jeder Prüfung zugewiesen werden, spiegeln eine begründete Hierarchie dieser Kriterien wider. Da es keine empirische Grundwahrheit für die relative Bedeutung dieser Diagnosen gibt, stellen die vorkonfigurierten Werte einen priorisierten Rahmen dar, der darauf ausgelegt ist, die Richtungszuverlässigkeit zu gewährleisten. Wir empfehlen, jede einzelne Prüfung zu untersuchen, um ein umfassendes Bild von der Modellintegrität zu erhalten.

Integritätsprüfung Gewicht
Negative Baseline 30 %
Bayesscher PPP-Wert 30 %
Güte der Anpassung (R-Quadrat) 10 %
Prior-Posterior-Verschiebung für den ROI 15 %
ROI-Konsistenz 15 %

Berechnung des Werts, wenn Prüfungen übersprungen werden

Um unterschiedlichen Modellkonfigurationen gerecht zu werden, wird für den Integritätswert eine dynamische Normalisierung verwendet. Wenn eine bestimmte Prüfung übersprungen wird, wird ihr Gewicht sowohl aus dem Zähler als auch aus dem Nenner entfernt. Die Prüfung der ROI-Konsistenz wird beispielsweise nicht durchgeführt, wenn Standard-Priors verwendet wurden. In solchen Fällen wird ihr Gewicht aus der Berechnung ausgeschlossen. Die verbleibenden Gewichte werden dann normalisiert, damit der endgültige Wert unabhängig von der Anzahl der aktiven Prüfungen auf einer Skala von 0 bis 100 bleibt.