Esta sección puede ayudarte a darte una idea de cuántos datos necesitas. La información sobre la cantidad de datos necesarios es aproximada y orientativa, ya que la respuesta real depende de cómo sean los datos. La forma más precisa de evaluar esto es ejecutar el modelo y analizar la amplitud de los intervalos creíbles.
El tamaño de los datos es la cantidad de ubicaciones geográficas multiplicada por la cantidad de puntos temporales.
Estos puntos temporales y ubicaciones geográficas no son independientes. Por ejemplo, tener 1,000 datos en una configuración de modelado de combinación de marketing (MMM) no es lo mismo que lanzar una moneda 1,000 veces o asignar 1,000 participantes al azar en un experimento.
Consulta también las secciones sobre modelos nacionales y geográficos.
Cantidad de datos para los modelos nacionales
En el modelo nacional de Meridian, los efectos se modelan con parámetros del modelo, cada uno con distribuciones a priori independientes. En el caso de los modelos nacionales, una métrica clave para validar la confianza es la cantidad de datos por parámetro del modelo. Por ejemplo, si tienes 12 canales de medios, seis variables de control y ocho nudos, el total es de 26 parámetros. Con el objetivo de mantener este ejemplo simple, ignoraremos los parámetros de Adstock y Hill. Con dos años de datos semanales (104 datos), tienes cuatro datos por parámetro. El tamaño de esta muestra es demasiado bajo para estimar el modelo de forma confiable. Además, la variación insuficiente en la inversión en medios tiene un impacto negativo en los modelos nacionales. Para obtener más información sobre los nudos, consulta Cómo funciona el argumento de nudos (knots).
Dado que es difícil obtener suficientes datos para un modelo nacional, puedes hacer lo siguiente:
Reduce el alcance del MMM. Puedes hacer estimaciones para menos canales de medios (ya sea descartando un canal con baja inversión o combinando canales), usar menos parámetros de nudos para estimar los efectos del tiempo (si no usas el parámetro de configuración predeterminado
knots=1) y quitar las variables de control innecesarias. Sin embargo, no debes quitar las variables de confusión importantes.Obtén muchos más datos. Por ejemplo, usa datos semanales de tres años en lugar de dos. Si agregas más datos, se reducirá la varianza en la inferencia, pero la inferencia podría volverse menos pertinente.
Como alternativa, considera agregar detalles geográficos a tus datos y usar un modelo geográfico en lugar de reducir el alcance o agregar más datos.
Considera el ejemplo hipotético anterior del modelo nacional. Puedes combinar los 12 canales de medios en tres y reducir los nudos a dos. También podrías observar que una de tus variables de control explica el KPI, pero no los medios, lo que significa que no es una verdadera variable de confusión y puedes quitarla. Si también usas datos semanales de tres años, tendrás 156 datos para estimar 10 parámetros. Esto equivale a unos 15 datos por parámetro, por lo que el MMM ahora podría brindarte cierta información orientativa.
Cantidad de datos para los modelos geográficos
La cantidad de datos por efecto que estima el modelo geográfico sigue siendo una métrica importante para verificar la confianza. Sin embargo, el registro de la cantidad de efectos usando la cantidad de parámetros del modelo no es tan sencillo en el modelo geográfico como en el modelo nacional. La complejidad surge porque la jerarquía geográfica comparte información entre las ubicaciones geográficas, lo que hace que los parámetros a nivel geográfico sean dependientes en lugar de independientes. La cantidad de información que se comparte entre estas ubicaciones geográficas influye.
Por ejemplo, 105 ubicaciones geográficas y tres años de datos semanales generan $105 \times 156 = 16,380$ datos. Si estimas 12 canales de medios, seis variables de control y 100 nudos, puedes evaluar la suficiencia de los datos desde dos perspectivas (para simplificar, ignora los parámetros de Adstock y Hill):
- Vista estricta (sin agrupación): Si supones que no se comparte información entre las ubicaciones geográficas, debes estimar $(12 \times 105) + (6 \times 105) + 100 + (105 - 1) = 2,094$ parámetros. Debes multiplicar por 105 porque los medios y las variables de control tienen parámetros a nivel geográfico. Esto genera alrededor de 8 datos por parámetro y representa un límite inferior estricto.
- Vista flexible (agrupación perfecta): Si supones que hay un intercambio de información perfecto (cada canal de medios y de control tiene un parámetro común), el modelo tiene $12 + 6 + 100 + (105 - 1) = 222$ parámetros. Esto genera alrededor de 74 datos por parámetro, que es el cálculo que se usa en la proporción entre datos y parámetros en el paquete de EDA.
Cada vista cuenta los mismos parámetros de medios y de control de manera diferente:
- Parámetros de medios: Se consideran $12 \times 105 = 1,260$ en la vista estricta (parámetros independientes a nivel geográfico), pero solo $12$ parámetros en la vista flexible (un parámetro nacional común).
- Parámetros de control: Se consideran como $6 \times 105 = 630$ parámetros en la vista estricta (parámetros independientes a nivel geográfico), pero solo $6$ parámetros en la vista flexible (un parámetro nacional común).
Cada vista cuenta los nudos y los parámetros geográficos de manera similar:
- Nudos: Se cuentan como $100$ por cada nudo.
- Parámetros geográficos: Se cuentan como $105 - 1 = 104$ para cada una de las 105 ubicaciones geográficas, con una ubicación geográfica de referencia restada.
En realidad, como Meridian usa la agrupación perfecta (modelado jerárquico), la cantidad real de "puntos de datos por parámetro" se encuentra entre el estricto 8 y el flexible 74. La cantidad real de información que se comparte depende de la similitud de los parámetros en las diferentes ubicaciones geográficas, lo que se determina a partir de los datos y los parámetros de varianza jerárquica (eta_m y xi_c).
La única forma de determinar los parámetros de varianza jerárquica (eta_m y xi_c) es ajustar el modelo. Por este motivo, evitamos prescribir una sola proporción mínima "correcta". En cambio, considera lo siguiente:
- El cálculo estricto sirve como un ejercicio mental útil para comprender la complejidad potencial y el peor de los casos.
- El paquete de EDA usa el cálculo flexible como una guía práctica y flexible para identificar la escasez grave de datos en la que el modelo estaría subdeterminado incluso con una agrupación perfecta.
Si tienes dificultades para obtener suficientes datos para un modelo a nivel geográfico, te recomendamos combinar los canales de medios o descartar uno que tenga una inversión baja. También puedes aplicar una mayor regularización a priori en los términos de varianza jerárquica eta_m y xi_c, por ejemplo, HalfNormal(0.1), lo que fomentará el uso compartido de información entre las diferentes ubicaciones geográficas.
¿Puedo usar datos a nivel de la campaña?
El modelo Meridian se enfoca solo a nivel del canal. No solemos recomendar ejecutarlo a nivel de la campaña, ya que el MMM es una herramienta macro que funciona bien a nivel del canal. Si usas distintas campañas con fechas de inicio y finalización estrictas, corres el riesgo de perder el efecto acumulativo del Adstock. Si te interesa obtener estadísticas más detalladas, te recomendamos usar la atribución de múltiples puntos de contacto basada en datos para tus canales digitales.