Variables de control

Accede a las diferentes secciones de este artículo:

Descripción general de las variables de control

Las variables de control son variables del modelo que no representan variables de tratamiento. Se usan para estimar el resultado del modelo de referencia, que es el resultado esperado que se produciría en la situación contrafáctica en la que cada variable de tratamiento se establezca en su valor de referencia para todos los períodos y ubicaciones geográficas. (El valor de referencia siempre se asigna a cero para las variables de medios, pero suele ser distinto de cero para los tratamientos que no son de medios). Las variables de control mejoran la estimación del resultado de referencia y del efecto causal de las variables de tratamiento en el resultado.

Las variables de control se pueden clasificar de la siguiente manera:

  • Variables de confusión: Tienen un efecto causal en los tratamientos y el KPI. Incluir estas variables reduce el sesgo de las estimaciones causales de los tratamientos en el KPI.

  • Variables predictoras: Tienen un efecto causal en el KPI, pero nada más que eso. Incluir estas variables no ayuda a reducir el sesgo del efecto causal de los tratamientos. Sin embargo, los predictores sólidos pueden reducir la varianza de las estimaciones causales.

Otro tipo de variable son las variables mediadoras. Son variables que se encuentran en la cadena causal entre el tratamiento y el KPI. En otras palabras, tienen un efecto causal en el KPI y se ven afectadas de manera causal por los tratamientos. Las variables mediadoras no se deben incluir como variables de control, ya que esto generaría un sesgo en las estimaciones de inferencia causal de las variables de tratamiento.

Las relaciones causales entre los tipos de variables se explican en el siguiente gráfico acíclico dirigido (DAG) causal, que ayuda a conocer el efecto causal de los medios en el KPI. En los nombres de los nodos, el número 1 denota los valores de las variables en el período 1; el número 2, los valores de las variables en el período 2, y así sucesivamente. La figura solo muestra los nodos de los períodos 1 y 2, pero cabe suponer que continúa con períodos \(T\) indefinidos.

DAG sobre el efecto causal de los tratamientos en el KPI

Cómo seleccionar variables de control

El propósito del modelado de combinación de marketing (MMM) es la inferencia causal de los efectos de los medios, no la exactitud de las predicciones. Por lo tanto, el objetivo principal de las variables de control es mejorar la inferencia del efecto causal de los tratamientos en el KPI. No es necesario ni recomendable incluir todas las variables predictoras que podrían mejorar la precisión de las predicciones dentro o fuera de la muestra. La implementación de pequeñas mejoras en la precisión de la predicción no garantiza una mayor precisión de la inferencia causal. El uso de demasiadas variables predictoras puede inflar la varianza de las estimaciones causales y aumentar el riesgo de sesgo por especificaciones incorrectas en el modelo.

Cuando intercambies ideas sobre las posibles variables de confusión que se deberán incluir en el modelo, te recomendamos que te enfoques en identificar las variables que afectan las decisiones de marketing o que son importantes para los responsables de la toma de decisiones. Esto se debe a que la mayoría de las variables que afectan las decisiones de marketing también tienen un impacto en el KPI y, por lo tanto, son variables de confusión. En cambio, es casi imposible crear una lista completa de las variables que afectan el KPI, que, a su vez, no son factores de confusión, salvo que también afecten las decisiones de marketing.

En principio, los gerentes de marketing pueden proporcionar una lista de toda la información cuantificable que se utilizó para tomar las decisiones sobre el presupuesto, aunque, en realidad, podría ser difícil compilar una lista exhaustiva. A continuación, se indican algunas preguntas básicas que puedes hacerles a los gerentes de marketing:

  1. A nivel trimestral o anual, ¿cómo se decidió el presupuesto total de medios?
  2. ¿Cómo decidieron la asignación en los diferentes canales de medios?
  3. En cada período anual, ¿cómo decidieron las semanas de presupuesto alto y bajo?
  4. ¿Hay aumentos repentinos en la inversión que correspondan a ciertos eventos, como las festividades o los lanzamientos de productos?
  5. En relación con las preguntas 1 a 4, ¿qué fuentes de datos se correlacionan más con las decisiones sobre el presupuesto? Por ejemplo, los valores de KPI o las variables económicas de los años anteriores.
  6. ¿Utilizaste algún medio orgánico?, ¿qué influyó en esa decisión?
  7. ¿Se utilizó algún tratamiento no relacionado con medios, como cambios de precio o promociones?, ¿cómo decidieron cuándo y cómo aplicar estos cambios?

En última instancia, nuestras recomendaciones para las variables de control son las siguientes:

  • Incluye variables de confusión.
  • Excluye las variables mediadoras.
  • Incluye predictores sólidos que puedan reducir la varianza de las estimaciones causales.
  • No incluyas demasiadas variables con el único propósito de optimizar la exactitud predictiva, ya que esto puede aumentar el riesgo de sesgo por especificación incorrecta del modelo.

Cómo extraer muestras de las distribuciones a priori y a posteriori de los coeficientes de control

Las muestras de las distribuciones a priori y a posteriori para los coeficientes de control se almacenan en el objeto Meridian y se pueden extraer para crear intervalos, o bien otras métricas de resumen que pueden ayudarte a determinar qué controles son pertinentes.

Si el nombre del objeto Meridian es mmm, las muestras de la distribución a priori y a posteriori para los coeficientes de control se pueden hallar, respectivamente, con mmm.inference_data.prior.gamma_c y mmm.inference_data.posterior.gamma_c.

Consideraciones para incluir el volumen de búsquedas como una variable de control

Como se mencionó en Cómo seleccionar variables de control, es necesario incluir variables de confusión para reducir el sesgo del efecto causal de los tratamientos en el KPI. La exclusión de variables mediadoras también es necesaria para obtener estimaciones causales sin sesgo. El volumen de búsquedas puede ser un mediador para algunos canales de medios, pero una variable de confusión para otros. Por ejemplo, el volumen de búsquedas es definitivamente una variable de confusión para los anuncios de búsqueda, ya que una búsqueda pertinente suele ser un requisito previo para un anuncio de búsqueda. Sin embargo, otros tipos de medios pueden impulsar el comportamiento de búsquedas, por lo que el volumen de búsquedas es un mediador para esos canales de medios. Para obtener más información, consulta Modelado de búsqueda pagada.

Como deseas estimar el efecto del tratamiento conjunto de todos los canales de medios, debes usar un solo modelo para la inferencia. Por lo tanto, debes decidir si suponer que el volumen de búsquedas es una variable de confusión y, luego, incluirlo en el modelo, o bien suponer que es un mediador y, luego, excluirlo del modelo. Basa la suposición seleccionada en las siguientes consideraciones:

  • Los canales que son más importantes para obtener estimaciones sin sesgo
  • Las fortalezas supuestas de las relaciones entre los tratamientos, el volumen de búsquedas y el KPI
  • La cantidad supuesta de canales en los que el volumen de búsquedas es una variable de confusión en lugar de una variable mediadora

Creemos que suponer que el volumen de búsquedas es un factor de confusión y, luego, incluirlo en el modelo será la decisión correcta la mayoría de las veces debido a la fuerza relativa de la relación entre el volumen de búsquedas y los medios de búsqueda. Sin embargo, la decisión depende del caso de uso.

Cómo usar variables rezagadas

En el caso de ciertas variables de control \(Z\), puede ser conveniente incluir valores rezagados. Por ejemplo, en cada semana \(t\), incluye \(Z_{t-1},\dots ,Z_{t-L}\)para algún valor de \(L\). Te recomendamos que solo lo hagas si crees que los valores rezagados \(t-1, \dots ,t-L\) tienen un efecto causal en el KPI en la semana \(t\).

Cuándo no se necesitan variables de control rezagadas

El siguiente diagrama muestra un grafo acíclico dirigido (DAG) causal en el que se supone que los tratamientos tienen un efecto rezagado, pero los controles no. Conforme a este DAG, no se necesitan controles de rezago. En los nombres de los nodos, el número 1 denota los valores de las variables en el período 1; el número 2, los valores de las variables en el período 2. La figura solo muestra los nodos de los períodos 1 y 2, pero cabe suponer que continúa con períodos \(N\) indefinidos.

Con los criterios de puerta trasera (Pearl, J. 2009), puedes estimar el efecto causal de los tratamientos en el KPI de la semana 2 ajustando un modelo de regresión para estimar\(E\bigl( K2 \big| T2,T1,C2 \bigr) = E\bigl( K2^{(T2, T1)} \big| C2 \bigr)\). No se necesitan variables de control anteriores (\(C1\)).

No se necesitan variables de control rezagadas

Cuándo se necesitan variables de control rezagadas

El siguiente diagrama es un DAG causal en el que se necesitan variables de control rezagadas. Nuevamente, la cantidad en los nombres de los nodos corresponde al período. Para estimar el efecto causal de los tratamientos en el KPI de la semana 2, debes condicionar las variables de control de la semana 1 con un efecto rezagado en el KPI. No hacerlo dará como resultado una ruta desbloqueada \(T1 \leftarrow L1 \rightarrow K2\). Con los criterios de puerta trasera, puedes ajustar un modelo de regresión para estimar \(E\bigl( K2 \big| T2,T1,C2,L2,L1 \bigr) = E\bigl( K2^{(T2,T1)} \big| C2,L2,L1 \bigr)\).

Se necesitan variables de control rezagadas

El diagrama anterior es un DAG simplificado de 2 semanas, pero, en general, para cada semana\(t\), debes incluir las variables de control de la semana \(t,t-1, \dots ,t-L\), en la que\(L\) es el retraso más largo en el que se cree que las variables de control aún afectan el KPI. El valor de \(L\) puede diferir según la variable de control.

En la práctica, puedes truncar \(L\) en un valor razonable para no inflar la varianza del modelo por el hecho de agregar demasiadas variables. En muchos casos, puede ser razonable ignorar por completo los controles rezagados si los efectos rezagados son relativamente débiles. Este tipo de simplificación del modelo se puede considerar como una compensación entre la varianza y el sesgo.

Cómo ajustar las variables de control según la población

De forma predeterminada, el KPI y la ejecución de los medios orgánicos y pagados se ajustan según la población. Las variables de control no se ajustan según la población de forma predeterminada porque algunas de ellas, como la temperatura, no deberían ajustarse según la población. Sin embargo, algunas variables de control, como las impresiones de la competencia, deben ajustarse según la población para maximizar su correlación con el KPI de ajuste según la población y con las variables de medios. Estas variables se pueden escalar con el argumento control_population_scaling_id en ModelSpec. Del mismo modo, los tratamientos que no son de medios no se ajustan de forma predeterminada. Estas variables se pueden escalar con non_media_population_scaling_id en ModelSpec.

Motivos por los que los controles no tienen inferencia causal ni desglose del modelo de referencia

Los efectos causales y los porcentajes de contribución están disponibles para los tratamientos de medios pagados, medios orgánicos y no relacionados con medios en Meridian. Según el grafo causal, los efectos de regresión de estos tipos de variables se pueden interpretar como efectos causales. Sin embargo, los efectos de regresión de las variables de control no se pueden interpretar como efectos causales. Por este motivo, Meridian no estima los efectos causales ni los porcentajes de contribución de las variables de control.

Además, Meridian no desglosa el resultado del modelo de referencia en porcentajes de asignación por variable de control. Definitivamente, algunas variables de control afectan la precisión de la predicción del modelo más que otras. Sin embargo, esto tiene más que ver con la varianza que cada variable aporta a las estimaciones del resultado esperado que con el componente aditivo de cada variable del cálculo del resultado esperado. En realidad, hay una ambigüedad en cuanto al modo en que se define la asignación de resultados del modelo de referencia para las variables de control. Una posible definición podría ser el cambio que se produce en el resultado esperado cuando cada variable de control se establece en cero para todas las ubicaciones geográficas y todos los períodos. Sin embargo, esta cantidad no tiene un significado práctico porque no representa el efecto causal ni la importancia predictiva de la variable de control. Además, un valor de cero puede no ser significativo (o incluso posible) a nivel práctico para todas las variable de control, lo que dificulta aún más la interpretación.

Una variable puede tener un coeficiente y un componente aditivo grandes en el cálculo del resultado esperado y, aun así, tener poca importancia como predictora del KPI. Esto es especialmente cierto para las variables con varianza baja. Quitar una variable de este tipo del modelo podría tener poco impacto en las estimaciones de resultados esperados si el efecto aditivo se puede absorber en la intercepción.

Consulta Variables de tratamiento de medios orgánicos y no relacionadas con medios para obtener más información sobre estos tipos de variables.