Quantidade de dados necessários

Esta seção ajuda você a entender o volume necessário de dados. A orientação sobre a quantidade é aproximada e direcional, já que o valor real depende da natureza dos dados. A maneira mais precisa de avaliar isso é executar o modelo e avaliar a amplitude dos intervalos de credibilidade.

  • O tamanho dos dados é o número de regiões geográficas multiplicado pela quantidade de pontos de tempo.

  • Essas regiões e locais não são independentes. Por exemplo, 1.000 pontos de dados em uma configuração de Modelagem de Marketing Mix (MMM) não são o mesmo que 1.000 previsões de cara ou coroa ou 1.000 participantes atribuídos de forma aleatória em um experimento.

Consulte também as seções sobre modelos nacionais e geográficos.

Quantidade de dados para modelos nacionais

No modelo nacional do Meridian, os efeitos são modelados com parâmetros do modelo, cada um com distribuições a priori independentes. Para modelos nacionais, uma métrica importante de verificação de confiança é o número de pontos de dados por parâmetro do modelo. Por exemplo, se você tiver 12 canais de mídia, 6 controles e 8 nós, o total será 26 parâmetros. Para simplificar, ignore os parâmetros de Adstock e Hill. Com dois anos de dados semanais (104 pontos), você tem quatro pontos de dados por parâmetro. Esse tamanho de amostra é muito pequeno para estimar o modelo de maneira confiável. Além disso, a variação insuficiente no gasto de mídia prejudica os modelos nacionais. Para mais informações sobre os nós, consulte a seção Como o argumento knots funciona.

Já que é difícil coletar dados suficientes para um modelo nacional, você pode fazer o seguinte:

  • Diminuir o escopo da MMM. É possível estimar menos canais de mídia (removendo um canal com gastos baixos ou combinando canais), usar menos parâmetros de nó para estimar os efeitos de tempo (se você não estiver usando a configuração padrão knots=1) e remover controles irrelevantes. Mas não remova variáveis de confusão importantes.

  • Coletar muito mais dados. Por exemplo, use 3 anos de informações semanais em vez de 2. Adicionar mais dados reduz a variância, mas pode deixar a inferência menos relevante.

  • Adicionar granularidade geográfica aos seus dados e usar um modelo geográfico em vez de diminuir o escopo ou adicionar mais informações.

Considere o exemplo hipotético anterior para o modelo nacional. Você pode diminuir os canais de mídia de 12 para 3 e reduzir os nós para 2. Além disso, talvez você reconheça que um dos seus controles explica o KPI, mas não a mídia, o que significa que ele não é uma variável de confusão real e pode ser removido. Se você também usar 3 anos de informações semanais, haverá 156 pontos de dados para estimar 10 parâmetros. São aproximadamente 15 pontos de dados por parâmetro, e agora você pode coletar algumas informações direcionais da MMM.

Quantidade de dados para modelos geográficos

O número de pontos de dados por efeito estimado pelo modelo geográfico continua sendo uma métrica importante para verificar a confiança. No entanto, contar o número de efeitos usando o número de parâmetros do modelo não é tão simples neste quanto no nacional. A complexidade surge porque a hierarquia geográfica compartilha informações entre regiões. Por isso, os parâmetros no nível geográfico são dependentes, e não independentes. A quantidade de informações compartilhadas entre essas regiões geográficas é importante.

Por exemplo, 105 regiões geográficas e 3 anos de dados semanais geram $105 \times 156 = 16,380$ pontos de dados. Se você estimar 12 canais de mídia, 6 controles e 100 nós, poderá avaliar a suficiência de dados de duas maneiras (ignore os parâmetros de Adstock e Hill para simplificar):

  • Perspectiva estrita (sem pooling): se você não pressupõe compartilhamento de informações entre regiões geográficas, precisa estimar $(12 \times 105) + (6 \times 105) + 100 + (105 - 1) = 2,094$ parâmetros. A multiplicação é por 105 porque a mídia e os controles têm parâmetros no nível geográfico. Isso gera cerca de 8 pontos de dados por parâmetro e representa um limite inferior estrito.
  • Perspectiva flexível (pooling perfeito): se você pressupõe o compartilhamento perfeito de informações (cada canal de mídia e de controle tem um parâmetro comum), o modelo terá $12 + 6 + 100 + (105 - 1) = 222$ parâmetros. Isso gera cerca de 74 pontos de dados por parâmetro, que é o cálculo usado pela Proporção de dados por parâmetro no pacote de EDA.

Cada perspectiva conta os mesmos parâmetros de mídia e controle de maneira diferente:

  • Parâmetros de mídia: contados como $12 \times 105 = 1,260$ parâmetros na perspectiva estrita (parâmetros independentes no nível geográfico), mas apenas $12$ parâmetros na perspectiva flexível (um parâmetro nacional comum).
  • Parâmetros de controle: contados como $6 \times 105 = 630$ parâmetros na perspectiva estrita (parâmetros independentes no nível geográfico), mas apenas $6$ parâmetros na perspectiva flexível (um parâmetro nacional comum).

Cada perspectiva conta os nós e parâmetros geográficos de maneira semelhante:

  • Nós: contados como $100$ para cada um dos nós.
  • Parâmetros geográficos: contados como $105 - 1 = 104$ para cada uma das 105 regiões, com uma região de referência subtraída.

Na realidade, como o Meridian usa pooling parcial (modelagem hierárquica), o número real de "pontos de dados por parâmetro" fica entre 8 e 74. A quantidade real de informações compartilhadas depende da semelhança dos parâmetros em diferentes regiões geográficas, que é determinada pelos dados e pelos parâmetros de variância hierárquica (eta_m e xi_c).

A única maneira de determinar os parâmetros de variância hierárquica (eta_m e xi_c) é ajustando o modelo. Por isso, evitamos prescrever uma única proporção mínima "correta". Em vez disso:

  • O cálculo estrito serve como um exercício mental útil para entender a complexidade potencial e o pior cenário possível.
  • O pacote de EDA usa o cálculo flexível como um mecanismo de proteção prático e flexível para identificar situações de escassez grave de dados em que o modelo seria subdeterminado mesmo em um pooling perfeito.

Se você tiver dificuldade para coletar dados suficientes para um modelo geográfico, recomendamos combinar canais de mídia ou remover um canal com poucos gastos. Também é possível usar uma distribuição a priori mais regularizadora nos termos de variância hierárquica eta_m e xi_c (por exemplo, HalfNormal(0.1)), o que vai incentivar o compartilhamento de informações entre regiões.

Posso usar dados no nível da campanha?

O modelo do Meridian se concentra apenas no nível do canal. Geralmente, não recomendamos a execução no nível da campanha porque a MMM é uma ferramenta macro que funciona bem no canal. Se você usa campanhas distintas com inícios e paradas definidos, corre o risco de perder a memória de Adstock. Se quiser insights mais detalhados, recomendamos a atribuição multitoque orientada por dados para seus canais digitais.