Depois de coletar seus dados, faça uma análise de dados detalhada (EDA, na sigla em inglês) para encontrar e resolver problemas de qualidade de dados. Essa é uma etapa fundamental no processo de Modelagem de Marketing Mix (MMM), porque permite avaliar os dados para confirmar se eles representam com precisão os esforços de marketing, as respostas dos clientes e outras métricas relevantes. Ao corrigir os problemas detectados pelo processo de EDA, é possível melhorar a confiabilidade da saída do modelo.
Processo básico da EDA:
- Faça uma análise para identificar dados ausentes ou incompletos.
- Corrija valores ausentes nos arquivos de entrada.
- Avalie a precisão dos dados.
- Corrija anomalias, outliers ou imprecisões nos dados.
- Verifique a correlação entre as variáveis de KPI, mídia e controle.
Como há muitas maneiras de abordar a EDA, e o Meridian não fornece as visualizações para esse processo. Recomendamos que você encontre o equilíbrio certo para suas necessidades entre uma análise granular completa, que oferece maior confiança, e uma verificação rápida geral dos dados, que proporciona insights menos detalhados.
Diretrizes na criação das suas próprias visualizações para ajudar com a EDA:
Verifique a totalidade dos dados: para saber há valores ausentes, crie gráficos que mostram a porcentagem do total de dados para cada variável (canal) e investigue aquelas que aparecem como incompletas.
Para refinar ainda mais a EDA, crie visualizações que mostram o número de observações por ano, mês, semana e dia da semana. Procure observações inesperadamente mais baixas em qualquer período.
Verifique a acurácia dos dados: eles devem ser precisos e livres de anomalias ou outliers que possam distorcer os resultados. As visualizações para verificar a precisão podem incluir comparar a parcela do gasto de mídia de cada canal e acompanhar a tendência de um canal para identificar algo incomum. É possível comparar essas visualizações com o plano de mídia ou trabalhar com a equipe de marketing para identificar se os dados são precisos e têm detalhes suficientes.
Confira o tamanho dos canais: analise a porcentagem de gastos. É difícil fazer estimativas se o canal gasta pouco. Talvez seja melhor combinar esses canais com outros.
Verifique a variabilidade da execução de mídia dos canais: em canais com baixa variabilidade na execução de mídia (impressões, cliques etc.), é mais difícil fazer estimativas. Use uma distribuição a priori personalizada se tiver informações relevantes para o canal.
Verifique a correlação entre variáveis: embora a correlação entre variáveis de KPI, mídia e controle não seja obrigatória, essas visualizações podem ajudar nestes casos de uso:
Medir a correlação entre as variáveis de mídia e controle para identificar alguma relação inesperada. Isso ajuda você a decidir se deve manter ou remover alguma variável de mídia ou controle.
Identificar a multicolinearidade. Quando duas ou mais variáveis de média e controle têm alta correlação entre si, elas criam multicolinearidade. Com isso, os modelos de regressão têm dificuldade para calcular o impacto das variáveis colineares. Ao identificar a multicolinearidade na análise de dados, você pode decidir quais variáveis incluir ou excluir do modelo.
Quando tiver certeza de que as informações estão completas e são precisas, você pode carregar os dados usando um formato compatível e criar seu modelo.
Verificações de dados automatizadas
O Meridian tem verificações de dados automatizadas para capturar problemas críticos que levam à não convergência ou a resultados de modelos não confiáveis. Essas verificações são executadas em chamadas sample_posterior ou ao inicializar o objeto Meridian. Se algum problema crítico for encontrado nos dados, a amostragem a posteriori não será executada. Em vez disso, um erro será impresso detalhando o problema crítico e as ações para correção. Essas verificações economizam tempo e melhoram a confiabilidade do modelo, alertando sobre problemas críticos antes da amostragem completa da distribuição a posteriori. Todas as verificações de dados automatizadas são realizadas nos dados dimensionados automaticamente usados para ajustar o modelo. Para mais informações sobre o escalonamento de dados do Meridian, consulte Dados de entrada.
As seguintes verificações críticas são feitas automaticamente no seu conjunto de dados:
Correlação aos pares
A correlação de Pearson é calculada entre todas as unidades de tratamento escalonadas (incluindo alcance escalonado $\times$ frequência para canais de RF e ORF) e variáveis de controle escalonadas.
Para um modelo geográfico, a correlação aos pares é calculada em todas as regiões e períodos. Ou seja, para qualquer uma das duas variáveis $\mathbf{X}_1$ e $\mathbf{X}_2$, calcula-se $Corr(\mathbf{X}_1, \mathbf{X}_2)$, em que
\[ \begin{align*} \mathbf{X}_1 &= ( x_{g_1, t_1, 1}, x_{g_1, t_2, 1}, \cdots, x_{g_2, t_1, 1}, x_{g_2, t_2, 1}, \cdots ) \\ \mathbf{X}_2 &= ( x_{g_1, t_1, 2}, x_{g_1, t_2, 2}, \cdots, x_{g_2, t_1, 2}, x_{g_2, t_2, 2}, \cdots ). \end{align*} \]
Um
ERRORé acionado se um par de variáveis tiver uma correlação quase perfeita (o valor absoluto da correlação entre pares excede o limite padrão de 0,999 em todas as regiões geográficas e períodos).f'Some variables have perfect pairwise correlation across all times and geos. For each pair of perfectly-correlated variables, please remove one of the variables from the model.\nPairs with perfect correlation: {var_pairs}'Nesse caso, para cada par de variáveis listadas em
{var_pairs}na mensagem de erro, remova uma das variáveis redundantes deInputDatae executesample_posteriornovamente.Para um modelo nacional, um
ERRORserá acionado se o valor absoluto da correlação par a par entre um par de variáveis for maior que 0,999 em todos os períodos. Remova uma das variáveis redundantes mencionadas na mensagem de erro do modelo.f'Some variables have perfect pairwise correlation across all times. For each pair of perfectly-correlated variables, please remove one of the variables from the model.\nPairs with perfect correlation: {var_pairs}'
Multicolinearidade
Para avaliar a multicolinearidade, o fator de inflação de variância (VIF, na sigla em inglês) é calculado para todas as unidades de tratamento escalonadas (incluindo alcance escalonado $\times$ frequência para canais de RF e ORF) e variáveis de controle escalonadas. Um VIF estima a extensão em que a variância de uma variável explicativa é aumentada devido à colinearidade com outras variáveis no modelo. Um VIF de 1 indica que não há colinearidade, enquanto valores mais altos sugerem níveis crescentes de multicolinearidade. A alta multicolinearidade pode aumentar a largura dos intervalos de confiança dos coeficientes, tornando a inferência a posteriori menos confiável.
Para um modelo geográfico, o VIF é calculado primeiro para cada variável em todas as regiões e períodos. Um
ERRORserá acionado se for possível que qualquer variável seja expressa quase perfeitamente como uma combinação linear de outras variáveis (o VIF excede o limite padrão de 1.000).f'Some variables have extreme multicollinearity (VIF > 1000) across all times and geos. To address multicollinearity, please drop any variable that is a linear combination of other variables. Otherwise, consider combining variables.\nVariables with extreme VIF: {high_vif_vars}'Nesse caso, combine as variáveis ou descarte qualquer variável redundante listada em
{high_vif_vars}na mensagem de erro que possa ser uma combinação linear de outras variáveis.Para um modelo nacional, o VIF é calculado para cada variável em todos os períodos. Um
ERRORé acionado se o VIF de uma variável exceder o limite padrão de 1.000. De novo, solte ou combine as variáveis redundantes mencionadas na mensagem de erro.f'Some variables have extreme multicollinearity (with VIF > 1000) across all times. To address multicollinearity, please drop any variable that is a linear combination of other variables. Otherwise, consider combining variables.\nVariables with extreme VIF: {high_vif_vars}'
Desvio padrão do KPI
Essa verificação calcula o desvio padrão do KPI dimensionado em todas as regiões geográficas e períodos para um modelo geográfico ou em todos os períodos para um modelo nacional. Um
ERRORé acionado quando o KPI ajustado é quase totalmente constante, indicado por um desvio padrão menor que 1 e -4. Isso significa que não há sinal na variável de resposta. Verifique se há erros de entrada de dados ou reconsidere a viabilidade da modelagem estatística com esse conjunto de dados.f'{kpi} is constant across all geos and times, indicating no signal in the data. Please fix this data error.'Desvio padrão das variáveis explicativas
Essa verificação avalia o desvio padrão dos controles e tratamentos escalonados (incluindo o alcance escalonado para canais de RF e ORF). Como o modelo do Meridian tem o efeito principal de tempo $\mu_t$ (e o efeito principal geográfico $\tau_g$ para dados geográficos), calculamos a variação dessas variáveis escalonadas ao longo da dimensão de tempo e da dimensão geográfica (se aplicável) separadamente pelos seguintes motivos:
Variação em regiões geográficas
O desvio padrão das variáveis dimensionadas ao longo da dimensão geográfica é avaliado apenas para conjuntos de dados geográficos, já que o modelo nacional tem apenas uma região. Um
ERRORocorre quando você defineknots = n_timese tem uma variável que não muda entre as regiões (por exemplo, uma variável nacional que existe em um conjunto de dados geográficos). Quandoknots = n_times, cada período recebe o próprio parâmetro. Uma variável nacional varia apenas com o tempo, não por região. Então, ela é perfeitamente colinear com o tempo e redundante em um modelo que tem um parâmetro para cada período. Ou seja, você pode manter a variável nacional ou definirknots < n_times. A variável escolhida depende das suas metas de interpretação.f'The following {data_name} variables do not vary across geos, making a model with n_knots=n_time unidentifiable. This can lead to poor model convergence. Since these variables only vary across time and not across geo, they are collinear with time and redundant in a model with a parameter for each time period. To address this, you can either: (1) decrease the number of knots (n_knots < n_time), or (2) drop the listed variables that do not vary across geos.'Variação ao longo do tempo
O desvio padrão das variáveis dimensionadas ao longo da dimensão de tempo é avaliado para conjuntos de dados geográficos e nacionais.
Para um modelo geográfico, uma
ERRORocorre quando você tem uma variável que não muda com o tempo, que é perfeitamente colinear com o efeito principal geográfico $\tau_g$. Como essa variável redundante leva a uma convergência ruim do modelo, é recomendável descartar a variável constante.f'The following {data_name} variables do not vary across time making a model with geo main effects unidentifiable. This can lead to poor model convergence. Since these variables only vary across geo and not across time, they are collinear with geo and redundant in a model with geo main effects. To address this, drop the listed variables that do not vary across time.'Para um modelo nacional, uma variável que não muda com o tempo é um termo constante que não traz sinal e prejudica a convergência do modelo. Remova essa variável constante do modelo.
f'The following {data_name} variables do not vary across time, which is equivalent to no signal at all in a national model. This can lead to poor model convergence. To address this, drop the listed variables that do not vary across time.'