Há duas formas principais de gerar relatórios sobre experimentos:
- Relatórios diretos de experimentos: consulte a métrica do recurso
experiment. Essa opção fornece métricas para os grupos de controle e de tratamento em uma única resposta, além de dados de comparação estatística, como uplift e valores p. Essa é a única maneira de gerar relatórios sobre experimentos na campanha. - Relatórios de campanhas: consulte a métrica do recurso
campaignpara métricas, usandocampaign.experiment_typepara distinguir entre campanhas de base e de experimento. Essa opção está disponível apenas para experimentos que usam campanhas de controle e de tratamento separadas, como experimentos gerenciados pelo sistema.
Este guia se concentra principalmente nos relatórios diretos de experimentos, que são compatíveis com todos os tipos de experimentos que oferecem suporte a relatórios.
Relatórios diretos de experimentos
Você pode consultar o recurso experiment diretamente para recuperar métricas de performance e comparações estatísticas entre os grupos de controle e de tratamento.
Métricas e significância estatística
Para métricas principais, como cliques, impressões, custo, conversões e valor da conversão, o recurso experiment fornece métricas de tratamento (por exemplo, metrics.clicks) e de controle (por exemplo, metrics.control_clicks) na mesma linha.
Ele também fornece campos para ajudar a avaliar a significância estatística de qualquer diferença entre os grupos:
metrics.*_p_value: a probabilidade de que os resultados observados ocorram se o experimento não tiver efeito real na métrica. Um valor p menor indica maior significância estatística.metrics.*_point_estimate: o aumento percentual estimado (positivo ou negativo) na métrica fornecida para o grupo de tratamento em comparação com o grupo de controle. Junto commargin_of_error, eles descrevem um intervalo de confiança com um nível de confiança prescrito para a diferença que está sendo estimada. A quantidade que está sendo estimada é (tratamento / controle - 1). A estimativa pontual é o centro do intervalo de confiança.metrics.*_margin_of_error: o raio do intervalo de confiança, que é centralizado empoint_estimate. Ele é calculado para um nível de confiança prescrito, que depende do tipo de experimento.
Os seguintes campos de métricas principais são compatíveis com o recurso experiment, incluindo um valor do grupo de tratamento, um valor do grupo de controle e os campos de estatísticas listados anteriormente:
clicksimpressionscost_microsconversionscost_per_conversionconversion_valueconversion_value_per_cost
Para conversões, especificamente, os campos estatísticos estão disponíveis nos seguintes campos absolute_change, em vez de valores relativos:
metrics.conversions_absolute_change_p_value: o valor p para a hipótese nula de que o experimento não tem efeito na mudança absoluta de conversões. Varia de 0 a 1.metrics.conversions_absolute_change_point_estimate: a estimativa pontual ao estimar o efeito do experimento na mudança absoluta de conversões.metrics.conversions_absolute_change_margin_of_error: a margem de erro ao estimar o efeito do experimento na mudança absoluta de conversões.
Para receber ajuda na criação de consultas válidas para o experiment recurso, use a
ferramenta Criador de consultas do Google Ads.
Exemplo de consulta
A consulta GAQL a seguir recupera as principais métricas de um experimento:
SELECT
experiment.experiment_id,
experiment.name,
experiment.type,
metrics.clicks,
metrics.control_clicks,
metrics.clicks_point_estimate,
metrics.clicks_margin_of_error,
metrics.clicks_p_value,
metrics.conversions,
metrics.control_conversions,
metrics.conversions_absolute_change_point_estimate,
metrics.conversions_absolute_change_margin_of_error,
metrics.conversions_absolute_change_p_value
FROM experiment
WHERE experiment.experiment_id = EXPERIMENT_ID
Interpretar resultados
Você pode usar os campos de valor p, estimativa pontual e margem de erro para determinar se o experimento gerou resultados estatisticamente significativos. Por exemplo,
se conversions_absolute_change_p_value estiver abaixo do limite escolhido (por
exemplo,
0,05 para 95% de confiança) e conversions_absolute_change_point_estimate -
conversions_absolute_change_margin_of_error for maior que zero, isso indica
que o grupo de tratamento está com uma performance significativamente melhor do que o grupo de controle
em termos de conversões.
Confira um snippet do Python que demonstra como avaliar os resultados com base no valor p e nas estimativas de uplift:
Java
private void evaluateExperiment( GoogleAdsClient googleAdsClient, long customerId, GoogleAdsRow row) { Metrics metrics = row.getMetrics(); String experimentResourceName = row.getExperiment().getResourceName(); // 1. Evaluate conversion success as a primary success signal if available. // - Point Estimate: Represents the estimated average lift or difference in conversions. // - Margin of Error: Outlines the confidence interval bounds. Note that the margin_of_error // provided by the API is calculated for a preset confidence level which is set based on the // experiment type. // - Lower Bound: (Point Estimate - Margin of Error). If this value is above 0, // we have statistical significance that performance has improved. double convPValue = metrics.getConversionsAbsoluteChangePValue(); double convLift = metrics.getConversionsAbsoluteChangePointEstimate(); double convError = metrics.getConversionsAbsoluteChangeMarginOfError(); double convLowerBound = convLift - convError; if (convPValue <= P_VALUE_THRESHOLD) { if (convLowerBound > 0) { System.out.printf( "Significant Success: Conversions increased. Even at the lower bound, the lift is %.2f." + " Promoting changes.%n", convLowerBound); promoteExperiment(googleAdsClient, customerId, experimentResourceName); return; } else if ((convLift + convError) < 0) { System.out.printf( "Significant Decline: Even the upper bound (%.2f) is below zero. Ending experiment.%n", convLift + convError); endExperiment(googleAdsClient, customerId, experimentResourceName); return; } } // 2. Fall back to evaluating click metrics if conversions are inconclusive. double clickPValue = metrics.getClicksPValue(); double clickLift = metrics.getClicksPointEstimate(); double clickError = metrics.getClicksMarginOfError(); double clickLowerBound = clickLift - clickError; if (clickPValue <= P_VALUE_THRESHOLD && clickLowerBound > 0) { System.out.printf("Click volume is significantly up (+%.1f%%).%n", clickLift * 100); // Graduation is only supported for separate campaign experiments, not // intra-campaign experiments where there is no separate treatment campaign. ExperimentType experimentType = row.getExperiment().getType(); if (experimentType != ExperimentType.ADOPT_BROAD_MATCH_KEYWORDS && experimentType != ExperimentType.ADOPT_AI_MAX) { System.out.println("Graduating treatment campaign for further manual analysis."); graduateExperiment(googleAdsClient, customerId, experimentResourceName); } else { System.out.println( "Intra-campaign trial detected: graduation is not supported. Continuing to run the" + " experiment to gather more conversion data."); } } else { // 3. Print status if no action was taken. System.out.printf( "Inconclusive: No significant lift in Conversions (p=%.2f) or Clicks (p=%.2f). Current" + " estimated lift: %.2f +/- %.2f. Allowing the experiment to continue running.%n", convPValue, clickPValue, convLift, convError); } }
C#
private static void EvaluateExperiment(GoogleAdsClient client, long customerId, GoogleAdsRow row) { // This function evaluates performance metrics and immediately takes action // to update the experiment's status (promote, end, or graduate) if // statistical significance thresholds are met. var metrics = row.Metrics; string experimentResourceName = row.Experiment.ResourceName; bool hasConvMetrics = metrics.HasConversionsAbsoluteChangePValue && metrics.HasConversionsAbsoluteChangePointEstimate && metrics.HasConversionsAbsoluteChangeMarginOfError; bool hasClickMetrics = metrics.HasClicksPValue && metrics.HasClicksPointEstimate && metrics.HasClicksMarginOfError; // 1. Evaluate conversion success as a primary success signal if available. // - Point Estimate: Represents the estimated average lift or difference in conversions. // - Margin of Error: Outlines the confidence interval bounds. Note that the margin_of_error // provided by the API is calculated for a preset confidence level which is set based on // the experiment type. // - Lower Bound: (Point Estimate - Margin of Error). If this value is above 0, // we have statistical significance that performance has improved. if (hasConvMetrics) { double convPValue = metrics.ConversionsAbsoluteChangePValue; double convLift = metrics.ConversionsAbsoluteChangePointEstimate; double convError = metrics.ConversionsAbsoluteChangeMarginOfError; double convLowerBound = convLift - convError; if (convPValue <= P_VALUE_THRESHOLD) { if (convLowerBound > 0) { Console.WriteLine( $"Significant Success: Conversions increased. Even at the lower" + $" bound, the lift is {convLowerBound:F2}. Promoting changes."); PromoteExperiment(client, customerId, experimentResourceName); return; } else if ((convLift + convError) < 0) { Console.WriteLine( $"Significant Decline: Even the upper bound ({convLift + convError:F2}) " + $"is below zero. Ending experiment."); EndExperiment(client, customerId, experimentResourceName); return; } } } // 2. Evaluate click volume as a secondary signal. // This is helpful as an early indicator or for lower-volume accounts. if (hasClickMetrics) { double clickPValue = metrics.ClicksPValue; double clickLift = metrics.ClicksPointEstimate; double clickError = metrics.ClicksMarginOfError; double clickLowerBound = clickLift - clickError; if (clickPValue <= P_VALUE_THRESHOLD && clickLowerBound > 0) { // We have a directional winner: high confidence in more traffic, // but not enough data to confirm conversion impact yet. Console.WriteLine( $"Click volume is significantly up (+{clickLift * 100:F1}%)."); // Graduation is only supported for separate campaign experiments, not // intra-campaign experiments where there is no separate treatment campaign. if (row.Experiment.Type != ExperimentType.AdoptBroadMatchKeywords && row.Experiment.Type != ExperimentType.AdoptAiMax) { Console.WriteLine("Graduating treatment campaign for further manual analysis."); GraduateExperiment(client, customerId, experimentResourceName); } else { Console.WriteLine( "Intra-campaign trial detected: graduation is not supported. " + "Continuing to run the experiment to gather more conversion data."); } return; } } // 3. Print status if no action was taken. if (hasConvMetrics || hasClickMetrics) { string convStatus = hasConvMetrics ? $"Conversions (p={metrics.ConversionsAbsoluteChangePValue:F2}, " + $"lift={metrics.ConversionsAbsoluteChangePointEstimate:F2} +/- " + $"{metrics.ConversionsAbsoluteChangeMarginOfError:F2})" : "Conversions (not populated)"; string clickStatus = hasClickMetrics ? $"Clicks (p={metrics.ClicksPValue:F2}, " + $"lift={metrics.ClicksPointEstimate:F2} +/- " + $"{metrics.ClicksMarginOfError:F2})" : "Clicks (not populated)"; Console.WriteLine( $"Inconclusive: No significant action taken. {convStatus}, {clickStatus}. " + "Allowing the experiment to continue running."); } else { Console.WriteLine( "Conversion and click performance metrics are not yet populated. " + "Allowing the experiment to continue running."); } }
PHP
This example is not yet available in PHP; you can take a look at the other languages.
Python
def evaluate_experiment( client: GoogleAdsClient, customer_id: str, row: GoogleAdsRow ) -> None: """Evaluates the performance of the experiment and updates it accordingly (for example, promotes, ends, or graduates). Checks conversion and click metrics against statistical significance thresholds to determine the appropriate action to take on the experiment. Args: client: an initialized GoogleAdsClient instance. customer_id: a client customer ID. row: a GoogleAdsRow containing the experiment and metrics. """ # This function evaluates performance metrics and immediately takes action # to update the experiment's status (promote, end, or graduate) if # statistical significance thresholds are met. metrics = row.metrics experiment_resource_name = row.experiment.resource_name has_conv_metrics = ( "conversions_absolute_change_p_value" in metrics and "conversions_absolute_change_point_estimate" in metrics and "conversions_absolute_change_margin_of_error" in metrics ) has_click_metrics = ( "clicks_p_value" in metrics and "clicks_point_estimate" in metrics and "clicks_margin_of_error" in metrics ) # 1. Evaluate conversion success as a primary success signal if available. # - Point Estimate: Represents the estimated average lift or difference in conversions. # - Margin of Error: Outlines the confidence interval bounds. Note that the margin_of_error provided by the API is calculated for a preset confidence level which is set based on the experiment type. # - Lower Bound: (Point Estimate - Margin of Error). If this value is above 0, # we have statistical significance that performance has improved. if has_conv_metrics: conv_p_value = metrics.conversions_absolute_change_p_value conv_lift = metrics.conversions_absolute_change_point_estimate conv_error = metrics.conversions_absolute_change_margin_of_error conv_lower_bound = conv_lift - conv_error if conv_p_value <= P_VALUE_THRESHOLD: if conv_lower_bound > 0: print( "Significant Success: Conversions increased. Even at the lower" f" bound, the lift is {conv_lower_bound:.2f}. Promoting" " changes." ) promote_experiment( client, customer_id, experiment_resource_name ) return elif (conv_lift + conv_error) < 0: print( "Significant Decline: Even the upper bound" f" ({conv_lift + conv_error:.2f}) is below zero. Ending" " experiment." ) end_experiment(client, customer_id, experiment_resource_name) return # 2. Evaluate click volume as a secondary signal. # This is helpful as an early indicator or for lower-volume accounts. click_p_value = metrics.clicks_p_value click_lift = metrics.clicks_point_estimate click_error = metrics.clicks_margin_of_error click_lower_bound = click_lift - click_error if click_p_value <= P_VALUE_THRESHOLD and click_lower_bound > 0: # We have a directional winner: high confidence in more traffic, # but not enough data to confirm conversion impact yet. print(f"Click volume is significantly up (+{click_lift*100:.1f}%).") # Graduation is only supported for separate campaign experiments, not # intra-campaign experiments where there is no separate treatment campaign. experiment_type_name = row.experiment.type_.name if ( experiment_type_name != "ADOPT_BROAD_MATCH_KEYWORDS" and experiment_type_name != "ADOPT_AI_MAX" ): print( "Graduating treatment campaign for further manual analysis." ) graduate_experiment( client, customer_id, experiment_resource_name ) else: print( "Intra-campaign trial detected: graduation is not supported. " "Continuing to run the experiment to gather more conversion data." ) return # 3. Print status if no action was taken. if has_conv_metrics or has_click_metrics: conv_status = ( f"Conversions (p={metrics.conversions_absolute_change_p_value:.2f}, " f"lift={metrics.conversions_absolute_change_point_estimate:.2f} +/- " f"{metrics.conversions_absolute_change_margin_of_error:.2f})" if has_conv_metrics else "Conversions (not populated)" ) click_status = ( f"Clicks (p={metrics.clicks_p_value:.2f}, " f"lift={metrics.clicks_point_estimate:.2f} +/- " f"{metrics.clicks_margin_of_error:.2f})" if has_click_metrics else "Clicks (not populated)" ) print( f"Inconclusive: No significant action taken. {conv_status}, {click_status}." " Allowing the experiment to continue running." ) else: print( "Conversion and click performance metrics are not yet populated. " "Allowing the experiment to continue running." )
Ruby
This example is not yet available in Ruby; you can take a look at the other languages.
Perl
This example is not yet available in Perl; you can take a look at the other languages.
curl
Benefícios em relação aos relatórios de campanhas
Os relatórios diretos de experimentos oferecem várias vantagens em relação à consulta de relatórios de campanhas separadamente:
- Métricas centralizadas: recupere métricas de controle e tratamento em uma única linha.
- Dados de confiança estatística: fornece valores p calculados, estimativas pontuais e margens de erro.
- Eficiência: elimina a necessidade de unir ou comparar manualmente os resultados de vários relatórios.
- Suporte na campanha: é a única maneira de comparar o controle com o tratamento para experimentos na campanha, em que o tráfego é dividido em uma única campanha.
Relatórios de campanhas
Para experimentos que criam campanhas de tratamento separadas (por exemplo,
SEARCH_CUSTOM), você pode consultar o recurso campaign e usar
campaign.experiment_type para identificar BASE (controle) e EXPERIMENT
(tratamento) campanhas. Essa abordagem é útil se você precisar segmentar métricas em um nível mais granular (por exemplo, por grupo de anúncios ou palavra-chave) ou visualizar metadados de campanha não disponíveis no recurso experiment. No entanto, ela exige que você faça comparações de performance e cálculos estatísticos manualmente.
Não é possível usar relatórios no nível da campanha para comparar grupos de experimentos na campanha, já que a divisão de tráfego acontece internamente em uma única campanha.
A consulta de campaign para um experimento na campanha retorna apenas totais agregados.
Práticas recomendadas
- Selecione um nível de confiança adequado: definir um limite de valor p mais baixo pode fornecer orientação direcional mais rapidamente, especialmente com orçamentos ou volumes de conversão mais baixos. Uma confiança de 95% (valor p <= 0,05) é considerada o padrão acadêmico e pode ser melhor para resultados mais precisos em um período mais longo.
- Faça experimentos por tempo suficiente: faça experimentos por pelo menos quatro semanas para considerar ciclos de performance semanais, tempos até a conversão e períodos de aprendizado.
- Dê tempo para o aumento: para campanhas que usam lances automáticos ou testam novos recursos, ignore as primeiras uma ou duas semanas de dados para dar tempo para que os modelos de lances e os níveis de tráfego sejam recalibrados para a divisão.
- Use divisões de 50/50: uma divisão de tráfego de 50/50 é geralmente a maneira mais rápida de alcançar resultados estatisticamente significativos.
- Programe com antecedência: defina a data de início do experimento de 3 a 7 dias no futuro para dar tempo aos processos de análise e aprovação de anúncios.
- Só é possível realizar um experimento por campanha por vez.