Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Berichte zu Tests

Es gibt zwei Hauptmethoden für die Berichterstellung zu Tests:

Direkte Testberichte: Fragen Sie die experiment Ressource nach Messwerten ab. Bei dieser Option werden Messwerte für Kontroll- und Testverzweigungen in einer einzigen Antwort bereitgestellt, zusammen mit Daten für statistische Vergleiche wie Steigerung und p-Werte. Dies ist die einzige Möglichkeit, Berichte zu kampagneninternen Tests zu erstellen.
Kampagnenberichte: Fragen Sie die Ressource campaign nach Messwerten ab und verwenden Sie campaign.experiment_type, um zwischen Basis- und Testkampagnen zu unterscheiden. Diese Option ist nur für Tests verfügbar, bei denen separate Kontroll- und Testkampagnen verwendet werden, z. B. systemverwaltete Tests.

In diesem Leitfaden geht es hauptsächlich um direkte Testberichte, die mit allen Testtypen kompatibel sind, die Berichte unterstützen.

Direkte Testberichte

Sie können die Ressource experiment direkt abfragen, um Leistungsmesswerte und statistische Vergleiche zwischen Kontroll- und Testverzweigungen abzurufen.

Messwerte und statistische Signifikanz

Für wichtige Messwerte wie Klicks, Impressionen, Kosten, Conversions und Conversion-Wert stellt die Ressource experiment sowohl Messwerte für die Testverzweigung (z. B. metrics.clicks) als auch für die Kontrollverzweigung (z. B. metrics.control_clicks) in derselben Zeile bereit.

Außerdem werden Felder bereitgestellt, mit denen Sie die statistische Signifikanz von Unterschieden zwischen den Verzweigungen bewerten können:

metrics.*_p_value: Die Wahrscheinlichkeit, dass die beobachteten Ergebnisse auftreten, wenn der Test keine tatsächlichen Auswirkungen auf den Messwert hat. Ein niedrigerer p-Wert deutet auf eine höhere statistische Signifikanz hin.
metrics.*_point_estimate: Die geschätzte prozentuale Steigerung (positiv oder negativ) des jeweiligen Messwerts für die Testverzweigung im Vergleich zur Kontrollverzweigung. Zusammen mit margin_of_error beschreiben sie ein Konfidenzintervall mit einem vorgegebenen Konfidenzniveau für die geschätzte Differenz. Die geschätzte Menge ist (Testgruppe / Kontrolle – 1). Die Punktschätzung ist der Mittelpunkt des Konfidenzintervalls.
metrics.*_margin_of_error: Der Radius des Konfidenzintervalls, das um point_estimate zentriert ist. Er wird für ein vorgegebenes Konfidenzniveau berechnet, das vom Testtyp abhängt.

Die folgenden Felder für wichtige Messwerte werden in der Ressource experiment unterstützt, einschließlich eines Werts für die Testgruppe, eines Werts für die Kontrollgruppe und der zuvor aufgeführten Statistikfelder:

clicks
impressions
cost_micros
conversions
cost_per_conversion
conversion_value
conversion_value_per_cost

Für Conversions sind die Statistikfelder über die folgenden absolute_change-Felder und nicht als relative Werte verfügbar:

metrics.conversions_absolute_change_p_value: Der p-Wert für die Nullhypothese, dass der Test keine Auswirkungen auf die absolute Änderung der Conversions hat. Der Wert liegt zwischen 0 und 1.
metrics.conversions_absolute_change_point_estimate: Die Punktschätzung bei der Schätzung der Auswirkungen des Tests auf die absolute Änderung der Conversions.
metrics.conversions_absolute_change_margin_of_error: Der Fehlerbereich bei der Schätzung der Auswirkungen des Tests auf die absolute Änderung der Conversions.

Wenn Sie Hilfe beim Erstellen gültiger Abfragen für die experiment Ressource benötigen, verwenden Sie das Google Ads Query Builder Tool.

Beispielanfrage

Mit der folgenden GAQL-Abfrage werden wichtige Messwerte für einen Test abgerufen:

SELECT
  experiment.experiment_id,
  experiment.name,
  experiment.type,
  metrics.clicks,
  metrics.control_clicks,
  metrics.clicks_point_estimate,
  metrics.clicks_margin_of_error,
  metrics.clicks_p_value,
  metrics.conversions,
  metrics.control_conversions,
  metrics.conversions_absolute_change_point_estimate,
  metrics.conversions_absolute_change_margin_of_error,
  metrics.conversions_absolute_change_p_value
FROM experiment
WHERE experiment.experiment_id = EXPERIMENT_ID

Ergebnisse interpretieren

Anhand der Felder für p-Wert, Punktschätzung und Fehlerbereich können Sie feststellen, ob Ihr Test statistisch signifikante Ergebnisse geliefert hat. Wenn beispielsweise conversions_absolute_change_p_value unter dem von Ihnen ausgewählten Grenzwert liegt (z. B. 0,05 für ein Konfidenzniveau von 95 %) und conversions_absolute_change_point_estimate - conversions_absolute_change_margin_of_error größer als null ist, schneidet die Testverzweigung in Bezug auf Conversions deutlich besser ab als die Kontrollverzweigung.

Hier ist ein Python-Codebeispiel, das zeigt, wie Sie Ergebnisse anhand von p-Wert und Schätzungen der Steigerung bewerten können:

Java

private void evaluateExperiment(
    GoogleAdsClient googleAdsClient, long customerId, GoogleAdsRow row) {
  Metrics metrics = row.getMetrics();
  String experimentResourceName = row.getExperiment().getResourceName();

  // 1. Evaluate conversion success as a primary success signal if available.
  // - Point Estimate: Represents the estimated average lift or difference in conversions.
  // - Margin of Error: Outlines the confidence interval bounds. Note that the margin_of_error
  //   provided by the API is calculated for a preset confidence level which is set based on the
  //   experiment type.
  // - Lower Bound: (Point Estimate - Margin of Error). If this value is above 0,
  //   we have statistical significance that performance has improved.
  double convPValue = metrics.getConversionsAbsoluteChangePValue();
  double convLift = metrics.getConversionsAbsoluteChangePointEstimate();
  double convError = metrics.getConversionsAbsoluteChangeMarginOfError();
  double convLowerBound = convLift - convError;

  if (convPValue <= P_VALUE_THRESHOLD) {
    if (convLowerBound > 0) {
      System.out.printf(
          "Significant Success: Conversions increased. Even at the lower bound, the lift is %.2f."
              + " Promoting changes.%n",
          convLowerBound);
      promoteExperiment(googleAdsClient, customerId, experimentResourceName);
      return;
    } else if ((convLift + convError) < 0) {
      System.out.printf(
          "Significant Decline: Even the upper bound (%.2f) is below zero. Ending experiment.%n",
          convLift + convError);
      endExperiment(googleAdsClient, customerId, experimentResourceName);
      return;
    }
  }

  // 2. Fall back to evaluating click metrics if conversions are inconclusive.
  double clickPValue = metrics.getClicksPValue();
  double clickLift = metrics.getClicksPointEstimate();
  double clickError = metrics.getClicksMarginOfError();
  double clickLowerBound = clickLift - clickError;

  if (clickPValue <= P_VALUE_THRESHOLD && clickLowerBound > 0) {
    System.out.printf("Click volume is significantly up (+%.1f%%).%n", clickLift * 100);

    // Graduation is only supported for separate campaign experiments, not
    // intra-campaign experiments where there is no separate treatment campaign.
    ExperimentType experimentType = row.getExperiment().getType();
    if (experimentType != ExperimentType.ADOPT_BROAD_MATCH_KEYWORDS
        && experimentType != ExperimentType.ADOPT_AI_MAX) {
      System.out.println("Graduating treatment campaign for further manual analysis.");
      graduateExperiment(googleAdsClient, customerId, experimentResourceName);
    } else {
      System.out.println(
          "Intra-campaign trial detected: graduation is not supported. Continuing to run the"
              + " experiment to gather more conversion data.");
    }
  } else {
    // 3. Print status if no action was taken.
    System.out.printf(
        "Inconclusive: No significant lift in Conversions (p=%.2f) or Clicks (p=%.2f). Current"
            + " estimated lift: %.2f +/- %.2f. Allowing the experiment to continue running.%n",
        convPValue, clickPValue, convLift, convError);
  }
}
EvaluateAndUpdateExperiment.java

C#

private static void EvaluateExperiment(GoogleAdsClient client, long customerId, GoogleAdsRow row)
{
    // This function evaluates performance metrics and immediately takes action
    // to update the experiment's status (promote, end, or graduate) if
    // statistical significance thresholds are met.
    var metrics = row.Metrics;
    string experimentResourceName = row.Experiment.ResourceName;

    bool hasConvMetrics = metrics.HasConversionsAbsoluteChangePValue
        && metrics.HasConversionsAbsoluteChangePointEstimate
        && metrics.HasConversionsAbsoluteChangeMarginOfError;

    bool hasClickMetrics = metrics.HasClicksPValue
        && metrics.HasClicksPointEstimate
        && metrics.HasClicksMarginOfError;

    // 1. Evaluate conversion success as a primary success signal if available.
    // - Point Estimate: Represents the estimated average lift or difference in conversions.
    // - Margin of Error: Outlines the confidence interval bounds. Note that the margin_of_error
    //   provided by the API is calculated for a preset confidence level which is set based on
    //   the experiment type.
    // - Lower Bound: (Point Estimate - Margin of Error). If this value is above 0,
    //   we have statistical significance that performance has improved.
    if (hasConvMetrics)
    {
        double convPValue = metrics.ConversionsAbsoluteChangePValue;
        double convLift = metrics.ConversionsAbsoluteChangePointEstimate;
        double convError = metrics.ConversionsAbsoluteChangeMarginOfError;
        double convLowerBound = convLift - convError;

        if (convPValue <= P_VALUE_THRESHOLD)
        {
            if (convLowerBound > 0)
            {
                Console.WriteLine(
                    $"Significant Success: Conversions increased. Even at the lower" +
                    $" bound, the lift is {convLowerBound:F2}. Promoting changes.");
                PromoteExperiment(client, customerId, experimentResourceName);
                return;
            }
            else if ((convLift + convError) < 0)
            {
                Console.WriteLine(
                    $"Significant Decline: Even the upper bound ({convLift + convError:F2}) " +
                    $"is below zero. Ending experiment.");
                EndExperiment(client, customerId, experimentResourceName);
                return;
            }
        }
    }

    // 2. Evaluate click volume as a secondary signal.
    // This is helpful as an early indicator or for lower-volume accounts.
    if (hasClickMetrics)
    {
        double clickPValue = metrics.ClicksPValue;
        double clickLift = metrics.ClicksPointEstimate;
        double clickError = metrics.ClicksMarginOfError;
        double clickLowerBound = clickLift - clickError;

        if (clickPValue <= P_VALUE_THRESHOLD && clickLowerBound > 0)
        {
            // We have a directional winner: high confidence in more traffic,
            // but not enough data to confirm conversion impact yet.
            Console.WriteLine(
                $"Click volume is significantly up (+{clickLift * 100:F1}%).");

            // Graduation is only supported for separate campaign experiments, not
            // intra-campaign experiments where there is no separate treatment campaign.
            if (row.Experiment.Type != ExperimentType.AdoptBroadMatchKeywords
                && row.Experiment.Type != ExperimentType.AdoptAiMax)
            {
                Console.WriteLine("Graduating treatment campaign for further manual analysis.");
                GraduateExperiment(client, customerId, experimentResourceName);
            }
            else
            {
                Console.WriteLine(
                    "Intra-campaign trial detected: graduation is not supported. " +
                    "Continuing to run the experiment to gather more conversion data.");
            }
            return;
        }
    }

    // 3. Print status if no action was taken.
    if (hasConvMetrics || hasClickMetrics)
    {
        string convStatus = hasConvMetrics
            ? $"Conversions (p={metrics.ConversionsAbsoluteChangePValue:F2}, " +
              $"lift={metrics.ConversionsAbsoluteChangePointEstimate:F2} +/- " +
              $"{metrics.ConversionsAbsoluteChangeMarginOfError:F2})"
            : "Conversions (not populated)";

        string clickStatus = hasClickMetrics
            ? $"Clicks (p={metrics.ClicksPValue:F2}, " +
              $"lift={metrics.ClicksPointEstimate:F2} +/- " +
              $"{metrics.ClicksMarginOfError:F2})"
            : "Clicks (not populated)";

        Console.WriteLine(
            $"Inconclusive: No significant action taken. {convStatus}, {clickStatus}. " +
            "Allowing the experiment to continue running.");
    }
    else
    {
        Console.WriteLine(
            "Conversion and click performance metrics are not yet populated. " +
            "Allowing the experiment to continue running.");
    }
}EvaluateAndUpdateExperiment.cs

PHP

This example is not yet available in PHP; you can take a look at the other languages.

Python

def evaluate_experiment(
    client: GoogleAdsClient, customer_id: str, row: GoogleAdsRow
) -> None:
    """Evaluates the performance of the experiment and updates it accordingly
    (for example, promotes, ends, or graduates).

    Checks conversion and click metrics against statistical significance thresholds
    to determine the appropriate action to take on the experiment.

    Args:
        client: an initialized GoogleAdsClient instance.
        customer_id: a client customer ID.
        row: a GoogleAdsRow containing the experiment and metrics.
    """
    # This function evaluates performance metrics and immediately takes action
    # to update the experiment's status (promote, end, or graduate) if
    # statistical significance thresholds are met.
    metrics = row.metrics
    experiment_resource_name = row.experiment.resource_name

    has_conv_metrics = (
        "conversions_absolute_change_p_value" in metrics
        and "conversions_absolute_change_point_estimate" in metrics
        and "conversions_absolute_change_margin_of_error" in metrics
    )
    has_click_metrics = (
        "clicks_p_value" in metrics
        and "clicks_point_estimate" in metrics
        and "clicks_margin_of_error" in metrics
    )

    # 1. Evaluate conversion success as a primary success signal if available.
    # - Point Estimate: Represents the estimated average lift or difference in conversions.
    # - Margin of Error: Outlines the confidence interval bounds. Note that the margin_of_error provided by the API is calculated for a preset confidence level which is set based on the experiment type.
    # - Lower Bound: (Point Estimate - Margin of Error). If this value is above 0,
    #   we have statistical significance that performance has improved.
    if has_conv_metrics:
        conv_p_value = metrics.conversions_absolute_change_p_value
        conv_lift = metrics.conversions_absolute_change_point_estimate
        conv_error = metrics.conversions_absolute_change_margin_of_error
        conv_lower_bound = conv_lift - conv_error

        if conv_p_value <= P_VALUE_THRESHOLD:
            if conv_lower_bound > 0:
                print(
                    "Significant Success: Conversions increased. Even at the lower"
                    f" bound, the lift is {conv_lower_bound:.2f}. Promoting"
                    " changes."
                )
                promote_experiment(
                    client, customer_id, experiment_resource_name
                )
                return
            elif (conv_lift + conv_error) < 0:
                print(
                    "Significant Decline: Even the upper bound"
                    f" ({conv_lift + conv_error:.2f}) is below zero. Ending"
                    " experiment."
                )
                end_experiment(client, customer_id, experiment_resource_name)
                return

        # 2. Evaluate click volume as a secondary signal.
        # This is helpful as an early indicator or for lower-volume accounts.
        click_p_value = metrics.clicks_p_value
        click_lift = metrics.clicks_point_estimate
        click_error = metrics.clicks_margin_of_error
        click_lower_bound = click_lift - click_error

        if click_p_value <= P_VALUE_THRESHOLD and click_lower_bound > 0:
            # We have a directional winner: high confidence in more traffic,
            # but not enough data to confirm conversion impact yet.
            print(f"Click volume is significantly up (+{click_lift*100:.1f}%).")

            # Graduation is only supported for separate campaign experiments, not
            # intra-campaign experiments where there is no separate treatment campaign.
            experiment_type_name = row.experiment.type_.name
            if (
                experiment_type_name != "ADOPT_BROAD_MATCH_KEYWORDS"
                and experiment_type_name != "ADOPT_AI_MAX"
            ):
                print(
                    "Graduating treatment campaign for further manual analysis."
                )
                graduate_experiment(
                    client, customer_id, experiment_resource_name
                )
            else:
                print(
                    "Intra-campaign trial detected: graduation is not supported. "
                    "Continuing to run the experiment to gather more conversion data."
                )
            return

    # 3. Print status if no action was taken.
    if has_conv_metrics or has_click_metrics:
        conv_status = (
            f"Conversions (p={metrics.conversions_absolute_change_p_value:.2f}, "
            f"lift={metrics.conversions_absolute_change_point_estimate:.2f} +/- "
            f"{metrics.conversions_absolute_change_margin_of_error:.2f})"
            if has_conv_metrics
            else "Conversions (not populated)"
        )
        click_status = (
            f"Clicks (p={metrics.clicks_p_value:.2f}, "
            f"lift={metrics.clicks_point_estimate:.2f} +/- "
            f"{metrics.clicks_margin_of_error:.2f})"
            if has_click_metrics
            else "Clicks (not populated)"
        )
        print(
            f"Inconclusive: No significant action taken. {conv_status}, {click_status}."
            " Allowing the experiment to continue running."
        )
    else:
        print(
            "Conversion and click performance metrics are not yet populated. "
            "Allowing the experiment to continue running."
        )evaluate_and_update_experiment.py

Ruby

This example is not yet available in Ruby; you can take a look at the other languages.

Perl

This example is not yet available in Perl; you can take a look at the other languages.

curl

Vorteile gegenüber Kampagnenberichten

Direkte Testberichte bieten mehrere Vorteile gegenüber der separaten Abfrage von Kampagnenberichten:

Zentrale Messwerte: Rufen Sie Messwerte für Kontroll- und Testverzweigungen in einer einzigen Zeile ab.
Daten zur statistischen Signifikanz: Bereitstellung von berechneten p-Werten, Punkt schätzungen und Fehlerbereichen.
Effizienz: Es ist nicht mehr erforderlich, Ergebnisse aus mehreren Berichten manuell zusammenzuführen oder zu vergleichen.
Unterstützung für kampagneninterne Tests: Dies ist die einzige Möglichkeit, Kontroll- und Testgruppen für kampagneninterne Tests zu vergleichen, bei denen der Traffic innerhalb einer einzelnen Kampagne aufgeteilt wird.

Kampagnenberichte

Bei Tests, bei denen separate Testkampagnen erstellt werden (z. B. SEARCH_CUSTOM), können Sie die campaign Ressource abfragen und campaign.experiment_type verwenden, um BASE- (Kontroll-) und EXPERIMENT (Test-)Kampagnen zu identifizieren. Dieser Ansatz ist nützlich, wenn Sie Messwerte auf einer detaillierteren Ebene segmentieren müssen (z. B. nach Anzeigengruppe oder Keyword) oder Kampagnenmetadaten aufrufen möchten, die in der Ressource experiment nicht verfügbar sind. Dazu müssen Sie jedoch Leistungsvergleiche und statistische Berechnungen manuell durchführen.

Sie können keine Berichte auf Kampagnenebene verwenden, um Verzweigungen für kampagneninterne Tests zu vergleichen, da die Aufteilung des Traffics intern innerhalb einer einzelnen Kampagne erfolgt. Wenn Sie campaign für einen kampagneninternen Test abfragen, werden nur aggregierte Gesamtsummen zurückgegeben.

Best Practices

Geeignetes Konfidenzniveau auswählen: Wenn Sie einen niedrigeren Grenzwert für den p-Wert festlegen, erhalten Sie schneller Richtwerte, insbesondere bei niedrigeren Budgets oder Conversion-Volumina. Ein Konfidenzniveau von 95 % (p-Wert <= 0,05) gilt als akademischer Standard und ist möglicherweise besser geeignet, um über einen längeren Zeitraum genauere Ergebnisse zu erzielen.
Tests lange genug laufen lassen: Lassen Sie Tests mindestens vier Wochen lang laufen, um wöchentliche Leistungszyklen, Conversion-Verzögerungen und Lern phasen zu berücksichtigen.
Zeit für die Anlaufphase einplanen: Bei Kampagnen mit automatischer Gebotseinstellung oder beim Testen neuer Funktionen sollten Sie die Daten der ersten ein bis zwei Wochen ignorieren, damit Gebotsmodelle und Traffic-Mengen an die Aufteilung angepasst werden können.
Aufteilung von 50/50 verwenden: Eine Aufteilung des Traffics von 50/50 ist in der Regel der schnellste Weg, um statistisch signifikante Ergebnisse zu erzielen.
Im Voraus planen: Legen Sie das Startdatum des Tests drei bis sieben Tage in der Zukunft fest, damit genügend Zeit für die Überprüfung und Genehmigung von Anzeigen bleibt.
Sie können jeweils nur einen Test pro Kampagne durchführen.