Denemeler hakkında rapor oluşturma

Denemeler hakkında rapor oluşturmanın iki ana yolu vardır:

  • Doğrudan deneme raporlama: Metrikler için experiment kaynağını sorgulayın. Bu seçenek, artış ve p değerleri gibi istatistiksel karşılaştırma verilerinin yanı sıra tek bir yanıtta kontrol ve deneme kollarıyla ilgili metrikler sağlar. Bu, kampanya içi denemelerle ilgili rapor oluşturmanın tek yoludur.
  • Kampanya raporlama: Temel ve deneme kampanyaları arasında ayrım yapmak için campaign.experiment_type kullanarak metrikler için campaign kaynağını sorgulayın. Bu seçenek yalnızca sistem tarafından yönetilen denemeler gibi ayrı kontrol ve deney kampanyalarının kullanıldığı denemelerde kullanılabilir.

Bu kılavuz öncelikle, raporlamayı destekleyen tüm deneme türleriyle uyumlu olan doğrudan deneme raporlamasına odaklanmaktadır.

Doğrudan deneme raporlama

Performans metriklerini ve kontrol ile deney kolları arasındaki istatistiksel karşılaştırmaları almak için doğrudan experiment kaynağını sorgulayabilirsiniz.

Metrikler ve istatistiksel önem

Tıklama sayısı, gösterim sayısı, maliyet, dönüşüm sayısı ve dönüşüm değeri gibi temel metrikler için experiment kaynağı, aynı satırda hem işlem metriklerini (ör. metrics.clicks) hem de kontrol metriklerini (ör. metrics.control_clicks) sağlar.

Ayrıca, kollar arasındaki herhangi bir farkın istatistiksel önemini değerlendirmenize yardımcı olacak alanlar da sağlar:

  • metrics.*_p_value: Denemenin metrik üzerinde gerçek bir etkisi olmaması durumunda gözlemlenen sonuçların gerçekleşme olasılığı. Daha düşük bir p değeri, daha yüksek istatistiksel önem gösterir.
  • metrics.*_point_estimate: Deneme kolu için verilen metrikte kontrol koluna kıyasla tahmini yüzde artış (pozitif veya negatif). margin_of_error ile birlikte, tahmin edilen fark için belirlenmiş bir güven düzeyine sahip bir güven aralığını tanımlar. Tahmin edilen miktar (değerlendirme / kontrol - 1) olarak hesaplanır. Nokta tahmini, güven aralığının merkezidir.
  • metrics.*_margin_of_error: point_estimate merkezli güven aralığının yarıçapı. Deneme türüne bağlı olarak belirlenen bir güven düzeyi için hesaplanır.

experiment kaynağında, değerlendirme grubu değeri, kontrol grubu değeri ve daha önce listelenen istatistik alanları dahil olmak üzere aşağıdaki temel metrik alanları desteklenir:

  • clicks
  • impressions
  • cost_micros
  • conversions
  • cost_per_conversion
  • conversion_value
  • conversion_value_per_cost

Dönüşümler için özellikle istatistiksel alanlar, göreli değerler olarak değil, aşağıdaki absolute_change alanlar aracılığıyla kullanılabilir:

experiment kaynağına geçerli sorgular oluşturma konusunda yardım almak için Google Ads Sorgu Oluşturucu aracını kullanın.

Örnek sorgu

Aşağıdaki GAQL sorgusu, bir denemeyle ilgili temel metrikleri alır:

SELECT
  experiment.experiment_id,
  experiment.name,
  experiment.type,
  metrics.clicks,
  metrics.control_clicks,
  metrics.clicks_point_estimate,
  metrics.clicks_margin_of_error,
  metrics.clicks_p_value,
  metrics.conversions,
  metrics.control_conversions,
  metrics.conversions_absolute_change_point_estimate,
  metrics.conversions_absolute_change_margin_of_error,
  metrics.conversions_absolute_change_p_value
FROM experiment
WHERE experiment.experiment_id = EXPERIMENT_ID

Sonuçları yorumlama

Denemenizin istatistiksel olarak anlamlı sonuçlar verip vermediğini belirlemek için p değeri, nokta tahmini ve hata payı alanlarını kullanabilirsiniz. Örneğin, conversions_absolute_change_p_value değeri seçtiğiniz eşiğin altındaysa (örneğin, %95 güven için 0,05) ve conversions_absolute_change_point_estimate - conversions_absolute_change_margin_of_error değeri sıfırdan büyükse bu, dönüşümler açısından deney kolunun kontrol kolundan önemli ölçüde daha iyi performans gösterdiğini belirtir.

Sonuçları p değeri ve artış tahminlerine göre nasıl değerlendireceğinizi gösteren bir Python snippet'ini aşağıda bulabilirsiniz:

Java

This example is not yet available in Java; you can take a look at the other languages.
    

C#

This example is not yet available in C#; you can take a look at the other languages.
    

PHP

This example is not yet available in PHP; you can take a look at the other languages.
    

Python

def evaluate_experiment(
    client: GoogleAdsClient, customer_id: str, row: GoogleAdsRow
) -> None:
    """Evaluates the performance of the experiment.

    Args:
        client: an initialized GoogleAdsClient instance.
        customer_id: a client customer ID.
        row: a GoogleAdsRow containing the experiment arm and metrics.
    """
    metrics = row.metrics
    experiment_resource_name = row.experiment.resource_name

    # 1. Evaluate conversion success as a primary success signal.
    # - Point Estimate: Represents the estimated average lift or difference in conversions.
    # - Margin of Error: Outlines the confidence interval bounds. Note that the margin_of_error provided by the API is calculated for a preset confidence level which is set based on the experiment type.
    # - Lower Bound: (Point Estimate - Margin of Error). If this value is above 0,
    #   we have statistical significance that performance has improved.
    conv_p_value = metrics.conversions_absolute_change_p_value
    conv_lift = metrics.conversions_absolute_change_point_estimate
    conv_error = metrics.conversions_absolute_change_margin_of_error
    conv_lower_bound = conv_lift - conv_error

    if conv_p_value <= P_VALUE_THRESHOLD:
        if conv_lower_bound > 0:
            print(
                "Significant Success: Conversions increased. Even at the lower"
                f" bound, the lift is {conv_lower_bound:.2f}. Promoting"
                " changes."
            )
            promote_experiment(client, customer_id, experiment_resource_name)
            return
        elif (conv_lift + conv_error) < 0:
            print(
                "Significant Decline: Even the upper bound"
                f" ({conv_lift + conv_error:.2f}) is below zero. Ending"
                " experiment."
            )
            end_experiment(client, customer_id, experiment_resource_name)
            return

    # 2. Evaluate click volume as a secondary signal.
    # This is helpful as an early indicator or for lower-volume accounts.
    click_p_value = metrics.clicks_p_value
    click_lift = metrics.clicks_point_estimate
    click_error = metrics.clicks_margin_of_error
    click_lower_bound = click_lift - click_error

    if click_p_value <= P_VALUE_THRESHOLD and click_lower_bound > 0:
        # We have a directional winner: high confidence in more traffic,
        # but not enough data to confirm conversion impact yet.
        print(
            f"Click volume is significantly up (+{click_lift*100:.1f}%). "
            "Graduating treatment for further manual analysis."
        )

        # Graduate if it's a separate campaign test.
        # This keeps the high-volume treatment running independently.
        # Intra-campaign experiments (like ADOPT_BROAD_MATCH_KEYWORDS and
        # ADOPT_AI_MAX) run directly within the base campaign, meaning there is only
        # a single campaign involved and no separate treatment campaign to graduate.
        # Therefore, graduation is not supported for intra-campaign experiments.
        experiment_type_name = row.experiment.type_.name
        if (
            experiment_type_name != "ADOPT_BROAD_MATCH_KEYWORDS"
            and experiment_type_name != "ADOPT_AI_MAX"
        ):
            graduate_experiment(client, customer_id, experiment_resource_name)
        else:
            print(
                "Intra-campaign trial detected: Graduation is not supported"
                " because there is only one campaign. Continuing to run to"
                " gather more conversion data."
            )
    else:
        # Both conversions and clicks are noisy.
        print(
            "Inconclusive: No significant lift in Conversions"
            f" (p={conv_p_value:.2f}) or Clicks (p={click_p_value:.2f})."
            f" Current estimated lift: {conv_lift:.2f} +/- {conv_error:.2f}."
            " Continue running."
        )
      

Ruby

This example is not yet available in Ruby; you can take a look at the other languages.
    

Perl

This example is not yet available in Perl; you can take a look at the other languages.
    

curl

Kampanya raporlamasına kıyasla avantajları

Doğrudan deneme raporlaması, kampanya raporlarını ayrı ayrı sorgulamaya kıyasla çeşitli avantajlar sunar:

  1. Merkezi metrikler: Kontrol ve değerlendirme metriklerini tek bir satırda alın.
  2. İstatistiksel güven verileri: Hesaplanan p değerlerini, nokta tahminlerini ve hata paylarını sağlar.
  3. Verimlilik: Birden fazla rapordaki sonuçları manuel olarak birleştirme veya karşılaştırma ihtiyacını ortadan kaldırır.
  4. Kampanya içi destek: Trafiğin tek bir kampanya içinde bölündüğü kampanya içi denemelerde kontrolü değerlendirmeyle karşılaştırmanın tek yoludur.

Kampanya raporları

Ayrı deney kampanyaları oluşturan denemeler (ör. SEARCH_CUSTOM) için campaign kaynağını sorgulayabilir ve BASE (kontrol) ile EXPERIMENT (deney) kampanyalarını belirlemek için campaign.experiment_type kullanabilirsiniz. Metrikleri daha ayrıntılı bir düzeyde (ör. reklam grubuna veya anahtar kelimeye göre) segmentlere ayırmanız ya da experiment kaynağında bulunmayan kampanya meta verilerini görüntülemeniz gerekiyorsa bu yaklaşım kullanışlıdır. Ancak bu yöntem, performans karşılaştırmalarını ve istatistiksel hesaplamaları manuel olarak yapmanızı gerektirir.

Trafik yükü tek bir kampanya içinde gerçekleştiğinden, kampanya içi denemelerde kolları karşılaştırmak için kampanya düzeyinde raporlamayı kullanamazsınız. Kampanya içi deneme için campaign sorgulandığında yalnızca toplu toplamlar döndürülür.

En iyi uygulamalar

  • Uygun bir güven düzeyi seçin: Daha düşük bir p değeri eşiği belirlemek, özellikle daha düşük bütçelerde veya dönüşüm hacimlerinde yönlendirici rehberliği daha hızlı sağlayabilir. %95 güven (p değeri <= 0,05) akademik standart olarak kabul edilir ve daha uzun bir zaman aralığında daha doğru sonuçlar elde etmek için daha iyi olabilir.
  • Denemeleri yeterince uzun süre çalıştırma: Haftalık performans döngülerini, dönüşüm sürelerini ve öğrenme dönemlerini hesaba katmak için denemeleri en az 4 hafta boyunca çalıştırın.
  • Gelişim için zaman tanıyın: Otomatik teklif veya yeni özellikleri test eden kampanyalarda, teklif modellerinin ve trafik düzeylerinin bölünmeye göre yeniden ayarlanması için zaman tanımak amacıyla ilk 1-2 haftalık verileri dikkate almayın.
  • %50/%50 trafik yükü kullanın: %50/%50 trafik yükü genellikle istatistiksel olarak anlamlı sonuçlar elde etmenin en hızlı yoludur.
  • Önceden planlama: Reklam inceleme ve onay süreçlerine zaman tanımak için deneme başlangıç tarihinizi 3-7 gün sonrasına ayarlayın.
  • Herhangi bir zamanda kampanya başına yalnızca bir deneme çalıştırabilirsiniz.