Melaporkan eksperimen

Ada dua cara utama untuk melaporkan eksperimen:

  • Pelaporan eksperimen langsung: Kueri resource experiment untuk metrik. Opsi ini memberikan metrik untuk grup kontrol dan perlakuan dalam satu respons, beserta data perbandingan statistik seperti peningkatan dan nilai p. Ini adalah satu-satunya cara untuk melaporkan eksperimen dalam kampanye.
  • Pelaporan kampanye: Kueri resource campaign untuk metrik, menggunakan campaign.experiment_type untuk membedakan antara kampanye dasar dan kampanye eksperimen. Opsi ini hanya tersedia untuk eksperimen yang menggunakan kampanye kontrol dan perlakuan terpisah, seperti eksperimen yang dikelola sistem.

Panduan ini terutama berfokus pada pelaporan eksperimen langsung, yang kompatibel dengan semua jenis eksperimen yang mendukung pelaporan.

Pelaporan eksperimen langsung

Anda dapat membuat kueri resource experiment secara langsung untuk mengambil metrik performa dan perbandingan statistik antara grup kontrol dan perlakuan.

Metrik dan signifikansi statistik

Untuk metrik inti seperti klik, tayangan iklan, biaya, konversi, dan nilai konversi, resource experiment memberikan metrik perlakuan (misalnya, metrics.clicks) dan metrik kontrol (misalnya, metrics.control_clicks) dalam baris yang sama.

Bagian ini juga menyediakan kolom untuk membantu Anda mengevaluasi signifikansi statistik dari setiap perbedaan antara grup:

  • metrics.*_p_value: Probabilitas bahwa hasil yang diamati akan terjadi jika eksperimen tidak memiliki efek aktual pada metrik. Nilai p yang lebih rendah menunjukkan signifikansi statistik yang lebih tinggi.
  • metrics.*_point_estimate: Perkiraan peningkatan persentase (positif atau negatif) dalam metrik tertentu untuk grup perlakuan dibandingkan dengan grup kontrol. Bersama dengan margin_of_error, keduanya menjelaskan interval keyakinan dengan tingkat keyakinan yang ditentukan untuk perbedaan yang diestimasi. Kuantitas yang diperkirakan adalah (perlakuan / kontrol - 1). Estimasi titik adalah pusat interval keyakinan.
  • metrics.*_margin_of_error: Radius interval keyakinan, yang berpusat di point_estimate. Nilai ini dihitung untuk tingkat keyakinan yang ditentukan, yang bergantung pada jenis eksperimen.

Kolom metrik inti berikut didukung di resource experiment, termasuk nilai grup perlakuan, nilai grup kontrol, dan kolom statistik yang tercantum sebelumnya:

  • clicks
  • impressions
  • cost_micros
  • conversions
  • cost_per_conversion
  • conversion_value
  • conversion_value_per_cost

Untuk konversi, khususnya, kolom statistik tersedia melalui kolom absolute_change berikut, bukan sebagai nilai relatif:

Untuk mendapatkan bantuan dalam membuat kueri yang valid ke resource experiment, gunakan alat Pembuat Kueri Google Ads.

Contoh kueri

Kueri GAQL berikut mengambil metrik utama untuk eksperimen:

SELECT
  experiment.experiment_id,
  experiment.name,
  experiment.type,
  metrics.clicks,
  metrics.control_clicks,
  metrics.clicks_point_estimate,
  metrics.clicks_margin_of_error,
  metrics.clicks_p_value,
  metrics.conversions,
  metrics.control_conversions,
  metrics.conversions_absolute_change_point_estimate,
  metrics.conversions_absolute_change_margin_of_error,
  metrics.conversions_absolute_change_p_value
FROM experiment
WHERE experiment.experiment_id = EXPERIMENT_ID

Menafsirkan Hasil

Anda dapat menggunakan kolom nilai p, estimasi titik, dan margin error untuk menentukan apakah eksperimen Anda telah menghasilkan hasil yang signifikan secara statistik. Misalnya, jika conversions_absolute_change_p_value berada di bawah nilai minimum yang Anda pilih (misalnya, 0,05 untuk keyakinan 95%) dan conversions_absolute_change_point_estimate - conversions_absolute_change_margin_of_error lebih besar dari nol, hal ini menunjukkan bahwa grup perlakuan berperforma jauh lebih baik daripada grup kontrol dalam hal konversi.

Berikut cuplikan Python yang menunjukkan cara mengevaluasi hasil berdasarkan nilai p dan estimasi peningkatan:

Java

This example is not yet available in Java; you can take a look at the other languages.
    

C#

This example is not yet available in C#; you can take a look at the other languages.
    

PHP

This example is not yet available in PHP; you can take a look at the other languages.
    

Python

def evaluate_experiment(
    client: GoogleAdsClient, customer_id: str, row: GoogleAdsRow
) -> None:
    """Evaluates the performance of the experiment.

    Args:
        client: an initialized GoogleAdsClient instance.
        customer_id: a client customer ID.
        row: a GoogleAdsRow containing the experiment arm and metrics.
    """
    metrics = row.metrics
    experiment_resource_name = row.experiment.resource_name

    # 1. Evaluate conversion success as a primary success signal.
    # - Point Estimate: Represents the estimated average lift or difference in conversions.
    # - Margin of Error: Outlines the confidence interval bounds. Note that the margin_of_error provided by the API is calculated for a preset confidence level which is set based on the experiment type.
    # - Lower Bound: (Point Estimate - Margin of Error). If this value is above 0,
    #   we have statistical significance that performance has improved.
    conv_p_value = metrics.conversions_absolute_change_p_value
    conv_lift = metrics.conversions_absolute_change_point_estimate
    conv_error = metrics.conversions_absolute_change_margin_of_error
    conv_lower_bound = conv_lift - conv_error

    if conv_p_value <= P_VALUE_THRESHOLD:
        if conv_lower_bound > 0:
            print(
                "Significant Success: Conversions increased. Even at the lower"
                f" bound, the lift is {conv_lower_bound:.2f}. Promoting"
                " changes."
            )
            promote_experiment(client, customer_id, experiment_resource_name)
            return
        elif (conv_lift + conv_error) < 0:
            print(
                "Significant Decline: Even the upper bound"
                f" ({conv_lift + conv_error:.2f}) is below zero. Ending"
                " experiment."
            )
            end_experiment(client, customer_id, experiment_resource_name)
            return

    # 2. Evaluate click volume as a secondary signal.
    # This is helpful as an early indicator or for lower-volume accounts.
    click_p_value = metrics.clicks_p_value
    click_lift = metrics.clicks_point_estimate
    click_error = metrics.clicks_margin_of_error
    click_lower_bound = click_lift - click_error

    if click_p_value <= P_VALUE_THRESHOLD and click_lower_bound > 0:
        # We have a directional winner: high confidence in more traffic,
        # but not enough data to confirm conversion impact yet.
        print(
            f"Click volume is significantly up (+{click_lift*100:.1f}%). "
            "Graduating treatment for further manual analysis."
        )

        # Graduate if it's a separate campaign test.
        # This keeps the high-volume treatment running independently.
        # Intra-campaign experiments (like ADOPT_BROAD_MATCH_KEYWORDS and
        # ADOPT_AI_MAX) run directly within the base campaign, meaning there is only
        # a single campaign involved and no separate treatment campaign to graduate.
        # Therefore, graduation is not supported for intra-campaign experiments.
        experiment_type_name = row.experiment.type_.name
        if (
            experiment_type_name != "ADOPT_BROAD_MATCH_KEYWORDS"
            and experiment_type_name != "ADOPT_AI_MAX"
        ):
            graduate_experiment(client, customer_id, experiment_resource_name)
        else:
            print(
                "Intra-campaign trial detected: Graduation is not supported"
                " because there is only one campaign. Continuing to run to"
                " gather more conversion data."
            )
    else:
        # Both conversions and clicks are noisy.
        print(
            "Inconclusive: No significant lift in Conversions"
            f" (p={conv_p_value:.2f}) or Clicks (p={click_p_value:.2f})."
            f" Current estimated lift: {conv_lift:.2f} +/- {conv_error:.2f}."
            " Continue running."
        )
      

Ruby

This example is not yet available in Ruby; you can take a look at the other languages.
    

Perl

This example is not yet available in Perl; you can take a look at the other languages.
    

curl

Manfaat dibandingkan pelaporan kampanye

Pelaporan eksperimen langsung menawarkan beberapa keunggulan dibandingkan dengan membuat kueri laporan kampanye secara terpisah:

  1. Metrik terpusat: Ambil metrik untuk kontrol dan perlakuan dalam satu baris.
  2. Data keyakinan statistik: Memberikan nilai p, estimasi titik, dan margin error yang dihitung.
  3. Efisiensi: Menghilangkan kebutuhan untuk menggabungkan atau membandingkan hasil dari beberapa laporan secara manual.
  4. Dukungan dalam kampanye: Ini adalah satu-satunya cara untuk membandingkan kontrol versus perlakuan untuk eksperimen dalam kampanye, yang memisahkan traffic dalam satu kampanye.

Pelaporan kampanye

Untuk eksperimen yang membuat kampanye perlakuan terpisah (misalnya, SEARCH_CUSTOM), Anda dapat membuat kueri resource campaign dan menggunakan campaign.experiment_type untuk mengidentifikasi kampanye BASE (kontrol) dan EXPERIMENT (perlakuan). Pendekatan ini berguna jika Anda perlu menyegmentasikan metrik pada tingkat yang lebih terperinci (misalnya, menurut grup iklan atau kata kunci) atau melihat metadata kampanye yang tidak tersedia di resource experiment. Namun, Anda harus melakukan perbandingan performa dan penghitungan statistik secara manual.

Anda tidak dapat menggunakan pelaporan tingkat kampanye untuk membandingkan grup dalam eksperimen intra-kampanye, karena pembagian traffic terjadi secara internal dalam satu kampanye. Mengirimkan kueri campaign untuk eksperimen dalam kampanye hanya akan menampilkan total yang diagregasi.

Praktik terbaik

  • Pilih tingkat keyakinan yang sesuai: Menetapkan nilai p-value yang lebih rendah dapat memberikan panduan terarah lebih cepat, terutama dengan anggaran atau volume konversi yang lebih rendah. Keyakinan 95% (nilai p <= 0,05) dianggap sebagai standar akademis dan mungkin lebih baik untuk hasil yang lebih akurat dalam jangka waktu yang lebih lama.
  • Jalankan eksperimen dalam waktu yang cukup lama: Jalankan eksperimen setidaknya selama 4 minggu untuk memperhitungkan siklus performa mingguan, jeda konversi, dan periode pembelajaran.
  • Berikan waktu untuk peningkatan: Untuk kampanye yang menggunakan bidding otomatis atau menguji fitur baru, abaikan data 1-2 minggu pertama untuk memberikan waktu bagi model bidding dan tingkat traffic untuk dikalibrasi ulang sesuai pembagian.
  • Gunakan pemisahan 50/50: Pemisahan traffic 50/50 umumnya merupakan cara tercepat untuk mencapai hasil yang signifikan secara statistik.
  • Jadwalkan terlebih dahulu: Tetapkan tanggal mulai eksperimen 3-7 hari ke depan untuk memberikan waktu bagi proses peninjauan dan persetujuan iklan.
  • Anda hanya dapat menjalankan satu eksperimen per kampanye pada waktu tertentu.