Ada dua cara utama untuk melaporkan eksperimen:
- Pelaporan eksperimen langsung: Kueri resource
experimentuntuk metrik. Opsi ini memberikan metrik untuk grup kontrol dan perlakuan dalam satu respons, beserta data perbandingan statistik seperti peningkatan dan nilai p. Ini adalah satu-satunya cara untuk melaporkan eksperimen dalam kampanye. - Pelaporan kampanye: Kueri resource
campaignuntuk metrik, menggunakancampaign.experiment_typeuntuk membedakan antara kampanye dasar dan kampanye eksperimen. Opsi ini hanya tersedia untuk eksperimen yang menggunakan kampanye kontrol dan perlakuan terpisah, seperti eksperimen yang dikelola sistem.
Panduan ini terutama berfokus pada pelaporan eksperimen langsung, yang kompatibel dengan semua jenis eksperimen yang mendukung pelaporan.
Pelaporan eksperimen langsung
Anda dapat membuat kueri resource experiment secara langsung untuk mengambil metrik performa dan perbandingan statistik antara grup kontrol dan perlakuan.
Metrik dan signifikansi statistik
Untuk metrik inti seperti klik, tayangan iklan, biaya, konversi, dan nilai konversi, resource experiment memberikan metrik perlakuan (misalnya, metrics.clicks) dan metrik kontrol (misalnya, metrics.control_clicks) dalam baris yang sama.
Bagian ini juga menyediakan kolom untuk membantu Anda mengevaluasi signifikansi statistik dari setiap perbedaan antara grup:
metrics.*_p_value: Probabilitas bahwa hasil yang diamati akan terjadi jika eksperimen tidak memiliki efek aktual pada metrik. Nilai p yang lebih rendah menunjukkan signifikansi statistik yang lebih tinggi.metrics.*_point_estimate: Perkiraan peningkatan persentase (positif atau negatif) dalam metrik tertentu untuk grup perlakuan dibandingkan dengan grup kontrol. Bersama denganmargin_of_error, keduanya menjelaskan interval keyakinan dengan tingkat keyakinan yang ditentukan untuk perbedaan yang diestimasi. Kuantitas yang diperkirakan adalah (perlakuan / kontrol - 1). Estimasi titik adalah pusat interval keyakinan.metrics.*_margin_of_error: Radius interval keyakinan, yang berpusat dipoint_estimate. Nilai ini dihitung untuk tingkat keyakinan yang ditentukan, yang bergantung pada jenis eksperimen.
Kolom metrik inti berikut didukung di resource experiment, termasuk nilai grup perlakuan, nilai grup kontrol, dan kolom statistik yang tercantum sebelumnya:
clicksimpressionscost_microsconversionscost_per_conversionconversion_valueconversion_value_per_cost
Untuk konversi, khususnya, kolom statistik tersedia melalui kolom absolute_change berikut, bukan sebagai nilai relatif:
metrics.conversions_absolute_change_p_value: Nilai p untuk hipotesis nol bahwa eksperimen tidak berpengaruh pada perubahan absolut konversi. Rentang nilai dari 0 hingga 1.metrics.conversions_absolute_change_point_estimate: Estimasi titik saat memperkirakan efek eksperimen pada perubahan absolut konversi.metrics.conversions_absolute_change_margin_of_error: Margin error saat memperkirakan efek eksperimen pada perubahan absolut konversi.
Untuk mendapatkan bantuan dalam membuat kueri yang valid ke resource experiment, gunakan alat
Pembuat Kueri Google Ads.
Contoh kueri
Kueri GAQL berikut mengambil metrik utama untuk eksperimen:
SELECT
experiment.experiment_id,
experiment.name,
experiment.type,
metrics.clicks,
metrics.control_clicks,
metrics.clicks_point_estimate,
metrics.clicks_margin_of_error,
metrics.clicks_p_value,
metrics.conversions,
metrics.control_conversions,
metrics.conversions_absolute_change_point_estimate,
metrics.conversions_absolute_change_margin_of_error,
metrics.conversions_absolute_change_p_value
FROM experiment
WHERE experiment.experiment_id = EXPERIMENT_ID
Menafsirkan Hasil
Anda dapat menggunakan kolom nilai p, estimasi titik, dan margin error untuk menentukan
apakah eksperimen Anda telah menghasilkan hasil yang signifikan secara statistik. Misalnya,
jika conversions_absolute_change_p_value berada di bawah nilai minimum yang Anda pilih (misalnya,
0,05 untuk keyakinan 95%) dan conversions_absolute_change_point_estimate -
conversions_absolute_change_margin_of_error lebih besar dari nol, hal ini menunjukkan
bahwa grup perlakuan berperforma jauh lebih baik daripada grup kontrol
dalam hal konversi.
Berikut cuplikan Python yang menunjukkan cara mengevaluasi hasil berdasarkan nilai p dan estimasi peningkatan:
Java
This example is not yet available in Java; you can take a look at the other languages.
C#
This example is not yet available in C#; you can take a look at the other languages.
PHP
This example is not yet available in PHP; you can take a look at the other languages.
Python
def evaluate_experiment( client: GoogleAdsClient, customer_id: str, row: GoogleAdsRow ) -> None: """Evaluates the performance of the experiment. Args: client: an initialized GoogleAdsClient instance. customer_id: a client customer ID. row: a GoogleAdsRow containing the experiment arm and metrics. """ metrics = row.metrics experiment_resource_name = row.experiment.resource_name # 1. Evaluate conversion success as a primary success signal. # - Point Estimate: Represents the estimated average lift or difference in conversions. # - Margin of Error: Outlines the confidence interval bounds. Note that the margin_of_error provided by the API is calculated for a preset confidence level which is set based on the experiment type. # - Lower Bound: (Point Estimate - Margin of Error). If this value is above 0, # we have statistical significance that performance has improved. conv_p_value = metrics.conversions_absolute_change_p_value conv_lift = metrics.conversions_absolute_change_point_estimate conv_error = metrics.conversions_absolute_change_margin_of_error conv_lower_bound = conv_lift - conv_error if conv_p_value <= P_VALUE_THRESHOLD: if conv_lower_bound > 0: print( "Significant Success: Conversions increased. Even at the lower" f" bound, the lift is {conv_lower_bound:.2f}. Promoting" " changes." ) promote_experiment(client, customer_id, experiment_resource_name) return elif (conv_lift + conv_error) < 0: print( "Significant Decline: Even the upper bound" f" ({conv_lift + conv_error:.2f}) is below zero. Ending" " experiment." ) end_experiment(client, customer_id, experiment_resource_name) return # 2. Evaluate click volume as a secondary signal. # This is helpful as an early indicator or for lower-volume accounts. click_p_value = metrics.clicks_p_value click_lift = metrics.clicks_point_estimate click_error = metrics.clicks_margin_of_error click_lower_bound = click_lift - click_error if click_p_value <= P_VALUE_THRESHOLD and click_lower_bound > 0: # We have a directional winner: high confidence in more traffic, # but not enough data to confirm conversion impact yet. print( f"Click volume is significantly up (+{click_lift*100:.1f}%). " "Graduating treatment for further manual analysis." ) # Graduate if it's a separate campaign test. # This keeps the high-volume treatment running independently. # Intra-campaign experiments (like ADOPT_BROAD_MATCH_KEYWORDS and # ADOPT_AI_MAX) run directly within the base campaign, meaning there is only # a single campaign involved and no separate treatment campaign to graduate. # Therefore, graduation is not supported for intra-campaign experiments. experiment_type_name = row.experiment.type_.name if ( experiment_type_name != "ADOPT_BROAD_MATCH_KEYWORDS" and experiment_type_name != "ADOPT_AI_MAX" ): graduate_experiment(client, customer_id, experiment_resource_name) else: print( "Intra-campaign trial detected: Graduation is not supported" " because there is only one campaign. Continuing to run to" " gather more conversion data." ) else: # Both conversions and clicks are noisy. print( "Inconclusive: No significant lift in Conversions" f" (p={conv_p_value:.2f}) or Clicks (p={click_p_value:.2f})." f" Current estimated lift: {conv_lift:.2f} +/- {conv_error:.2f}." " Continue running." )
Ruby
This example is not yet available in Ruby; you can take a look at the other languages.
Perl
This example is not yet available in Perl; you can take a look at the other languages.
curl
Manfaat dibandingkan pelaporan kampanye
Pelaporan eksperimen langsung menawarkan beberapa keunggulan dibandingkan dengan membuat kueri laporan kampanye secara terpisah:
- Metrik terpusat: Ambil metrik untuk kontrol dan perlakuan dalam satu baris.
- Data keyakinan statistik: Memberikan nilai p, estimasi titik, dan margin error yang dihitung.
- Efisiensi: Menghilangkan kebutuhan untuk menggabungkan atau membandingkan hasil dari beberapa laporan secara manual.
- Dukungan dalam kampanye: Ini adalah satu-satunya cara untuk membandingkan kontrol versus perlakuan untuk eksperimen dalam kampanye, yang memisahkan traffic dalam satu kampanye.
Pelaporan kampanye
Untuk eksperimen yang membuat kampanye perlakuan terpisah (misalnya,
SEARCH_CUSTOM), Anda dapat membuat kueri resource campaign dan menggunakan
campaign.experiment_type untuk mengidentifikasi kampanye BASE (kontrol) dan EXPERIMENT
(perlakuan). Pendekatan ini berguna jika Anda perlu menyegmentasikan metrik pada tingkat yang lebih terperinci (misalnya, menurut grup iklan atau kata kunci) atau melihat metadata kampanye yang tidak tersedia di resource experiment. Namun, Anda harus melakukan perbandingan performa dan penghitungan statistik secara manual.
Anda tidak dapat menggunakan pelaporan tingkat kampanye untuk membandingkan grup dalam eksperimen intra-kampanye, karena pembagian traffic terjadi secara internal dalam satu kampanye.
Mengirimkan kueri campaign untuk eksperimen dalam kampanye hanya akan menampilkan total yang diagregasi.
Praktik terbaik
- Pilih tingkat keyakinan yang sesuai: Menetapkan nilai p-value yang lebih rendah dapat memberikan panduan terarah lebih cepat, terutama dengan anggaran atau volume konversi yang lebih rendah. Keyakinan 95% (nilai p <= 0,05) dianggap sebagai standar akademis dan mungkin lebih baik untuk hasil yang lebih akurat dalam jangka waktu yang lebih lama.
- Jalankan eksperimen dalam waktu yang cukup lama: Jalankan eksperimen setidaknya selama 4 minggu untuk memperhitungkan siklus performa mingguan, jeda konversi, dan periode pembelajaran.
- Berikan waktu untuk peningkatan: Untuk kampanye yang menggunakan bidding otomatis atau menguji fitur baru, abaikan data 1-2 minggu pertama untuk memberikan waktu bagi model bidding dan tingkat traffic untuk dikalibrasi ulang sesuai pembagian.
- Gunakan pemisahan 50/50: Pemisahan traffic 50/50 umumnya merupakan cara tercepat untuk mencapai hasil yang signifikan secara statistik.
- Jadwalkan terlebih dahulu: Tetapkan tanggal mulai eksperimen 3-7 hari ke depan untuk memberikan waktu bagi proses peninjauan dan persetujuan iklan.
- Anda hanya dapat menjalankan satu eksperimen per kampanye pada waktu tertentu.