דוח על ניסויים

יש שתי דרכים עיקריות לדווח על ניסויים:

  • דיווח ישיר על תוצאות הניסוי: אפשר לשלוח שאילתה למשאב experiment כדי לקבל מדדים. האפשרות הזו מספקת מדדים לקבוצת הבקרה ולקבוצת הניסוי בתשובה אחת, יחד עם נתוני השוואה סטטיסטיים כמו עלייה וערכי p. זו הדרך היחידה לדווח על ניסויים בתוך קמפיין.
  • דיווח על קמפיינים: כדי לקבל מדדים, שולחים שאילתה למשאב campaign, ומשתמשים ב-campaign.experiment_type כדי להבחין בין קמפיינים בסיסיים לקמפיינים של ניסויים. האפשרות הזו זמינה רק בניסויים שבהם נעשה שימוש בקמפיינים נפרדים של קבוצת הבקרה וקבוצת הניסוי, כמו ניסויים בניהול המערכת.

המדריך הזה מתמקד בעיקר בדוחות ניסויים ישירים, שתואמים לכל סוגי הניסויים שתומכים בדיווח.

דוחות ישירים של ניסויים

אפשר לשלוח שאילתה ישירות למשאב experiment כדי לאחזר מדדי ביצועים והשוואות סטטיסטיות בין קבוצת הבקרה לקבוצת הניסוי.

מדדים ומובהקות סטטיסטית

לגבי מדדים מרכזיים כמו קליקים, חשיפות, עלות, המרות וערך המרה, המשאב experiment מספק גם מדדים של קבוצת הניסוי (לדוגמה, metrics.clicks) וגם מדדים של קבוצת הבקרה (לדוגמה, metrics.control_clicks) באותה שורה.

הוא גם מספק שדות שיעזרו לכם להעריך את המובהקות הסטטיסטית של כל הבדל בין הזרועות:

  • metrics.*_p_value: ההסתברות שהתוצאות שנצפו יתרחשו אם לניסוי לא הייתה השפעה בפועל על המדד. ערך p נמוך יותר מצביע על מובהקות סטטיסטית גבוהה יותר.
  • metrics.*_point_estimate: העלייה המשוערת באחוזים (חיובית או שלילית) במדד הנתון עבור קבוצת הניסוי בהשוואה לקבוצת הבקרה. יחד עם margin_of_error, הם מתארים רווח בר-סמך עם רמת מהימנות שנקבעה מראש להבדל שמוערך. הכמות המשוערת היא (קבוצת הניסוי / קבוצת הבקרה – 1). האומד הנקודתי הוא מרכז הרווח בר-סמך.
  • metrics.*_margin_of_error: הרדיוס של הרווח בר-הסמך, שממורכז ב-point_estimate. החישוב מתבצע עבור רמת מהימנות מוגדרת מראש, שתלויה בסוג הניסוי.

יש תמיכה בשדות המדדים הבאים של הליבה במשאב experiment, כולל ערך של קבוצת ניסוי, ערך של קבוצת בקרה ושדות הנתונים הסטטיסטיים שצוינו קודם:

  • clicks
  • impressions
  • cost_micros
  • conversions
  • cost_per_conversion
  • conversion_value
  • conversion_value_per_cost

במקרה של המרות, השדות הסטטיסטיים זמינים דרך השדות הבאים absolute_change ולא כערכים יחסיים:

כדי לקבל עזרה ביצירת שאילתות תקינות למשאב experiment, אפשר להשתמש בהכלי של Google Ads ליצירת שאילתות.

שאילתה לדוגמה

שאילתת GAQL הבאה מאחזרת מדדי מפתח של ניסוי:

SELECT
  experiment.experiment_id,
  experiment.name,
  experiment.type,
  metrics.clicks,
  metrics.control_clicks,
  metrics.clicks_point_estimate,
  metrics.clicks_margin_of_error,
  metrics.clicks_p_value,
  metrics.conversions,
  metrics.control_conversions,
  metrics.conversions_absolute_change_point_estimate,
  metrics.conversions_absolute_change_margin_of_error,
  metrics.conversions_absolute_change_p_value
FROM experiment
WHERE experiment.experiment_id = EXPERIMENT_ID

פירוש התוצאות

אתם יכולים להשתמש בשדות של ערך p, אומדן נקודתי וטווח שגיאה כדי לקבוע אם הניסוי הניב תוצאות בעלות מובהקות סטטיסטית. לדוגמה, אם conversions_absolute_change_p_value נמוך מהסף שבחרתם (לדוגמה, 0.05 לרמת סמך של 95%) ו-conversions_absolute_change_point_estimateconversions_absolute_change_margin_of_error גדול מאפס, המשמעות היא שקבוצת הניסוי מניבה ביצועים טובים משמעותית מקבוצת הבקרה מבחינת המרות.

הנה קטע קוד ב-Python שמדגים איך להעריך את התוצאות על סמך ערך p < 0.05 ואומדני העלייה:

Java

This example is not yet available in Java; you can take a look at the other languages.
    

C#‎

This example is not yet available in C#; you can take a look at the other languages.
    

PHP

This example is not yet available in PHP; you can take a look at the other languages.
    

Python

def evaluate_experiment(
    client: GoogleAdsClient, customer_id: str, row: GoogleAdsRow
) -> None:
    """Evaluates the performance of the experiment.

    Args:
        client: an initialized GoogleAdsClient instance.
        customer_id: a client customer ID.
        row: a GoogleAdsRow containing the experiment arm and metrics.
    """
    metrics = row.metrics
    experiment_resource_name = row.experiment.resource_name

    # 1. Evaluate conversion success as a primary success signal.
    # - Point Estimate: Represents the estimated average lift or difference in conversions.
    # - Margin of Error: Outlines the confidence interval bounds. Note that the margin_of_error provided by the API is calculated for a preset confidence level which is set based on the experiment type.
    # - Lower Bound: (Point Estimate - Margin of Error). If this value is above 0,
    #   we have statistical significance that performance has improved.
    conv_p_value = metrics.conversions_absolute_change_p_value
    conv_lift = metrics.conversions_absolute_change_point_estimate
    conv_error = metrics.conversions_absolute_change_margin_of_error
    conv_lower_bound = conv_lift - conv_error

    if conv_p_value <= P_VALUE_THRESHOLD:
        if conv_lower_bound > 0:
            print(
                "Significant Success: Conversions increased. Even at the lower"
                f" bound, the lift is {conv_lower_bound:.2f}. Promoting"
                " changes."
            )
            promote_experiment(client, customer_id, experiment_resource_name)
            return
        elif (conv_lift + conv_error) < 0:
            print(
                "Significant Decline: Even the upper bound"
                f" ({conv_lift + conv_error:.2f}) is below zero. Ending"
                " experiment."
            )
            end_experiment(client, customer_id, experiment_resource_name)
            return

    # 2. Evaluate click volume as a secondary signal.
    # This is helpful as an early indicator or for lower-volume accounts.
    click_p_value = metrics.clicks_p_value
    click_lift = metrics.clicks_point_estimate
    click_error = metrics.clicks_margin_of_error
    click_lower_bound = click_lift - click_error

    if click_p_value <= P_VALUE_THRESHOLD and click_lower_bound > 0:
        # We have a directional winner: high confidence in more traffic,
        # but not enough data to confirm conversion impact yet.
        print(
            f"Click volume is significantly up (+{click_lift*100:.1f}%). "
            "Graduating treatment for further manual analysis."
        )

        # Graduate if it's a separate campaign test.
        # This keeps the high-volume treatment running independently.
        # Intra-campaign experiments (like ADOPT_BROAD_MATCH_KEYWORDS and
        # ADOPT_AI_MAX) run directly within the base campaign, meaning there is only
        # a single campaign involved and no separate treatment campaign to graduate.
        # Therefore, graduation is not supported for intra-campaign experiments.
        experiment_type_name = row.experiment.type_.name
        if (
            experiment_type_name != "ADOPT_BROAD_MATCH_KEYWORDS"
            and experiment_type_name != "ADOPT_AI_MAX"
        ):
            graduate_experiment(client, customer_id, experiment_resource_name)
        else:
            print(
                "Intra-campaign trial detected: Graduation is not supported"
                " because there is only one campaign. Continuing to run to"
                " gather more conversion data."
            )
    else:
        # Both conversions and clicks are noisy.
        print(
            "Inconclusive: No significant lift in Conversions"
            f" (p={conv_p_value:.2f}) or Clicks (p={click_p_value:.2f})."
            f" Current estimated lift: {conv_lift:.2f} +/- {conv_error:.2f}."
            " Continue running."
        )
      

Ruby

This example is not yet available in Ruby; you can take a look at the other languages.
    

Perl

This example is not yet available in Perl; you can take a look at the other languages.
    

curl

היתרונות בהשוואה לדוחות על קמפיינים

לדוחות ניסוי ישיר יש כמה יתרונות לעומת שאילתות נפרדות של דוחות קמפיין:

  1. מדדים מרוכזים: אפשר לאחזר מדדים לקבוצת הבקרה ולקבוצת הניסוי בשורה אחת.
  2. נתוני מובהקות סטטיסטית: כוללים ערכי p מחושבים, הערכות נקודתיות ושולי טעות.
  3. יעילות: לא צריך יותר לצרף ידנית תוצאות מכמה דוחות או להשוות ביניהן.
  4. תמיכה בניסויים בתוך קמפיין: זו הדרך היחידה להשוות בין קבוצת בקרה לבין קבוצת ניסוי בניסויים בתוך קמפיין, שבהם התנועה מפולחת בתוך קמפיין יחיד.

דוחות על הקמפיין

בניסויים שבהם נוצרים קמפיינים נפרדים של קבוצת הניסוי (למשל, SEARCH_CUSTOM), אפשר לשלוח שאילתה למשאב campaign ולהשתמש בפרמטר campaign.experiment_type כדי לזהות קמפיינים של BASE (קבוצת הבקרה) ושל EXPERIMENT (קבוצת הניסוי). הגישה הזו שימושית אם אתם צריכים לפלח מדדים ברמה מפורטת יותר (למשל, לפי קבוצת מודעות או מילת מפתח) או להציג מטא-נתונים של קמפיין שלא זמינים במשאב experiment. עם זאת, צריך לבצע השוואות ביצועים וחישובים סטטיסטיים באופן ידני.

אי אפשר להשתמש בדוחות ברמת הקמפיין כדי להשוות בין קבוצות בניסויים בתוך קמפיין, כי חלוקת התנועה מתבצעת באופן פנימי בתוך קמפיין יחיד. שאילתה של campaign לגבי ניסוי בתוך קמפיין מחזירה רק סכומים מצטברים.

שיטות מומלצות

  • בחירת רמת מהימנות מתאימה: הגדרה של סף נמוך יותר של ערך p (p<0.05) יכולה לספק הנחיות כיווניות מהר יותר, במיוחד בתקציבים נמוכים או בנפחי המרה נמוכים. רמת סמך של 95% (ערך p <= 0.05) נחשבת לסטנדרט האקדמי ועשויה להיות טובה יותר לתוצאות מדויקות יותר בטווח זמן ארוך יותר.
  • הפעלת ניסויים למשך זמן מספיק: מומלץ להפעיל ניסויים למשך 4 שבועות לפחות כדי להביא בחשבון מחזורי ביצועים שבועיים, זמנים מהקליק להמרה ותקופות למידה.
  • תקופת הרצה: בקמפיינים שמוגדר בהם בידינג אוטומטי או שמתבצע בהם ניסוי של תכונות חדשות, כדאי להתעלם מהנתונים של השבוע או השבועיים הראשונים כדי לאפשר למודלים של הבידינג ולרמות התנועה לעבור כיול מחדש בהתאם לפיצול.
  • שימוש בחלוקה של 50/50: בדרך כלל, חלוקת תנועה של 50/50 היא הדרך המהירה ביותר להשיג תוצאות עם מובהקות סטטיסטית.
  • תזמון מראש: מגדירים את תאריך ההתחלה של הניסוי למועד עתידי, 3-7 ימים קדימה, כדי לאפשר זמן לתהליכי בדיקה ואישור של המודעות.
  • בכל קמפיין אפשר להריץ רק ניסוי אחד בכל רגע נתון.