עבודה עם רעש

כאן תוכלו ללמוד איך לעבוד עם רעש, להביא בחשבון את ההשפעה של הרעשים ולצמצם את ההשפעה שלהם.

לפני שמתחילים

לפני שממשיכים, כדי להבין לעומק מהו רעש וההשפעה שלו, כדאי לעיין במאמר הסבר על רעש בדוחות סיכום.

אמצעי הבקרה על הרעש

אתם לא יכולים לשלוט ישירות ברעש שנוסף לדוחות המצטברים, אבל יש כמה פעולות שאפשר לבצע כדי למזער את ההשפעות של הדוחות. בקטעים הבאים מוסבר על האסטרטגיות האלה.

הגדלה של תקציב התרומה

כפי שמוסבר במאמר "הסבר על רעש", הרעש המוחל על ערך הסיכום של כל מפתח מבוסס על סולם מ-0 עד 65,536 (0-CONTRIBUTION_BUDGET).

התפלגות הרעשים מבוססת על תקציב.

לכן, כדי למקסם את האות ביחס לרעש, כדאי להגדיל כל ערך לפני שמגדירים אותו כערך נצבר. כלומר, מכפילים כל ערך בגורם מסוים שהוא גורם קנה המידה, תוך הקפדה על כך שהוא יישאר במסגרת תקציב התרומה.

רעש יחסי, עם או בלי קנה מידה.

חישוב גורם קנה מידה

גורם קנה המידה מייצג את המידה שבה אתם רוצים להתאים ערך מצטבר נתון. הערך שלו צריך להיות תקציב התרומה חלקי הערך המצטבר המקסימלי של מפתח מסוים.

קביעת גורם קנה מידה בהתבסס על תקציב התרומה.

לדוגמה, נניח שהמפרסמים רוצים לדעת מה ערך הרכישה הכולל. אתם יודעים שערך הרכישה הצפוי המקסימלי של כל רכישה בודדת הוא 8,000 ש"ח, למעט כמה חריגים שהחלטתם להתעלם מהם:

  • חישוב גורם קנה המידה:
    • כדי למקסם את יחס האות לרעש, צריך לשנות את הערך הזה ל-65,536 (תקציב התרומה).
    • התוצאה היא גורם קנה מידה של 65,536 / 2,000, כ-32x. בפועל, תוכלו לעגל את הגורם הזה למעלה או למטה.
  • הגדלת הערכים לפני צבירה. בכל רכישה בסך $1, יש להגדיל את המדד שבמעקב ב-32. לדוגמה, לרכישה בסך 480 ש"ח, צריך להגדיר ערך נצבר של 120*32 = 3,840.
  • הקטנת הערכים אחרי צבירה. אחרי שמקבלים את דוח הסיכום שמכיל את ערך הרכישה המסוכם של כמה משתמשים, אפשר להקטין את ערך הסיכום באמצעות גורם קנה המידה שבו השתמשתם לפני הצבירה. בדוגמה שלנו השתמשנו בגורם קנה מידה של 32 צבירת נתונים מראש, לכן עלינו לחלק את ערך הסיכום שהתקבל בדוח הסיכום ב-32. לכן, אם ערך הרכישה הכולל של מפתח נתון בדוח הסיכום הוא 76,800, ערך הרכישה הכולל (עם רעש) הוא 76,800/32 = 9,400$.

פיצול התקציב

אם יש לכם כמה יעדי מדידה, כמו מספר רכישות וערך רכישה, מומלץ לחלק את התקציב בין היעדים האלה.

במקרה כזה, גורמי ההתאמה יהיו שונים לערכים נצברים שונים, בהתאם לערך המקסימלי הצפוי של ערך מצטבר נתון.

אפשר לקרוא פרטים נוספים במאמר הסבר על מפתחות צבירה.

לדוגמה, נניח שאתם עוקבים גם אחרי מספר הרכישות וגם אחרי ערך הרכישה, ושאתם מחליטים להקצות את התקציב באופן שווה.

אפשר להקצות 65,536 / 2 = 32,768 לכל סוג מדידה ולכל מקור.

  • מספר הרכישות:
    • אתם עוקבים אחרי רכישה אחת בלבד, ולכן מספר הרכישות המקסימלי להמרה נתונה הוא 1.
    • לכן, אתם מחליטים להגדיר את גורם קנה המידה עבור מספר הרכישות כ-32,768 / 1 = 32,768.
  • ערך רכישה:
    • נניח שערך הרכישה הצפוי המקסימלי של כל רכישה בודדת הוא 8,000 ש"ח.
    • לכן אתם מחליטים להגדיר את גורם קנה המידה לערך הרכישה של 32,768 / 2,000 = 16.384 או כ-16.

מפתחות צבירה מכוערים יותר משפרים יחס בין אות לרעש

מפתחות גסים תופסים יותר אירועי המרה מאשר מפתחות מפורטים, ולכן בדרך כלל מפתחות לא גסים מובילים לערכי סיכום גבוהים יותר.

ערכי סיכום גבוהים יותר מושפעים פחות מרעש מערכים נמוכים יותר. סביר להניח שהרעש בערכים האלה יהיה נמוך יותר בהשוואה לערך הזה.

ערכים שנאספים באמצעות מפתחות גסים יותר צפויים להיות פחות רועשים מערכים שנאספים באמצעות מפתחות מפורטים יותר.

דוגמה

כל שאר התנאים זהים, מפתח שעוקב אחר ערך הרכישה בכל העולם (המסכם את כל המדינות) יוביל לערך רכישה מסכם גבוה יותר (ולמספר המרות מסכם גבוה יותר) בהשוואה למפתח שעוקב אחר המרות ברמת המדינה.

לכן, מידת הרעש היחסית בערך הרכישה הכולל במדינה מסוימת תהיה גבוהה יותר מהרעש היחסי בערך הרכישה הכולל בכל המדינות.

באופן דומה, ערך הרכישה הכולל של נעליים נמוך מערך הרכישה הכולל של כל הפריטים (כולל נעליים).

לכן, ה"רעש היחסי" בערך הרכישה הכולל של הנעליים יהיה גבוה יותר מהרעש היחסי בהשוואה לערך הרכישה הכולל של כל הפריטים.

השפעת הרעש עם מקשים מפורטים לעומת מקשים לא מפורטים.

סיכום של ערכי סיכום (אוסף) גם מסכם את הרעש

סיכום של ערכי הסיכום מדוחות הסיכום כדי לקבל גישה לנתונים ברמה גבוהה יותר מאפשר לסכם גם את ערכי הסיכום האלה.

רמת הרעש באמצעות מפתחות מפורטים עם אוספים לעומת מפתחות גסים ללא אוספים

נבחן שתי גישות שונות: - גישה א': עליכם לכלול מזהה גיאוגרפי במפתחות. דוחות סיכום חושפים מפתחות ברמת המזהה הגיאוגרפי, וכל אחד מהם משויך לערך הרכישה המסכם ברמה של מזהה גיאוגרפי ספציפי. - גישה ב': אתם לא כוללים מזהה גיאוגרפי במפתחות. דוחות סיכום חושפים באופן ישיר את ערך הרכישה הכולל של כל המיקומים או מזהי המיקומים הגיאוגרפיים.

כדי לקבל גישה לערך הרכישה ברמת המדינה: - בגישה א', מסכמים ערכי סיכום ברמת המזהה הגיאוגרפי וכך מסכמים גם את הרעשים שהם מבצעים. סביר להניח שהדבר יגרום ליותר רעש לערך הרכישה הסופי ברמת המזהה הגיאוגרפי. - בגישה ב' בוחנים ישירות את הנתונים שנחשפו בדוחות הסיכום. רעש נוסף לנתונים האלה רק פעם אחת.

לכן, הערך הכולל של הרכישה לפי מזהה גיאוגרפי נתון עשוי להיות רועש יותר בגישה א'.

באופן דומה, אם תכללו מאפיין ברמת המיקוד במפתחות שלכם, סביר להניח שתקבלו תוצאות רועשות יותר מאשר שימוש במפתחות גסים יותר עם מאפיין ברמת האזור.

צבירה לאורך תקופות זמן ארוכות יותר מגדילה את יחס האות לרעש

המשמעות של בקשה לקבלת דוחות סיכום בתדירות נמוכה יותר היא שסביר להניח שכל ערך סיכום יהיה גבוה מזה שהיה מתקבל אם ביקשת דוחות בתדירות גבוהה יותר. סביר להניח שיותר המרות יתרחשו בפרקי זמן ארוכים יותר.

כפי שצוין קודם, ככל שערך הסיכום גבוה יותר, כך הרעש היחסי צפוי להיות נמוך יותר. לכן, בקשה של דוחות סיכום בתדירות נמוכה יותר מובילה לאות גבוה (טוב יותר) ליחס רעש.

בקשה לקבלת דוחות סיכום בתדירות נמוכה יותר מובילה ליחס אות גבוה יותר לרעש,

הנה דוגמה להמחשה:

  • אם אתם מבקשים דוחות סיכום שעתיים במהלך 24 שעות, ולאחר מכן מסכם את ערך הסיכום של כל דוח לפי שעה כדי לגשת לנתונים ברמת היום, הרעש מתווסף 24 פעמים.
  • בדוח סיכום יומי אחד, רעש מתווסף רק פעם אחת.

אפסילון גבוה יותר, רעש נמוך יותר

ככל שערך אפסילון גבוה יותר, כך הרעש יורד וההגנה על הפרטיות נמוכה יותר.

שימוש בסינון ובביטול כפילויות

כדי להקצות תקציב בין מפתחות שונים, חשוב לדעת כמה פעמים אירוע נתון יכול להתרחש. לדוגמה, ייתכן שלמפרסם תהיה התעניינות ברכישה אחת בלבד לכל קליק, אבל ייתכן שהוא מעוניין ב-3 המרות מסוג 'צפייה בדף מוצר' לכל היותר. כדי לתמוך בתרחישי השימוש האלה, כדאי גם להשתמש בתכונות ה-API הבאות שמאפשרות לקבוע כמה דוחות נוצרים ואילו המרות נספרות:

התנסות עם אפסילון

טכנולוגיות פרסום יכולות להגדיר אפסילון לערך גדול מ-0 ועד 64 כולל. הטווח הזה מאפשר לבצע בדיקות גמישות. ערכים נמוכים יותר של אפסילון מספקים הגנה טובה יותר על הפרטיות. מומלץ להתחיל עם epsilon=10.

המלצות לניסוי

מומלץ להתחיל עם epsilon = 10. - אם הבעיה גורמת לבעיות מועילות, יש להגדיל את ה-epsilon בהדרגה. - שתפו את המשוב שלכם לגבי נקודות הטיה ספציפיות שאתם עשויים למצוא בנוגע לנוחות השימוש בנתונים.

עניין ושיתוף משוב

אתם יכולים להשתתף ב-API הזה ולהתנסות בו.

השלבים הבאים