מה אפשר לצפות מנתוני הדיווח

במדריך הזה מוסבר מידע חשוב על הנתונים שמוצגים בדוחות שנוצרו באמצעות Google Analytics Data API. משתמשים נתקלים לעיתים קרובות בפערים בין הנתונים שמוחזרים על ידי ה-API (במיוחד השיטה runReport) לבין הנתונים שמוצגים בממשק המשתמש של Google Analytics.

דגימה וצבירה

שיטת runReport של Google Analytics Data API יכולה להחזיר נתונים שנדגמו, במיוחד עבור מערכי נתונים גדולים או שאילתות מורכבות. גם בממשק המשתמש של Google Analytics נעשה שימוש בדגימה, אבל ערכי הסף והאלגוריתמים הספציפיים יכולים להיות שונים, ולכן יכולים להיות הבדלים קלים בין הערכים המדווחים.

כדי להבין אם תוצאות הדוח מבוססות על קבוצת משנה של הנתונים הזמינים, בודקים את השדה samplingMetadatas של אובייקט ResponseMetaData. אם התוצאות בדוח מבוססות על דגימה, בשדה הזה מפורט אחוז האירועים ששימשו ליצירת הדוח.

שיטות דיווח מסוימות ב-Google Analytics Data API מאפשרות לכם לציין את רמת הדגימה שאתם רוצים. אפשר להשתמש בשדה samplingLevel של השיטה properties.reportTasks.create כדי לשלוט ברמת הדגימה של הדוח.

התכונה הזו מאפשרת לנכסי Google Analytics 360 גישה למגבלות דגימה גבוהות יותר של מיליארד אירועים. בנוסף, אפשר להגדיר את מגבלות הדגימה ל-UNSAMPLED כדי להשתמש בתוצאות לא מדגמיות עבור מספרים גדולים של אירועים.

מידע נוסף זמין במאמר מידע על דגימת נתונים.

חישוב משוער של מספר הערכים הייחודיים

‫Google Analytics Data API משתמש באלגוריתם HyperLogLog++‎ ‏ (HLL++‎) כדי להעריך את המספרים הייחודיים של מדדים כמו משתמשים פעילים וסשנים. הגישה הזו משמשת ב-API ובממשק המשתמש של Google Analytics כדי לשפר את הביצועים ולנהל מערכי נתונים גדולים ביעילות, כלומר התוצאות הן קירובים ולא ספירות מדויקות.

למידע נוסף, אפשר לעיין במקורות המידע הבאים: חישוב המספר המשוער של משתמשים ייחודיים ב-Google Analytics והבדלים במספרי המשתמשים.

ערכי סף להצגת נתונים

המערכת של Google Analytics עשויה להחיל ערכי סף להצגת נתונים בדוחות כדי למנוע את האפשרות לזהות משתמשים ספציפיים על סמך מאפיינים דמוגרפיים, תחומי עניין או אותות אחרים שקיימים בנתונים.

אם שורה בדוח מכילה מספר קטן של משתמשים, יכול להיות שהשורה הזו לא תיכלל בתוצאות. התופעה הזו נפוצה יותר בדוחות שכוללים מאפיינים או מאפיינים מותאמים אישית עם קרדינליות גבוהה.

כדי להבין אם הדוח הזה כפוף להצגת נתונים מעל סף מסוים, בודקים את השדה subjectToThresholding של אובייקט ResponseMetaData.

מידע נוסף זמין במאמר ערכי סף להצגת נתונים.

השורה (other)

אם למאפיין יש עוצמה גבוהה, מערכת Google Analytics עשויה לקבץ ערכים פחות נפוצים בשורה עם התווית (other). הבעיה הזו נפוצה יותר בדוחות שכוללים מאפיינים עם יותר מ-500 ערכים ייחודיים ליום.

כשמשתמשים במסננים עם Data API, חשוב לזכור שהמסננים לא בודקים את השורה (other), והם מופעלים אחרי שהנתונים צורפו והשורה (other) נוצרה.

כדי להבין אם דוח מכיל נתונים שמוצגים בשורה (other), צריך לבדוק את השדה dataLossFromOtherRow של האובייקט ResponseMetaData.

מידע נוסף זמין במאמר בנושא השורה(other) ב-Google Analytics 4.

זיהוי של מי שמדווח

הזיהוי של מי שמדווח קובע איך המשתמשים מוסרים מדוחות כפילויות. הגדרות שונות של זהות (כמו 'משולבת' או 'מבוססת-מכשיר') יכולות להניב מספרים שונים של משתמשים לאותו טווח תאריכים.

גם ממשק המשתמש של Google Analytics וגם Data API משתמשים באותה הגדרה של זיהוי של מי שמדווח עבור הנכס. אם משנים את ההגדרה הזו, היא תשפיע על הדוחות בממשק המשתמש וב-API. אם ההגדרה משתנה בין הרצת דוח בממשק המשתמש לבין קבלת נתוני הדוח דרך ה-API, יכול להיות שמספר המשתמשים יהיה שונה בין שני הדוחות עבור אותו טווח תאריכים.

ספציפיות השאילתה

כדי לצמצם את הפערים, חשוב לוודא שהפרמטרים הבאים בבקשת ה-API זהים בדיוק להגדרות בדוח בממשק המשתמש של Google Analytics:

  • טווחי תאריכים: מוודאים שתאריכי ההתחלה והסיום זהים.
  • מאפיינים ומדדים: מוודאים שהמאפיינים והמדדים בבקשת ה-API זהים למאפיינים ולמדדים בדוח בממשק המשתמש של Google Analytics.
  • מסננים: מוודאים שכל מסנן של מאפיין או מדד שהוחל בבקשת ה-API זהה למסנן שבו נעשה שימוש בממשק המשתמש.

הוספת מאפיינים לדוח עלולה להוביל לשימוש בפחות אירועים בחישובים. בדוח נכללים רק אירועים שמכילים נתונים לגבי המאפיינים המבוקשים. כתוצאה מכך, הוספת מאפיינים לשאילתה יכולה לשנות את הערכים המצטברים של המדדים בדוח.

עדכניות הנתונים

למערכת Google Analytics לוקח זמן לעבד ולצבור נתוני אירועים. כשעובדים עם נתונים עדכניים מאוד, יכול להיות שיהיו הבדלים קלים בין הדוחות אם יש עיכוב בזמן בין שליפות הנתונים. לדוגמה, אם צופים בדוח בממשק המשתמש ואז שולחים שאילתה ל-API לגבי אותו דוח כמה דקות לאחר מכן, יכול להיות שהנתונים השתנו בגלל עיבוד וצבירה שמתבצעים באופן שוטף.

מידע נוסף זמין במאמר עדכניות הנתונים.

חלופות לנתונים ללא דגימה

אם בתרחיש לדוגמה שלכם נדרשים נתונים מלאים ברמת האירוע, ללא דגימה, כדאי להשתמש בחלופות הבאות:

  • BigQuery Export: BigQuery Export for Google Analytics

    היא השיטה המומלצת לניתוח מתקדם של נתוני אירועים גולמיים.

  • Analytics 360: לנכסים עם רישיון ל-Analytics 360 יש מגבלות דגימה גבוהות יותר וגישה לתכונות דיווח מפורטות יותר.