इस गाइड में, Google Analytics Data API का इस्तेमाल करके जनरेट की गई रिपोर्ट में दिखने वाले डेटा के बारे में अहम जानकारी दी गई है. उपयोगकर्ताओं को अक्सर, एपीआई (खास तौर पर runReport तरीके) से मिले डेटा और Google Analytics के यूज़र इंटरफ़ेस (यूआई) में दिखाए गए डेटा के बीच अंतर दिखता है.
सैंपलिंग और एग्रीगेशन
Google Analytics Data API की runReport विधि, सैंपल के तौर पर चुना गया डेटा दिखा सकती है. ऐसा खास तौर पर बड़े डेटासेट या मुश्किल क्वेरी के लिए होता है. Google Analytics के यूज़र इंटरफ़ेस (यूआई) में भी सैंपलिंग लागू होती है. हालांकि, थ्रेशोल्ड और एल्गोरिदम अलग-अलग हो सकते हैं. इस वजह से, रिपोर्ट की गई वैल्यू में थोड़ा अंतर हो सकता है.
यह समझने के लिए कि रिपोर्ट के नतीजे, उपलब्ध डेटा के सबसेट पर आधारित हैं या नहीं, ResponseMetaData ऑब्जेक्ट के samplingMetadatas फ़ील्ड की जांच करें. अगर रिपोर्ट के नतीजों को सैंपल किया गया है, तो इस फ़ील्ड में यह बताया जाता है कि इस रिपोर्ट में कितने प्रतिशत इवेंट का इस्तेमाल किया गया है.
Google Analytics Data API की कुछ रिपोर्टिंग के तरीकों से, आपको अपनी पसंद के मुताबिक सैंपलिंग लेवल तय करने की सुविधा मिलती है. रिपोर्ट के सैंपलिंग लेवल को कंट्रोल करने के लिए, properties.reportTasks.create तरीके के samplingLevel फ़ील्ड का इस्तेमाल किया जा सकता है.
इस सुविधा की मदद से, Google Analytics 360 प्रॉपर्टी को सैंपलिंग की ज़्यादा सीमाएं मिलती हैं. जैसे, एक अरब इवेंट. इसके अलावा, इवेंट की ज़्यादा संख्या के लिए बिना सैंपल लिए गए नतीजों का इस्तेमाल करने के लिए, UNSAMPLED के लिए सैंपलिंग की सीमाएं भी सेट की जा सकती हैं.
ज़्यादा जानकारी के लिए, डेटा सैंपलिंग के बारे में जानकारी लेख पढ़ें.
यूनीक काउंट का अनुमान
Google Analytics Data API, HyperLogLog++ (HLL++) एल्गोरिदम का इस्तेमाल करता है. इससे, सक्रिय उपयोगकर्ताओं और सेशन जैसी मेट्रिक के लिए यूनीक काउंट का अनुमान लगाया जाता है. इस तरीके का इस्तेमाल एपीआई और Google Analytics के यूज़र इंटरफ़ेस (यूआई) में किया जाता है, ताकि परफ़ॉर्मेंस को बेहतर बनाया जा सके और बड़े डेटासेट को बेहतर तरीके से मैनेज किया जा सके. इसका मतलब है कि नतीजे, सटीक संख्या के बजाय अनुमानित होते हैं.
ज़्यादा जानकारी के लिए, इन संसाधनों को देखें: Google Analytics में यूनीक संख्या का अनुमान और उपयोगकर्ताओं की संख्या में अंतर.
डेटा थ्रेशोल्ड
Google Analytics, रिपोर्ट पर डेटा थ्रेशोल्ड लागू कर सकता है. ऐसा, डेमोग्राफ़िक्स (उम्र, लिंग, आय, शिक्षा वगैरह), रुचियों या डेटा में मौजूद अन्य सिग्नल के आधार पर अलग-अलग उपयोगकर्ताओं की पहचान से जुड़ी जानकारी हासिल करने से रोकने के लिए किया जाता है.
अगर किसी रिपोर्ट लाइन में उपयोगकर्ताओं की संख्या कम है, तो हो सकता है कि उस लाइन को नतीजों से हटा दिया जाए. ऐसा उन रिपोर्ट में ज़्यादा होता है जिनमें ज़्यादा कार्डिनैलिटी वाले डाइमेंशन या कस्टम डाइमेंशन शामिल होते हैं.
यह समझने के लिए कि इस रिपोर्ट पर थ्रेशोल्ड लागू होता है या नहीं, ResponseMetaData ऑब्जेक्ट के subjectToThresholding फ़ील्ड की जांच करें.
ज़्यादा जानकारी के लिए, डेटा थ्रेशोल्ड देखें.
(other) लाइन
अगर किसी डाइमेंशन में एलिमेंट की संख्या ज़्यादा है, तो Google Analytics आम तौर पर कम इस्तेमाल होने वाली वैल्यू को (other) के तौर पर लेबल की गई लाइन के ग्रुप में डाल सकता है. ऐसा उन रिपोर्ट में ज़्यादा होता है जिनमें हर दिन 500 से ज़्यादा यूनीक वैल्यू वाले डाइमेंशन शामिल होते हैं.
Data API के साथ फ़िल्टर का इस्तेमाल करते समय ध्यान दें कि फ़िल्टर, (other) लाइन में मौजूद डेटा को नहीं देखते हैं. साथ ही, इन्हें डेटा एग्रीगेट होने और (other) लाइन जनरेट होने के बाद लागू किया जाता है.
यह समझने के लिए कि किसी रिपोर्ट में (other) लाइन में रोल किया गया डेटा है या नहीं, ResponseMetaData ऑब्जेक्ट के dataLossFromOtherRow फ़ील्ड की जांच करें.
ज़्यादा जानकारी के लिए, Google Analytics 4 में(other) लाइन लेख पढ़ें.
रिपोर्टिंग आइडेंटिटी
रिपोर्टिंग आइडेंटिटी से यह तय होता है कि रिपोर्ट में उपयोगकर्ताओं की डुप्लीकेट कॉपी कैसे हटाई जाती हैं. अलग-अलग आइडेंटिटी सेटिंग (जैसे, "ब्लेंड की गई" या "डिवाइस पर आधारित") की वजह से, एक ही तारीख की सीमा के लिए उपयोगकर्ताओं की संख्या अलग-अलग हो सकती है.
Google Analytics के यूज़र इंटरफ़ेस (यूआई) और Data API, दोनों में आपकी प्रॉपर्टी के लिए एक ही रिपोर्टिंग आइडेंटिटी सेटिंग का इस्तेमाल किया जाता है. इस सेटिंग में बदलाव करने पर, यूज़र इंटरफ़ेस (यूआई) और एपीआई, दोनों में मौजूद रिपोर्ट पर असर पड़ेगा. अगर यूज़र इंटरफ़ेस (यूआई) में रिपोर्ट जनरेट करने और एपीआई के ज़रिए रिपोर्ट का डेटा पाने के बीच सेटिंग बदल दी जाती है, तो हो सकता है कि तारीख की एक ही सीमा के लिए, दोनों रिपोर्ट में उपयोगकर्ताओं की संख्या अलग-अलग हो.
क्वेरी की खास जानकारी
अंतर को कम करने के लिए, पक्का करें कि आपके एपीआई अनुरोध में मौजूद ये पैरामीटर, Google Analytics के यूज़र इंटरफ़ेस (यूआई) रिपोर्ट में मौजूद सेटिंग से मेल खाते हों:
- तारीख की सीमाएं: पुष्टि करें कि शुरू और खत्म होने की तारीखें एक जैसी हों.
- डाइमेंशन और मेट्रिक: पक्का करें कि एपीआई अनुरोध में मौजूद डाइमेंशन और मेट्रिक, Google Analytics के यूज़र इंटरफ़ेस (यूआई) रिपोर्ट में मौजूद डाइमेंशन और मेट्रिक के बराबर हों.
- फ़िल्टर: पक्का करें कि एपीआई अनुरोध में लागू किए गए डाइमेंशन या मेट्रिक फ़िल्टर, यूज़र इंटरफ़ेस में इस्तेमाल किए गए फ़िल्टर से मेल खाते हों.
रिपोर्ट में डाइमेंशन जोड़ने से, कैलकुलेशन में इस्तेमाल होने वाले इवेंट की संख्या कम हो सकती है. रिपोर्ट में सिर्फ़ वे इवेंट शामिल किए जाते हैं जिनमें अनुरोध किए गए डाइमेंशन का डेटा होता है. इस वजह से, किसी क्वेरी में डाइमेंशन जोड़ने से, रिपोर्ट में मेट्रिक के लिए एग्रीगेट की गई वैल्यू में बदलाव हो सकता है.
डेटा अपडेट होने की फ़्रीक्वेंसी
Google Analytics को इवेंट डेटा को प्रोसेस करने और एग्रीगेट करने में समय लगता है. हाल ही के डेटा का इस्तेमाल करते समय, आपको रिपोर्ट में मामूली अंतर दिख सकता है. ऐसा तब होता है, जब डेटा को फिर से पाने में कुछ समय लगता है. उदाहरण के लिए, अगर आपने यूज़र इंटरफ़ेस (यूआई) में कोई रिपोर्ट देखी और कुछ मिनट बाद उसी रिपोर्ट के लिए एपीआई से क्वेरी की, तो हो सकता है कि डेटा में बदलाव हो गया हो. ऐसा इसलिए, क्योंकि डेटा को प्रोसेस और एग्रीगेट किया जा रहा है.
ज़्यादा जानकारी के लिए, डेटा अपडेट होने की फ़्रीक्वेंसी देखें.
पूरे डेटा पर आधारित रिपोर्ट बनाने के विकल्प
अगर आपको इस्तेमाल के उदाहरण के लिए, इवेंट-लेवल का पूरा और बिना सैंपल वाला डेटा चाहिए, तो इन विकल्पों का इस्तेमाल करें:
BigQuery Export: Google Analytics के लिए BigQuery Export
इवेंट के रॉ डेटा का बेहतर तरीके से विश्लेषण करने के लिए, इस तरीके का सुझाव दिया जाता है.
Analytics 360: Analytics 360 लाइसेंस वाली प्रॉपर्टी में, सैंपलिंग की सीमाएं ज़्यादा होती हैं. साथ ही, उन्हें ज़्यादा जानकारी वाली रिपोर्टिंग सुविधाओं का ऐक्सेस मिलता है.