डेटा को समझना
हालांकि, एम्बेडिंग कई देशों के लिए उपलब्ध हैं, लेकिन स्कीमा सभी डेटासेट में एक जैसा रहता है. हर देश के लिए, एम्बेड किए गए डेटा को अलग-अलग BigQuery लिस्टिंग में व्यवस्थित किया जाता है.
एंबेड किए जा रहे वेक्टर की बनावट
features कॉलम, 330 डाइमेंशन वाला वेक्टर है. इसे BigQuery में REPEATED FLOAT
ऐरे के तौर पर सेव किया जाता है. ऐरे का हर सेक्शन, जनसंख्या के रुझान के मॉडल से निकाले गए किसी खास डेटा सिग्नल से मेल खाता है.
इस स्ट्रक्चर को समझने से, फ़ीचर एब्लेशन (उदाहरण के लिए, यह तय करना कि मौसम की तुलना में खोज के व्यवहार से कितनी बिक्री का अनुमान लगाया जा सकता है) किया जा सकता है.
| वेक्टर इंडेक्स | डेटा सोर्स | ब्यौरा |
|---|---|---|
| 0 – 127 | खोज के रुझानों का एग्रीगेट किया गया डेटा | इससे किसी इलाके में लोगों की दिलचस्पी और उनकी समस्याओं के बारे में पता चलता है. उदाहरण के लिए, "जिम," "फ़्लू के लक्षण," "लग्ज़री सामान" के लिए की गई खोजें. |
| 128 – 255 | मैप और व्यस्तता | इससे, बनी हुई जगह (जैसे, अस्पताल, पार्क, स्कूल) और मानवीय गतिविधियों की डेंसिटी का पता चलता है. |
| 256 – 329 | मौसम और एयर क्वालिटी | यह एनवायरमेंट के कॉन्टेक्स्ट (तापमान, बारिश, एक्यूआई, हवा) को कैप्चर करता है. |
मुख्य कॉलम और मेटाडेटा
एम्बेडिंग टेबल में स्पैटियल मेटाडेटा होता है. इससे जियोस्पेशल विश्लेषण, फ़िल्टर करने, और Google Maps Platform की अन्य सेवाओं के साथ इंटरऑपरेबिलिटी की सुविधा मिलती है.
geo_id: यह क्षेत्र का प्राइमरी आइडेंटिफ़ायर होता है. S2 सेल डेटासेट के लिए, यह S2 सेल टोकन है. इसे हेक्साडेसिमल स्ट्रिंग के तौर पर दिखाया जाता है. उदाहरण के लिए,'80ead45'. इसे अपनी प्राइमरी जॉइन की के तौर पर इस्तेमाल करें.geo_name: क्षेत्र का नाम, जिसे आसानी से पढ़ा जा सकता है. ध्यान दें: S2 ग्रिड वाले डेटासेट के लिए, गणितीय सेल के स्टैंडर्ड नाम नहीं होते. इसलिए, इस कॉलम में वही टोकन होगा जोgeo_idमें है. ऐसा इसलिए किया गया है, ताकि सभी पॉप्युलेशन डाइनैमिक ऑफ़रिंग में कॉलम का स्ट्रक्चर एक जैसा बना रहे.administrative_area_level_1_id: यह टॉप-लेवल की प्रशासनिक सीमा (उदाहरण के लिए, राज्य या प्रांत) के लिए, Google Maps का यूनीक प्लेस आईडी होता है.administrative_area_level_1_name: टॉप-लेवल की सीमा का ऐसा नाम जिसे आसानी से पढ़ा जा सके. उदाहरण के लिए,'California'.administrative_area_level_2_id: यह सेकंडरी एडमिनिस्ट्रेटिव बाउंड्री (जैसे, काउंटी या ज़िला) के लिए, Google Maps का यूनीक प्लेस आईडी होता है.administrative_area_level_2_name: सेकंडरी बाउंड्री का ऐसा नाम जिसे आसानी से पढ़ा जा सके. उदाहरण के लिए,'Tulare County'.features: यह 330 डाइमेंशन वाला कोर एम्बेडिंग वेक्टर है. इसे नेटिव तौर परARRAY<FLOAT64>के तौर पर सेव किया जाता है. इसे Pandas Python लाइब्रेरी में लोड करने के लिए, इसे फ़्लैट करना या NumPy मैट्रिक्स में बदलना ज़रूरी है.
अक्सर पूछे जाने वाले सवाल
क्या मुझे रॉ इनपुट डेटा (जैसे, खोज क्वेरी या मोबिलिटी ट्रेस) का ऐक्सेस मिल सकता है?
नहीं. जनसंख्या में बदलाव से जुड़ी अहम जानकारी की एम्बेडिंग, एग्रीगेट किए गए और निजता बनाए रखने वाले सिग्नल से जनरेट होती हैं. उपयोगकर्ता की निजता बनाए रखने के लिए, हम उपयोगकर्ता के खास ट्रेस, खोज इतिहास या मूवमेंट के रॉ पैटर्न की जानकारी नहीं देते. एम्बेडिंग, इन व्यवहारों का लेटेंट प्रज़ेंटेशन उपलब्ध कराती हैं. इन्हें रॉ ऐनलिटिक्स के बजाय, मॉडलिंग और अनुमान लगाने के लिए ऑप्टिमाइज़ किया जाता है.
क्या वेक्टर डाइमेंशन को समझा जा सकता है (उदाहरण के लिए, क्या डाइमेंशन 5 "कॉफ़ी" है)?
वेक्टर, छिपे हुए पैटर्न को दिखाते हैं. इसका मतलब है कि वे खास और इंसानों के पढ़ने लायक लेबल के बजाय, ऐब्स्ट्रैक्ट पैटर्न को कैप्चर करते हैं. हम जानते हैं कि इंडेक्स 0–127, Search Trends से मिलते हैं. हालांकि, कोई खास इंडेक्स (जैसे कि इंडेक्स 5), "कॉफ़ी" जैसे किसी एक कीवर्ड से एक-से-एक मैप नहीं होता. इसके बजाय, यह खोज के व्यवहार की एक जटिल सुविधा को दिखाता है, जिसे मॉडल ने सीखा है.
क्या डेटासेट में पॉलीगॉन बाउंड्री (शेपफ़ाइल) शामिल हैं?
इस डेटासेट में, भौगोलिक पहचानकर्ताओं (जैसे कि एडमिन 1 और एडमिन 2 क्षेत्र) के लिए S2 सेल आईडी (geo_id) और जगह के आईडी दिए गए हैं. हालांकि, इसमें क्षेत्रों के लिए रॉ पॉलीगॉन ज्यामिति (WKT/शेपफ़ाइलें) शामिल नहीं है.
- विज़ुअलाइज़ेशन के लिए: BigQuery GeoViz जैसे टूल का इस्तेमाल करके, सीधे तौर पर सेंट्रॉइड प्लॉट किए जा सकते हैं. इसके अलावा, हेक्स टोकन से S2 पॉलीगॉन का हिसाब लगाने के लिए, ज्यामिति लाइब्रेरी का इस्तेमाल किया जा सकता है.
- स्पेशल जॉइन के लिए: अगर आपको सटीक बाउंड्री ऑपरेशन (उदाहरण के लिए,
ST_CONTAINS) की ज़रूरत है, तो हमारा सुझाव है कि इस डेटासेट को सार्वजनिक बाउंड्री वाले डेटासेट के साथ जोड़ें. ये डेटासेट, BigQuery के सार्वजनिक डेटा में उपलब्ध हैं.