دادهها را درک کنید
اگرچه این جاسازیها برای چندین کشور در دسترس هستند، اما طرح کلی در تمام مجموعه دادهها ثابت میماند. جاسازیها برای هر کشور در فهرستهای جداگانه BigQuery سازماندهی شدهاند.
آناتومی بردار جاسازی
ستون features یک بردار ۳۳۰ بعدی است (که به صورت آرایه REPEATED FLOAT در BigQuery ذخیره شده است). هر بخش از آرایه مربوط به یک سیگنال داده خاص است که توسط مدل Population Dynamics استخراج شده است.
درک این ساختار امکان حذف ویژگیها را فراهم میکند (برای مثال، تعیین اینکه رفتار جستجو در مقایسه با آب و هوا چقدر فروش را پیشبینی میکند).
| شاخصهای برداری | منبع داده | توضیحات |
|---|---|---|
| ۰ – ۱۲۷ | روندهای جستجوی تجمیعشده | علایق و دغدغههای منطقهای را در بر میگیرد (برای مثال، جستجو برای «باشگاه ورزشی»، «علائم آنفولانزا»، «کالاهای لوکس»). |
| ۱۲۸ – ۲۵۵ | نقشهها و شلوغی | محیط ساخته شده (مکانهای مورد توجه مانند بیمارستانها، پارکها، مدارس) و تراکم فعالیتهای انسانی را ثبت میکند. |
| ۲۵۶ – ۳۲۹ | آب و هوا و کیفیت هوا | اطلاعات محیطی (دما، بارش، شاخص کیفیت هوا، باد) را ثبت میکند. |
ستونهای کلیدی و فرادادهها
جدول جاسازیها شامل فرادادههای مکانی است که امکان تجزیه و تحلیل جغرافیایی، فیلتر کردن و قابلیت همکاری با سایر سرویسهای پلتفرم نقشههای گوگل را فراهم میکند.
-
geo_id: شناسه اصلی منطقه. برای مجموعه دادههای سلول S2 ، این توکن سلول S2 است که به صورت یک رشته هگزادسیمال نمایش داده میشود (برای مثال،'80ead45'). از این به عنوان کلید اتصال اصلی خود استفاده کنید. -
geo_name: نام قابل خواندن توسط انسان برای منطقه. توجه: برای مجموعه دادههای شبکهای S2، سلولهای ریاضی نامهای استانداردی ندارند، بنابراین این ستون دقیقاً همان توکنgeo_idرا خواهد داشت. این طراحی برای حفظ ساختار ستونی ثابت در تمام ارائههای Population Dynamics انجام شده است. -
administrative_area_level_1_id: شناسه مکانی منحصر به فرد گوگل مپ برای مرز اداری سطح بالا (مثلاً ایالت یا استان). -
administrative_area_level_1_name: نام قابل خواندن توسط انسان برای مرز سطح بالا (برای مثال،'California'). -
administrative_area_level_2_id: شناسه مکانی منحصر به فرد گوگل مپ برای مرز اداری ثانویه (مثلاً شهرستان یا منطقه). -
administrative_area_level_2_name: نام قابل خواندن توسط انسان برای مرز ثانویه (برای مثال،'Tulare County'). -
features: بردار جاسازی ۳۳۰ بعدی اصلی، که به صورت پیشفرض به صورتARRAY<FLOAT64>ذخیره میشود. بارگذاری این در کتابخانه پایتون Pandas نیاز به مسطحسازی یا تبدیل به یک ماتریس NumPy دارد.
سوالات متداول (FAQ)
آیا میتوانم به دادههای ورودی خام (مثلاً، جستجوهای خاص یا ردیابیهای تحرک) دسترسی داشته باشم؟
خیر. دادههای جاسازیشدهی Population Dynamics Insights از سیگنالهای تجمیعشده و با حفظ حریم خصوصی تولید میشوند. برای اطمینان از حریم خصوصی کاربر، ما ردپاهای خاص کاربر، تاریخچهی جستجوی فردی یا الگوهای حرکتی خام را ارائه نمیدهیم. این دادهها به جای تجزیه و تحلیل خام، نمایشی پنهان از این رفتارها را ارائه میدهند که برای مدلسازی و پیشبینی بهینه شده است.
آیا ابعاد برداری قابل تفسیر هستند (برای مثال، آیا بُعد ۵ «قهوه» است)؟
این بردارها، بازنماییهای پنهان هستند، به این معنی که آنها الگوهای انتزاعی را به جای برچسبهای خاص و قابل خواندن توسط انسان، ثبت میکنند. در حالی که میدانیم شاخصهای ۰ تا ۱۲۷ از روندهای جستجو (Search Trends) مشتق میشوند، یک شاخص خاص (مانند شاخص ۵) به صورت یک به یک به یک به یک کلمه کلیدی مانند "قهوه" نگاشت نمیشود. در عوض، این شاخص، یک ویژگی پیچیده از رفتار جستجو را که توسط مدل آموخته شده است، نشان میدهد.
آیا مجموعه دادهها شامل مرزهای چندضلعی (Shapefiles) میشود؟
این مجموعه داده، شناسههای سلول S2 ( geo_id ) و شناسههای مکان را برای شناسههای جغرافیایی (مانند مناطق مدیر ۱ و مدیر ۲) ارائه میدهد، اما هندسه خام چندضلعی (WKT/Shapefiles) را برای مناطق شامل نمیشود.
- برای تجسم: میتوانید مراکز ثقل را مستقیماً با استفاده از ابزارهایی مانند BigQuery GeoViz رسم کنید، یا از کتابخانههای هندسی برای محاسبه چندضلعی S2 از روی توکن هگز استفاده کنید.
- برای پیوندهای مکانی: اگر به عملیات مرزی دقیق نیاز دارید (برای مثال،
ST_CONTAINS)، توصیه میکنیم این مجموعه داده را با مجموعه دادههای مرزی عمومی (موجود در BigQuery Public Data) پیوند دهید.