درباره داده‌های بینش‌های پویایی‌شناسی جمعیت

داده‌ها را درک کنید

اگرچه این جاسازی‌ها برای چندین کشور در دسترس هستند، اما طرح کلی در تمام مجموعه داده‌ها ثابت می‌ماند. جاسازی‌ها برای هر کشور در فهرست‌های جداگانه BigQuery سازماندهی شده‌اند.

آناتومی بردار جاسازی

ستون features یک بردار ۳۳۰ بعدی است (که به صورت آرایه REPEATED FLOAT در BigQuery ذخیره شده است). هر بخش از آرایه مربوط به یک سیگنال داده خاص است که توسط مدل Population Dynamics استخراج شده است.

درک این ساختار امکان حذف ویژگی‌ها را فراهم می‌کند (برای مثال، تعیین اینکه رفتار جستجو در مقایسه با آب و هوا چقدر فروش را پیش‌بینی می‌کند).

شاخص‌های برداری منبع داده توضیحات
۰ – ۱۲۷ روندهای جستجوی تجمیع‌شده علایق و دغدغه‌های منطقه‌ای را در بر می‌گیرد (برای مثال، جستجو برای «باشگاه ورزشی»، «علائم آنفولانزا»، «کالاهای لوکس»).
۱۲۸ – ۲۵۵ نقشه‌ها و شلوغی محیط ساخته شده (مکان‌های مورد توجه مانند بیمارستان‌ها، پارک‌ها، مدارس) و تراکم فعالیت‌های انسانی را ثبت می‌کند.
۲۵۶ – ۳۲۹ آب و هوا و کیفیت هوا اطلاعات محیطی (دما، بارش، شاخص کیفیت هوا، باد) را ثبت می‌کند.

ستون‌های کلیدی و فراداده‌ها

جدول جاسازی‌ها شامل فراداده‌های مکانی است که امکان تجزیه و تحلیل جغرافیایی، فیلتر کردن و قابلیت همکاری با سایر سرویس‌های پلتفرم نقشه‌های گوگل را فراهم می‌کند.

  • geo_id : شناسه اصلی منطقه. برای مجموعه داده‌های سلول S2 ، این توکن سلول S2 است که به صورت یک رشته هگزادسیمال نمایش داده می‌شود (برای مثال، '80ead45' ). از این به عنوان کلید اتصال اصلی خود استفاده کنید.
  • geo_name : نام قابل خواندن توسط انسان برای منطقه. توجه: برای مجموعه داده‌های شبکه‌ای S2، سلول‌های ریاضی نام‌های استانداردی ندارند، بنابراین این ستون دقیقاً همان توکن geo_id را خواهد داشت. این طراحی برای حفظ ساختار ستونی ثابت در تمام ارائه‌های Population Dynamics انجام شده است.
  • administrative_area_level_1_id : شناسه مکانی منحصر به فرد گوگل مپ برای مرز اداری سطح بالا (مثلاً ایالت یا استان).
  • administrative_area_level_1_name : نام قابل خواندن توسط انسان برای مرز سطح بالا (برای مثال، 'California' ).
  • administrative_area_level_2_id : شناسه مکانی منحصر به فرد گوگل مپ برای مرز اداری ثانویه (مثلاً شهرستان یا منطقه).
  • administrative_area_level_2_name : نام قابل خواندن توسط انسان برای مرز ثانویه (برای مثال، 'Tulare County' ).
  • features : بردار جاسازی ۳۳۰ بعدی اصلی، که به صورت پیش‌فرض به صورت ARRAY<FLOAT64> ذخیره می‌شود. بارگذاری این در کتابخانه پایتون Pandas نیاز به مسطح‌سازی یا تبدیل به یک ماتریس NumPy دارد.

سوالات متداول (FAQ)

آیا می‌توانم به داده‌های ورودی خام (مثلاً، جستجوهای خاص یا ردیابی‌های تحرک) دسترسی داشته باشم؟

خیر. داده‌های جاسازی‌شده‌ی Population Dynamics Insights از سیگنال‌های تجمیع‌شده و با حفظ حریم خصوصی تولید می‌شوند. برای اطمینان از حریم خصوصی کاربر، ما ردپاهای خاص کاربر، تاریخچه‌ی جستجوی فردی یا الگوهای حرکتی خام را ارائه نمی‌دهیم. این داده‌ها به جای تجزیه و تحلیل خام، نمایشی پنهان از این رفتارها را ارائه می‌دهند که برای مدل‌سازی و پیش‌بینی بهینه شده است.

آیا ابعاد برداری قابل تفسیر هستند (برای مثال، آیا بُعد ۵ «قهوه» است)؟

این بردارها، بازنمایی‌های پنهان هستند، به این معنی که آنها الگوهای انتزاعی را به جای برچسب‌های خاص و قابل خواندن توسط انسان، ثبت می‌کنند. در حالی که می‌دانیم شاخص‌های ۰ تا ۱۲۷ از روندهای جستجو (Search Trends) مشتق می‌شوند، یک شاخص خاص (مانند شاخص ۵) به صورت یک به یک به یک به یک کلمه کلیدی مانند "قهوه" نگاشت نمی‌شود. در عوض، این شاخص، یک ویژگی پیچیده از رفتار جستجو را که توسط مدل آموخته شده است، نشان می‌دهد.

آیا مجموعه داده‌ها شامل مرزهای چندضلعی (Shapefiles) می‌شود؟

این مجموعه داده، شناسه‌های سلول S2 ( geo_id ) و شناسه‌های مکان را برای شناسه‌های جغرافیایی (مانند مناطق مدیر ۱ و مدیر ۲) ارائه می‌دهد، اما هندسه خام چندضلعی (WKT/Shapefiles) را برای مناطق شامل نمی‌شود.

  • برای تجسم: می‌توانید مراکز ثقل را مستقیماً با استفاده از ابزارهایی مانند BigQuery GeoViz رسم کنید، یا از کتابخانه‌های هندسی برای محاسبه چندضلعی S2 از روی توکن هگز استفاده کنید.
  • برای پیوندهای مکانی: اگر به عملیات مرزی دقیق نیاز دارید (برای مثال، ST_CONTAINS )، توصیه می‌کنیم این مجموعه داده را با مجموعه داده‌های مرزی عمومی (موجود در BigQuery Public Data) پیوند دهید.