مستندات توسعهدهنده
توضیحات محصول
بینشهای دینامیک جمعیت (PDI) یک مجموعه داده جاسازیشده است که دادههای مربوط به رفتار انسان و تعامل ما با محیط را در جاسازیهای مختصر و آماده برای تجزیه و تحلیل (یا "اثر انگشتهای دیجیتال") در مکانهای خاص خلاصه میکند.
این جاسازیها، الگوهای موجود در دادههای جمعآوریشده مانند روندهای جستجو، روندهای شلوغی و شرایط محیطی (نقشهها، کیفیت هوا، آب و هوا) را ثبت میکنند و تصویری غنی و مختص به مکان از نحوه تعامل جمعیت با محیط اطراف خود ارائه میدهند. این جاسازیها که در طول فضا و زمان جمعآوری میشوند، ضمن تضمین حریم خصوصی، امکان تجزیه و تحلیل و پیشبینی مکانی دقیق را برای کاربردهایی از سلامت عمومی گرفته تا مدلسازی اجتماعی-اقتصادی فراهم میکنند.
بررسی اجمالی محصول
جاسازیهای دینامیک جمعیت با استفاده از یک مدل یادگیری ماشین هدفمند تولید میشوند، بر اساس مجموعهای غنی از ویژگیها آموزش داده میشوند و به یک نمایش برداری فشرده تبدیل میشوند. این جاسازیها بر اساس موارد زیر آموزش داده شده و تولید میشوند:
- روندهای جستجوی تجمیعشده : علایق و نگرانیهای منطقهای که در دادههای جستجو منعکس شدهاند.
- دادههای نقشههای تجمیعشده (شامل شلوغی) : امکانات، خدمات و مشاغل در مناطق به همراه روند بازدیدهای محلی.
- آب و هوا و کیفیت هوای تجمیعی : معیارهای مرتبط با آب و هوا، از جمله دما و کیفیت هوا.
این ویژگیها در سطح کد پستی تجمیع میشوند تا جاسازیهای محلی و آگاه از متن ایجاد کنند که حریم خصوصی را حفظ میکنند. PDI یک مجموعه داده سری زمانی مداوم است که برشهای داده جدید ماهانه پردازش و تقسیمبندی میشوند. دادهها تا آخرین روز ماه تقویمی بعدی بهروزرسانی و به جدول دادهها اضافه میشوند (به عنوان مثال، دادههای فوریه حداکثر تا 31 مارس منتشر میشوند).
پیشنیازها
برای دسترسی به جاسازیهای Population Dynamics، باید به شما دسترسی داده شود. اگر دسترسی ندارید، با نماینده فروش یا مهندسی مشتری خود تماس بگیرید.
- فعال کردن Analytics Hub API در Cloud Console
- فعال کردن BigQuery API در Cloud Console
- دانش عملی در مورد محصول BigQuery داشته باشید.
- مطمئن شوید که حساب شما نقش مالک اشتراک Analytics Hub (
roles/analyticshub.subscriptionOwner) را برای انجام وظایف مشترکین دارد. - مطمئن شوید که حساب کاربری شما، نقش کاربر BigQuery (
roles/bigquery.user) را برای ایجاد مجموعه دادهها دارد.
آموزش توصیه شده
اگر در کار با جاسازیها یا یادگیری ماشین BigQuery تازهکار هستید، اکیداً توصیه میکنیم قبل از شروع تجزیه و تحلیل، مطالب آموزشی زیر را مطالعه کنید:
- دوره فشرده یادگیری ماشین: جاسازیها : مروری سریع و بنیادی بر چگونگی استفاده مدلهای یادگیری ماشین از جاسازیها برای تبدیل دادههای با ابعاد بالا به فضای با ابعاد پایینتر، ضمن حفظ روابط معنایی.
- شروع کار با جستجوی برداری و جاسازیها : یک آزمایشگاه عملی برای تقویت مهارتهای Google Cloud که جاسازیهای برداری، شباهت معنایی و نحوه استفاده از جاسازیها را در اکوسیستم گستردهتر Google Cloud معرفی میکند.
- آموزشهای یادگیری ماشین BigQuery (BQML) : از آنجایی که مجموعه دادههای PDI در BigQuery میزبانی میشود، به شما امکان میدهد مدلهای یادگیری ماشین را مستقیماً روی جاسازیها با استفاده از SQL استاندارد، بدون نیاز به خروجی گرفتن از دادهها، آموزش داده و اجرا کنید.
از جاسازیها استفاده کنید
دادهها را درک کنید
قبل از شروع تحلیل، لحظهای را برای بررسی ساختار طرحواره اختصاص دهید.
سازماندهی مجموعه دادهها
این جاسازیها برای هر کشور یا منطقه آزمایشی در جداول جداگانه BigQuery سازماندهی شدهاند.
آناتومی بردار جاسازی
ستون features یک بردار ۳۳۰ بعدی است (که به صورت آرایه REPEATED FLOAT در BigQuery ذخیره شده است). هر بخش از آرایه مربوط به یک سیگنال داده خاص است که توسط مدل Population Dynamics استخراج شده است.
درک این ساختار امکان حذف ویژگیها را فراهم میکند (برای مثال، تعیین اینکه رفتار جستجو در مقایسه با آب و هوا چقدر فروش را پیشبینی میکند).
| شاخصهای برداری | منبع داده | توضیحات |
|---|---|---|
| ۰ – ۱۲۷ | روندهای جستجوی تجمیعشده | علایق و دغدغههای منطقهای را در بر میگیرد (برای مثال، جستجو برای «باشگاه ورزشی»، «علائم آنفولانزا»، «کالاهای لوکس»). |
| ۱۲۸ – ۲۵۵ | نقشهها و شلوغی | محیط ساخته شده (مکانهای مورد علاقه مانند بیمارستانها، پارکها، مدارس) و بازدیدهای انسانی را برای نمایش مکانهای مورد علاقه ثبت میکند. |
| ۲۵۶ – ۳۲۹ | آب و هوا و کیفیت هوا | شرایط محیطی (دما، بارش، کیفیت هوا) را ثبت میکند. |
ستونهای کلیدی و فرادادهها
جدول جاسازیها شامل فرادادههای مکانی و زمانی است که امکان تجزیه و تحلیل مکانی، فیلتر کردن و قابلیت همکاری با سایر سرویسها را فراهم میکند.
از آنجا که یک کد پستی واحد میتواند گاهی اوقات از مرزهای اداری (مانند مرزهای شهرستان) عبور کند، فیلدهای منطقه اداری به صورت آرایه ارائه میشوند.
-
geo_id: شناسه مکان منحصر به فرد مرتبط با این کد پستی. -
geo_name: رشته کد پستی برای منطقه (برای مثال،'90210'). -
administrative_area_level_1_names: فهرستی (ARRAY<STRING>) از نامهای قابل خواندن توسط انسان برای مرزهای سطح بالا (برای مثال،['California']). -
administrative_area_level_1_ids: فهرستی (ARRAY<STRING>) از شناسههای مکانی منحصر به فرد برای مرزهای اداری سطح بالا که این کد پستی با آنها تلاقی میکند (به عنوان مثال، ایالت یا استان). -
administrative_area_level_2_names: فهرستی (ARRAY<STRING>) از نامهای قابل خواندن توسط انسان برای مرزهای ثانویه (برای مثال،['Los Angeles County']). -
administrative_area_level_2_ids: فهرستی (ARRAY<STRING>) از شناسههای مکانی منحصر به فرد برای مرزهای اداری ثانویهای که این کد پستی با آنها تلاقی میکند (به عنوان مثال، شهرستان یا منطقه). -
features: بردار جاسازی ۳۳۰ بعدی اصلی، که به صورت پیشفرض به صورتARRAY<FLOAT64>ذخیره میشود. بارگذاری این بردار در Pandas با استفاده از پایتون نیاز به مسطحسازی یا تبدیل به یک ماتریس NumPy دارد. -
snapshot_date: یکDATEبا فرمتYYYY-MM-DDکه به صورت استاندارد فقط برای استفاده از اولین روز ماه طراحی شده است. نشاندهنده برش زمانی ماهانه خاصی است که ویژگیهای ورودی برای تولید دادههای جاسازی از آن جمعآوری شدهاند. به عنوان مثال، دادههای آوریل ۲۰۲۶ به صورت2026-04-01فرمت خواهند شد.
آمادهسازی دادههای واقعیت زمینی
برای استفاده از جاسازیهای Population Dynamics، دادههای واقعی شما باید در یک مرز جغرافیایی پشتیبانیشده (کد پستی) تجمیع شوند.
گزینه ۱: گنجاندن جاسازیها در یک مدل موجود
- آمادهسازی دادههای زمینی مبتنی بر مدل موجود : از جاسازیها به عنوان متغیرهای کمکی مکانی برای بهبود مدل موجود استفاده کنید.
- آموزش یک مدل تصحیح خطا : بهبود یک مدل موجود با ادغام جاسازیها در مدلی که خروجی مدل اصلی، مقدار مورد انتظار یا حقیقت زمینهای و جاسازیها را برای یادگیری یک مدل تصحیح خطای جدید میگیرد.
گزینه ۲: تنظیم برای موارد استفاده خاص
- انتخاب نوع مدل پیشبینی : هر مدلی، مانند GBDT، MLP یا خطی، میتواند برای پیشبینیها استفاده شود.
- استفاده از جاسازیها برای پیشبینی : از جاسازیهای دینامیک جمعیت به عنوان ویژگیهای ورودی، در کنار سایر دادههای زمینهای، برای بهبود دقت پیشبینی استفاده کنید.
قطعه کدهای شروع سریع
از این قطعه کدها برای تأیید دسترسی خود و درک فرمت دادهها استفاده کنید.
۱. SQL: دریافت جاسازیها برای یک ماه خاص
از آنجا که PDI یک مجموعه داده سری زمانی است، معمولاً باید بر اساس snapshot_date فیلتر کنید تا کدهای پستی تکراری را در چندین ماه برنگردانید. روز همیشه باید روی -01 تنظیم شود.
SELECT
snapshot_date,
geo_name AS postal_code,
geo_id AS place_id,
features -- The 330-dim vector
FROM
`your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table`
WHERE
snapshot_date = '2025-10-01' -- You must use the first of the month ('-01')
LIMIT 10;
۲. SQL: فیلتر کردن بر اساس ناحیه مدیریتی (آرایههای غیر تودرتو)
از آنجا که کدهای پستی میتوانند چندین مرز اداری را در بر بگیرند، فیلدهای administrative_area_* به صورت آرایه ذخیره میشوند. برای فیلتر کردن همه کدهای پستی در یک ایالت خاص (به عنوان مثال، 'کالیفرنیا')، باید از تابع UNNEST() در BigQuery استفاده کنید.
SELECT
snapshot_date,
geo_name AS postal_code,
admin1_name
FROM
your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table,
UNNEST(administrative_area_level_1_names) AS admin1_name
WHERE
-- On or after October 2025
snapshot_date >= '2025-10-01' -- You must use the first of the month ('-01')
AND admin1_name = 'California'
LIMIT 10;
۳. SQL: یافتن مکانهای مشابه
این پرسوجو مکانهای مشابه از نظر رفتاری را بدون نیاز به دادههای خارجی شناسایی میکند. این پرسوجو از تابع ML.DISTANCE برای محاسبهی شباهت کسینوسی استفاده میکند و تطابقهای برتر را برای یک کد پستی هدف برمیگرداند.
WITH TargetLocation AS (
SELECT features AS target_vector
FROM `your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table`
WHERE snapshot_date = '2025-10-01' -- You must use the first of the month ('-01')
AND geo_name = '90210' -- Replace with your target postal code
LIMIT 1
)
SELECT
t.geo_name AS postal_code,
-- Calculate Similarity (1.0 is identical, 0.0 is dissimilar)
(1 - ML.DISTANCE(t.features, p.target_vector, 'COSINE')) AS similarity_score
FROM
`your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table` t,
TargetLocation p
WHERE
t.snapshot_date = '2025-10-01' -- You must use the first of the month ('-01')
AND t.geo_name != '90210' -- Exclude the target itself
ORDER BY
similarity_score DESC
LIMIT 20;
۴. SQL: اتصال دادههای مشتری
این مثال نشان میدهد که چگونه میتوانید دادههای داخلی خود (مثلاً جدول عملکرد فروشگاه) را با تعبیههای رفتاری و با استفاده از کد پستی، غنیسازی کنید.
SELECT
store.store_id,
store.postal_code,
store.total_revenue,
embeddings.features AS pdi_vector
FROM
`your-project.internal_data.store_performance` AS store
JOIN
`your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table` AS embeddings
ON
store.postal_code = embeddings.geo_name
WHERE
embeddings.snapshot_date = '2025-10-01' -- You must use the first of the month ('-01')
۵. پایتون: بارگذاری دادهها برای یادگیری ماشین
جاسازیها به صورت آرایههای BigQuery ذخیره میشوند. برای استفاده از آنها در کتابخانههای ML، باید ستون را به یک ماتریس NumPy تبدیل کنید.
from google.cloud import bigquery
import numpy as np
import pandas as pd
client = bigquery.Client()
query = """
SELECT
geo_name,
features -- Returns as a list of floats
FROM
`your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table`
WHERE
snapshot_date = '2025-10-01' -- You must use the first of the month ('-01')
LIMIT 1000
"""
# 1. Load data into DataFrame
df = client.query(query).to_dataframe()
# 2. Convert the 'features' column (Series of Lists) into a Matrix (2D Array)
X_matrix = np.stack(df['features'].values)
print(f"Data Loaded. Matrix Shape: {X_matrix.shape}")
# Output: Data Loaded. Matrix Shape: (1000, 330)
سوالات متداول (FAQ)
آیا میتوانم به دادههای ورودی خام (مثلاً، جستجوهای خاص یا ردیابیهای تحرک) دسترسی داشته باشم؟
خیر. جاسازیهای Population Dynamics از سیگنالهای تجمیعشده و با حفظ حریم خصوصی تولید میشوند. برای اطمینان از حریم خصوصی کاربر، ما ردپاهای خاص کاربر، تاریخچه جستجوی فردی یا الگوهای حرکتی خام را ارائه نمیدهیم. این جاسازیها به جای تجزیه و تحلیل خام، نمایشی پنهان از این رفتارها را ارائه میدهند که برای مدلسازی و پیشبینی بهینه شده است.
چگونه عبارات جستجوی مورد استفاده برای تولید جاسازیها را انتخاب میکنید؟
ما به جای پرسوجوهای جستجوی خام، از موجودیتهای نمودار دانش (KG) استفاده میکنیم. برای مثال، پرسوجوهایی مانند «taylor swift friendfriend» و «kc tight end» هر دو به یک موجودیت KG اصلی («Travis Kelce») نگاشت میشوند. این رویکرد وابسته به زبان نیست، دستههای معنایی وسیعتری را در بر میگیرد و حریم خصوصی را به طور قابل توجهی افزایش میدهد.
آیا ابعاد برداری قابل تفسیر هستند (برای مثال، آیا بُعد ۵ «قهوه» است؟)؟
خیر، بردارها نمایشهای پنهان هستند. از آنجا که ویژگیها توسط مدل یادگیری ماشین آموخته میشوند، هیچ نگاشت معنایی ساده یا ترجمه یک به یک از یک شاخص بردار نهایی به یک ورودی منبع خاص وجود ندارد. در حالی که ما میدانیم کدام بلوکهای شاخصها از کدام مجموعه دادهها مشتق میشوند (برای مثال، شاخصهای 0 تا 127 نشاندهنده روندهای جستجو هستند)، یک شاخص خاص مانند شاخص 5 به یک کلمه کلیدی واحد نگاشت نمیشود. در عوض، نشاندهنده یک ویژگی پیچیده و انتزاعی است که توسط مدل آموخته شده است.
آیا مجموعه دادهها شامل مرزهای چندضلعی (Shapefiles) میشود؟
خیر. این مجموعه دادهها کدهای پستی ( geo_name ) و شناسههای مکان مرتبط با آنها ( geo_id ) را ارائه میدهد، اما شامل هندسههای خام چندضلعی (مانند WKT) نمیشود.
بسته به مورد استفاده شما، رویکردهای زیر را توصیه میکنیم:
- برای تجسم در نقشههای گوگل : میتوانید از شناسههای مکان ارائه شده در geo_id برای سبکدهی و رندر کردن مرزها مستقیماً روی نقشه با استفاده از Data-driven Styling استفاده کنید. اگرچه این مرزها برای نمایش بصری ایدهآل هستند، اما نمیتوان آنها را به عنوان فایلهای هندسی خام صادر کرد.
- برای اتصال و تحلیل مکانی : اگر به چندضلعیهای مکانی خام نیاز دارید، توصیه میکنیم این مجموعه داده را با استفاده از کد پستی geo_name به مجموعه دادههای مرزی عمومی (مانند دادههای موجود در مجموعه دادههای عمومی BigQuery) متصل کنید.
بازه زمانی مجموعه دادههای embeddings چقدر است؟
جاسازیهای PDI ماهانه بهروزرسانی میشوند و هر ماه جدید به مجموعه دادهها اضافه میشود. دادهها با استفاده از ستون snapshot_date (با فرمت YYYY-MM-DD ) نمایش داده میشوند و یک خط پایه پایدار ارائه میدهند که نشاندهنده اثر انگشت رفتاری و فیزیکی یک مکان برای آن ماه خاص است.