Geliştirici Belgeleri
Ürün Açıklaması
Nüfus Dinamikleri Analizleri (PDI), insan davranışları ve çevreyle etkileşimimizle ilgili verileri belirli konumlardaki kısa, analize hazır yerleştirmelere (veya "dijital parmak izleri") dönüştüren bir yerleştirme veri kümesidir.
Bu yerleştirmeler, arama trendleri, yoğunluk trendleri ve çevre koşulları (haritalar, hava kalitesi, hava durumu) gibi toplu verilerdeki kalıpları yakalayarak nüfusların çevreleriyle nasıl etkileşim kurduğuna dair zengin ve konuma özel bir anlık görüntü sağlar. Uzay ve zaman içinde toplanan bu yerleştirmeler, kamu sağlığından sosyoekonomik modellemeye kadar çeşitli uygulamalar için ayrıntılı mekansal analiz ve tahmin imkanı sunarken gizliliği de sağlar.
Ürüne Genel Bakış
Nüfus dinamikleri yerleştirmeleri, zengin bir özellik grubu üzerinde eğitilmiş ve yoğunlaştırılmış bir vektör gösterimine dönüştürülmüş, amaca yönelik olarak oluşturulmuş bir makine öğrenimi modeli kullanılarak oluşturulur. Bu yerleştirmeler şu kaynaklardan eğitilir ve oluşturulur:
- Toplu Arama Trendleri: Arama verilerine yansıyan bölgesel ilgi alanları ve endişeler.
- Toplu Haritalar Verileri (yoğunluk dahil): Bölgelerdeki olanaklar, hizmetler ve işletmelerin yanı sıra yerel ziyaret trendleri.
- Toplu Hava Durumu ve Hava Kalitesi: Sıcaklık ve hava kalitesi gibi iklimle ilgili metrikler.
Bu özellikler, gizliliği koruyan yerelleştirilmiş ve bağlama duyarlı yerleştirmeler oluşturmak için posta kodu düzeyinde toplanır. PDI, devam eden bir zaman serisi veri kümesidir. Yeni veri dilimleri aylık olarak işlenir ve bölümlere ayrılır. Veriler, bir sonraki takvim ayının son gününe kadar yenilenir ve veri tablosuna eklenir (örneğin, Şubat verileri en geç 31 Mart'ta yayınlanır).
Ön koşullar
Nüfus Dinamikleri yerleştirmelerine erişmek için erişim izni almanız gerekir. Erişiminiz yoksa satış veya müşteri mühendisliği temsilcinizle iletişime geçin.
- Cloud Console'da Analytics Hub API'yi etkinleştirin.
- Cloud Console'da BigQuery API'yi etkinleştirin.
- BigQuery ürünü hakkında bilgi sahibi olmanız gerekir.
- Abone görevlerini gerçekleştirmek için hesabınızın Analytics Hub aboneliği sahibi (
roles/analyticshub.subscriptionOwner) rolüne sahip olduğundan emin olun. - Veri kümeleri oluşturmak için hesabınızın BigQuery Kullanıcısı (
roles/bigquery.user) rolüne sahip olduğundan emin olun.
Önerilen eğitim
Yerleştirmeler veya BigQuery Machine Learning ile çalışmaya yeni başladıysanız analizinize başlamadan önce aşağıdaki eğitim materyallerini tamamlamanızı önemle tavsiye ederiz:
- Makine Öğrenimi Hızlandırılmış Kursu: Yerleştirmeler: Makine öğrenimi modellerinin, anlamsal ilişkileri korurken yüksek boyutlu verileri daha düşük boyutlu alana çevirmek için yerleştirmeleri nasıl kullandığına dair temel nitelikteki ve hızlı tempolu bir genel bakış.
- Vector Search ve Yerleştirmeleri Kullanmaya Başlama: Vektör yerleştirmelerini, anlamsal benzerliği ve yerleştirmelerin daha geniş Google Cloud ekosisteminde nasıl kullanılacağını tanıtan pratik bir Google Cloud Öğrenim Merkezi laboratuvarı.
- BigQuery Machine Learning (BQML) Eğitimleri: PDI veri kümesi BigQuery'de barındırıldığından, verileri dışa aktarmanıza gerek kalmadan standart SQL kullanarak doğrudan yerleştirmeler üzerinde makine öğrenimi modellerini eğitmenize ve yürütmenize olanak tanır.
Yerleştirilmiş öğeleri kullanma
Verileri anlama
Analizinize başlamadan önce şema yapısını inceleyin.
Veri Kümesi Düzeni
Yerleştirmeler, her ülke veya test bölgesi için ayrı BigQuery tablolarında düzenlenir.
Yerleştirme vektörünün anatomisi
features sütunu, 330 boyutlu bir vektördür (BigQuery'de REPEATED FLOAT dizisi olarak depolanır). Dizinin her bölümü, nüfus dinamikleri modeli tarafından çıkarılan belirli bir veri sinyaline karşılık gelir.
Bu yapıyı anlamak, özellik kaldırmaya (ör. Arama davranışının satışları ne kadar öngördüğünü belirleme) olanak tanır.
| Vektör Dizinleri | Veri Kaynağı | Açıklama |
|---|---|---|
| 0-127 | Toplu Arama Trendleri | Bölgesel ilgi alanlarını ve endişeleri (örneğin, "spor salonu", "grip belirtileri", "lüks ürünler" aramaları) yakalar. |
| 128-255 | Haritalar ve Yoğunluk | İlgi çekici yerleri göstermek için yerleşim alanlarını (hastaneler, parklar, okullar gibi ÖY'ler) ve insanların ziyaretlerini yakalar. |
| 256 – 329 | Hava Durumu ve Hava Kalitesi | Çevresel bağlamı (sıcaklık, yağış, hava kalitesi) yakalar. |
Anahtar Sütunlar ve Meta Veriler
Yerleştirme tablosu, coğrafi analiz, filtreleme ve diğer hizmetlerle birlikte çalışabilme olanağı sağlayan mekansal ve zamansal meta veriler içerir.
Tek bir posta kodu bazen idari sınırları (ör. il sınırları) aşabildiğinden bağlı olduğu yer alanları diziler olarak sağlanır.
geo_id: Bu posta koduyla ilişkili benzersiz yer kimliği.geo_name: Bölgenin posta kodu dizesi (örneğin,'90210').administrative_area_level_1_names: En üst düzey sınırlara (örneğin,['California']) ait, insanlar tarafından okunabilir adların listesi (ARRAY<STRING>).administrative_area_level_1_ids: Bu posta kodunun kesiştiği en üst düzey idari sınırlar için benzersiz yer kimliklerinin (ARRAY<STRING>) listesi (örneğin, eyalet veya il).administrative_area_level_2_names: İkincil sınırlar için kullanıcılar tarafından okunabilen adların (ör.['Los Angeles County']) listesi (ARRAY<STRING>).administrative_area_level_2_ids: Bu posta kodunun kesiştiği ikincil idari sınırlar için benzersiz yer kimliklerinin (ARRAY<STRING>) listesi (örneğin, ilçe veya bölge).features: Yerel olarakARRAY<FLOAT64>olarak depolanan temel 330 boyutlu yerleştirme vektörü. Bunu Python kullanarak Pandas'a yüklemek için düzleştirmeniz veya NumPy matrisine dönüştürmeniz gerekir.snapshot_date:DATEbiçiminde olan ve yalnızca ayın ilk gününü kullanacak şekilde standartlaştırılmışYYYY-MM-DD. Giriş özelliklerinin yerleştirme verilerini oluşturmak için toplandığı belirli aylık zaman dilimini gösterir. Örneğin, Nisan 2026'daki veriler2026-04-01olarak biçimlendirilir.
Kesin referans verilerini hazırlama
Nüfus Dinamikleri yerleştirmelerini kullanmak için kesin referans verileriniz desteklenen bir coğrafi sınıra (posta kodları) göre toplanmalıdır.
1. seçenek: Yerleştirmeleri mevcut bir modele dahil etme
- Mevcut modele dayalı kesin referans verileri hazırlama: Mevcut bir modeli geliştirmek için yerleştirmeleri coğrafi uzamsal kovaryantlar olarak kullanın.
- Hata düzeltme modeli eğitme: Yerleştirmeleri, orijinal model çıkışını, beklenen değeri veya kesin referansı ve yerleştirmeleri alarak yeni bir hata düzeltme modeli öğrenen bir modele entegre ederek mevcut bir modeli iyileştirin.
2. seçenek: Belirli Kullanım Alanları İçin Ayarlama
- Tahmin Modeli Türü Seçme: Tahminler için GBDT, MLP veya doğrusal gibi herhangi bir model kullanılabilir.
- Tahmin için gömmeleri kullanma: Tahmin doğruluğunu artırmak için diğer bağlamsal verilerin yanı sıra giriş özellikleri olarak nüfus dinamikleri gömmelerini kullanın.
Hızlı Başlangıç Kod Snippet'leri
Erişiminizi doğrulamak ve veri biçimini anlamak için bu snippet'leri kullanın.
1. SQL: Belirli Bir Ay İçin Yerleştirmeleri Getirme
PDI, bir zaman serisi veri kümesi olduğundan genellikle snapshot_date ile filtreleme yapmanız gerekir. Böylece birden fazla ayda yinelenen posta kodları döndürmezsiniz. Gün her zaman -01 olarak ayarlanmalıdır.
SELECT
snapshot_date,
geo_name AS postal_code,
geo_id AS place_id,
features -- The 330-dim vector
FROM
`your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table`
WHERE
snapshot_date = '2025-10-01' -- You must use the first of the month ('-01')
LIMIT 10;
2. SQL: İdari bölgeye göre filtreleme (dizileri açma)
Posta kodları birden fazla idari sınırı kapsayabildiğinden administrative_area_* alanları diziler olarak depolanır. Belirli bir eyaletteki (ör. "Kaliforniya") tüm posta kodlarını filtrelemek için BigQuery'nin UNNEST() işlevini kullanmanız gerekir.
SELECT
snapshot_date,
geo_name AS postal_code,
admin1_name
FROM
your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table,
UNNEST(administrative_area_level_1_names) AS admin1_name
WHERE
-- On or after October 2025
snapshot_date >= '2025-10-01' -- You must use the first of the month ('-01')
AND admin1_name = 'California'
LIMIT 10;
3. SQL: Benzer Konumları Bulma
Bu sorgu, harici veri gerektirmeden davranışsal olarak benzer konumları tanımlar. Kosinüs benzerliğini hesaplamak için ML.DISTANCE işlevini kullanır ve hedef posta kodu için en iyi eşleşmeleri döndürür.
WITH TargetLocation AS (
SELECT features AS target_vector
FROM `your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table`
WHERE snapshot_date = '2025-10-01' -- You must use the first of the month ('-01')
AND geo_name = '90210' -- Replace with your target postal code
LIMIT 1
)
SELECT
t.geo_name AS postal_code,
-- Calculate Similarity (1.0 is identical, 0.0 is dissimilar)
(1 - ML.DISTANCE(t.features, p.target_vector, 'COSINE')) AS similarity_score
FROM
`your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table` t,
TargetLocation p
WHERE
t.snapshot_date = '2025-10-01' -- You must use the first of the month ('-01')
AND t.geo_name != '90210' -- Exclude the target itself
ORDER BY
similarity_score DESC
LIMIT 20;
4. SQL: Müşteri Verilerini Birleştirme
Bu örnekte, posta koduna göre birleştirme yaparak kendi dahili verilerinizi (ör. mağaza performansı tablosu) davranış yerleştirmeleriyle nasıl zenginleştireceğiniz gösterilmektedir.
SELECT
store.store_id,
store.postal_code,
store.total_revenue,
embeddings.features AS pdi_vector
FROM
`your-project.internal_data.store_performance` AS store
JOIN
`your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table` AS embeddings
ON
store.postal_code = embeddings.geo_name
WHERE
embeddings.snapshot_date = '2025-10-01' -- You must use the first of the month ('-01')
5. Python: Makine Öğrenimi İçin Veri Yükleme
Yerleştirmeler BigQuery dizileri olarak depolanır. Bunları makine öğrenimi kitaplıklarında kullanmak için sütunu NumPy matrisine dönüştürmeniz gerekir.
from google.cloud import bigquery
import numpy as np
import pandas as pd
client = bigquery.Client()
query = """
SELECT
geo_name,
features -- Returns as a list of floats
FROM
`your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table`
WHERE
snapshot_date = '2025-10-01' -- You must use the first of the month ('-01')
LIMIT 1000
"""
# 1. Load data into DataFrame
df = client.query(query).to_dataframe()
# 2. Convert the 'features' column (Series of Lists) into a Matrix (2D Array)
X_matrix = np.stack(df['features'].values)
print(f"Data Loaded. Matrix Shape: {X_matrix.shape}")
# Output: Data Loaded. Matrix Shape: (1000, 330)
Sık Sorulan Sorular (SSS)
Ham giriş verilerine (ör. belirli arama sorguları veya hareketlilik izleri) erişebilir miyim?
Hayır. Nüfus Dinamikleri yerleştirmeleri, gizliliği koruyan toplu sinyallerden oluşturulur. Kullanıcı gizliliğini sağlamak için belirli kullanıcı izleri, bireysel arama geçmişleri veya ham hareket kalıpları sağlamayız. Yerleştirmeler, bu davranışların ham analiz yerine modelleme ve tahmin için optimize edilmiş bir gizli gösterimini sağlar.
Yerleştirmeleri oluşturmak için kullanılan arama terimlerini nasıl seçiyorsunuz?
Ham arama sorguları yerine Bilgi Grafiği (KG) öğelerini kullanırız. Örneğin, "taylor swift boyfriend" ve "kc tight end" gibi sorgular aynı temel KG varlığıyla ("Travis Kelce") eşlenir. Bu yaklaşım, dilden bağımsızdır, daha geniş anlamsal kategorileri yakalar ve gizliliği önemli ölçüde artırır.
Vektör boyutları yorumlanabilir mi? (Örneğin, 5. boyut "Kahve" mi?)
Hayır, vektörler örtülü temsillerdir. Özellikler makine öğrenimi modeli tarafından öğrenildiğinden, son vektör dizininden belirli bir kaynak girişine basit bir anlamsal eşleme veya bire bir çeviri yoktur. Hangi dizin bloklarının hangi veri kümelerinden geldiğini (ör. 0-127 arasındaki dizinler Arama Trendleri'ni temsil eder) bilmemize rağmen, 5. dizin gibi belirli bir dizin tek bir anahtar kelimeyle eşlenmez. Bunun yerine, modelin öğrendiği karmaşık ve soyut bir özelliği temsil eder.
Veri kümesi poligon sınırları (şekil dosyaları) içeriyor mu?
Hayır. Veri kümesi, posta kodlarını (geo_name) ve bunlarla ilişkili yer kimliklerini (geo_id) sağlar ancak ham poligon geometrilerini (ör. WKT) içermez.
Kullanım alanınıza bağlı olarak aşağıdaki yaklaşımları öneririz:
- Google Haritalar'da Görselleştirme İçin: Sınırları doğrudan bir haritada şekillendirmek ve oluşturmak için veri odaklı stil özelliğini kullanarak geo_id içinde sağlanan yer kimliklerini kullanabilirsiniz. Bu sınırlar görsel görüntüleme için ideal olsa da ham geometri dosyaları olarak dışa aktarılamaz.
- Mekansal Birleştirme ve Analiz İçin: Ham mekansal poligonlara ihtiyacınız varsa bu veri kümesini, BigQuery herkese açık veri kümelerinde bulunanlar gibi herkese açık sınır veri kümeleriyle geo_name posta kodunu kullanarak birleştirmenizi öneririz.
Yerleştirme veri setinin zaman aralığı nedir?
PDI yerleştirmeleri, her ay veri kümesine eklenen yeni ay ile birlikte güncellenir. Veriler, snapshot_date sütunu kullanılarak (YYYY-MM-DD olarak biçimlendirilmiş) temsil edilir. Bu sütun, söz konusu ay için bir konumun davranışsal ve fiziksel parmak izini yansıtan sabit bir temel sağlar.