जनसंख्या में बदलाव से जुड़ी अहम जानकारी के एम्बेड किए गए कॉम्पोनेंट का इस्तेमाल करना

ग्राउंड ट्रुथ डेटा तैयार करना

जनसंख्या के आंकड़ों के एम्बेड किए गए डेटा का इस्तेमाल करने के लिए, आपके ज़मीनी डेटा को उस भौगोलिक सीमा के हिसाब से एग्रीगेट किया जाना चाहिए जिसके लिए यह सुविधा उपलब्ध है. दुनिया भर में, एडमिनिस्ट्रेटिव बाउंड्री के टाइप अलग-अलग होते हैं. इसलिए, अपने डेटा को अलाइन करने के लिए, यूनिवर्सल गणितीय ग्रिड सिस्टम (जैसे कि S2 सेल) या स्थानीय एडमिनिस्ट्रेटिव क्षेत्र (जैसे कि काउंटी या ज़िले, जो किसी देश के डेटासेट पर निर्भर करते हैं) का इस्तेमाल किया जा सकता है.

पहला विकल्प: मौजूदा मॉडल में एम्बेडिंग शामिल करना

  • मॉडल पर आधारित मौजूदा सटीक डेटा तैयार करना: मौजूदा मॉडल को बेहतर बनाने के लिए, एम्बेडिंग को भौगोलिक डेटा के कोवैरिएट के तौर पर इस्तेमाल करें.
  • गड़बड़ी ठीक करने वाले मॉडल को ट्रेन करें: मौजूदा मॉडल को बेहतर बनाएं. इसके लिए, एम्बेडिंग को ऐसे मॉडल में इंटिग्रेट करें जो ओरिजनल मॉडल के आउटपुट, अनुमानित वैल्यू या सटीक जानकारी, और एम्बेडिंग को इनपुट के तौर पर लेता है, ताकि गड़बड़ी ठीक करने वाला नया मॉडल तैयार किया जा सके.

दूसरा विकल्प: खास इस्तेमाल के उदाहरणों के लिए ट्यून करना

  • अनुमान लगाने के लिए कोई मॉडल चुनें: अनुमान लगाने के लिए, GBDT, MLP या लीनियर जैसे किसी भी मॉडल का इस्तेमाल किया जा सकता है.
  • अनुमान लगाने के लिए एम्बेडिंग का इस्तेमाल करें: अनुमान को ज़्यादा सटीक बनाने के लिए, जनसंख्या के रुझानों से जुड़ी एम्बेडिंग को इनपुट सुविधाओं के तौर पर इस्तेमाल करें. साथ ही, कॉन्टेक्स्ट के हिसाब से अन्य डेटा का इस्तेमाल करें.

क्वेरी के उदाहरण

your-project.your_dataset.embeddings_table की जगह, अपने प्रोजेक्ट, डेटासेट, और टारगेट टेबल का नाम डालें.

SQL: Fetch Embeddings

यह क्वेरी, आपके उपलब्ध कराए गए डेटासेट में मौजूद S2 सेल के लिए, एम्बेडिंग वेक्टर और एडमिनिस्ट्रेटिव मेटाडेटा को फिर से हासिल करती है.

SELECT
  geo_id,
  administrative_area_level_1_name AS state,
  administrative_area_level_2_name AS county,
  features -- The 330-dim vector
FROM
  `your-project.your_dataset.embeddings_table`
LIMIT 10;

SQL: Find Similar Locations

यह क्वेरी, व्यवहार के हिसाब से मिलती-जुलती जगहों की पहचान करती है. इसके लिए, बाहरी डेटा की ज़रूरत नहीं होती.

यह कोसाइन समानता का हिसाब लगाने के लिए, ML.DISTANCE फ़ंक्शन का इस्तेमाल करता है. इससे टारगेट S2 सेल के लिए सबसे मिलते-जुलते नतीजे मिलते हैं. इस तरीके से, कारोबार को बढ़ाने की योजना बनाने में मदद मिलती है. जैसे, किसी मौजूदा जगह की प्रोफ़ाइल के आधार पर यह तय करना कि नया स्टोर कहां खोलना है.

WITH TargetLocation AS (
  SELECT features AS target_vector
  FROM `your-project.your_dataset.embeddings_table`
  -- Replace with your target S2 hex token (e.g., '80ead45')
  WHERE geo_id = 'YOUR_TARGET_S2_TOKEN'
)

SELECT
  t.geo_id,
  t.administrative_area_level_1_name AS state,
  t.administrative_area_level_2_name AS county,
  -- Calculate Similarity (1.0 is identical, 0.0 is dissimilar)
  (1 - ML.DISTANCE(t.features, p.target_vector, 'COSINE')) AS similarity_score
FROM
  `your-project.your_dataset.embeddings_table` t,
  TargetLocation p
WHERE
  t.geo_id != `YOUR_TARGET_S2_TOKEN` -- Exclude the target itself
ORDER BY
  similarity_score DESC
LIMIT 20;

SQL: Join Customer Data

इस उदाहरण में बताया गया है कि व्यवहार से जुड़ी एम्बेडिंग का इस्तेमाल करके, अपने इंटरनल डेटा को कैसे बेहतर बनाया जा सकता है. उदाहरण के लिए, स्टोर की परफ़ॉर्मेंस टेबल. पक्का करें कि आपके इंटरनल डेटा में, S2 सेल के मिलते-जुलते टोकन (हेक्स स्ट्रिंग) शामिल हों.

SELECT
  store.store_id,
  store.s2_token,
  store.total_revenue,
  embeddings.features AS pdfm_vector
FROM
  `your-project.internal_data.store_performance` AS store
JOIN
  `your-project.your_dataset.embeddings_table` AS embeddings
ON
  -- Join based on the S2 hex token string
  store.s2_token = embeddings.geo_id

Python: मशीन लर्निंग के लिए डेटा लोड करना

एम्बेडिंग को BigQuery ऐरे के तौर पर सेव किया जाता है. इन्हें एमएल लाइब्रेरी में इस्तेमाल करने के लिए, आपको कॉलम को NumPy मैट्रिक्स में बदलना होगा.

from google.cloud import bigquery
import numpy as np
import pandas as pd

client = bigquery.Client()

query = """
    SELECT
        geo_id,
        features -- Returns as a list of floats
    FROM
        `your-project.your_dataset.embeddings_table`
    LIMIT 1000
"""

# 1. Load data into DataFrame
df = client.query(query).to_dataframe()

# 2. Convert the 'features' column (Series of Lists) into a Matrix (2D Array)
X_matrix = np.stack(df['features'].values)

print(f"Data Loaded. Matrix Shape: {X_matrix.shape}")
# Output: Data Loaded. Matrix Shape: (1000, 330)