গ্রাউন্ড ট্রুথ ডেটা প্রস্তুত করুন
পপুলেশন ডাইনামিক্স এমবেডিংস ব্যবহার করার জন্য, আপনার গ্রাউন্ড ট্রুথ ডেটাকে একটি সমর্থিত ভৌগোলিক সীমানায় একত্রিত করতে হবে। যেহেতু বিশ্বব্যাপী প্রশাসনিক সীমানার ধরন ভিন্ন ভিন্ন হয়, তাই আপনি সার্বজনীন গাণিতিক গ্রিড সিস্টেম (যেমন S2 সেল) অথবা স্থানীয় প্রশাসনিক অঞ্চল (যেমন কাউন্টি বা জেলা, যা নির্দিষ্ট দেশের ডেটাসেটের উপর নির্ভর করে) ব্যবহার করে আপনার ডেটা বিন্যস্ত করতে পারেন।
বিকল্প ১: বিদ্যমান মডেলে এমবেডিং অন্তর্ভুক্ত করা
- বিদ্যমান মডেল-ভিত্তিক গ্রাউন্ড ট্রুথ প্রস্তুত করুন: একটি বিদ্যমান মডেলকে উন্নত করতে এমবেডিংগুলিকে ভূ-স্থানিক কোভেরিয়েট হিসাবে ব্যবহার করুন।
- একটি ত্রুটি সংশোধন মডেলকে প্রশিক্ষণ দিন: একটি বিদ্যমান মডেলকে উন্নত করুন, যেখানে এমবেডিংগুলোকে এমন একটি মডেলে একীভূত করা হয় যা মূল মডেলের আউটপুট, প্রত্যাশিত মান বা গ্রাউন্ড ট্রুথ এবং এমবেডিং গ্রহণ করে একটি নতুন ত্রুটি সংশোধন মডেল শেখে।
বিকল্প ২: নির্দিষ্ট ব্যবহারের জন্য সামঞ্জস্য করুন
- একটি পূর্বাভাস মডেল নির্বাচন করুন: পূর্বাভাসের জন্য GBDT, MLP বা লিনিয়ার-এর মতো যেকোনো মডেল ব্যবহার করা যেতে পারে।
- পূর্বাভাসের জন্য এমবেডিং ব্যবহার করুন: পূর্বাভাসের নির্ভুলতা উন্নত করতে, অন্যান্য প্রাসঙ্গিক তথ্যের পাশাপাশি পপুলেশন ডাইনামিক্স এমবেডিং-কে ইনপুট ফিচার হিসেবে ব্যবহার করুন।
কোয়েরির উদাহরণ
your-project.your_dataset.embeddings_table এর জায়গায় আপনার আসল প্রজেক্ট, ডেটাসেট এবং টার্গেট টেবিলের নাম বসান।
SQL: এমবেডিং আনুন
এই কোয়েরিটি আপনার প্রোভিশন করা ডেটাসেটের S2 সেলগুলোর জন্য এমবেডিং ভেক্টর এবং অ্যাডমিনিস্ট্রেটিভ মেটাডেটা পুনরুদ্ধার করে।
SELECT geo_id, administrative_area_level_1_name AS state, administrative_area_level_2_name AS county, features -- The 330-dim vector FROM `your-project.your_dataset.embeddings_table` LIMIT 10;
SQL: অনুরূপ অবস্থান খুঁজুন
এই কোয়েরিটি বাহ্যিক ডেটার প্রয়োজন ছাড়াই আচরণগতভাবে অনুরূপ অবস্থানগুলি শনাক্ত করে।
এটি কোসাইন সিমিলারিটি গণনা করতে ML.DISTANCE ফাংশন ব্যবহার করে এবং একটি টার্গেট S2 সেলের জন্য সেরা ম্যাচগুলো ফেরত দেয়। এই পদ্ধতিটি সম্প্রসারণ পরিকল্পনার বিভিন্ন পরিস্থিতিতে সহায়তা করে, যেমন—একটি সফল বিদ্যমান অবস্থানের প্রোফাইলের উপর ভিত্তি করে কোথায় একটি নতুন স্টোর খোলা হবে তা নির্ধারণ করা।
WITH TargetLocation AS ( SELECT features AS target_vector FROM `your-project.your_dataset.embeddings_table` -- Replace with your target S2 hex token (e.g., '80ead45') WHERE geo_id = 'YOUR_TARGET_S2_TOKEN' ) SELECT t.geo_id, t.administrative_area_level_1_name AS state, t.administrative_area_level_2_name AS county, -- Calculate Similarity (1.0 is identical, 0.0 is dissimilar) (1 - ML.DISTANCE(t.features, p.target_vector, 'COSINE')) AS similarity_score FROM `your-project.your_dataset.embeddings_table` t, TargetLocation p WHERE t.geo_id != `YOUR_TARGET_S2_TOKEN` -- Exclude the target itself ORDER BY similarity_score DESC LIMIT 20;
SQL: গ্রাহকের ডেটা যুক্ত করুন
এই উদাহরণটি দেখায় কিভাবে বিহেভিওরাল এমবেডিং ব্যবহার করে আপনার নিজস্ব অভ্যন্তরীণ ডেটা (যেমন, একটি স্টোর পারফরম্যান্স টেবিল) সমৃদ্ধ করা যায়। নিশ্চিত করুন যে আপনার অভ্যন্তরীণ ডেটাতে মিলে যাওয়া S2 সেল টোকেন (হেক্স স্ট্রিং) অন্তর্ভুক্ত রয়েছে।
SELECT store.store_id, store.s2_token, store.total_revenue, embeddings.features AS pdfm_vector FROM `your-project.internal_data.store_performance` AS store JOIN `your-project.your_dataset.embeddings_table` AS embeddings ON -- Join based on the S2 hex token string store.s2_token = embeddings.geo_id
পাইথন: মেশিন লার্নিংয়ের জন্য ডেটা লোড করা
এমবেডিংগুলো BigQuery অ্যারে হিসেবে সংরক্ষিত থাকে। ML লাইব্রেরিতে এগুলো ব্যবহার করার জন্য, আপনাকে অবশ্যই কলামটিকে একটি NumPy ম্যাট্রিক্সে রূপান্তর করতে হবে।
from google.cloud import bigquery import numpy as np import pandas as pd client = bigquery.Client() query = """ SELECT geo_id, features -- Returns as a list of floats FROM `your-project.your_dataset.embeddings_table` LIMIT 1000 """ # 1. Load data into DataFrame df = client.query(query).to_dataframe() # 2. Convert the 'features' column (Series of Lists) into a Matrix (2D Array) X_matrix = np.stack(df['features'].values) print(f"Data Loaded. Matrix Shape: {X_matrix.shape}") # Output: Data Loaded. Matrix Shape: (1000, 330)