ডেটা বুঝুন
যদিও এমবেডিংগুলো একাধিক দেশের জন্য উপলব্ধ, স্কিমাটি সমস্ত ডেটাসেট জুড়ে সামঞ্জস্যপূর্ণ থাকে। প্রতিটি দেশের জন্য এমবেডিংগুলো আলাদা BigQuery লিস্টিং-এ সাজানো থাকে।
এমবেডিং ভেক্টরের গঠন
' features ' কলামটি একটি ৩৩০-মাত্রিক ভেক্টর (যা BigQuery-তে একটি REPEATED FLOAT অ্যারে হিসেবে সংরক্ষিত)। অ্যারেটির প্রতিটি অংশ পপুলেশন ডাইনামিক্স মডেল দ্বারা নিষ্কাশিত একটি নির্দিষ্ট ডেটা সিগন্যালের সাথে সঙ্গতিপূর্ণ।
এই কাঠামোটি বোঝার মাধ্যমে ফিচার অ্যাবলেশন করা সম্ভব হয় (উদাহরণস্বরূপ, আবহাওয়ার তুলনায় সার্চ আচরণ বিক্রয়কে কতটা প্রভাবিত করে তা নির্ধারণ করা)।
| ভেক্টর সূচক | ডেটা উৎস | বর্ণনা |
|---|---|---|
| ০ – ১২৭ | সামগ্রিক অনুসন্ধান প্রবণতা | আঞ্চলিক আগ্রহ ও উদ্বেগগুলো তুলে ধরে (উদাহরণস্বরূপ, 'জিম', 'ফ্লুর লক্ষণ', 'বিলাসবহুল পণ্য' সম্পর্কিত অনুসন্ধান)। |
| ১২৮ – ২৫৫ | মানচিত্র এবং ব্যস্ততা | নির্মিত পরিবেশ (হাসপাতাল, পার্ক, স্কুলের মতো দর্শনীয় স্থান) এবং মানুষের কার্যকলাপের ঘনত্ব তুলে ধরে। |
| ২৫৬ – ৩২৯ | আবহাওয়া এবং বায়ুর গুণমান | পরিবেশগত প্রেক্ষাপট ধারণ করে (তাপমাত্রা, বৃষ্টিপাত, বায়ুর গুণমান সূচক, বায়ুপ্রবাহ)। |
মূল কলাম এবং মেটাডেটা
এমবেডিংস টেবিলে স্থানিক মেটাডেটা থাকে, যা ভূ-স্থানিক বিশ্লেষণ, ফিল্টারিং এবং গুগল ম্যাপস প্ল্যাটফর্মের অন্যান্য পরিষেবার সাথে আন্তঃকার্যক্ষমতা সক্ষম করে।
-
geo_id: অঞ্চলের প্রাথমিক শনাক্তকারী। S2 সেল ডেটাসেটের জন্য, এটি একটি হেক্সাডেসিমাল স্ট্রিং হিসাবে উপস্থাপিত S2 সেল টোকেন (উদাহরণস্বরূপ,'80ead45')। এটিকে আপনার প্রাথমিক জয়েন কী হিসাবে ব্যবহার করুন। -
geo_name: অঞ্চলের সহজে পঠনযোগ্য নাম। দ্রষ্টব্য: S2 গ্রিড ডেটাসেটের ক্ষেত্রে, গাণিতিক সেলগুলোর কোনো নির্দিষ্ট নাম থাকে না, তাই এই কলামটিতেgeo_idমতোই একই টোকেন থাকবে। পপুলেশন ডাইনামিক্স-এর সমস্ত অফারিং জুড়ে একটি সামঞ্জস্যপূর্ণ কলাম কাঠামো বজায় রাখার জন্যই এটি ইচ্ছাকৃতভাবে করা হয়েছে। -
administrative_area_level_1_id: শীর্ষ-স্তরের প্রশাসনিক সীমানার (যেমন, রাজ্য বা প্রদেশ) জন্য অনন্য গুগল ম্যাপস প্লেস আইডি। -
administrative_area_level_1_name: শীর্ষ-স্তরের সীমানার পঠনযোগ্য নাম (উদাহরণস্বরূপ,'California')। -
administrative_area_level_2_id: দ্বিতীয় প্রশাসনিক সীমানার (যেমন, কাউন্টি বা জেলা) জন্য অনন্য গুগল ম্যাপস প্লেস আইডি। -
administrative_area_level_2_name: দ্বিতীয় সীমানার পঠনযোগ্য নাম (উদাহরণস্বরূপ,'Tulare County')। -
features: মূল ৩৩০-মাত্রিক এমবেডিং ভেক্টর, যা স্বাভাবিকভাবে একটিARRAY<FLOAT64>হিসেবে সংরক্ষিত থাকে। এটিকে Pandas পাইথন লাইব্রেরিতে লোড করার জন্য ফ্ল্যাটেনিং বা NumPy ম্যাট্রিক্সে রূপান্তর করার প্রয়োজন হয়।
প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী (FAQ)
আমি কি মূল ইনপুট ডেটা (যেমন, নির্দিষ্ট সার্চ কোয়েরি বা গতিশীলতার ট্রেস) অ্যাক্সেস করতে পারি?
না। পপুলেশন ডাইনামিক্স ইনসাইটস এমবেডিংগুলো সমষ্টিগত ও গোপনীয়তা-সংরক্ষক সংকেত থেকে তৈরি করা হয়। ব্যবহারকারীর গোপনীয়তা নিশ্চিত করতে, আমরা নির্দিষ্ট ব্যবহারকারীর গতিবিধি, ব্যক্তিগত অনুসন্ধানের ইতিহাস বা চলাচলের সরাসরি প্যাটার্ন সরবরাহ করি না। এই এমবেডিংগুলো সরাসরি বিশ্লেষণের পরিবর্তে, মডেলিং এবং পূর্বাভাসের জন্য অপ্টিমাইজ করা আচরণগুলোর একটি সুপ্ত উপস্থাপনা প্রদান করে।
ভেক্টরের মাত্রাগুলো কি বোধগম্য (উদাহরণস্বরূপ, মাত্রা ৫ কি "কফি")?
ভেক্টরগুলো হলো সুপ্ত উপস্থাপনা, অর্থাৎ এগুলো নির্দিষ্ট, মানুষের পাঠযোগ্য লেবেলের পরিবর্তে বিমূর্ত প্যাটার্ন ধারণ করে। যদিও আমরা জানি যে ০-১২৭ সূচকগুলো সার্চ ট্রেন্ড থেকে উদ্ভূত, একটি নির্দিষ্ট সূচক (যেমন সূচক ৫) 'কফি'-র মতো কোনো একটি একক কীওয়ার্ডের সাথে সরাসরি সম্পর্কিত নয়। বরং, এটি মডেল দ্বারা শেখা অনুসন্ধান আচরণের একটি জটিল বৈশিষ্ট্যকে উপস্থাপন করে।
ডেটাসেটটিতে কি বহুভুজের সীমানা (শেপফাইল) অন্তর্ভুক্ত আছে?
ডেটাসেটটি ভৌগোলিক শনাক্তকারীর জন্য S2 সেল আইডি ( geo_id ) এবং প্লেস আইডি (যেমন অ্যাডমিন ১ এবং অ্যাডমিন ২ অঞ্চল) প্রদান করে, কিন্তু এতে অঞ্চলগুলির মূল পলিগন জ্যামিতি (WKT/শেপফাইল) অন্তর্ভুক্ত নেই।
- ভিজ্যুয়ালাইজেশনের জন্য: আপনি BigQuery GeoViz-এর মতো টুল ব্যবহার করে সরাসরি সেন্ট্রয়েডগুলো প্লট করতে পারেন, অথবা হেক্স টোকেন থেকে S2 পলিগন গণনা করার জন্য জিওমেট্রি লাইব্রেরি ব্যবহার করতে পারেন।
- স্থানিক সংযোগের জন্য: আপনার যদি সুনির্দিষ্ট সীমানা অপারেশনের (উদাহরণস্বরূপ,
ST_CONTAINS) প্রয়োজন হয়, তাহলে আমরা এই ডেটাসেটটিকে পাবলিক সীমানা ডেটাসেটগুলির (যা BigQuery Public Data-তে উপলব্ধ) সাথে যুক্ত করার পরামর্শ দিই।