فهم البيانات
على الرغم من توفّر المتجهات المضمّنة لبلدان متعدّدة، يظلّ المخطط متطابقًا في جميع مجموعات البيانات. يتم تنظيم المتجهات المضمّنة في بيانات منفصلة على BigQuery لكل بلد.
شرح المتجه المضمّن
عمود features هو متجه ثلاثي الأبعاد (مخزّن كصفيف REPEATED FLOAT في BigQuery). يتوافق كل قسم من أقسام الصفيف مع إشارة بيانات محدّدة يستخرجها نموذج "إحصاءات حول ديناميات السكان".
يسمح فهم هذا الهيكل بإزالة الميزات (على سبيل المثال، تحديد مدى تأثير سلوك البحث في المبيعات مقارنةً بالطقس).
| مؤشرات المتجهات | مصدر البيانات | الوصف |
|---|---|---|
| 0 – 127 | مؤشرات البحث المجمَّعة | تسجِّل هذه المؤشرات الاهتمامات والمخاوف الإقليمية (على سبيل المثال، عمليات البحث عن "نادي رياضي" و"أعراض الإنفلونزا" و"السلع الفاخرة"). |
| 128 – 255 | الخرائط ومستوى الازدحام | تسجِّل هذه المؤشرات البيئة المبنية (أماكن الاهتمام مثل المستشفيات والحدائق والمدارس) وكثافة النشاط البشري. |
| 256 – 329 | الطقس وجودة الهواء | تسجِّل هذه المؤشرات السياق البيئي (درجة الحرارة والأمطار ومؤشر جودة الهواء والرياح). |
الأعمدة والبيانات الوصفية الرئيسية
يحتوي جدول التضمينات على بيانات وصفية مكانية تتيح إجراء التحليل الجيوفضائي والفَرز وإمكانية التشغيل التفاعلي مع خدمات "منصة خرائط Google" الأخرى.
geo_id: المعرِّف الأساسي للمنطقة بالنسبة إلى مجموعات بيانات خلايا S2 ، يكون هذا المعرِّف هو رمز خلية S2 المعروض كسلسلة سداسية عشرية (على سبيل المثال،'80ead45'). استخدِم هذا المعرِّف كمفتاح الربط الأساسي.geo_name: الاسم الذي يمكن للمستخدِم قراءته للمنطقة ملاحظة: بالنسبة إلى مجموعات بيانات شبكة S2، لا تحتوي الخلايا الرياضية على أسماء عادية، لذا سيحتوي هذا العمود على الرمز نفسه تمامًا مثلgeo_id. تم تصميم ذلك للحفاظ على بنية عمود متطابقة في جميع عروض "إحصاءات حول ديناميات السكان".administrative_area_level_1_id: رقم تعريف المكان الفريد في "خرائط Google" للحدود الإدارية ذات المستوى الأعلى (على سبيل المثال، الولاية أو المقاطعة)administrative_area_level_1_name: الاسم الذي يمكن للمستخدِم قراءته للحدود ذات المستوى الأعلى (على سبيل المثال،'California')administrative_area_level_2_id: رقم تعريف المكان الفريد في "خرائط Google" للحدود الإدارية الثانوية (على سبيل المثال، البلدية أو المنطقة)administrative_area_level_2_name: الاسم الذي يمكن للمستخدِم قراءته للحدود الثانوية (على سبيل المثال،'Tulare County')features: المتجه المضمّن الأساسي ثلاثي الأبعاد، المخزّن أصلاً كـARRAY<FLOAT64>. يتطلّب تحميل هذا المتجه في مكتبة Pandas Python تسطيحه أو تحويله إلى مصفوفة NumPy.
الأسئلة الشائعة
هل يمكنني الوصول إلى بيانات الإدخال الأولية (على سبيل المثال، طلبات بحث محدّدة أو بيانات تتبُّع التنقّل)؟
لا، يتم إنشاء المتجهات المضمّنة في "إحصاءات حول ديناميات السكان" من إشارات مجمَّعة تحافظ على الخصوصية. لضمان خصوصية المستخدِم، لا نوفّر بيانات تتبُّع محدّدة للمستخدِم أو سجلّات بحث فردية أو أنماط حركة أولية. تقدّم المتجهات المضمّنة تمثيلاً ضمنيًا لهذه السلوكيات، تم تحسينه لأغراض النمذجة والتنبؤ، بدلاً من التحليلات الأولية.
هل يمكن تفسير أبعاد المتجه (على سبيل المثال، هل البُعد 5 هو "قهوة")؟
المتجهات هي تمثيلات ضمنية، ما يعني أنّها تسجِّل أنماطًا مجرّدة بدلاً من تصنيفات محدّدة يمكن للمستخدِم قراءتها. على الرغم من أنّنا نعلم أنّ المؤشرات من 0 إلى 127 مستمدة من "مؤشرات Google"، لا يتطابق مؤشر محدّد (مثل المؤشر 5) مع كلمة رئيسية واحدة مثل "قهوة". بدلاً من ذلك، يمثّل هذا المؤشر ميزة معقّدة لسلوك البحث تعلّمها النموذج.
هل تتضمّن مجموعة البيانات حدود المضلعات (ملفات Shapefile)؟
توفّر مجموعة البيانات أرقام تعريف خلايا S2 (geo_id) وأرقام تعريف الأماكن للمعرّفات الجغرافية (مثل المناطق الإدارية من المستوى 1 والمناطق الإدارية من المستوى 2)، ولكنّها لا تتضمّن هندسة المضلع الأولية (WKT/Shapefile) للمناطق.
- للعرض المرئي: يمكنك رسم النقاط المركزية مباشرةً باستخدام أدوات مثل BigQuery GeoViz، أو استخدام مكتبات الهندسة لحساب مضلع S2 من الرمز السداسي العشري.
- لعمليات الربط المكاني: إذا كنت بحاجة إلى عمليات دقيقة للحدود (على سبيل المثال،
ST_CONTAINS)، ننصحك بربط مجموعة البيانات هذه بمجموعات بيانات الحدود العامة (المتاحة في BigQuery Public Data).