فهم البيانات
على الرغم من توفّر المتجهات المضمّنة لبلدان متعدّدة، يظلّ المخطط متطابقًا في جميع مجموعات البيانات. يتم تنظيم المتجهات المضمّنة في بيانات منفصلة على BigQuery لكل بلد.
شرح المتجه المضمّن
عمود features هو متجه ثلاثي الأبعاد (مخزَّن كمصفوفة REPEATED FLOAT في BigQuery). يتوافق كل قسم من المصفوفة مع إشارة بيانات محدّدة يستخرجها نموذج "ديناميات السكان".
يسمح فهم هذا الهيكل بإزالة الميزات (على سبيل المثال، تحديد مدى تأثير سلوك البحث في المبيعات مقارنةً بالطقس).
| مؤشرات المتجهات | مصدر البيانات | الوصف |
|---|---|---|
| 0 – 127 | مؤشرات البحث المجمَّعة | تسجِّل اهتمامات المنطقة ومخاوفها (على سبيل المثال، عمليات البحث عن "نادي رياضي" و"أعراض الإنفلونزا" و"السلع الفاخرة"). |
| 128 – 255 | الخرائط ومستوى الازدحام | تسجِّل البيئة المبنية (أماكن الاهتمام مثل المستشفيات والحدائق والمدارس) وكثافة النشاط البشري. |
| 256 – 329 | الطقس وجودة الهواء | تسجِّل السياق البيئي (درجة الحرارة والأمطار ومؤشر جودة الهواء والرياح). |
الأعمدة والبيانات الوصفية الرئيسية
يحتوي جدول المتجهات المضمّنة على بيانات وصفية مكانية تتيح التحليل الجغرافي المكاني والتصفية والتوافق مع خدمات "منصة خرائط Google" الأخرى.
geo_id: المعرِّف الأساسي للمنطقة بالنسبة إلى مجموعات بيانات خلايا S2 S2، يكون هذا الرمز المميّز لخلية S2 ممثَّلاً كسلسلة سداسية عشرية (على سبيل المثال،'80ead45'). استخدِم هذا المعرِّف كمفتاح الربط الأساسي.geo_name: الاسم الذي يمكن للمستخدِم قراءته للمنطقة ملاحظة: بالنسبة إلى مجموعات بيانات شبكة S2، لا تحتوي الخلايا الرياضية على أسماء عادية، لذا سيحتوي هذا العمود على الرمز المميّز نفسه تمامًا مثلgeo_id. تم تصميم ذلك للحفاظ على بنية عمود متطابقة في جميع عروض "ديناميات السكان".administrative_area_level_1_id: رقم تعريف المكان الفريد في "خرائط Google" للحدود الإدارية ذات المستوى الأعلى (على سبيل المثال، الولاية أو المقاطعة)administrative_area_level_1_name: الاسم الذي يمكن للمستخدِم قراءته للحدود ذات المستوى الأعلى (على سبيل المثال،'California')administrative_area_level_2_id: رقم تعريف المكان الفريد في "خرائط Google" للحدود الإدارية الثانوية (على سبيل المثال، المقاطعة أو المنطقة).administrative_area_level_2_name: الاسم الذي يمكن للمستخدِم قراءته للحدود الثانوية (على سبيل المثال،'Tulare County')features: المتجه المضمّن الأساسي ثلاثي الأبعاد، المخزَّن أصلاً كـARRAY<FLOAT64>يتطلّب تحميل هذا المتجه في مكتبة Pandas Python تسطيحه أو تحويله إلى مصفوفة NumPy.
الأسئلة الشائعة
هل يمكنني الوصول إلى بيانات الإدخال الأولية (على سبيل المثال، طلبات بحث معيّنة أو بيانات تتبُّع التنقّل)؟
لا، يتم إنشاء المتجهات المضمّنة في إحصاءات حول ديناميات السكان من إشارات مجمَّعة تحافظ على الخصوصية. لضمان خصوصية المستخدِم، لا نوفّر بيانات تتبُّع محدّدة للمستخدِم أو سجلّات بحث فردية أو أنماط حركة أولية. تقدّم المتجهات المضمّنة تمثيلاً ضمنيًا لهذه السلوكيات، تم تحسينه من أجل النمذجة والتنبؤ، بدلاً من التحليلات الأولية.
هل يمكن تفسير أبعاد المتجه (على سبيل المثال، هل البُعد 5 هو "قهوة")؟
المتجهات هي تمثيلات ضمنية، ما يعني أنّها تسجِّل أنماطًا مجرّدة بدلاً من تصنيفات محدّدة يمكن للمستخدِم قراءتها. على الرغم من أنّنا نعلم أنّ المؤشرات من 0 إلى 127 مستمدة من "مؤشرات Google"، لا يتطابق مؤشر معيّن (مثل المؤشر 5) مع كلمة رئيسية واحدة مثل "قهوة". بدلاً من ذلك، يمثّل هذا المؤشر ميزة معقّدة لسلوك البحث تعلّمها النموذج.
هل تتضمّن مجموعة البيانات حدود المضلعات (ملفات الأشكال)؟
توفّر مجموعة البيانات معرّفات خلايا S2 (geo_id) ومعرّفات الأماكن للمعرّفات الجغرافية (مثل المناطق الإدارية من المستوى 1 والمناطق الإدارية من المستوى 2)، ولكنّها لا تتضمّن هندسة المضلع الأولية (WKT/ملفات الأشكال) للمناطق.
- للعرض المرئي: يمكنك رسم النقاط المركزية مباشرةً باستخدام أدوات مثل BigQuery GeoViz، أو استخدام مكتبات الهندسة لحساب مضلع S2 من الرمز المميّز السداسي العشري.
- لعمليات الربط المكاني: إذا كنت بحاجة إلى عمليات دقيقة للحدود (على سبيل المثال،
ST_CONTAINS)، ننصحك بربط مجموعة البيانات هذه بمجموعات بيانات الحدود العامة (المتاحة في BigQuery Public Data).