מידע על נתונים של תובנות בקשר לדינמיקה של האוכלוסייה

הסבר על הנתונים

ההטמעות זמינות בכמה מדינות, אבל הסכימה נשארת עקבית בכל מערכי הנתונים. ההטמעות מאורגנות בדפי מוצר נפרדים ב-BigQuery לכל מדינה.

המבנה של וקטור ההטמעה

העמודה features היא וקטור תלת-ממדי (מאוחסן כמערך REPEATED FLOAT ב-BigQuery). כל חלק במערך מתאים לאות נתונים ספציפי שחולץ על ידי המודל של דינמיקת האוכלוסייה.

הבנת המבנה הזה מאפשרת לבצע הסרת תכונות (לדוגמה, לקבוע עד כמה התנהגות החיפוש חוזה מכירות בהשוואה למזג האוויר).

אינדקסים של וקטורים מקור נתונים תיאור
‫0 – 127 מגמות חיפוש מצטברות מציג את תחומי העניין והחששות באזור מסוים (למשל, חיפושים של 'חדר כושר', 'תסמינים של שפעת', 'מוצרי יוקרה').
‫128 – 255 מפות ועומס השכבה הזו כוללת את הסביבה הבנויה (נקודות עניין כמו בתי חולים, פארקים ובתי ספר) ואת צפיפות הפעילות האנושית.
‫256 – 329 מזג האוויר ואיכות האוויר תיעוד של ההקשר הסביבתי (טמפרטורה, משקעים, מדד איכות האוויר, רוח).

עמודות מרכזיות ומטא-נתונים

טבלת ההטמעות מכילה מטא-נתונים מרחביים שמאפשרים ניתוח גיאוגרפי, סינון ויכולת פעולה הדדית עם שירותים אחרים של Google Maps Platform.

  • geo_id: המזהה הראשי של האזור. במערכי נתונים של תא S2 ‎, זהו אסימון תא S2 שמיוצג כמחרוזת הקסדצימלית (לדוגמה, '80ead45'). משתמשים בו כמפתח הצירוף הראשי.
  • geo_name: השם של האזור שקריא לאנשים. הערה: במערכי נתונים של רשת S2, לתאים מתמטיים אין שמות סטנדרטיים, ולכן העמודה הזו תכיל את אותו הטוקן בדיוק כמו geo_id. העיצוב הזה נועד לשמור על מבנה עמודות עקבי בכל המוצרים של Population Dynamics.
  • administrative_area_level_1_id: מזהה המקום הייחודי ב-Google Maps לגבול האדמיניסטרטיבי ברמה העליונה (לדוגמה, מדינה או מחוז).
  • administrative_area_level_1_name: השם הקריא לאנשים של הגבול ברמה העליונה (לדוגמה, 'California').
  • administrative_area_level_2_id: מזהה המקום הייחודי ב-Google Maps לגבול המנהלי המשני (לדוגמה, מחוז או נפה).
  • administrative_area_level_2_name: שם קריא לאנשים של הגבול המשני (לדוגמה, 'Tulare County').
  • features: וקטור ההטמעה המרכזי עם 330 ממדים, שמאוחסן באופן מקורי כ-ARRAY<FLOAT64>. כדי לטעון את הנתונים האלה לספריית Pandas Python, צריך לשטח אותם או להמיר אותם למטריצת NumPy.

שאלות נפוצות

האם יש לי גישה לנתוני הקלט הגולמיים (לדוגמה, שאילתות חיפוש ספציפיות או נתוני ניידות)?

לא. ההטמעות של התובנות לגבי דינמיקת האוכלוסייה נוצרות מאותות מצטברים ששומרים על הפרטיות. כדי להגן על פרטיות המשתמשים, אנחנו לא מספקים נתוני מעקב ספציפיים של משתמשים, היסטוריות חיפושים פרטניות או דפוסי תנועה גולמיים. ההטמעות מספקות ייצוג סמוי של ההתנהגויות האלה, שעבר אופטימיזציה לצורך יצירת מודלים ותחזיות, ולא לצורך ניתוח גולמי.

האם אפשר לפרש את המאפיינים של הווקטור (לדוגמה, האם מאפיין 5 הוא 'קפה')?

הווקטורים הם ייצוגים סמויים, כלומר הם מתעדים דפוסים מופשטים ולא תוויות ספציפיות שניתנות לקריאה על ידי בני אדם. אנחנו יודעים שהאינדקסים 0 עד 127 מבוססים על Google Trends, אבל אינדקס ספציפי (כמו אינדקס 5) לא תואם באופן חד-חד-ערכי למילת מפתח יחידה כמו 'קפה'. במקום זאת, הוא מייצג תכונה מורכבת של התנהגות חיפוש שהמודל למד.

האם מערך הנתונים כולל גבולות של מצולעים (קובצי Shapefile)?

קבוצת הנתונים מספקת מזהי תאים של S2 ‏ (geo_id) ומזהי מקומות למזהים גיאוגרפיים (כמו אזורים ברמה אדמיניסטרטיבית 1 וברמה אדמיניסטרטיבית 2), אבל היא לא כוללת את הגיאומטריה הגולמית של הפוליגון (WKT/Shapefiles) של האזורים.

  • להמחשה: אפשר לשרטט את המרכזים ישירות באמצעות כלים כמו BigQuery GeoViz, או להשתמש בספריות גיאומטריה כדי לחשב את מצולע S2 מהטוקן ההקסדצימלי.
  • לחיבורים מרחביים: אם אתם צריכים פעולות מדויקות של גבולות (לדוגמה, ST_CONTAINS), מומלץ לחבר את מערך הנתונים הזה למערכי נתונים ציבוריים של גבולות (זמינים בנתונים ציבוריים של BigQuery).