人口動態洞察資料簡介

瞭解資料

雖然嵌入內容適用於多個國家/地區,但所有資料集都採用一致的結構定義。每個國家/地區的嵌入內容會整理成個別的 BigQuery 產品資訊。

嵌入向量剖析

features 資料欄是 330 維度的向量 (在 BigQuery 中儲存為 REPEATED FLOAT 陣列)。陣列的每個區段都對應至「人口動態」模型擷取的特定資料信號。

瞭解這種結構有助於進行特徵消融 (例如,判斷搜尋行為與天氣相比,預測銷售量的準確度)。

向量索引 資料來源 說明
0 到 127 匯總搜尋趨勢 擷取區域性興趣和疑慮 (例如搜尋「健身房」、「流感症狀」、「奢侈品」)。
128 到 255 地圖和繁忙程度 擷取建築環境 (醫院、公園、學校等搜尋點) 和人類活動密度。
256 至 329 天氣和空氣品質 擷取環境背景資訊 (溫度、降水、空氣品質指數、風)。

重要資料欄和中繼資料

嵌入內容資料表包含空間中繼資料,可進行地理空間分析、篩選,以及與其他 Google Maps Platform 服務互通。

  • geo_id:區域的主要 ID。如為 S2 儲存格資料集,這是以十六進位字串表示的 S2 儲存格權杖 (例如 '80ead45')。請將此做為主要彙整索引鍵。
  • geo_name:區域的易讀名稱。注意:如果是 S2 格線資料集,數學儲存格沒有標準名稱,因此這個資料欄會包含與 geo_id 完全相同的符記。這是刻意設計,目的是在所有「人口動態」產品中維持一致的資料欄結構。
  • administrative_area_level_1_id:頂層行政邊界的專屬 Google 地圖地點 ID (例如州或省)。
  • administrative_area_level_1_name:頂層邊界的人類可讀名稱 (例如 'California')。
  • administrative_area_level_2_id:次要行政邊界的專屬 Google 地圖地點 ID (例如縣市或區)。
  • administrative_area_level_2_name:次要邊界的易讀名稱 (例如 'Tulare County')。
  • features:核心 330 維度嵌入向量,以 ARRAY<FLOAT64> 形式原生儲存。如要將這項資料載入 Pandas Python 程式庫,必須先將資料扁平化或轉換為 NumPy 矩陣。

常見問題 (FAQ)

我可以存取原始輸入資料 (例如特定搜尋查詢或移動軌跡) 嗎?

不會。人口動態洞察嵌入內容是根據匯總的隱私權保護信號產生,為確保使用者隱私,我們不會提供特定使用者軌跡、個別搜尋記錄或原始移動模式。這些嵌入內容提供這些行為的潛在表示法,經過最佳化調整,適用於模型化和預測,而非原始分析。

向量維度是否可解讀 (例如,維度 5 是否為「咖啡」)?

向量是潛在表示法,也就是擷取抽象模式,而非人類可讀的特定標籤。我們知道指數 0 到 127 是從搜尋趨勢衍生而來,但特定指數 (例如指數 5) 並不會一對一對應至單一關鍵字 (例如「咖啡」)。而是代表模型學到的複雜搜尋行為特徵。

資料集是否包含多邊形界線 (Shapefile)?

資料集提供地理 ID (例如第 1 級和第 2 級行政區) 的 S2 儲存格 ID (geo_id) 和地點 ID,但不包含這些區域的原始多邊形幾何圖形 (WKT/Shapefiles)。

  • 用於視覺化:您可以直接使用 BigQuery GeoViz 等工具繪製質心,也可以使用幾何程式庫,從十六進位權杖計算 S2 多邊形。
  • 如要進行空間聯結:如需精確的邊界作業 (例如 ST_CONTAINS),建議您將這個資料集與公開邊界資料集 (可透過 BigQuery 公開資料取得) 聯結。