人口动态分析洞见数据简介

了解数据

虽然嵌入向量适用于多个国家/地区,但架构在所有数据集中保持一致。嵌入向量按国家/地区整理到单独的 BigQuery 列表。

嵌入向量剖析

features 列是一个 330 维向量(在 BigQuery 中存储为 REPEATED FLOAT 数组)。数组的每个部分对应于人口动态模型提取的特定数据信号。

了解此结构有助于进行特征消融(例如,确定搜索行为与天气相比,对销售额的预测程度)。

向量索引 数据源 说明
0 – 127 汇总搜索趋势 捕获区域兴趣和关注点(例如,搜索“健身房”“流感症状”“奢侈品”)。
128 – 255 地图和繁忙程度 捕获建成环境(医院、公园、学校等地图注点)和人类活动密度。
256 – 329 天气和空气质量 捕获环境背景信息(温度、降水、空气质量指数、风)。

关键列和元数据

嵌入向量表包含空间元数据,可实现地理空间分析、过滤以及与其他 Google Maps Platform 服务的互操作性。

  • geo_id:区域的主要标识符。对于 S2 单元数据集,这是以十六进制字符串表示的 S2 单元令牌(例如 '80ead45')。请将其用作主要联接键。
  • geo_name:区域的直观易懂的名称。注意:对于 S2 网格数据集,数学单元格没有标准名称,因此此列将包含与 geo_id 完全相同的令牌。这是为了在所有人口动态产品/服务中保持一致的列结构而设计的。
  • administrative_area_level_1_id:顶级行政边界(例如州或省)的唯一 Google 地图地点 ID。
  • administrative_area_level_1_name: 顶级边界的直观易懂的名称(例如 'California')。
  • administrative_area_level_2_id:二级行政边界(例如县或区)的唯一 Google 地图地点 ID。
  • administrative_area_level_2_name: 二级边界的直观易懂的名称(例如 'Tulare County')。
  • features:核心 330 维嵌入向量,以 ARRAY<FLOAT64>形式原生存储。将其加载到 Pandas Python 库中需要展平或转换为 NumPy 矩阵。

常见问题解答 (FAQ)

我可以访问原始输入数据(例如,特定搜索查询或移动轨迹)吗?

不可以。人口动态洞见嵌入向量是根据汇总的、可保护隐私的信号生成的。为了确保用户隐私,我们不会提供特定用户轨迹、个人搜索记录或原始移动模式。嵌入向量提供这些行为的潜在表示,针对建模和预测进行了优化,而不是原始分析。

向量维度是否可解释(例如,维度 5 是否为“咖啡”)?

向量是潜在表示,这意味着它们捕获的是抽象模式,而不是特定的、直观易懂的标签。虽然我们知道索引 0-127 源自搜索趋势,但特定索引(例如索引 5)不会与单个关键字(例如“咖啡”)一一对应。 相反,它表示模型学习到的搜索行为的复杂特征。

数据集是否包含多边形边界(Shapefile)?

数据集提供地理标识符(例如行政区 1 和行政区 2 区域)的 S2 单元格 ID (geo_id) 和地点 ID,但不包含这些区域的原始多边形几何图形(WKT/Shapefile)。

  • 用于可视化 :您可以使用 BigQuery GeoViz 等工具直接绘制质心,也可以使用几何图形库根据十六进制令牌计算 S2 多边形。
  • 用于空间联接 :如果您需要精确的边界运算(例如 ST_CONTAINS),建议将此数据集与公共边界数据集(可在 BigQuery 公共数据中找到)联接。