人口動態の分析情報データについて

データを理解する

エンベディングは複数の国で利用できますが、スキーマはすべてのデータセットで一貫しています。エンベディングは、国ごとに個別の BigQuery リスティングに整理されています。

エンベディング ベクトルの構造

features 列は 330 次元のベクトルです(BigQuery に REPEATED FLOAT 配列として保存されます)。配列の各セクションは、人口動態モデルによって抽出された特定のデータシグナルに対応しています。

この構造を理解することで、特徴の除去(たとえば、検索行動が売上を予測する程度を天候と比較して判断する)が可能になります。

ベクトル インデックス データソース 説明
0 ~ 127 集計された検索トレンド 地域ごとの関心事や懸念事項(「ジム」、「インフルエンザの症状」、「高級品」などの検索)を把握します。
128 ~ 255 地図と混雑状況 病院、公園、学校などの建造物や、人の活動密度を把握します。
256 ~ 329 天気と大気質 環境コンテキスト(気温、降水量、AQI、風)を把握します。

主要な列とメタデータ

エンベディング テーブルには空間メタデータが含まれており、地理空間分析、フィルタリング、他の Google Maps Platform サービスとの相互運用が可能です。

  • geo_id: リージョンのプライマリ識別子。S2 セルデータセットの場合、これは 16 進文字列(たとえば、'80ead45')で表される S2 セルトークンです。これをプライマリ結合キーとして使用します。
  • geo_name: 人が読める形式のリージョン名。注: S2 グリッド データセットの場合、数学的なセルには標準名がないため、この列には geo_id とまったく同じトークンが含まれます。これは、すべての人口動態サービスで一貫した列構造を維持するための設計です。
  • administrative_area_level_1_id: 最上位の行政境界(州や県など)の一意の Google マップのプレイス ID。
  • administrative_area_level_1_name: 最上位の境界の人間の読める形式の名前('California' など)。
  • administrative_area_level_2_id: 2 番目の行政境界(郡や区など)の一意の Google マップのプレイス ID。
  • administrative_area_level_2_name: 2 番目の境界の人間の読める形式の名前('Tulare County' など)。
  • features: コアとなる 330 次元のエンベディング ベクトル。ネイティブに ARRAY<FLOAT64>として保存されます。これを Pandas Python ライブラリに読み込むには、平坦化するか NumPy 行列に変換する必要があります。

よくある質問(FAQ)

生の入力データ(特定の検索クエリや移動履歴など)にアクセスできますか?

いいえ。人口動態インサイトのエンベディングは、集計されたプライバシー保護シグナルから生成されます。ユーザーのプライバシーを保護するため、特定のユーザーの履歴、個々の検索履歴、未加工の移動パターンは提供していません。エンベディングは、未加工の分析ではなく、モデリングと予測に最適化された、これらの行動の潜在的な表現を提供します。

ベクトル次元は解釈可能ですか(たとえば、次元 5 は「コーヒー」ですか)?

ベクトルは潜在的な表現であり、具体的な人間が読めるラベルではなく、抽象的なパターンを捉えます。インデックス 0 ~ 127 が検索トレンドから派生していることはわかっていますが、特定のインデックス(インデックス 5 など)は「コーヒー」などの単一のキーワードに 1 対 1 でマッピングされません。 代わりに、モデルによって学習された検索行動の複雑な特徴を表します。

データセットにはポリゴン境界(シェープファイル)が含まれていますか?

データセットには、S2 セル ID(geo_id)と、地理識別子(行政区 1、行政区 2 など)のプレイス ID が含まれていますが、リージョンの未加工のポリゴン ジオメトリ(WKT/シェープファイル)は含まれていません。

  • 可視化の場合: BigQuery GeoViz などのツールを使用して重心を直接プロットするか、ジオメトリ ライブラリを使用して 16 進トークンから S2 ポリゴンを計算できます。
  • 空間結合の場合: 正確な境界操作(ST_CONTAINS など)が必要な場合は、このデータセットを一般公開の境界データセット(BigQuery 一般公開データで入手可能)と結合することをおすすめします。