人口動態の分析情報データについて

データを理解する

エンベディングは複数の国で利用できますが、スキーマはすべてのデータセットで一貫しています。エンベディングは、国ごとに個別の BigQuery リスティングに整理されます。

エンベディング ベクトルの構造

features 列は 330 次元のベクトルです(BigQuery では REPEATED FLOAT 配列として保存されます)。配列の各セクションは、人口動態モデルによって抽出された特定のデータシグナルに対応しています。

この構造を理解することで、特徴の除去(たとえば、検索行動が売上を予測する程度を天気と比較して判断するなど)が可能になります。

ベクトル インデックス データソース 説明
0 ~ 127 集計された検索トレンド 地域ごとの関心事や懸念事項(「ジム」、「インフルエンザの症状」、「高級品」などの検索)を把握します。
128 ~ 255 地図と混雑状況 建造物(病院、公園、学校などの POI)と人間の活動密度をキャプチャします。
256 ~ 329 天気と大気質 環境コンテキスト(気温、降水量、AQI、風)をキャプチャします。

キー列とメタデータ

エンベディング テーブルには、地理空間分析、フィルタリング、他の Google Maps Platform サービスとの相互運用を可能にする空間メタデータが含まれています。

  • geo_id: リージョンのプライマリ識別子。S2 セル データセットの場合、これは 16 進数文字列('80ead45' など)で表される S2 セル トークンです。これをプライマリ結合キーとして使用します。
  • geo_name: 人が読める形式のリージョン名。注: S2 グリッド データセットの場合、数学的セルには標準名がないため、この列には geo_id とまったく同じトークンが含まれます。これは、すべての人口動態データで一貫した列構造を維持するための設計です。
  • administrative_area_level_1_id: 最上位の行政境界(州や都道府県など)の一意の Google マップのプレイス ID。
  • administrative_area_level_1_name: 最上位の境界の人間が読める名前('California' など)。
  • administrative_area_level_2_id: 2 次管理境界(郡や地区など)の一意の Google マップのプレイス ID。
  • administrative_area_level_2_name: セカンダリ境界の人間が読める名前('Tulare County' など)。
  • features: コアの 330 次元エンベディング ベクトル。ネイティブに ARRAY<FLOAT64> として保存されます。これを Pandas Python ライブラリに読み込むには、平坦化するか NumPy 行列に変換する必要があります。

よくある質問(FAQ)

未加工の入力データ(特定の検索クエリやモビリティ トレースなど)にアクセスできますか?

いいえ。人口動態の分析情報のエンベディングは、プライバシー保護の集約されたシグナルから生成されます。ユーザーのプライバシーを保護するため、特定のユーザーの追跡データ、個々の検索履歴、未加工の移動パターンは提供されません。エンベディングは、これらの動作の潜在表現を提供します。これは、生分析ではなく、モデリングと予測用に最適化されています。

ベクトル ディメンションは解釈可能か(たとえば、ディメンション 5 は「コーヒー」か)?

ベクトルは潜在表現です。つまり、特定の人間が読めるラベルではなく、抽象的なパターンをキャプチャします。インデックス 0 ~ 127 は検索トレンドから派生したものであることはわかっていますが、特定のインデックス(インデックス 5 など)は「コーヒー」などの単一のキーワードに 1 対 1 でマッピングされません。代わりに、モデルが学習した検索行動の複雑な特徴を表します。

データセットにポリゴンの境界(シェープファイル)は含まれていますか?

このデータセットには、地理的識別子(行政区画 1、行政区画 2 など)の S2 セル ID(geo_id)とプレイス ID が含まれていますが、地域の未加工のポリゴン ジオメトリ(WKT/シェープファイル)は含まれていません。

  • 可視化の場合: BigQuery GeoViz などのツールを使用して重心を直接プロットするか、ジオメトリ ライブラリを使用して 16 進数トークンから S2 ポリゴンを計算できます。
  • 空間結合の場合: 正確な境界オペレーション(ST_CONTAINS など)が必要な場合は、このデータセットを一般公開の境界データセット(BigQuery 一般公開データで利用可能)と結合することをおすすめします。