データを理解する
エンベディングは複数の国で利用できますが、スキーマはすべてのデータセットで一貫しています。エンベディングは、国ごとに個別の BigQuery リスティングに整理されます。
エンベディング ベクトルの構造
features 列は 330 次元のベクトルです(BigQuery では REPEATED FLOAT 配列として保存されます)。配列の各セクションは、人口動態モデルによって抽出された特定のデータシグナルに対応しています。
この構造を理解することで、特徴の除去(たとえば、検索行動が売上を予測する程度を天気と比較して判断するなど)が可能になります。
| ベクトル インデックス | データソース | 説明 |
|---|---|---|
| 0 ~ 127 | 集計された検索トレンド | 地域ごとの関心事や懸念事項(「ジム」、「インフルエンザの症状」、「高級品」などの検索)を把握します。 |
| 128 ~ 255 | 地図と混雑状況 | 建造物(病院、公園、学校などの POI)と人間の活動密度をキャプチャします。 |
| 256 ~ 329 | 天気と大気質 | 環境コンテキスト(気温、降水量、AQI、風)をキャプチャします。 |
キー列とメタデータ
エンベディング テーブルには、地理空間分析、フィルタリング、他の Google Maps Platform サービスとの相互運用を可能にする空間メタデータが含まれています。
geo_id: リージョンのプライマリ識別子。S2 セル データセットの場合、これは 16 進数文字列('80ead45'など)で表される S2 セル トークンです。これをプライマリ結合キーとして使用します。geo_name: 人が読める形式のリージョン名。注: S2 グリッド データセットの場合、数学的セルには標準名がないため、この列にはgeo_idとまったく同じトークンが含まれます。これは、すべての人口動態データで一貫した列構造を維持するための設計です。administrative_area_level_1_id: 最上位の行政境界(州や都道府県など)の一意の Google マップのプレイス ID。administrative_area_level_1_name: 最上位の境界の人間が読める名前('California'など)。administrative_area_level_2_id: 2 次管理境界(郡や地区など)の一意の Google マップのプレイス ID。administrative_area_level_2_name: セカンダリ境界の人間が読める名前('Tulare County'など)。features: コアの 330 次元エンベディング ベクトル。ネイティブにARRAY<FLOAT64>として保存されます。これを Pandas Python ライブラリに読み込むには、平坦化するか NumPy 行列に変換する必要があります。
よくある質問(FAQ)
未加工の入力データ(特定の検索クエリやモビリティ トレースなど)にアクセスできますか?
いいえ。人口動態の分析情報のエンベディングは、プライバシー保護の集約されたシグナルから生成されます。ユーザーのプライバシーを保護するため、特定のユーザーの追跡データ、個々の検索履歴、未加工の移動パターンは提供されません。エンベディングは、これらの動作の潜在表現を提供します。これは、生分析ではなく、モデリングと予測用に最適化されています。
ベクトル ディメンションは解釈可能か(たとえば、ディメンション 5 は「コーヒー」か)?
ベクトルは潜在表現です。つまり、特定の人間が読めるラベルではなく、抽象的なパターンをキャプチャします。インデックス 0 ~ 127 は検索トレンドから派生したものであることはわかっていますが、特定のインデックス(インデックス 5 など)は「コーヒー」などの単一のキーワードに 1 対 1 でマッピングされません。代わりに、モデルが学習した検索行動の複雑な特徴を表します。
データセットにポリゴンの境界(シェープファイル)は含まれていますか?
このデータセットには、地理的識別子(行政区画 1、行政区画 2 など)の S2 セル ID(geo_id)とプレイス ID が含まれていますが、地域の未加工のポリゴン ジオメトリ(WKT/シェープファイル)は含まれていません。
- 可視化の場合: BigQuery GeoViz などのツールを使用して重心を直接プロットするか、ジオメトリ ライブラリを使用して 16 進数トークンから S2 ポリゴンを計算できます。
- 空間結合の場合: 正確な境界オペレーション(
ST_CONTAINSなど)が必要な場合は、このデータセットを一般公開の境界データセット(BigQuery 一般公開データで利用可能)と結合することをおすすめします。