Comprendre les données
Bien que les embeddings soient disponibles pour plusieurs pays, le schéma reste cohérent dans tous les ensembles de données. Les embeddings sont organisés en fiches BigQuery distinctes pour chaque pays.
Anatomie du vecteur d'embedding
La colonne features est un vecteur à 330 dimensions (stocké sous forme de tableau REPEATED FLOAT dans BigQuery). Chaque section du tableau correspond à un signal de données spécifique extrait par le modèle Population Dynamics.
Comprendre cette structure permet l'ablation de fonctionnalités (par exemple, déterminer dans quelle mesure le comportement de recherche prédit les ventes par rapport à la météo).
| Index vectoriels | Source de données | Description |
|---|---|---|
| 0 à 127 | Tendances de recherche agrégées | Capture les centres d'intérêt et les préoccupations régionales (par exemple, les recherches sur "salle de sport", "symptômes de la grippe" ou "produits de luxe"). |
| 128 à 255 | Plans et fréquentation | Capture l'environnement bâti (POI tels que les hôpitaux, les parcs et les écoles) et la densité d'activité humaine. |
| 256 à 329 | Météo et qualité de l'air | Capture le contexte environnemental (température, précipitations, indice de qualité de l'air, vent). |
Colonnes clés et métadonnées
La table d'embeddings contient des métadonnées spatiales permettant l'analyse géospatiale, le filtrage et l'interopérabilité avec d'autres services Google Maps Platform.
geo_id: identifiant principal de la région. Pour les ensembles de données de cellules S2 , il s'agit du jeton de cellule S2 représenté sous forme de chaîne hexadécimale (par exemple,'80ead45'). Utilisez-le comme clé de jointure principale.geo_name: nom lisible de la région. Remarque : Pour les ensembles de données de grille S2, les cellules mathématiques n'ont pas de nom standard. Cette colonne contient donc exactement le même jeton quegeo_id. Cette conception permet de maintenir une structure de colonne cohérente dans toutes les offres Population Dynamics.administrative_area_level_1_id: identifiant de lieu Google Maps unique pour la limite administrative de premier niveau (par exemple, un État ou une province).administrative_area_level_1_name: nom lisible de la limite de premier niveau (par exemple,'California').administrative_area_level_2_id: identifiant de lieu Google Maps unique pour la limite administrative secondaire (par exemple, un comté ou un district).administrative_area_level_2_name: nom lisible de la limite secondaire (par exemple,'Tulare County').features: vecteur d'embedding principal à 330 dimensions, stocké de manière native sous forme deARRAY<FLOAT64>. Pour charger ce vecteur dans la bibliothèque Python Pandas, vous devez l'aplatir ou le convertir en matrice NumPy.
Questions fréquentes (FAQ)
Puis-je accéder aux données d'entrée brutes (par exemple, des requêtes de recherche spécifiques ou des traces de mobilité) ?
Non. Les embeddings Population Dynamics Insights sont générés à partir de signaux agrégés qui préservent la confidentialité. Pour garantir la confidentialité des utilisateurs, nous ne fournissons pas de traces d'utilisateurs spécifiques, d'historiques de recherche individuels ni de schémas de déplacement bruts. Les embeddings fournissent une représentation latente de ces comportements, optimisée pour la modélisation et la prédiction, plutôt que pour l'analyse brute.
Les dimensions vectorielles sont-elles interprétables (par exemple, la dimension 5 est-elle "Café") ?
Les vecteurs sont des représentations latentes, ce qui signifie qu'ils capturent des schémas abstraits plutôt que des libellés spécifiques et lisibles. Bien que nous sachions que les indices 0 à 127 proviennent des tendances de recherche, un indice spécifique (comme l'indice 5) ne correspond pas directement à un seul mot clé comme "Café". Il représente plutôt une fonctionnalité complexe du comportement de recherche apprise par le modèle.
L'ensemble de données inclut-il des limites de polygones (fichiers de formes) ?
L'ensemble de données fournit des ID de cellule S2 (geo_id) et des ID de lieu pour les identifiants géographiques (tels que les régions administratives de niveau 1 et 2), mais il n'inclut pas la géométrie brute des polygones (WKT/fichiers de formes) pour les régions.
- Pour la visualisation : vous pouvez tracer les centroïdes directement à l'aide d'outils tels que BigQuery GeoViz, ou utiliser des bibliothèques de géométrie pour calculer le polygone S2 à partir du jeton hexadécimal.
- Pour les jointures spatiales : si vous avez besoin d'opérations de limite précises (par exemple,
ST_CONTAINS), nous vous recommandons de joindre cet ensemble de données à des ensembles de données de limites publiques (disponibles dans BigQuery Public Data).