Daten verstehen
Die Einbettungen sind für mehrere Länder verfügbar, das Schema bleibt jedoch für alle Datasets gleich. Die Einbettungen sind in separaten BigQuery-Einträgen für jedes Land organisiert.
Aufbau des Einbettungsvektors
Die Spalte features ist ein 330-dimensionaler Vektor, der als REPEATED FLOAT-Array in BigQuery gespeichert ist. Jeder Abschnitt des Arrays entspricht einem bestimmten Datensignal, das vom Modell für Bevölkerungsdynamik extrahiert wurde.
Wenn Sie diese Struktur verstehen, können Sie Feature-Ablationen durchführen, um beispielsweise zu ermitteln, inwieweit das Suchverhalten im Vergleich zum Wetter Verkäufe vorhersagt.
| Vektorindexe | Datenquelle | Beschreibung |
|---|---|---|
| 0 – 127 | Zusammengefasste Suchtrends | Erfasst regionale Interessen und Anliegen (z. B. Suchanfragen nach „Fitnessstudio“, „Grippesymptome“ oder „Luxusgüter“). |
| 128 – 255 | Karten und Besucheraufkommen | Erfasst die gebaute Umgebung (POIs wie Krankenhäuser, Parks, Schulen) und die Dichte menschlicher Aktivitäten. |
| 256 – 329 | Wetter und Luftqualität | Erfasst den Umgebungskontext (Temperatur, Niederschlag, AQI, Wind). |
Wichtige Spalten und Metadaten
Die Einbettungstabelle enthält räumliche Metadaten, die georäumliche Analysen, Filterung und Interoperabilität mit anderen Google Maps Platform-Diensten ermöglichen.
geo_id: Die primäre Kennung für die Region. Bei Datasets mit S2-Zellen ist dies das S2-Zellen-Token, das als Hexadezimalstring dargestellt wird (z. B.'80ead45'). Verwenden Sie es als primären Join-Schlüssel.geo_name: Der für Menschen lesbare Name der Region. Hinweis: Bei Datasets mit S2-Raster haben mathematische Zellen keine Standardnamen. Diese Spalte enthält daher dasselbe Token wiegeo_id. Das ist so vorgesehen, um eine einheitliche Spaltenstruktur für alle Population Dynamics-Produkte zu gewährleisten.administrative_area_level_1_id: Die eindeutige Google Maps Orts-ID für die administrative Grenze der obersten Ebene (z. B. Bundesstaat oder Provinz).administrative_area_level_1_name: Der für Menschen lesbare Name der Grenzlinie der obersten Ebene (z. B.'California').administrative_area_level_2_id: Die eindeutige Google Maps Orts-ID für die sekundäre administrative Grenze (z. B. Landkreis oder Bezirk).administrative_area_level_2_name: Der für Menschen lesbare Name der sekundären Grenze (z. B.'Tulare County').features: Der 330-dimensionale Einbettungsvektor, der nativ alsARRAY<FLOAT64>gespeichert wird. Wenn Sie diese Daten in die Pandas-Python-Bibliothek laden möchten, müssen Sie sie reduzieren oder in eine NumPy-Matrix konvertieren.
FAQ
Kann ich auf die Rohdaten zugreifen (z. B. auf bestimmte Suchanfragen oder Mobilitätsdaten)?
Nein. Die Einbettungen für Daten zur Bevölkerungsdynamik werden aus aggregierten, datenschutzfreundlichen Signalen generiert. Zum Schutz der Privatsphäre der Nutzer stellen wir keine spezifischen Nutzerverläufe, individuellen Suchverläufe oder Rohdaten zu Bewegungsmustern zur Verfügung. Die Einbettungen bieten eine latente Darstellung dieser Verhaltensweisen, die für die Modellierung und Vorhersage optimiert ist und nicht für die Rohdatenanalyse.
Sind die Vektordimensionen interpretierbar (z. B. ist Dimension 5 „Kaffee“)?
Die Vektoren sind latente Darstellungen, d. h., sie erfassen abstrakte Muster und nicht spezifische, für Menschen lesbare Labels. Die Indexwerte 0–127 stammen aus Google Trends. Ein bestimmter Indexwert (z. B. Index 5) entspricht jedoch nicht direkt einem einzelnen Keyword wie „Kaffee“. Stattdessen stellt sie ein komplexes Feature des Suchverhaltens dar, das vom Modell gelernt wurde.
Enthält das Dataset Polygongrenzen (Shapefiles)?
Das Dataset enthält S2-Zell-IDs (geo_id) und Orts-IDs für geografische Kennzeichnungen (z. B. Regionen der Verwaltungsebene 1 und 2), aber nicht die Rohpolygongeometrie (WKT/Shapefiles) für die Regionen.
- Zur Visualisierung:Sie können die Schwerpunkte direkt mit Tools wie BigQuery GeoViz darstellen oder Geometriebibliotheken verwenden, um das S2-Polygon aus dem Hex-Token zu berechnen.
- Für räumliche Joins:Wenn Sie genaue Grenzoperationen benötigen (z. B.
ST_CONTAINS), empfehlen wir, dieses Dataset mit öffentlichen Grenz-Datasets (verfügbar in BigQuery Public Data) zu verknüpfen.