Daten zu Bevölkerungsdynamik

Daten verstehen

Die Einbettungen sind für mehrere Länder verfügbar, das Schema ist jedoch für alle Datasets gleich. Die Einbettungen sind für jedes Land in separaten BigQuery-Einträgen organisiert.

Anatomie des Einbettungsvektors

Die Spalte features ist ein 330-dimensionaler Vektor, der in BigQuery als REPEATED FLOAT-Array gespeichert ist. Jeder Abschnitt des Arrays entspricht einem bestimmten Datensignal, das vom Modell für Bevölkerungsdynamik extrahiert wurde.

Wenn Sie diese Struktur verstehen, können Sie Feature-Ablation durchführen, um beispielsweise zu ermitteln, inwieweit das Suchverhalten im Vergleich zum Wetter Verkäufe vorhersagt.

Vektorindexe Datenquelle Beschreibung
0 – 127 Aggregierte Suchtrends Erfasst regionale Interessen und Anliegen, z. B. Suchanfragen nach „Fitnessstudio“, „Grippesymptome“ oder „Luxusgüter“.
128 – 255 Google Maps und Geschäftigkeit Erfasst die bebaute Umgebung (POIs wie Krankenhäuser, Parks, Schulen) und die Dichte der menschlichen Aktivität.
256 – 329 Wetter und Luftqualität Erfasst den Umweltkontext (Temperatur, Niederschlag, Luftqualitätsindex, Wind).

Wichtige Spalten und Metadaten

Die Einbettungstabelle enthält räumliche Metadaten, die eine raumbezogene Analyse, Filterung und Interoperabilität mit anderen Google Maps Platform-Diensten ermöglichen.

  • geo_id: Die primäre Kennung für die Region. Bei S2 Zell-Datasets ist dies das S2-Zell-Token, das als hexadezimale String dargestellt wird (z. B. '80ead45'). Verwenden Sie dies als primären Join-Schlüssel.
  • geo_name: Der für Menschen lesbare Name der Region. Hinweis: Bei S2-Raster-Datasets haben mathematische Zellen keine Standardnamen. Daher enthält diese Spalte genau dasselbe Token wie geo_id. Dies ist so konzipiert, um eine einheitliche Spaltenstruktur für alle Angebote zur Bevölkerungsdynamik beizubehalten.
  • administrative_area_level_1_id: Die eindeutige Google Maps-Orts-ID für die Verwaltungsgrenze der obersten Ebene (z. B. Bundesstaat oder Provinz).
  • administrative_area_level_1_name: Der für Menschen lesbare Name für die Grenze der obersten Ebene (z. B. 'California').
  • administrative_area_level_2_id: Die eindeutige Google Maps-Orts-ID für die sekundäre Verwaltungsgrenze (z. B. Landkreis oder Bezirk).
  • administrative_area_level_2_name: Der für Menschen lesbare Name für die sekundäre Grenze (z. B. 'Tulare County').
  • features: Der 330-dimensionale Einbettungsvektor, der nativ als ARRAY<FLOAT64> gespeichert ist. Wenn Sie ihn in die Pandas-Python-Bibliothek laden möchten, müssen Sie ihn reduzieren oder in eine NumPy-Matrix konvertieren.

FAQ

Kann ich auf die Rohdaten zugreifen (z. B. bestimmte Suchanfragen oder Mobilitätsdaten)?

Nein. Die Einbettungen für Bevölkerungsdynamik-Analysen werden aus aggregierten, datenschutzfreundlichen Signalen generiert. Zum Schutz der Nutzerdaten stellen wir keine spezifischen Nutzerdaten, individuellen Suchverläufe oder Rohdaten zu Bewegungsmustern zur Verfügung. Die Einbettungen bieten eine latente Darstellung dieser Verhaltensweisen, die für die Modellierung und Vorhersage optimiert sind, nicht für die Rohdatenanalyse.

Sind die Vektordimensionen interpretierbar (z. B. ist Dimension 5 „Kaffee“)?

Die Vektoren sind latente Darstellungen, d. h., sie erfassen abstrakte Muster und keine spezifischen, für Menschen lesbaren Labels. Wir wissen zwar, dass die Indexe 0–127 aus Suchtrends abgeleitet werden, aber ein bestimmter Index (z. B. Index 5) lässt sich nicht direkt einem einzelnen Keyword wie „Kaffee“ zuordnen. Stattdessen stellt er ein komplexes Feature des Suchverhaltens dar, das vom Modell gelernt wurde.

Enthält das Dataset Polygongrenzen (Shapefiles)?

Das Dataset enthält S2-Zell-IDs (geo_id) und Orts-IDs für geografische Kennungen (z. B. Regionen der Verwaltungsebene 1 und 2), aber nicht die Rohdaten der Polygongeometrie (WKT/Shapefiles) für die Regionen.

  • Zur Visualisierung:Sie können die Zentroide direkt mit Tools wie BigQuery GeoViz darstellen oder Geometriebibliotheken verwenden, um das S2-Polygon aus dem Hex-Token zu berechnen.
  • Für räumliche Joins:Wenn Sie genaue Grenzoperationen benötigen (z. B. ST_CONTAINS), empfehlen wir, dieses Dataset mit öffentlichen Grenz-Datasets zu verknüpfen, die in BigQuery Public Data verfügbar sind.