Informazioni sui dati degli approfondimenti sulle dinamiche della popolazione

Comprendere i dati

Sebbene gli incorporamenti siano disponibili per più paesi, lo schema rimane coerente in tutti i set di dati. Gli incorporamenti sono organizzati in schede BigQuery separate per ogni paese.

Anatomia del vettore di incorporamento

La colonna features è un vettore a 330 dimensioni (memorizzato come array REPEATED FLOAT in BigQuery). Ogni sezione dell'array corrisponde a un segnale di dati specifico estratto dal modello Dinamica della popolazione.

La comprensione di questa struttura consente l'ablazione delle funzionalità (ad esempio, determinare in che misura il comportamento di ricerca prevede le vendite rispetto al meteo).

Indici vettoriali Origine dati Descrizione
0 - 127 Tendenze di ricerca aggregate Acquisisce interessi e preoccupazioni regionali (ad esempio, ricerche di "palestra", "sintomi influenzali", "beni di lusso").
128 - 255 Mappe e affollamento Acquisisce l'ambiente costruito (punti di interesse come ospedali, parchi, scuole) e la densità dell'attività umana.
256 - 329 Meteo e qualità dell'aria Acquisizione del contesto ambientale (temperatura, precipitazioni, AQI, vento).

Colonne chiave e metadati

La tabella degli incorporamenti contiene metadati spaziali che consentono l'analisi geospaziale, il filtraggio e l'interoperabilità con altri servizi Google Maps Platform.

  • geo_id: l'identificatore principale della regione. Per i set di dati S2 cell, questo è il token cella S2 rappresentato come stringa esadecimale (ad esempio, '80ead45'). Utilizzalo come chiave di join principale.
  • geo_name: Il nome della regione leggibile da una persona. Nota: per i set di dati della griglia S2, le celle matematiche non hanno nomi standard, quindi questa colonna conterrà lo stesso token di geo_id. Questa scelta è stata fatta per mantenere una struttura delle colonne coerente in tutte le offerte di Dinamiche della popolazione.
  • administrative_area_level_1_id: l'ID luogo di Google Maps univoco per il confine amministrativo di primo livello (ad esempio, stato o provincia).
  • administrative_area_level_1_name: Il nome leggibile del confine di primo livello (ad esempio 'California').
  • administrative_area_level_2_id: l'ID luogo univoco di Google Maps per il confine amministrativo secondario (ad esempio, contea o distretto).
  • administrative_area_level_2_name: il nome leggibile del confine secondario (ad esempio 'Tulare County').
  • features: Il vettore di embedding principale a 330 dimensioni, archiviato in modo nativo come ARRAY<FLOAT64>. Il caricamento nella libreria Python Pandas richiede l'appiattimento o la conversione in una matrice NumPy.

Domande frequenti

Posso accedere ai dati di input non elaborati (ad esempio, query di ricerca specifiche o tracce di mobilità)?

No. Gli incorporamenti degli insight sulle dinamiche della popolazione vengono generati da indicatori aggregati che tutelano la privacy. Per garantire la privacy degli utenti, non forniamo tracce specifiche degli utenti, cronologie delle ricerche individuali o modelli di movimento grezzi. Gli incorporamenti forniscono una rappresentazione latente di questi comportamenti, ottimizzata per la modellazione e la previsione, anziché per l'analisi non elaborata.

Le dimensioni del vettore sono interpretabili (ad esempio, la dimensione 5 è "Caffè")?

I vettori sono rappresentazioni latenti, il che significa che acquisiscono pattern astratti anziché etichette specifiche e leggibili. Sebbene sappiamo che gli indici 0-127 derivano da Tendenze della ricerca, un indice specifico (come l'indice 5) non corrisponde uno a uno a una singola parola chiave come "Caffè". Rappresenta invece una funzionalità complessa del comportamento di ricerca appresa dal modello.

Il set di dati include i confini dei poligoni (Shapefile)?

Il set di dati fornisce ID cella S2 (geo_id) e ID luogo per gli identificatori geografici (ad esempio regioni amministrative 1 e 2), ma non include la geometria poligonale non elaborata (WKT/Shapefile) per le regioni.

  • Per la visualizzazione:puoi tracciare i centroidi direttamente utilizzando strumenti come BigQuery GeoViz oppure utilizzare librerie di geometria per calcolare il poligono S2 dal token esadecimale.
  • Per i join spaziali:se hai bisogno di operazioni di confine precise (ad esempio, ST_CONTAINS), ti consigliamo di unire questo set di dati con set di dati di confine pubblici (disponibili in BigQuery Public Data).