Informazioni sui dati degli approfondimenti sulle dinamiche della popolazione

Informazioni sui dati

Sebbene gli embedding siano disponibili per più paesi, lo schema rimane coerente in tutti i set di dati. Gli embedding sono organizzati in schede di BigQuery separate per ogni paese.

Anatomia del vettore di embedding

La colonna features è un vettore a 330 dimensioni (memorizzato come array REPEATED FLOAT in BigQuery). Ogni sezione dell'array corrisponde a un segnale di dati specifico estratto dal modello di dinamiche della popolazione.

La comprensione di questa struttura consente l'ablazione delle funzionalità (ad esempio, la determinazione della misura in cui il comportamento di ricerca prevede le vendite rispetto al meteo).

Indici dei vettori Origine dati Descrizione
0 – 127 Tendenze di ricerca aggregate Acquisisce interessi e preoccupazioni regionali (ad esempio, ricerche di "palestra", "sintomi influenzali", "beni di lusso").
128 – 255 Maps e affollamento Acquisisce l'ambiente costruito (PDI come ospedali, parchi, scuole) e la densità dell'attività umana.
256 – 329 Meteo e qualità dell'aria Acquisisce il contesto ambientale (temperatura, precipitazioni, indice di qualità dell'aria, vento).

Colonne e metadati chiave

La tabella degli embedding contiene metadati spaziali che consentono l'analisi geospaziale, il filtraggio e l'interoperabilità con altri servizi di Google Maps Platform.

  • geo_id: l'identificatore principale della regione. Per i set di dati delle celle S2 , questo è il token della cella S2 rappresentato come stringa esadecimale (ad esempio, '80ead45'). Utilizzalo come chiave di join principale.
  • geo_name: il nome leggibile della regione. Nota: per i set di dati della griglia S2, le celle matematiche non hanno nomi standard, quindi questa colonna conterrà lo stesso token di geo_id. Questa è una scelta progettuale per mantenere una struttura di colonne coerente in tutte le offerte di dinamiche della popolazione.
  • administrative_area_level_1_id: l'ID luogo di Google Maps univoco per il confine amministrativo di primo livello (ad esempio, stato o provincia).
  • administrative_area_level_1_name: il nome leggibile del confine di primo livello (ad esempio, 'California').
  • administrative_area_level_2_id: l'ID luogo di Google Maps univoco per il confine amministrativo secondario (ad esempio, contea o distretto).
  • administrative_area_level_2_name: il nome leggibile del confine secondario (ad esempio, 'Tulare County').
  • features: il vettore di embedding principale a 330 dimensioni, memorizzato in modo nativo come ARRAY<FLOAT64>. Il caricamento nella libreria Python Pandas richiede l'appiattimento o la conversione in una matrice NumPy.

Domande frequenti

Posso accedere ai dati di input non elaborati (ad esempio, query di ricerca specifiche o tracce di mobilità)?

No. Gli embedding di informazioni sulle dinamiche della popolazione vengono generati da segnali aggregati che tutelano la privacy. Per garantire la privacy degli utenti, non forniamo tracce utente specifiche, cronologie delle ricerche individuali o modelli di movimento non elaborati. Gli embedding forniscono una rappresentazione latente di questi comportamenti, ottimizzata per la modellazione e la previsione, anziché per l'analisi non elaborata.

Le dimensioni dei vettori sono interpretabili (ad esempio, la dimensione 5 è "Caffè")?

I vettori sono rappresentazioni latenti, il che significa che acquisiscono pattern astratti anziché etichette specifiche e leggibili. Sebbene sappiamo che gli indici 0-127 derivano dalle tendenze di ricerca, un indice specifico (come l'indice 5) non esegue il mapping uno a uno a una singola parola chiave come "Caffè". Rappresenta invece una funzionalità complessa del comportamento di ricerca appresa dal modello.

Il set di dati include i confini dei poligoni (file di forma)?

Il set di dati fornisce gli ID cella S2 (geo_id) e gli ID luogo per gli identificatori geografici (ad esempio, regioni amministrative di livello 1 e 2), ma non include la geometria dei poligoni non elaborati (WKT/file di forma) per le regioni.

  • Per la visualizzazione: puoi tracciare i centroidi direttamente utilizzando strumenti come BigQuery GeoViz oppure utilizzare le librerie di geometria per calcolare il poligono S2 dal token esadecimale.
  • Per i join spaziali: se hai bisogno di operazioni di confine precise (ad esempio, ST_CONTAINS), ti consigliamo di unire questo set di dati con i set di dati dei confini pubblici (disponibili in BigQuery Public Data).