Cómo interpretar los datos
Si bien los embeddings están disponibles para varios países, el esquema sigue siendo coherente en todos los conjuntos de datos. Los embeddings se organizan en fichas separadas de BigQuery para cada país.
Anatomía del vector de embedding
La columna features es un vector de 330 dimensiones (almacenado como un array REPEATED FLOAT en BigQuery). Cada sección del array corresponde a un indicador de datos específico que extrae el modelo de dinámica poblacional.
Comprender esta estructura permite realizar la ablación de atributos (por ejemplo, determinar en qué medida el comportamiento de búsqueda predice las ventas en comparación con el clima).
| Índices vectoriales | Fuente de datos | Descripción |
|---|---|---|
| 0 a 127 | Tendencias de búsqueda agregadas | Capta los intereses y las preocupaciones regionales (por ejemplo, las búsquedas de "gimnasio", "síntomas de gripe" y "artículos de lujo"). |
| 128 a 255 | Mapas y nivel de actividad | Capta el entorno construido (lugares de interés como hospitales, parques y escuelas) y la densidad de la actividad humana. |
| 256 a 329 | Clima y calidad del aire | Captura el contexto ambiental (temperatura, precipitación, AQI y viento). |
Columnas y metadatos clave
La tabla de incorporaciones contiene metadatos espaciales que permiten el análisis geoespacial, el filtrado y la interoperabilidad con otros servicios de Google Maps Platform.
geo_id: Es el identificador principal de la región. En el caso de los conjuntos de datos de celdas S2, este es el token de celda S2 representado como una cadena hexadecimal (por ejemplo,'80ead45'). Usa esto como tu clave de unión principal.geo_name: Es el nombre de la región en lenguaje natural. Nota: En el caso de los conjuntos de datos de la cuadrícula S2, las celdas matemáticas no tienen nombres estándar, por lo que esta columna contendrá el mismo token quegeo_id. Esto se diseñó de esta manera para mantener una estructura de columnas coherente en todas las ofertas de Population Dynamics.administrative_area_level_1_id: Es el ID de lugar único de Google Maps para el límite administrativo de nivel superior (por ejemplo, estado o provincia).administrative_area_level_1_name: Es el nombre legible por humanos del límite de nivel superior (por ejemplo,'California').administrative_area_level_2_id: Es el ID de lugar único de Google Maps para el límite administrativo secundario (por ejemplo, condado o distrito).administrative_area_level_2_name: Es el nombre legible de la frontera secundaria (por ejemplo,'Tulare County').features: Es el vector de incorporación principal de 330 dimensiones, almacenado de forma nativa como unARRAY<FLOAT64>. Para cargar esto en la biblioteca de Pandas de Python, se requiere aplanar o convertir a una matriz de NumPy.
Preguntas frecuentes
¿Puedo acceder a los datos de entrada sin procesar (por ejemplo, búsquedas específicas o registros de movilidad)?
No. Los embeddings de las Estadísticas de dinámica de población se generan a partir de indicadores agregados que preservan la privacidad. Para garantizar la privacidad del usuario, no proporcionamos registros específicos del usuario, historiales de búsqueda individuales ni patrones de movimiento sin procesar. Las incorporaciones proporcionan una representación latente de estos comportamientos, optimizada para el modelado y la predicción, en lugar de las estadísticas sin procesar.
¿Las dimensiones del vector son interpretables? (por ejemplo, ¿la dimensión 5 es "Café"?).
Los vectores son representaciones latentes, lo que significa que capturan patrones abstractos en lugar de etiquetas específicas y legibles por humanos. Si bien sabemos que los índices del 0 al 127 se derivan de las tendencias de la Búsqueda, un índice específico (como el índice 5) no se asigna de forma directa a una sola palabra clave, como "Café". En cambio, representa una característica compleja del comportamiento de búsqueda que aprendió el modelo.
¿El conjunto de datos incluye límites de polígonos (Shapefiles)?
El conjunto de datos proporciona IDs de celdas de S2 (geo_id) y Place IDs para identificadores geográficos (como las regiones administrativas 1 y 2), pero no incluye la geometría de polígonos sin procesar (WKT/Shapefiles) para las regiones.
- Para la visualización: Puedes trazar los centroides directamente con herramientas como BigQuery GeoViz o usar bibliotecas de geometría para calcular el polígono S2 a partir del token hexadecimal.
- Para las uniones espaciales: Si necesitas operaciones de límites precisas (por ejemplo,
ST_CONTAINS), te recomendamos que unas este conjunto de datos con conjuntos de datos de límites públicos (disponibles en los datos públicos de BigQuery).