Sobre os dados de insights sobre dinâmica da população

Entender os dados

Embora os embeddings estejam disponíveis para vários países, o esquema permanece consistente em todos os conjuntos de dados. Os embeddings são organizados em listagens separadas do BigQuery para cada país.

Anatomia do vetor de embedding

A coluna features é um vetor de 330 dimensões (armazenado como uma matriz REPEATED FLOAT no BigQuery). Cada seção da matriz corresponde a um indicador de dados específico extraído pelo modelo de dinâmica populacional.

Entender essa estrutura permite a remoção de atributos (por exemplo, determinar o quanto o comportamento de pesquisa prevê vendas em comparação com o clima).

Índices vetoriais Fonte de dados Descrição
0 a 127 Tendências de pesquisa agregadas Captura interesses e preocupações regionais (por exemplo, pesquisas por "academia", "sintomas de gripe", "bens de luxo").
128 a 255 Mapas e movimentação Captura o ambiente construído (PDIs como hospitais, parques, escolas) e a densidade da atividade humana.
256 a 329 Clima e qualidade do ar Captura o contexto ambiental (temperatura, precipitação, IQA, vento).

Principais colunas e metadados

A tabela de incorporações contém metadados espaciais que permitem análise geoespacial, filtragem e interoperabilidade com outros serviços da Plataforma Google Maps.

  • geo_id: o identificador principal da região. Para conjuntos de dados de célula S2, esse é o token da célula S2 representado como uma string hexadecimal (por exemplo, '80ead45'). Use isso como sua chave de junção principal.
  • geo_name: o nome legível da região. Observação: para conjuntos de dados de grade S2, as células matemáticas não têm nomes padrão. Portanto, essa coluna vai conter o mesmo token que geo_id. Isso é proposital para manter uma estrutura de coluna consistente em todas as ofertas de dinâmica populacional.
  • administrative_area_level_1_id: o ID de lugar exclusivo do Google Maps para o limite administrativo de nível superior (por exemplo, estado ou província).
  • administrative_area_level_1_name: o nome legível para humanos do limite de nível superior (por exemplo, 'California').
  • administrative_area_level_2_id: o ID de lugar exclusivo do Google Maps para o limite administrativo secundário (por exemplo, condado ou distrito).
  • administrative_area_level_2_name: o nome legível por humanos para o limite secundário (por exemplo, 'Tulare County').
  • features: o vetor de embedding principal de 330 dimensões, armazenado nativamente como um ARRAY<FLOAT64>. Para carregar isso na biblioteca Python Pandas, é necessário achatar ou converter em uma matriz NumPy.

Perguntas frequentes

Posso acessar os dados de entrada brutos (por exemplo, consultas de pesquisa específicas ou rastros de mobilidade)?

Não. Os encodings dos insights sobre dinâmica da população são gerados com base em sinais agregados que preservam a privacidade. Para garantir a privacidade do usuário, não fornecemos rastreamentos específicos, históricos de pesquisa individuais ou padrões de movimento brutos. Os embeddings fornecem uma representação latente desses comportamentos, otimizada para modelagem e previsão, em vez de análises brutas.

As dimensões do vetor são interpretáveis? Por exemplo, a dimensão 5 é "Café"?

Os vetores são representações latentes, ou seja, capturam padrões abstratos em vez de rótulos específicos e legíveis. Embora saibamos que os índices de 0 a 127 derivam do Google Trends, um índice específico (como o 5) não corresponde a uma única palavra-chave, como "Café". Em vez disso, ele representa um recurso complexo do comportamento de pesquisa aprendido pelo modelo.

O conjunto de dados inclui limites de polígonos (Shapefiles)?

O conjunto de dados fornece IDs de célula S2 (geo_id) e IDs de lugar para identificadores geográficos (como regiões administrativas 1 e 2), mas não inclui a geometria bruta de polígonos (WKT/Shapefiles) das regiões.

  • Para visualização:é possível representar os centroides diretamente usando ferramentas como o BigQuery GeoViz ou usar bibliotecas de geometria para calcular o polígono S2 do token hexadecimal.
  • Para junções espaciais:se você precisar de operações de limite precisas (por exemplo, ST_CONTAINS), recomendamos unir esse conjunto de dados com conjuntos de dados de limite públicos (disponíveis em Dados públicos do BigQuery).