Informacje o danych Statystyk dotyczących dynamiki populacji

Interpretowanie danych

Osadzenia są dostępne w przypadku wielu krajów, ale schemat pozostaje spójny we wszystkich zbiorach danych. Osadzenia są uporządkowane w osobnych listach BigQuery dla każdego kraju.

Anatomia wektora dystrybucyjnego

Kolumna features to 330-wymiarowy wektor (przechowywany jako tablica REPEATED FLOAT w BigQuery). Każda sekcja tablicy odpowiada konkretnemu sygnałowi danych wyodrębnionemu przez model dynamiki populacji.

Zrozumienie tej struktury umożliwia usuwanie funkcji (np. określanie, w jakim stopniu zachowania związane z wyszukiwaniem przewidują sprzedaż w porównaniu z pogodą).

Indeksy wektorowe Źródło danych Opis
0 – 127 Zbiorcze trendy wyszukiwania Rejestruje regionalne zainteresowania i obawy (np. wyszukiwania haseł „siłownia”, „objawy grypy”, „towary luksusowe”).
128 – 255 Mapy i natężenie ruchu Zawiera informacje o środowisku zabudowanym (interesujące miejsca, takie jak szpitale, parki, szkoły) i gęstości aktywności ludzi.
256 – 329 Pogoda i jakość powietrza Rejestruje kontekst środowiskowy (temperaturę, opady, AQI, wiatr).

Kluczowe kolumny i metadane

Tabela wektorów zawiera metadane przestrzenne umożliwiające analizę geoprzestrzenną, filtrowanie i współdziałanie z innymi usługami Google Maps Platform.

  • geo_id: główny identyfikator regionu. W przypadku zbiorów danych S2 cell jest to token komórki S2 reprezentowany jako ciąg szesnastkowy (np. '80ead45'). Używaj go jako głównego klucza łączenia.
  • geo_name: czytelna dla użytkownika nazwa regionu. Uwaga: w przypadku zbiorów danych siatki S2 komórki matematyczne nie mają standardowych nazw, więc ta kolumna będzie zawierać dokładnie ten sam token co geo_id. Jest to celowe działanie, które ma na celu zachowanie spójnej struktury kolumn we wszystkich ofertach dotyczących dynamiki populacji.
  • administrative_area_level_1_id: unikalny identyfikator miejsca w Mapach Google dla administracyjnej jednostki najwyższego poziomu (np. stanu lub prowincji).
  • administrative_area_level_1_name: czytelna dla człowieka nazwa granicy najwyższego poziomu (np. 'California').
  • administrative_area_level_2_id: unikalny identyfikator miejsca w Mapach Google dla drugorzędnej jednostki administracyjnej (np. powiatu lub okręgu).
  • administrative_area_level_2_name: czytelna dla człowieka nazwa dodatkowej granicy (np. 'Tulare County').
  • features: podstawowy 330-wymiarowy wektor dystrybucyjny, przechowywany natywnie jako ARRAY<FLOAT64>. Załadowanie go do biblioteki Python Pandas wymaga spłaszczenia lub przekształcenia w macierz NumPy.

Najczęstsze pytania

Czy mogę uzyskać dostęp do nieprzetworzonych danych wejściowych (np. konkretnych zapytań lub śladów mobilności)?

Nie. Osadzone statystyki dotyczące dynamiki populacji są generowane na podstawie zagregowanych sygnałów chroniących prywatność. Aby zapewnić prywatność użytkowników, nie udostępniamy konkretnych śladów użytkowników, indywidualnych historii wyszukiwania ani surowych wzorców ruchu. Osadzanie zapewnia ukryte reprezentacje tych zachowań, zoptymalizowane pod kątem modelowania i prognozowania, a nie surowych danych analitycznych.

Czy wymiary wektorowe są interpretowalne (np. czy wymiar 5 to „Kawa”)?

Wektory są reprezentacjami ukrytymi, co oznacza, że wychwytują abstrakcyjne wzorce, a nie konkretne etykiety czytelne dla człowieka. Wiemy, że indeksy 0–127 pochodzą z Trendów Google, ale konkretny indeks (np. 5) nie jest jednoznacznie powiązany z pojedynczym słowem kluczowym, takim jak „kawa”. Zamiast tego reprezentuje złożoną cechę zachowań związanych z wyszukiwaniem, której model się nauczył.

Czy zbiór danych zawiera granice wielokątów (pliki kształtu)?

Zbiór danych zawiera identyfikatory komórek S2 (geo_id) i identyfikatory miejsc dla identyfikatorów geograficznych (takich jak regiony administracyjne 1 i 2), ale nie zawiera surowej geometrii wielokątów (WKT/Shapefiles) dla tych regionów.

  • Wizualizacja: centroidy możesz wykreślić bezpośrednio za pomocą narzędzi takich jak BigQuery GeoViz lub użyć bibliotek geometrii, aby obliczyć wielokąt S2 na podstawie tokena szesnastkowego.
  • W przypadku łączenia przestrzennego: jeśli potrzebujesz precyzyjnych operacji na granicach (np.ST_CONTAINS), zalecamy połączenie tego zbioru danych z publicznymi zbiorami danych o granicach (dostępnymi w publicznych danych BigQuery).