Informacje o danych
Wektory dystrybucyjne są dostępne w przypadku wielu krajów, ale schemat pozostaje spójny we wszystkich zbiorach danych. Wektory dystrybucyjne są uporządkowane w osobnych listach BigQuery dla każdego kraju.
Składnia wektora dystrybucyjnego
Kolumna features to wektor 330-wymiarowy (przechowywany w BigQuery jako tablica REPEATED FLOAT). Każda sekcja tablicy odpowiada konkretnemu sygnałowi danych wyodrębnionemu przez model dynamiki populacji.
Zrozumienie tej struktury umożliwia eliminację cech (np. określenie, w jakim stopniu zachowania związane z wyszukiwaniem przewidują sprzedaż w porównaniu z pogodą).
| Indeksy wektorów | Źródło danych | Opis |
|---|---|---|
| 0 – 127 | Zagregowane trendy wyszukiwania | Rejestruje zainteresowania i obawy regionalne (np. wyszukiwania fraz „siłownia”, „objawy grypy”, „towary luksusowe”). |
| 128 – 255 | Mapy i ruch | Rejestruje środowisko zabudowane (miejsca takie jak szpitale, parki, szkoły) i gęstość aktywności ludzi. |
| 256 – 329 | Pogoda i jakość powietrza | Rejestruje kontekst środowiskowy (temperatura, opady, wskaźnik jakości powietrza, wiatr). |
Kluczowe kolumny i metadane
Tabela wektorów dystrybucyjnych zawiera metadane przestrzenne umożliwiające analizę geoprzestrzenną, filtrowanie i współdziałanie z innymi usługami Google Maps Platform.
geo_id: główny identyfikator regionu. W przypadku zbiorów danych komórek S2 S2 jest to token komórki S2 reprezentowany jako ciąg szesnastkowy (np.'80ead45'). Użyj go jako głównego klucza łączenia.geo_name: czytelna dla człowieka nazwa regionu. Uwaga: w przypadku zbiorów danych siatki S2 komórki matematyczne nie mają standardowych nazw, więc ta kolumna będzie zawierać dokładnie ten sam token cogeo_id. Jest to celowe, aby zachować spójną strukturę kolumn we wszystkich ofertach dynamiki populacji.administrative_area_level_1_id: unikalny identyfikator miejsca w Mapach Google dla granicy administracyjnej najwyższego poziomu (np. województwa lub prowincji).administrative_area_level_1_name: czytelna dla człowieka nazwa granicy najwyższego poziomu (np.'California').administrative_area_level_2_id: unikalny identyfikator miejsca w Mapach Google dla granicy administracyjnej drugiego poziomu (np. powiatu lub okręgu).administrative_area_level_2_name: czytelna dla człowieka nazwa granicy drugiego poziomu (np.'Tulare County').features: podstawowy wektor dystrybucyjny 330-wymiarowy, przechowywany natywnie jakoARRAY<FLOAT64>. Wczytanie go do biblioteki Python Pandas wymaga spłaszczenia lub przekonwertowania na macierz NumPy.
Najczęstsze pytania
Czy mogę uzyskać dostęp do nieprzetworzonych danych wejściowych (np. konkretnych zapytań lub śladów mobilności)?
Nie. Wektory dystrybucyjne statystyk dynamiki populacji są generowane na podstawie zagregowanych sygnałów chroniących prywatność. Aby zapewnić prywatność użytkowników, nie udostępniamy konkretnych śladów użytkowników, indywidualnych historii wyszukiwania ani nieprzetworzonych wzorców ruchu. Wektory dystrybucyjne zapewniają utajoną reprezentację tych zachowań, zoptymalizowaną pod kątem modelowania i przewidywania, a nie nieprzetworzonych analiz.
Czy wymiary wektorów są interpretowalne (np. czy wymiar 5 to „Kawa”)?
Wektory są reprezentacjami utajonymi, co oznacza, że rejestrują abstrakcyjne wzorce, a nie konkretne, czytelne dla człowieka etykiety. Wiemy, że indeksy 0–127 pochodzą z Trendów wyszukiwania, ale konkretny indeks (np. indeks 5) nie jest powiązany z pojedynczym słowem kluczowym, takim jak „Kawa”. Reprezentuje on złożoną cechę zachowania związanego z wyszukiwaniem, której model się nauczył.
Czy zbiór danych zawiera granice wielokątów (pliki Shapefile)?
Zbiór danych zawiera identyfikatory komórek S2 (geo_id) i identyfikatory miejsc dla identyfikatorów geograficznych (takich jak regiony administracyjne 1 i 2), ale nie zawiera nieprzetworzonej geometrii wielokątów (WKT/Shapefile) dla tych regionów.
- Wizualizacja: możesz bezpośrednio wykreślić centroidy za pomocą narzędzi takich jak BigQuery GeoViz lub użyć bibliotek geometrii, aby obliczyć wielokąt S2 na podstawie tokena szesnastkowego.
- Łączenie przestrzenne: jeśli potrzebujesz precyzyjnych operacji na granicach (np.
ST_CONTAINS), zalecamy połączenie tego zbioru danych z publicznymi zbiorami danych granic (dostępnymi w publicznych danych BigQuery).