Разберитесь в данных.
Хотя векторные представления доступны для нескольких стран, схема остается неизменной во всех наборах данных. Векторные представления организованы в отдельные списки BigQuery для каждой страны.
Анатомия вектора встраивания
The features column is a 330-dimensional vector (stored as a REPEATED FLOAT array in BigQuery). Each section of the array corresponds to a specific data signal extracted by the Population Dynamics model.
Понимание этой структуры позволяет исключить влияние отдельных факторов (например, определить, насколько поведение при поиске влияет на продажи по сравнению с погодой).
| Векторные индексы | Источник данных | Описание |
|---|---|---|
| 0 – 127 | Сводные поисковые тренды | Отражает региональные интересы и проблемы (например, поисковые запросы типа «спортзал», «симптомы гриппа», «предметы роскоши»). |
| 128 – 255 | Карты и загруженность | Отражает состояние застроенной среды (объекты интереса, такие как больницы, парки, школы) и плотность человеческой активности. |
| 256 – 329 | Погода и качество воздуха | Учитывает экологический контекст (температура, осадки, индекс качества воздуха, ветер). |
Ключевые столбцы и метаданные
Таблица встраивания содержит пространственные метаданные, позволяющие проводить геопространственный анализ, фильтрацию и обеспечивать взаимодействие с другими сервисами платформы Google Maps.
-
geo_id: Основной идентификатор региона. Для наборов данных ячеек S2 это токен ячейки S2, представленный в виде шестнадцатеричной строки (например,'80ead45'). Используйте его в качестве основного ключа объединения. -
geo_name: Удобочитаемое название региона. Примечание: В наборах данных S2 ячейки математических моделей не имеют стандартных названий, поэтому этот столбец будет содержать тот же токен, что иgeo_id. Это сделано намеренно для поддержания единообразной структуры столбцов во всех предложениях Population Dynamics. -
administrative_area_level_1_id: Уникальный идентификатор места в Google Maps для административной границы верхнего уровня (например, штата или провинции). -
administrative_area_level_1_name: удобочитаемое название границы верхнего уровня (например,'California'). -
administrative_area_level_2_id: Уникальный идентификатор места в Google Maps для вторичной административной границы (например, округа или района). -
administrative_area_level_2_name: удобочитаемое название вторичной границы (например,'Tulare County'). -
features: Основной 330-мерный вектор встраивания, хранящийся в исходном виде какARRAY<FLOAT64>. Для загрузки его в библиотеку Pandas Python требуется преобразование в матрицу NumPy.
Часто задаваемые вопросы (FAQ)
Могу ли я получить доступ к исходным данным (например, к конкретным поисковым запросам или трассировкам перемещений)?
Нет. Встраивания данных в Population Dynamics Insights генерируются на основе агрегированных сигналов, обеспечивающих конфиденциальность. Для обеспечения конфиденциальности пользователей мы не предоставляем конкретные данные о перемещениях пользователей, истории поиска отдельных пользователей или необработанные модели перемещений. Встраивания предоставляют скрытое представление этих моделей поведения, оптимизированное для моделирования и прогнозирования, а не для анализа исходных данных.
Можно ли интерпретировать векторные измерения (например, является ли измерение 5 «Кофе»)?
Векторы представляют собой скрытые представления, то есть они отражают абстрактные закономерности, а не конкретные, удобочитаемые метки. Хотя мы знаем, что индексы 0–127 получены из поисковых трендов, конкретный индекс (например, индекс 5) не соответствует напрямую одному ключевому слову, такому как «Кофе». Вместо этого он представляет собой сложную характеристику поискового поведения, изученную моделью.
Содержит ли набор данных границы полигонов (шейп-файлы)?
Набор данных содержит идентификаторы ячеек S2 ( geo_id ) и идентификаторы мест для географических идентификаторов (таких как регионы администратора 1 и администратора 2), но не включает исходную полигональную геометрию (WKT/Shapefiles) для регионов.
- Для визуализации: вы можете построить график центроидов напрямую, используя такие инструменты, как BigQuery GeoViz, или использовать геометрические библиотеки для вычисления полигона S2 из шестнадцатеричного токена.
- Для пространственных объединений: если вам необходимы точные операции с границами (например,
ST_CONTAINS), мы рекомендуем объединить этот набор данных с общедоступными наборами данных с границами (доступными в BigQuery Public Data).