인구 동태 인사이트 데이터 정보

데이터 이해하기

임베딩은 여러 국가에서 사용할 수 있지만 스키마는 모든 데이터 세트에서 일관되게 유지됩니다. 임베딩은 국가별로 별도의 BigQuery 목록으로 구성됩니다.

임베딩 벡터의 구조

features 열은 330차원 벡터이며 BigQuery에 REPEATED FLOAT 배열로 저장됩니다. 배열의 각 섹션은 인구 역학 모델에서 추출한 특정 데이터 신호에 해당합니다.

이 구조를 이해하면 특성 제거 (예: 날씨와 비교하여 검색 행동이 판매를 얼마나 예측하는지 결정)가 가능합니다.

벡터 색인 데이터 소스 설명
0~127 집계된 검색 트렌드 지역 관심분야 및 우려사항 (예: '헬스장', '독감 증상', '명품' 검색)을 캡처합니다.
128~255 지도 및 혼잡도 건축 환경 (병원, 공원, 학교와 같은 관심 장소)과 인구 밀도를 캡처합니다.
256~329 날씨 및 공기질 환경 컨텍스트 (온도, 강수량, AQI, 바람)를 캡처합니다.

주요 열 및 메타데이터

임베딩 테이블에는 지리공간 분석, 필터링, 다른 Google Maps Platform 서비스와의 상호 운용성을 지원하는 공간 메타데이터가 포함되어 있습니다.

  • geo_id: 리전의 기본 식별자입니다. S2 셀 데이터 세트의 경우 16진수 문자열 (예: '80ead45')로 표시되는 S2 셀 토큰입니다. 이를 기본 조인 키로 사용합니다.
  • geo_name: 사람이 읽을 수 있는 리전 이름입니다. 참고: S2 그리드 데이터 세트의 경우 수학적 셀에는 표준 이름이 없으므로 이 열에는 geo_id와 동일한 토큰이 포함됩니다. 이는 모든 인구 역학 제품에서 일관된 열 구조를 유지하기 위한 설계입니다.
  • administrative_area_level_1_id: 최상위 관리 경계 (예: 주 또는 도)의 고유한 Google 지도 장소 ID입니다.
  • administrative_area_level_1_name: 사람이 읽을 수 있는 최상위 경계 이름입니다 (예: 'California').
  • administrative_area_level_2_id: 보조 관리 경계 (예: 카운티 또는 구)의 고유한 Google 지도 장소 ID입니다.
  • administrative_area_level_2_name: 사람이 읽을 수 있는 보조 경계 이름입니다 (예: 'Tulare County').
  • features: 기본적으로 ARRAY<FLOAT64> 저장되는 핵심 330차원 임베딩 벡터입니다. 이를 Pandas Python 라이브러리에 로드하려면 평면화하거나 NumPy 행렬로 변환해야 합니다.

자주 묻는 질문 (FAQ)

원시 입력 데이터 (예: 특정 검색어 또는 이동성 추적)에 액세스할 수 있나요?

아니요. 인구 역학 통계 임베딩은 집계된 개인 정보 보호 신호에서 생성됩니다. 사용자 개인 정보 보호를 위해 특정 사용자 추적, 개별 검색 기록 또는 원시 이동 패턴은 제공하지 않습니다. 임베딩은 원시 분석이 아닌 모델링 및 예측에 최적화된 이러한 행동의 잠재적 표현을 제공합니다.

벡터 차원을 해석할 수 있나요 (예: 차원 5가 '커피'인가요)?

벡터는 잠재적 표현으로, 사람이 읽을 수 있는 특정 라벨이 아닌 추상적 패턴을 캡처합니다. 색인 0~127이 검색 트렌드에서 파생된다는 것은 알지만 특정 색인 (예: 색인 5)은 '커피'와 같은 단일 키워드에 일대일로 매핑되지 않습니다. 대신 모델에서 학습한 검색 행동의 복잡한 특성을 나타냅니다.

데이터 세트에 다각형 경계 (Shapefile)가 포함되어 있나요?

데이터 세트는 S2 셀 ID (geo_id)와 지리적 식별자 (예: 관리 1 및 관리 2 리전)의 장소 ID를 제공하지만 리전의 원시 다각형 도형 (WKT/Shapefile)은 포함하지 않습니다.

  • 시각화: BigQuery GeoViz와 같은 도구를 사용하여 중심점을 직접 표시하거나 도형 라이브러리를 사용하여 16진수 토큰에서 S2 다각형을 계산할 수 있습니다.
  • 공간 조인: 정확한 경계 작업(예: ST_CONTAINS)이 필요한 경우 이 데이터 세트를 BigQuery 공개 데이터에서 사용할 수 있는 공개 경계 데이터 세트와 조인하는 것이 좋습니다.