인구 동태 인사이트 데이터 정보

데이터 이해하기

삽입은 여러 국가에서 사용할 수 있지만 스키마는 모든 데이터 세트에서 일관되게 유지됩니다. 임베딩은 국가별로 별도의 BigQuery 등록정보로 구성됩니다.

임베딩 벡터의 구조

features 열은 330차원 벡터입니다 (BigQuery에 REPEATED FLOAT 배열로 저장됨). 배열의 각 섹션은 인구 역학 모델에서 추출한 특정 데이터 신호에 해당합니다.

이 구조를 이해하면 기능 제거 (예: 날씨와 비교하여 검색 행동이 판매를 얼마나 예측하는지 결정)가 가능합니다.

벡터 색인 데이터 소스 설명
0~127 집계된 검색어 트렌드 지역별 관심분야와 우려사항을 포착합니다 (예: '헬스장', '독감 증상', '명품' 검색).
128~255 지도 및 혼잡도 건축 환경 (병원, 공원, 학교와 같은 관심 장소)과 인구 밀도를 포착합니다.
256~329 날씨 및 공기질 환경 컨텍스트 (온도, 강수량, AQI, 바람)를 캡처합니다.

주요 열 및 메타데이터

삽입 테이블에는 지리 공간 분석, 필터링, 다른 Google Maps Platform 서비스와의 상호 운용성을 지원하는 공간 메타데이터가 포함되어 있습니다.

  • geo_id: 리전의 기본 식별자입니다. S2 셀 데이터 세트의 경우 16진수 문자열 (예: '80ead45')로 표시된 S2 셀 토큰입니다. 이를 기본 조인 키로 사용하세요.
  • geo_name: 사람이 읽을 수 있는 리전 이름입니다. 참고: S2 그리드 데이터 세트의 경우 수학 셀에 표준 이름이 없으므로 이 열에는 geo_id과 정확히 동일한 토큰이 포함됩니다. 이는 모든 인구 통계 제품에서 일관된 열 구조를 유지하기 위한 설계입니다.
  • administrative_area_level_1_id: 최상위 행정 경계 (예: 주 또는 도)의 고유한 Google 지도 장소 ID입니다.
  • administrative_area_level_1_name: 최상위 경계의 사람이 읽을 수 있는 이름입니다 (예: 'California').
  • administrative_area_level_2_id: 보조 행정 경계 (예: 카운티 또는 지구)의 고유한 Google 지도 장소 ID입니다.
  • administrative_area_level_2_name: 보조 경계의 사람이 읽을 수 있는 이름입니다 (예: 'Tulare County').
  • features: 핵심 330차원 임베딩 벡터로, ARRAY<FLOAT64>로 기본적으로 저장됩니다. 이 데이터를 Pandas Python 라이브러리에 로드하려면 평면화하거나 NumPy 행렬로 변환해야 합니다.

자주 묻는 질문(FAQ)

원시 입력 데이터 (예: 특정 검색어 또는 이동성 추적)에 액세스할 수 있나요?

아니요. 인구 동태 인사이트 삽입은 집계된 개인 정보 보호 신호에서 생성됩니다. 사용자 개인 정보를 보호하기 위해 Google은 구체적인 사용자 추적, 개별 검색 기록 또는 원시 이동 패턴을 제공하지 않습니다. 삽입은 원시 분석이 아닌 모델링 및 예측에 최적화된 이러한 동작의 잠재적 표현을 제공합니다.

벡터 측정기준을 해석할 수 있나요 (예: 측정기준 5가 '커피'인가요)?

벡터는 잠재적 표현으로, 사람이 읽을 수 있는 구체적인 라벨이 아닌 추상적인 패턴을 포착합니다. 인덱스 0~127은 검색 트렌드에서 파생되지만 특정 인덱스 (예: 인덱스 5)는 '커피'와 같은 단일 키워드에 일대일로 매핑되지 않습니다. 대신 모델이 학습한 검색 행동의 복잡한 기능을 나타냅니다.

데이터 세트에 다각형 경계 (Shapefile)가 포함되어 있나요?

데이터 세트는 지리적 식별자 (예: admin 1 및 admin 2 리전)의 S2 셀 ID (geo_id)와 장소 ID를 제공하지만 리전의 원시 다각형 도형 (WKT/셰이프파일)은 포함하지 않습니다.

  • 시각화: BigQuery GeoViz와 같은 도구를 사용하여 중심점을 직접 플롯하거나, 기하학 라이브러리를 사용하여 16진수 토큰에서 S2 다각형을 계산할 수 있습니다.
  • 공간 조인: 정확한 경계 작업 (예: ST_CONTAINS)이 필요한 경우 이 데이터 세트를 공개 경계 데이터 세트 (BigQuery 공개 데이터에서 사용 가능)와 조인하는 것이 좋습니다.