Tìm hiểu dữ liệu
Mặc dù các mục nhúng có ở nhiều quốc gia, nhưng giản đồ vẫn nhất quán trên tất cả các tập dữ liệu. Các vectơ nhúng được sắp xếp thành các trang thông tin riêng biệt trên BigQuery cho từng quốc gia.
Phân tích thành phần của vectơ nhúng
Cột features là một vectơ 330 chiều (được lưu trữ dưới dạng một mảng REPEATED FLOAT trong BigQuery). Mỗi phần của mảng tương ứng với một tín hiệu dữ liệu cụ thể do mô hình Động lực học dân số trích xuất.
Việc hiểu rõ cấu trúc này cho phép loại bỏ tính năng (ví dụ: xác định mức độ dự đoán doanh số bán hàng của hành vi tìm kiếm so với thời tiết).
| Chỉ mục vectơ | Nguồn dữ liệu | Mô tả |
|---|---|---|
| 0 – 127 | Xu hướng tìm kiếm tổng hợp | Ghi nhận mối quan tâm và lo ngại theo khu vực (ví dụ: lượt tìm kiếm về "phòng tập thể dục", "triệu chứng cúm", "hàng hoá xa xỉ"). |
| 128 – 255 | Bản đồ và mức độ đông đúc | Ghi lại môi trường xây dựng (các địa điểm yêu thích như bệnh viện, công viên, trường học) và mật độ hoạt động của con người. |
| 256 – 329 | Thời tiết và chất lượng không khí | Ghi lại bối cảnh môi trường (Nhiệt độ, Lượng mưa, AQI, Gió). |
Các cột chính và siêu dữ liệu
Bảng nhúng chứa siêu dữ liệu không gian, cho phép phân tích không gian địa lý, lọc và khả năng tương tác với các dịch vụ khác của Google Maps Platform.
geo_id: Giá trị nhận dạng chính cho khu vực. Đối với tập dữ liệu ô S2, đây là mã thông báo ô S2 được biểu thị dưới dạng một chuỗi thập lục phân (ví dụ:'80ead45'). Hãy dùng mã này làm khoá kết hợp chính.geo_name: Tên mà con người có thể đọc được của khu vực. Lưu ý: Đối với các tập dữ liệu lưới S2, các ô toán học không có tên chuẩn, vì vậy, cột này sẽ chứa mã thông báo giống hệt nhưgeo_id. Đây là thiết kế nhằm duy trì cấu trúc cột nhất quán trên tất cả các sản phẩm Population Dynamics.administrative_area_level_1_id: Mã địa điểm duy nhất của Google Maps cho ranh giới hành chính cấp cao nhất (ví dụ: Tiểu bang hoặc Tỉnh).administrative_area_level_1_name: Tên mà con người có thể đọc được cho ranh giới cấp cao nhất (ví dụ:'California').administrative_area_level_2_id: Mã địa điểm duy nhất của Google Maps cho ranh giới hành chính phụ (ví dụ: Quận hoặc Huyện).administrative_area_level_2_name: Tên mà con người có thể đọc được cho ranh giới phụ (ví dụ:'Tulare County').features: Vectơ nhúng cốt lõi 330 chiều, được lưu trữ nguyên bản dưới dạngARRAY<FLOAT64>. Để tải dữ liệu này vào thư viện Pandas Python, bạn cần làm phẳng hoặc chuyển đổi thành ma trận NumPy.
Câu hỏi thường gặp
Tôi có thể truy cập vào dữ liệu đầu vào thô (ví dụ: cụm từ tìm kiếm cụ thể hoặc dấu vết di động) không?
Không. Các thành phần nhúng Thông tin chi tiết về biến động dân số được tạo từ các tín hiệu tổng hợp, bảo vệ quyền riêng tư. Để đảm bảo quyền riêng tư của người dùng, chúng tôi không cung cấp dấu vết cụ thể của người dùng, nhật ký tìm kiếm riêng lẻ hoặc các mẫu chuyển động thô. Các vectơ nhúng cung cấp thông tin biểu thị tiềm ẩn về những hành vi này, được tối ưu hoá cho việc mô hình hoá và dự đoán, thay vì phân tích thô.
Các phương diện vectơ có thể diễn giải được không (ví dụ: Phương diện 5 là "Cà phê")?
Các vectơ là biểu thị tiềm ẩn, nghĩa là chúng nắm bắt các mẫu trừu tượng thay vì các nhãn cụ thể mà con người có thể đọc được. Mặc dù chúng tôi biết rằng các chỉ mục từ 0 đến 127 bắt nguồn từ Xu hướng tìm kiếm, nhưng một chỉ mục cụ thể (chẳng hạn như chỉ mục 5) không tương ứng trực tiếp với một từ khoá duy nhất như "Cà phê". Thay vào đó, chỉ số này thể hiện một tính năng phức tạp của hành vi tìm kiếm mà mô hình đã học được.
Tập dữ liệu có bao gồm ranh giới đa giác (Shapefile) không?
Tập dữ liệu này cung cấp mã nhận dạng ô S2 (geo_id) và mã địa điểm cho các giá trị nhận dạng địa lý (chẳng hạn như khu vực hành chính cấp 1 và cấp 2), nhưng không bao gồm hình học đa giác thô (WKT/Tệp hình dạng) cho các khu vực.
- Để trực quan hoá: Bạn có thể vẽ các tâm điểm trực tiếp bằng các công cụ như BigQuery GeoViz hoặc sử dụng các thư viện hình học để tính toán đa giác S2 từ mã thông báo hex.
- Đối với thao tác Kết hợp không gian: Nếu cần thực hiện các thao tác chính xác về ranh giới (ví dụ:
ST_CONTAINS), bạn nên kết hợp tập dữ liệu này với các tập dữ liệu công khai về ranh giới (có trong Dữ liệu công khai của BigQuery).