Tentang data Insight Dinamika Populasi

Memahami Data

Meskipun sematan tersedia untuk beberapa negara, skema tetap konsisten di semua set data. Embedding disusun ke dalam listingan BigQuery terpisah untuk setiap negara.

Anatomi Vektor Embedding

Kolom features adalah vektor 330 dimensi (disimpan sebagai array REPEATED FLOAT di BigQuery). Setiap bagian array sesuai dengan sinyal data tertentu yang diekstrak oleh model Dinamika Populasi.

Dengan memahami struktur ini, Anda dapat melakukan penghapusan fitur (misalnya, menentukan seberapa besar perilaku penelusuran memprediksi penjualan dibandingkan dengan cuaca).

Indeks vektor Sumber data Deskripsi
0 – 127 Tren Penelusuran Gabungan Mencatat minat dan masalah regional (misalnya, penelusuran untuk "gym", "gejala flu", "barang mewah").
128 – 255 Peta dan Tingkat Kepadatan Mencakup lingkungan buatan (POI seperti rumah sakit, taman, sekolah) dan kepadatan aktivitas manusia.
256 – 329 Cuaca dan Kualitas Udara Mencatat konteks lingkungan (Suhu, Presipitasi, AQI, Angin).

Kolom dan metadata utama

Tabel sematan berisi metadata spasial yang memungkinkan analisis geospasial, pemfilteran, dan interoperabilitas dengan layanan Google Maps Platform lainnya.

  • geo_id: ID utama untuk region. Untuk set data sel S2, ini adalah token sel S2 yang ditampilkan sebagai string heksadesimal (misalnya, '80ead45'). Gunakan ini sebagai kunci gabungan utama Anda.
  • geo_name: Nama region yang dapat dibaca manusia. Catatan: Untuk set data grid S2, sel matematika tidak memiliki nama standar, sehingga kolom ini akan berisi token yang sama persis dengan geo_id. Hal ini dilakukan untuk mempertahankan struktur kolom yang konsisten di semua penawaran Dinamika Populasi.
  • administrative_area_level_1_id: ID Tempat Google Maps unik untuk batas administratif tingkat teratas (misalnya, Negara Bagian atau Provinsi).
  • administrative_area_level_1_name: Nama yang mudah dibaca untuk batas tingkat teratas (misalnya, 'California').
  • administrative_area_level_2_id: ID Tempat Google Maps yang unik untuk batas administratif sekunder (misalnya, Kabupaten atau Distrik).
  • administrative_area_level_2_name: Nama yang dapat dibaca manusia untuk batas sekunder (misalnya, 'Tulare County').
  • features: Vektor embedding 330 dimensi inti, disimpan secara native sebagai ARRAY<FLOAT64>. Memuatnya ke library Python Pandas memerlukan perataan atau konversi ke matriks NumPy.

Pertanyaan umum (FAQ)

Dapatkah saya mengakses data input mentah (misalnya, kueri penelusuran tertentu atau jejak mobilitas)?

Tidak. Sematan Insight Dinamika Populasi dihasilkan dari sinyal gabungan yang menjaga privasi. Untuk memastikan privasi pengguna, kami tidak memberikan jejak pengguna tertentu, histori penelusuran individual, atau pola pergerakan mentah. Penyematan memberikan representasi laten dari perilaku ini, yang dioptimalkan untuk pemodelan dan prediksi, bukan analisis mentah.

Apakah dimensi vektor dapat diinterpretasikan (misalnya, apakah Dimensi 5 adalah "Kopi")?

Vektor adalah representasi laten, yang berarti vektor menangkap pola abstrak, bukan label spesifik yang dapat dibaca manusia. Meskipun kita tahu bahwa indeks 0–127 berasal dari Tren Penelusuran, indeks tertentu (seperti indeks 5) tidak dipetakan satu-ke-satu ke satu kata kunci seperti "Kopi". Sebagai gantinya, fitur ini merepresentasikan fitur kompleks perilaku penelusuran yang dipelajari oleh model.

Apakah set data mencakup batas poligon (Shapefile)?

Kumpulan data ini menyediakan ID sel S2 (geo_id) dan ID Tempat untuk ID geografis (seperti wilayah admin 1 dan admin 2), tetapi tidak menyertakan geometri poligon mentah (WKT/Shapefile) untuk wilayah tersebut.

  • Untuk Visualisasi: Anda dapat memetakan sentroid secara langsung menggunakan alat seperti BigQuery GeoViz, atau menggunakan library geometri untuk menghitung poligon S2 dari token hex.
  • Untuk Gabungan Spasial: Jika Anda memerlukan operasi batas yang presisi (misalnya, ST_CONTAINS), sebaiknya gabungkan set data ini dengan set data batas publik (tersedia di Data Publik BigQuery).