เกี่ยวกับข้อมูลข้อมูลเชิงลึกเกี่ยวกับพลวัตของประชากร

ทำความเข้าใจข้อมูล

แม้ว่าการฝังจะพร้อมใช้งานในหลายประเทศ แต่สคีมาจะยังคงสอดคล้องกันในชุดข้อมูลทั้งหมด ระบบจะจัดระเบียบการฝังเป็นข้อมูลแยกกันใน BigQuery สำหรับแต่ละประเทศ

โครงสร้างของเวกเตอร์การฝัง

คอลัมน์ features เป็นเวกเตอร์ 330 มิติ (จัดเก็บเป็นอาร์เรย์ REPEATED FLOAT ใน BigQuery) แต่ละส่วนของอาร์เรย์จะสอดคล้องกับสัญญาณข้อมูลที่เฉพาะเจาะจงซึ่งโมเดลพลวัตของประชากรดึงออกมา

การทำความเข้าใจโครงสร้างนี้ช่วยให้สามารถตัดฟีเจอร์ออกได้ (เช่น การกำหนดว่าพฤติกรรมการค้นหาคาดการณ์ยอดขายได้มากน้อยเพียงใดเมื่อเทียบกับสภาพอากาศ)

ดัชนีเวกเตอร์ แหล่งข้อมูล คำอธิบาย
0 – 127 เทรนด์การค้นหารวม บันทึกความสนใจและความกังวลในระดับภูมิภาค (เช่น การค้นหา "ยิม" "อาการไข้หวัดใหญ่" "สินค้าหรูหรา")
128 – 255 Maps และปริมาณผู้เข้าใช้บริการ บันทึกสภาพแวดล้อมที่สร้างขึ้น (จุดที่น่าสนใจ เช่น โรงพยาบาล สวนสาธารณะ โรงเรียน) และความหนาแน่นของกิจกรรมของมนุษย์
256 – 329 สภาพอากาศและคุณภาพอากาศ บันทึกบริบทด้านสิ่งแวดล้อม (อุณหภูมิ ปริมาณน้ำฝน AQI ลม)

คอลัมน์และข้อมูลเมตาที่สำคัญ

ตารางการฝังมีข้อมูลเมตาเชิงพื้นที่ที่ช่วยให้วิเคราะห์เชิงพื้นที่ กรอง และทำงานร่วมกับบริการอื่นๆ ของ Google Maps Platform ได้

  • geo_id: ตัวระบุหลักสำหรับภูมิภาค สำหรับชุดข้อมูลเซลล์ S2 ค่านี้จะเป็นโทเค็นเซลล์ S2 ที่แสดงเป็นสตริงเลขฐานสิบหก (เช่น '80ead45') ใช้ค่านี้เป็นคีย์การรวมหลัก
  • geo_name: ชื่อที่มนุษย์อ่านได้สำหรับภูมิภาค หมายเหตุ: สำหรับชุดข้อมูลกริด S2 เซลล์ทางคณิตศาสตร์จะไม่มีชื่อมาตรฐาน ดังนั้นคอลัมน์นี้จะมีโทเค็นเดียวกับ geo_id ซึ่งเป็นไปตามการออกแบบเพื่อรักษาโครงสร้างคอลัมน์ที่สอดคล้องกันในข้อเสนอทั้งหมดของพลวัตของประชากร
  • administrative_area_level_1_id: รหัสสถานที่ที่ไม่ซ้ำกันของ Google Maps สำหรับขอบเขตการปกครองระดับบนสุด (เช่น รัฐหรือจังหวัด)
  • administrative_area_level_1_name: ชื่อที่มนุษย์อ่านได้สำหรับ ขอบเขตระดับบนสุด (เช่น 'California')
  • administrative_area_level_2_id: รหัสสถานที่ที่ไม่ซ้ำกันของ Google Maps สำหรับขอบเขตการปกครองระดับที่ 2 (เช่น เขตหรืออำเภอ)
  • administrative_area_level_2_name: ชื่อที่มนุษย์อ่านได้สำหรับขอบเขตระดับที่ 2 (เช่น 'Tulare County')
  • features: เวกเตอร์การฝังหลัก 330 มิติ ซึ่งจัดเก็บในรูปแบบดั้งเดิมเป็น ARRAY<FLOAT64> การโหลดเวกเตอร์นี้ลงในไลบรารี Pandas Python ต้องทำให้แบนหรือแปลงเป็นเมทริกซ์ NumPy

คำถามที่พบบ่อย (FAQ)

ฉันเข้าถึงข้อมูลอินพุตดิบได้ไหม (เช่น คำค้นหาที่เฉพาะเจาะจงหรือร่องรอยการเคลื่อนไหว)

ไม่ได้ การฝังข้อมูลเชิงลึกเกี่ยวกับพลวัตของประชากรสร้างขึ้นจากสัญญาณรวมที่รักษาความเป็นส่วนตัว เราจะไม่แสดงร่องรอยของผู้ใช้ที่เฉพาะเจาะจง ประวัติการค้นหาของผู้ใช้แต่ละราย หรือรูปแบบการเคลื่อนไหวแบบดิบ เพื่อให้มั่นใจในความเป็นส่วนตัวของผู้ใช้ การฝังจะแสดงพฤติกรรมเหล่านี้ในรูปแบบแฝง ซึ่งได้รับการปรับให้เหมาะกับการสร้างแบบจำลองและการคาดการณ์มากกว่าการวิเคราะห์แบบดิบ

มิติข้อมูลเวกเตอร์สามารถตีความได้ไหม (เช่น มิติข้อมูลที่ 5 คือ "กาแฟ")

เวกเตอร์เป็นการแสดงแบบแฝง ซึ่งหมายความว่าเวกเตอร์จะบันทึกรูปแบบนามธรรมแทนที่จะเป็นป้ายกำกับที่เฉพาะเจาะจงซึ่งมนุษย์อ่านได้ แม้ว่าเราจะทราบว่าดัชนี 0–127 มาจากเทรนด์การค้นหา แต่ดัชนีที่เฉพาะเจาะจง (เช่น ดัชนี 5) จะไม่ได้จับคู่แบบหนึ่งต่อหนึ่งกับคีย์เวิร์ดเดียว เช่น "กาแฟ" แต่จะแสดงฟีเจอร์ที่ซับซ้อนของพฤติกรรมการค้นหาที่โมเดลได้เรียนรู้

ชุดข้อมูลมีขอบเขตของรูปหลายเหลี่ยม (Shapefile) ไหม

ชุดข้อมูลมีรหัสเซลล์ S2 (geo_id) และรหัสสถานที่สำหรับตัวระบุทางภูมิศาสตร์ (เช่น ภูมิภาคการปกครองระดับ 1 และระดับ 2) แต่ไม่มีรูปทรงเรขาคณิตของรูปหลายเหลี่ยมแบบดิบ (WKT/Shapefile) สำหรับภูมิภาค

  • สำหรับการแสดงภาพ: คุณสามารถพล็อตจุดศูนย์กลางได้โดยตรงโดยใช้เครื่องมือต่างๆ เช่น BigQuery GeoViz หรือใช้ไลบรารีรูปทรงเรขาคณิตเพื่อคำนวณรูปหลายเหลี่ยม S2 จากโทเค็นเลขฐานสิบหก
  • สำหรับการรวมเชิงพื้นที่: หากต้องการการดำเนินการขอบเขตที่แม่นยำ (เช่น ST_CONTAINS) เราขอแนะนำให้รวมชุดข้อมูลนี้กับชุดข้อมูลขอบเขตสาธารณะ (มีให้บริการในข้อมูลสาธารณะของ BigQuery)