เกี่ยวกับข้อมูลข้อมูลเชิงลึกเกี่ยวกับพลวัตของประชากร

ทำความเข้าใจข้อมูล

แม้ว่าการฝังจะพร้อมใช้งานในหลายประเทศ แต่สคีมาจะยังคง สอดคล้องกันในชุดข้อมูลทั้งหมด โดยจะจัดระเบียบการฝังเป็นข้อมูล BigQuery แยกกันสำหรับแต่ละประเทศ

โครงสร้างของเวกเตอร์การฝัง

คอลัมน์ features คือเวกเตอร์ 330 มิติ (จัดเก็บเป็นREPEATED FLOAT อาร์เรย์ใน BigQuery) แต่ละส่วนของอาร์เรย์จะสอดคล้องกับสัญญาณข้อมูลที่เฉพาะเจาะจง ซึ่งดึงมาจากโมเดลพลวัตของประชากร

การทำความเข้าใจโครงสร้างนี้จะช่วยให้สามารถทำการตัดฟีเจอร์ออกได้ (เช่น การพิจารณาว่าพฤติกรรมการค้นหาคาดการณ์ยอดขายได้มากน้อยเพียงใดเมื่อเทียบกับสภาพอากาศ)

ดัชนีเวกเตอร์ แหล่งข้อมูล คำอธิบาย
0 – 127 เทรนด์การค้นหาแบบรวม บันทึกความสนใจและความกังวลในระดับภูมิภาค (เช่น การค้นหา "ยิม" "อาการไข้หวัด" "สินค้าหรู")
128 – 255 Maps และปริมาณผู้เข้าใช้บริการ บันทึกสภาพแวดล้อมที่สร้างขึ้น (จุดที่น่าสนใจ เช่น โรงพยาบาล สวนสาธารณะ โรงเรียน) และความหนาแน่นของกิจกรรมของมนุษย์
256 – 329 สภาพอากาศและคุณภาพอากาศ บันทึกบริบทของสภาพแวดล้อม (อุณหภูมิ ปริมาณน้ำฝน AQI ลม)

คอลัมน์และข้อมูลเมตาที่สำคัญ

ตารางการฝังมีข้อมูลเมตาเชิงพื้นที่ที่ช่วยให้วิเคราะห์เชิงพื้นที่ กรอง และทำงานร่วมกับบริการอื่นๆ ของ Google Maps Platform ได้

  • geo_id: ตัวระบุหลักสำหรับภูมิภาค สําหรับชุดข้อมูล S2 cell นี่คือโทเค็น S2 Cell ที่แสดงเป็นสตริงเลขฐานสิบหก (เช่น '80ead45') ใช้เป็นคีย์สำหรับการรวมหลัก
  • geo_name: ชื่อที่อ่านแล้วเข้าใจได้สำหรับภูมิภาค หมายเหตุ: สำหรับชุดข้อมูลกริด S2 เซลล์ทางคณิตศาสตร์จะไม่มีชื่อมาตรฐาน ดังนั้นคอลัมน์นี้จะ มีโทเค็นเดียวกันกับ geo_id ซึ่งเป็นไปตามการออกแบบเพื่อรักษา โครงสร้างคอลัมน์ที่สอดคล้องกันในข้อเสนอทั้งหมดของข้อมูลประชากร
  • administrative_area_level_1_id: รหัสสถานที่ของ Google Maps ที่ไม่ซ้ำกันสำหรับขอบเขตการบริหารระดับบนสุด (เช่น รัฐหรือจังหวัด)
  • administrative_area_level_1_name: ชื่อที่มนุษย์อ่านได้สำหรับ ขอบเขตระดับบนสุด (เช่น 'California')
  • administrative_area_level_2_id: รหัสสถานที่ของ Google Maps ที่ไม่ซ้ำกันสำหรับเขตแดนการบริหารระดับรอง (เช่น เขตหรืออำเภอ)
  • administrative_area_level_2_name: ชื่อที่มนุษย์อ่านได้สำหรับขอบเขตระดับที่ 2 (เช่น 'Tulare County')
  • features: เวกเตอร์การฝังหลักแบบ 330 มิติ ซึ่งจัดเก็บในรูปแบบดั้งเดิมเป็น ARRAY<FLOAT64> การโหลดข้อมูลนี้ลงในไลบรารี Pandas Python ต้องมีการ แปลงให้เป็นรูปแบบแบนหรือแปลงเป็นเมทริกซ์ NumPy

คำถามที่พบบ่อย (FAQ)

ฉันจะเข้าถึงข้อมูลดิบ (เช่น คำค้นหาที่เฉพาะเจาะจงหรือร่องรอยการเคลื่อนที่) ได้ไหม

ไม่ได้ ระบบสร้างการฝังข้อมูลเชิงลึกเกี่ยวกับพลวัตของประชากรจากสัญญาณที่รวบรวมไว้ซึ่งรักษาความเป็นส่วนตัว เราจะไม่ให้ข้อมูลการติดตามผู้ใช้ที่เฉพาะเจาะจง ประวัติการค้นหาของผู้ใช้แต่ละราย หรือรูปแบบการเคลื่อนไหวแบบดิบ เพื่อให้มั่นใจในความเป็นส่วนตัวของผู้ใช้ การฝังจะแสดงพฤติกรรมเหล่านี้ในรูปแบบที่ซ่อนอยู่ ซึ่งได้รับการเพิ่มประสิทธิภาพเพื่อ การสร้างแบบจำลองและการคาดการณ์ แทนที่จะเป็นการวิเคราะห์ดิบ

มิติข้อมูลเวกเตอร์ตีความได้ไหม (เช่น มิติข้อมูล 5 คือ "กาแฟ" หรือไม่)

เวกเตอร์คือการแสดงที่ซ่อนอยู่ ซึ่งหมายความว่าเวกเตอร์จะบันทึกรูปแบบเชิงนามธรรม แทนที่จะเป็นป้ายกำกับที่เฉพาะเจาะจงซึ่งมนุษย์อ่านได้ แม้ว่าเราจะทราบว่าดัชนี 0-127 มาจากเทรนด์การค้นหา แต่ดัชนีที่เฉพาะเจาะจง (เช่น ดัชนี 5) ไม่ได้แมป แบบหนึ่งต่อหนึ่งกับคีย์เวิร์ดเดียว เช่น "กาแฟ" แต่แสดงถึงฟีเจอร์ที่ซับซ้อนของพฤติกรรมการค้นหาที่โมเดลได้เรียนรู้

ชุดข้อมูลมีขอบเขตรูปหลายเหลี่ยม (Shapefile) ไหม

ชุดข้อมูลนี้มีรหัสเซลล์ S2 (geo_id) และรหัสสถานที่สำหรับตัวระบุทางภูมิศาสตร์ (เช่น เขตการปกครองระดับ 1 และเขตการปกครองระดับ 2) แต่ไม่มีรูปหลายเหลี่ยมเรขาคณิตดิบ (WKT/Shapefiles) สำหรับภูมิภาค

  • สำหรับการแสดงภาพ: คุณสามารถพล็อตจุดศูนย์กลางได้โดยตรงโดยใช้เครื่องมือต่างๆ เช่น BigQuery GeoViz หรือใช้ไลบรารีเรขาคณิตเพื่อคำนวณรูปหลายเหลี่ยม S2 จากโทเค็นฐานสิบหก
  • สำหรับการรวมเชิงพื้นที่: หากต้องการดำเนินการขอบเขตที่แม่นยำ (เช่น ST_CONTAINS) เราขอแนะนำให้รวมชุดข้อมูลนี้กับชุดข้อมูลขอบเขตสาธารณะ (มีอยู่ในข้อมูลสาธารณะของ BigQuery)