ทำความเข้าใจข้อมูล
แม้ว่าการฝังจะพร้อมใช้งานในหลายประเทศ แต่สคีมาจะยังคง สอดคล้องกันในชุดข้อมูลทั้งหมด โดยจะจัดระเบียบการฝังเป็นข้อมูล BigQuery แยกกันสำหรับแต่ละประเทศ
โครงสร้างของเวกเตอร์การฝัง
คอลัมน์ features คือเวกเตอร์ 330 มิติ (จัดเก็บเป็นREPEATED FLOAT
อาร์เรย์ใน BigQuery) แต่ละส่วนของอาร์เรย์จะสอดคล้องกับสัญญาณข้อมูลที่เฉพาะเจาะจง
ซึ่งดึงมาจากโมเดลพลวัตของประชากร
การทำความเข้าใจโครงสร้างนี้จะช่วยให้สามารถทำการตัดฟีเจอร์ออกได้ (เช่น การพิจารณาว่าพฤติกรรมการค้นหาคาดการณ์ยอดขายได้มากน้อยเพียงใดเมื่อเทียบกับสภาพอากาศ)
| ดัชนีเวกเตอร์ | แหล่งข้อมูล | คำอธิบาย |
|---|---|---|
| 0 – 127 | เทรนด์การค้นหาแบบรวม | บันทึกความสนใจและความกังวลในระดับภูมิภาค (เช่น การค้นหา "ยิม" "อาการไข้หวัด" "สินค้าหรู") |
| 128 – 255 | Maps และปริมาณผู้เข้าใช้บริการ | บันทึกสภาพแวดล้อมที่สร้างขึ้น (จุดที่น่าสนใจ เช่น โรงพยาบาล สวนสาธารณะ โรงเรียน) และความหนาแน่นของกิจกรรมของมนุษย์ |
| 256 – 329 | สภาพอากาศและคุณภาพอากาศ | บันทึกบริบทของสภาพแวดล้อม (อุณหภูมิ ปริมาณน้ำฝน AQI ลม) |
คอลัมน์และข้อมูลเมตาที่สำคัญ
ตารางการฝังมีข้อมูลเมตาเชิงพื้นที่ที่ช่วยให้วิเคราะห์เชิงพื้นที่ กรอง และทำงานร่วมกับบริการอื่นๆ ของ Google Maps Platform ได้
geo_id: ตัวระบุหลักสำหรับภูมิภาค สําหรับชุดข้อมูล S2 cell นี่คือโทเค็น S2 Cell ที่แสดงเป็นสตริงเลขฐานสิบหก (เช่น'80ead45') ใช้เป็นคีย์สำหรับการรวมหลักgeo_name: ชื่อที่อ่านแล้วเข้าใจได้สำหรับภูมิภาค หมายเหตุ: สำหรับชุดข้อมูลกริด S2 เซลล์ทางคณิตศาสตร์จะไม่มีชื่อมาตรฐาน ดังนั้นคอลัมน์นี้จะ มีโทเค็นเดียวกันกับgeo_idซึ่งเป็นไปตามการออกแบบเพื่อรักษา โครงสร้างคอลัมน์ที่สอดคล้องกันในข้อเสนอทั้งหมดของข้อมูลประชากรadministrative_area_level_1_id: รหัสสถานที่ของ Google Maps ที่ไม่ซ้ำกันสำหรับขอบเขตการบริหารระดับบนสุด (เช่น รัฐหรือจังหวัด)administrative_area_level_1_name: ชื่อที่มนุษย์อ่านได้สำหรับ ขอบเขตระดับบนสุด (เช่น'California')administrative_area_level_2_id: รหัสสถานที่ของ Google Maps ที่ไม่ซ้ำกันสำหรับเขตแดนการบริหารระดับรอง (เช่น เขตหรืออำเภอ)administrative_area_level_2_name: ชื่อที่มนุษย์อ่านได้สำหรับขอบเขตระดับที่ 2 (เช่น'Tulare County')features: เวกเตอร์การฝังหลักแบบ 330 มิติ ซึ่งจัดเก็บในรูปแบบดั้งเดิมเป็นARRAY<FLOAT64>การโหลดข้อมูลนี้ลงในไลบรารี Pandas Python ต้องมีการ แปลงให้เป็นรูปแบบแบนหรือแปลงเป็นเมทริกซ์ NumPy
คำถามที่พบบ่อย (FAQ)
ฉันจะเข้าถึงข้อมูลดิบ (เช่น คำค้นหาที่เฉพาะเจาะจงหรือร่องรอยการเคลื่อนที่) ได้ไหม
ไม่ได้ ระบบสร้างการฝังข้อมูลเชิงลึกเกี่ยวกับพลวัตของประชากรจากสัญญาณที่รวบรวมไว้ซึ่งรักษาความเป็นส่วนตัว เราจะไม่ให้ข้อมูลการติดตามผู้ใช้ที่เฉพาะเจาะจง ประวัติการค้นหาของผู้ใช้แต่ละราย หรือรูปแบบการเคลื่อนไหวแบบดิบ เพื่อให้มั่นใจในความเป็นส่วนตัวของผู้ใช้ การฝังจะแสดงพฤติกรรมเหล่านี้ในรูปแบบที่ซ่อนอยู่ ซึ่งได้รับการเพิ่มประสิทธิภาพเพื่อ การสร้างแบบจำลองและการคาดการณ์ แทนที่จะเป็นการวิเคราะห์ดิบ
มิติข้อมูลเวกเตอร์ตีความได้ไหม (เช่น มิติข้อมูล 5 คือ "กาแฟ" หรือไม่)
เวกเตอร์คือการแสดงที่ซ่อนอยู่ ซึ่งหมายความว่าเวกเตอร์จะบันทึกรูปแบบเชิงนามธรรม แทนที่จะเป็นป้ายกำกับที่เฉพาะเจาะจงซึ่งมนุษย์อ่านได้ แม้ว่าเราจะทราบว่าดัชนี 0-127 มาจากเทรนด์การค้นหา แต่ดัชนีที่เฉพาะเจาะจง (เช่น ดัชนี 5) ไม่ได้แมป แบบหนึ่งต่อหนึ่งกับคีย์เวิร์ดเดียว เช่น "กาแฟ" แต่แสดงถึงฟีเจอร์ที่ซับซ้อนของพฤติกรรมการค้นหาที่โมเดลได้เรียนรู้
ชุดข้อมูลมีขอบเขตรูปหลายเหลี่ยม (Shapefile) ไหม
ชุดข้อมูลนี้มีรหัสเซลล์ S2 (geo_id) และรหัสสถานที่สำหรับตัวระบุทางภูมิศาสตร์ (เช่น เขตการปกครองระดับ 1 และเขตการปกครองระดับ 2) แต่ไม่มีรูปหลายเหลี่ยมเรขาคณิตดิบ (WKT/Shapefiles) สำหรับภูมิภาค
- สำหรับการแสดงภาพ: คุณสามารถพล็อตจุดศูนย์กลางได้โดยตรงโดยใช้เครื่องมือต่างๆ เช่น BigQuery GeoViz หรือใช้ไลบรารีเรขาคณิตเพื่อคำนวณรูปหลายเหลี่ยม S2 จากโทเค็นฐานสิบหก
- สำหรับการรวมเชิงพื้นที่: หากต้องการดำเนินการขอบเขตที่แม่นยำ (เช่น
ST_CONTAINS) เราขอแนะนำให้รวมชุดข้อมูลนี้กับชุดข้อมูลขอบเขตสาธารณะ (มีอยู่ในข้อมูลสาธารณะของ BigQuery)