ทำความเข้าใจข้อมูล
แม้ว่าการฝังจะพร้อมใช้งานในหลายประเทศ แต่สคีมาจะยังคงสอดคล้องกันในชุดข้อมูลทั้งหมด ระบบจะจัดระเบียบการฝังเป็นข้อมูลแยกกันใน BigQuery สำหรับแต่ละประเทศ
โครงสร้างของเวกเตอร์การฝัง
คอลัมน์ features เป็นเวกเตอร์ 330 มิติ (จัดเก็บเป็นอาร์เรย์ REPEATED FLOAT ใน BigQuery) แต่ละส่วนของอาร์เรย์จะสอดคล้องกับสัญญาณข้อมูลที่เฉพาะเจาะจงซึ่งโมเดลพลวัตของประชากรดึงออกมา
การทำความเข้าใจโครงสร้างนี้ช่วยให้สามารถตัดฟีเจอร์ออกได้ (เช่น การกำหนดว่าพฤติกรรมการค้นหาคาดการณ์ยอดขายได้มากน้อยเพียงใดเมื่อเทียบกับสภาพอากาศ)
| ดัชนีเวกเตอร์ | แหล่งข้อมูล | คำอธิบาย |
|---|---|---|
| 0 – 127 | เทรนด์การค้นหารวม | บันทึกความสนใจและความกังวลในระดับภูมิภาค (เช่น การค้นหา "ยิม" "อาการไข้หวัดใหญ่" "สินค้าหรูหรา") |
| 128 – 255 | Maps และปริมาณผู้เข้าใช้บริการ | บันทึกสภาพแวดล้อมที่สร้างขึ้น (จุดที่น่าสนใจ เช่น โรงพยาบาล สวนสาธารณะ โรงเรียน) และความหนาแน่นของกิจกรรมของมนุษย์ |
| 256 – 329 | สภาพอากาศและคุณภาพอากาศ | บันทึกบริบทด้านสิ่งแวดล้อม (อุณหภูมิ ปริมาณน้ำฝน AQI ลม) |
คอลัมน์และข้อมูลเมตาที่สำคัญ
ตารางการฝังมีข้อมูลเมตาเชิงพื้นที่ที่ช่วยให้วิเคราะห์เชิงพื้นที่ กรอง และทำงานร่วมกับบริการอื่นๆ ของ Google Maps Platform ได้
geo_id: ตัวระบุหลักสำหรับภูมิภาค สำหรับชุดข้อมูลเซลล์ S2 ค่านี้จะเป็นโทเค็นเซลล์ S2 ที่แสดงเป็นสตริงเลขฐานสิบหก (เช่น'80ead45') ใช้ค่านี้เป็นคีย์การรวมหลักgeo_name: ชื่อที่มนุษย์อ่านได้สำหรับภูมิภาค หมายเหตุ: สำหรับชุดข้อมูลกริด S2 เซลล์ทางคณิตศาสตร์จะไม่มีชื่อมาตรฐาน ดังนั้นคอลัมน์นี้จะมีโทเค็นเดียวกับgeo_idซึ่งเป็นไปตามการออกแบบเพื่อรักษาโครงสร้างคอลัมน์ที่สอดคล้องกันในข้อเสนอทั้งหมดของพลวัตของประชากรadministrative_area_level_1_id: รหัสสถานที่ที่ไม่ซ้ำกันของ Google Maps สำหรับขอบเขตการปกครองระดับบนสุด (เช่น รัฐหรือจังหวัด)administrative_area_level_1_name: ชื่อที่มนุษย์อ่านได้สำหรับ ขอบเขตระดับบนสุด (เช่น'California')administrative_area_level_2_id: รหัสสถานที่ที่ไม่ซ้ำกันของ Google Maps สำหรับขอบเขตการปกครองระดับที่ 2 (เช่น เขตหรืออำเภอ)administrative_area_level_2_name: ชื่อที่มนุษย์อ่านได้สำหรับขอบเขตระดับที่ 2 (เช่น'Tulare County')features: เวกเตอร์การฝังหลัก 330 มิติ ซึ่งจัดเก็บในรูปแบบดั้งเดิมเป็นARRAY<FLOAT64>การโหลดเวกเตอร์นี้ลงในไลบรารี Pandas Python ต้องทำให้แบนหรือแปลงเป็นเมทริกซ์ NumPy
คำถามที่พบบ่อย (FAQ)
ฉันเข้าถึงข้อมูลอินพุตดิบได้ไหม (เช่น คำค้นหาที่เฉพาะเจาะจงหรือร่องรอยการเคลื่อนไหว)
ไม่ได้ การฝังข้อมูลเชิงลึกเกี่ยวกับพลวัตของประชากรสร้างขึ้นจากสัญญาณรวมที่รักษาความเป็นส่วนตัว เราจะไม่แสดงร่องรอยของผู้ใช้ที่เฉพาะเจาะจง ประวัติการค้นหาของผู้ใช้แต่ละราย หรือรูปแบบการเคลื่อนไหวแบบดิบ เพื่อให้มั่นใจในความเป็นส่วนตัวของผู้ใช้ การฝังจะแสดงพฤติกรรมเหล่านี้ในรูปแบบแฝง ซึ่งได้รับการปรับให้เหมาะกับการสร้างแบบจำลองและการคาดการณ์มากกว่าการวิเคราะห์แบบดิบ
มิติข้อมูลเวกเตอร์สามารถตีความได้ไหม (เช่น มิติข้อมูลที่ 5 คือ "กาแฟ")
เวกเตอร์เป็นการแสดงแบบแฝง ซึ่งหมายความว่าเวกเตอร์จะบันทึกรูปแบบนามธรรมแทนที่จะเป็นป้ายกำกับที่เฉพาะเจาะจงซึ่งมนุษย์อ่านได้ แม้ว่าเราจะทราบว่าดัชนี 0–127 มาจากเทรนด์การค้นหา แต่ดัชนีที่เฉพาะเจาะจง (เช่น ดัชนี 5) จะไม่ได้จับคู่แบบหนึ่งต่อหนึ่งกับคีย์เวิร์ดเดียว เช่น "กาแฟ" แต่จะแสดงฟีเจอร์ที่ซับซ้อนของพฤติกรรมการค้นหาที่โมเดลได้เรียนรู้
ชุดข้อมูลมีขอบเขตของรูปหลายเหลี่ยม (Shapefile) ไหม
ชุดข้อมูลมีรหัสเซลล์ S2 (geo_id) และรหัสสถานที่สำหรับตัวระบุทางภูมิศาสตร์ (เช่น ภูมิภาคการปกครองระดับ 1 และระดับ 2) แต่ไม่มีรูปทรงเรขาคณิตของรูปหลายเหลี่ยมแบบดิบ (WKT/Shapefile) สำหรับภูมิภาค
- สำหรับการแสดงภาพ: คุณสามารถพล็อตจุดศูนย์กลางได้โดยตรงโดยใช้เครื่องมือต่างๆ เช่น BigQuery GeoViz หรือใช้ไลบรารีรูปทรงเรขาคณิตเพื่อคำนวณรูปหลายเหลี่ยม S2 จากโทเค็นเลขฐานสิบหก
- สำหรับการรวมเชิงพื้นที่: หากต้องการการดำเนินการขอบเขตที่แม่นยำ (เช่น
ST_CONTAINS) เราขอแนะนำให้รวมชุดข้อมูลนี้กับชุดข้อมูลขอบเขตสาธารณะ (มีให้บริการในข้อมูลสาธารณะของ BigQuery)