ข้อมูล GCS ของ AlphaEarth Foundations

gs://alphaearth_foundations ที่เก็บข้อมูล GCS มีไฟล์ COG (Cloud Optimized GeoTIFF) ซึ่งรวมกันเป็นข้อมูลชุด Satellite Embedding ประจำปีของ AlphaEarth Foundations โดยมีข้อมูลการฝังประจำปีตั้งแต่ปี 2017 ถึง 2024 รวมถึง

ใบอนุญาต

ชุดข้อมูลนี้ได้รับอนุญาตภายใต้ CC-BY 4.0 และต้องมีข้อความระบุแหล่งที่มาต่อไปนี้ "ชุดข้อมูลการฝังดาวเทียมของ AlphaEarth Foundations สร้างขึ้นโดย Google และ Google DeepMind"

ระบบตั้งค่าที่เก็บข้อมูลนี้เป็น "ผู้ขอเป็นผู้ชำระเงิน" ดังนั้นการดาวน์โหลดข้อมูลอาจทำให้เกิดค่าใช้จ่ายในการส่งออก และค่าใช้จ่ายอื่นๆ

โครงสร้างไดเรกทอรี

โดยจะแบ่งเป็นไดเรกทอรีตามปี และไดเรกทอรีของแต่ละปีจะแบ่งเป็นไดเรกทอรีย่อย 120 ไดเรกทอรี ซึ่งมีไดเรกทอรีย่อย 1 ไดเรกทอรีต่อโซน UTM 1 โซน โดยชื่อจะแสดงหมายเลขโซนและซีกโลก (N หรือ S)

ในแต่ละไดเรกทอรีจะมีไฟล์ COG อยู่หลายไฟล์ ไฟล์เหล่านี้มีข้อมูลพิกเซลทั้งหมด สำหรับโซน UTM นั้น

โครงสร้างไฟล์

แต่ละไฟล์มีขนาด 8192x8192 พิกเซล โดยมี 64 ช่อง ขนาดของแต่ละพิกเซล หลังจากใช้การแมปการยกเลิกการหาปริมาณแล้ว (ดูด้านล่าง) จะได้รับการ ทำให้เป็นมาตรฐานเพื่อให้มีความยาวแบบยุคลิดเท่ากับ 1

ไฟล์ประกอบด้วยเลเยอร์ภาพรวมที่ 4096x4096 พิกเซล, 2048x2048 พิกเซล และอื่นๆ จนถึงเลเยอร์ภาพรวมระดับบนสุด 1x1 เลเยอร์ภาพรวมเหล่านี้สร้างขึ้น เพื่อให้แต่ละพิกเซลภาพรวมเป็นค่าเฉลี่ยของพิกเซลที่มีความละเอียดสูงสุดภายใต้ พิกเซลภาพรวมนั้น โดยมีการปรับขนาดค่าเฉลี่ยให้มีความยาวเป็น 1

ช่องทางจะสอดคล้องตามลำดับกับแกน A00 ถึง A63 ของ ชุดข้อมูลการฝังดาวเทียม นอกจากนี้ COGS ยังมีชื่อของแชแนลด้วย

ค่าของพิกเซลแต่ละช่องจะเป็นจำนวนเต็ม 8 บิตที่มีการลงนาม วิธีที่ ค่าเหล่านี้เชื่อมโยงกับค่าดั้งเดิม (ในช่วง [-1, 1]) ของ การฝังอธิบายไว้ด้านล่าง

ค่า -128 สอดคล้องกับพิกเซลที่มาสก์ หากมีในช่องใดช่องหนึ่ง ก็จะปรากฏในทุกช่อง COG จะแสดงค่านี้ (กล่าวคือ มีการตั้งค่า NoData เป็น -128)

ชื่อของแต่ละไฟล์ก็มีข้อมูลบางอย่างด้วย เช่น ลองพิจารณาไฟล์ชื่อ gs://alphaearth_foundations/satellite_embedding/v1/annual/2019/1S/x8qqwcsisbgygl2ry-0000008192-0000000000.tiff ตามที่อธิบายไว้ข้างต้น ไฟล์นี้เป็นส่วนหนึ่งของการฝังประจำปี 2019 และอยู่ใน เขต UTM 1S (เขต 1 ซีกโลกใต้) ชื่อไฟล์ฐาน x8qqwcsisbgygl2ry-0000008192-0000000000ใช้เพื่อลิงก์ไฟล์นี้กับ ชื่อรูปภาพการฝังดาวเทียมของ Earth Engine ที่เกี่ยวข้อง ในตัวอย่างนี้ ไฟล์นี้ สอดคล้องกับส่วนหนึ่งของรูปภาพ Earth Engine GOOGLE/SATELLITE_EMBEDDING/V1/ANNUAL/x8qqwcsisbgygl2ry ส่วนทศนิยม 2 ส่วน ของชื่อไฟล์จะระบุว่าค่าของ COG นี้สัมพันธ์กับรูปภาพ Earth Engine นั้นอย่างไร โดยเป็นออฟเซ็ตใน Y ตามด้วยออฟเซ็ตใน X ในกรณีนี้ ต้นกำเนิดพิกเซลของ COG อยู่ที่ (0, 8192) เมื่อเทียบกับต้นกำเนิดของรูปภาพ Earth Engine เนื่องจากจำเป็นต้องแบ่งย่อยรูปภาพ Earth Engine แต่ละรูป (ซึ่งมีขนาด 16384x16384 พิกเซล) เพื่อให้ COG ที่ได้ไม่ใหญ่เกินไป

การยกเลิกการหาปริมาณ

หากต้องการเปลี่ยนค่า 8 บิตที่ลงนามแบบดิบ (ซึ่งจะอยู่ระหว่าง -127 ถึง 127 รวมด้วย เนื่องจาก -128 สงวนไว้เป็นค่า "ไม่มีข้อมูล") ในแต่ละแชแนลของแต่ละ พิกเซลเป็นค่าทศนิยมที่พร้อมสำหรับการวิเคราะห์ (ซึ่งจะอยู่ระหว่าง -1 ถึง 1) การแมปที่จะดำเนินการคือ

  • หารด้วย 127.5
  • สี่เหลี่ยมจัตุรัส
  • คูณด้วยเครื่องหมายของค่าเดิม

ซึ่งจะแสดงใน NumPy เป็น

  # values is a NumPy array of raw pixel values
  de_quantized_values = ((values / 127.5) ** 2) * np.sign(values)

ใน Earth Engine การดำเนินการที่เกี่ยวข้องจะเป็น

  var de_quantized_values = values.divide(127.5).pow(2).multiply(values.signum());

ไฟล์ Manifest และดัชนี

คุณดูรายการไฟล์ในชุดข้อมูลนี้ได้ที่ gs://alphaearth_foundations/satellite_embedding/v1/annual/manifest.txt

เนื่องจากไม่สามารถระบุพื้นที่ของโลกที่ครอบคลุมจากชื่อไฟล์ได้ เราจึงจัดทำดัชนีไว้ใน 3 รูปแบบ (GeoParquet, GeoPackage และ CSV) ในไฟล์ gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.parquet gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.gpkg และ gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.csv ดัชนีนี้มีรายการ 1 รายการสำหรับแต่ละไฟล์ในชุดข้อมูล ข้อมูลที่ระบุ สำหรับแต่ละไฟล์คือ

  • เรขาคณิตของไฟล์เป็น WGS84 (เช่น EPSG:4326) ในรูปแบบ CSV ฟอร์ม ข้อมูลนี้จะอยู่ในคอลัมน์ WKT ดูรายละเอียดเกี่ยวกับวิธีคำนวณเรขาคณิตนี้ได้ที่ด้านล่าง
  • crs: CRS ของโซน UTM ที่รูปภาพนี้เป็นของรหัส EPSG เช่น EPSG:32610
  • year: ปีที่รูปภาพครอบคลุม
  • utm_zone: โซน UTM ของรูปภาพ เช่น 10N
  • utm_west, utm_south, utm_east, utm_north: ขอบเขต UTM ของอาร์เรย์พิกเซลดิบ ซึ่งไม่ได้แสดงการประมวลผลเรขาคณิต และรวมพิกเซลทั้งหมดไม่ว่าจะถูกต้องหรือไม่ก็ตาม
  • wgs84_west, wgs84_south, wgs84_east, wgs84_north: ลองจิจูดและละติจูดต่ำสุด/สูงสุด ของรูปทรงเรขาคณิต WGS84

การประมวลผลเรขาคณิต

อาร์เรย์พิกเซลอยู่ในโซน UTM บางโซนโดยกำเนิด ดังนั้นในโซน UTM นั้นๆ กรอบล้อมรอบ ของอาร์เรย์พิกเซลจึงเป็นสี่เหลี่ยมผืนผ้าธรรมดา ระบบจะแปลงกรอบล้อมรอบนั้น เป็นรูปหลายเหลี่ยมใน WGS84 รูปหลายเหลี่ยมนี้มีจุดเพิ่มเติมหลายจุดเพื่อให้ขอบของรูป หลายเหลี่ยมเป็นไปตามเส้นโค้งใน WGS84 อย่างใกล้ชิด ซึ่งเส้นตรงใน UTM จะเปลี่ยนเป็นเส้นโค้ง รูปหลายเหลี่ยมนี้ไม่ได้คำนึงถึงความถูกต้อง/ไม่ถูกต้องของพิกเซลในรูปภาพ แต่คำนึงถึงขอบเขตของอาร์เรย์พิกเซลของรูปภาพเท่านั้น

จากนั้นจะตัดรูปหลายเหลี่ยมให้มีลองจิจูดต่ำสุดและสูงสุดของ เขต UTM ของรูปภาพ ในทางปฏิบัติ การดำเนินการนี้อาจทำให้ไม่รวมพิกเซลที่ถูกต้องบางส่วนซึ่ง อยู่บริเวณขอบของโซน UTM การละเว้นพิกเซลเหล่านี้จากดัชนี ไม่น่าจะทำให้เกิดปัญหาใดๆ เนื่องจากรูปภาพบางส่วนจากโซน UTM ที่อยู่ใกล้เคียงควร ครอบคลุมพื้นที่ดังกล่าว

โปรดทราบว่าการตัดไปยังลองจิจูดต่ำสุด/สูงสุดของเขต UTM หมายความว่าไม่มี รูปหลายเหลี่ยมข้ามเส้นเมริเดียนที่ 180 ซึ่งจะช่วยให้การประมวลผลไฟล์นี้ง่ายขึ้นเล็กน้อย