gs://alphaearth_foundations ที่เก็บข้อมูล GCS มีไฟล์ COG (Cloud Optimized
GeoTIFF) ซึ่งรวมกันเป็นข้อมูลชุด Satellite
Embedding
ประจำปีของ AlphaEarth Foundations โดยมีข้อมูลการฝังประจำปีตั้งแต่ปี 2017 ถึง 2024
รวมถึง
ใบอนุญาต
ชุดข้อมูลนี้ได้รับอนุญาตภายใต้ CC-BY 4.0 และต้องมีข้อความระบุแหล่งที่มาต่อไปนี้ "ชุดข้อมูลการฝังดาวเทียมของ AlphaEarth Foundations สร้างขึ้นโดย Google และ Google DeepMind"
ระบบตั้งค่าที่เก็บข้อมูลนี้เป็น "ผู้ขอเป็นผู้ชำระเงิน" ดังนั้นการดาวน์โหลดข้อมูลอาจทำให้เกิดค่าใช้จ่ายในการส่งออก และค่าใช้จ่ายอื่นๆ
โครงสร้างไดเรกทอรี
โดยจะแบ่งเป็นไดเรกทอรีตามปี และไดเรกทอรีของแต่ละปีจะแบ่งเป็นไดเรกทอรีย่อย 120 ไดเรกทอรี ซึ่งมีไดเรกทอรีย่อย 1 ไดเรกทอรีต่อโซน UTM 1 โซน โดยชื่อจะแสดงหมายเลขโซนและซีกโลก (N หรือ S)
ในแต่ละไดเรกทอรีจะมีไฟล์ COG อยู่หลายไฟล์ ไฟล์เหล่านี้มีข้อมูลพิกเซลทั้งหมด สำหรับโซน UTM นั้น
โครงสร้างไฟล์
แต่ละไฟล์มีขนาด 8192x8192 พิกเซล โดยมี 64 ช่อง ขนาดของแต่ละพิกเซล หลังจากใช้การแมปการยกเลิกการหาปริมาณแล้ว (ดูด้านล่าง) จะได้รับการ ทำให้เป็นมาตรฐานเพื่อให้มีความยาวแบบยุคลิดเท่ากับ 1
ไฟล์ประกอบด้วยเลเยอร์ภาพรวมที่ 4096x4096 พิกเซล, 2048x2048 พิกเซล และอื่นๆ จนถึงเลเยอร์ภาพรวมระดับบนสุด 1x1 เลเยอร์ภาพรวมเหล่านี้สร้างขึ้น เพื่อให้แต่ละพิกเซลภาพรวมเป็นค่าเฉลี่ยของพิกเซลที่มีความละเอียดสูงสุดภายใต้ พิกเซลภาพรวมนั้น โดยมีการปรับขนาดค่าเฉลี่ยให้มีความยาวเป็น 1
ช่องทางจะสอดคล้องตามลำดับกับแกน A00 ถึง A63 ของ
ชุดข้อมูลการฝังดาวเทียม นอกจากนี้ COGS ยังมีชื่อของแชแนลด้วย
ค่าของพิกเซลแต่ละช่องจะเป็นจำนวนเต็ม 8 บิตที่มีการลงนาม วิธีที่ ค่าเหล่านี้เชื่อมโยงกับค่าดั้งเดิม (ในช่วง [-1, 1]) ของ การฝังอธิบายไว้ด้านล่าง
ค่า -128 สอดคล้องกับพิกเซลที่มาสก์ หากมีในช่องใดช่องหนึ่ง
ก็จะปรากฏในทุกช่อง COG จะแสดงค่านี้ (กล่าวคือ มีการตั้งค่า NoData เป็น -128)
ชื่อของแต่ละไฟล์ก็มีข้อมูลบางอย่างด้วย เช่น ลองพิจารณาไฟล์ชื่อ
gs://alphaearth_foundations/satellite_embedding/v1/annual/2019/1S/x8qqwcsisbgygl2ry-0000008192-0000000000.tiff
ตามที่อธิบายไว้ข้างต้น ไฟล์นี้เป็นส่วนหนึ่งของการฝังประจำปี 2019 และอยู่ใน
เขต UTM 1S (เขต 1 ซีกโลกใต้) ชื่อไฟล์ฐาน
x8qqwcsisbgygl2ry-0000008192-0000000000ใช้เพื่อลิงก์ไฟล์นี้กับ
ชื่อรูปภาพการฝังดาวเทียมของ Earth Engine ที่เกี่ยวข้อง ในตัวอย่างนี้ ไฟล์นี้
สอดคล้องกับส่วนหนึ่งของรูปภาพ Earth Engine
GOOGLE/SATELLITE_EMBEDDING/V1/ANNUAL/x8qqwcsisbgygl2ry ส่วนทศนิยม 2 ส่วน
ของชื่อไฟล์จะระบุว่าค่าของ COG นี้สัมพันธ์กับรูปภาพ Earth
Engine นั้นอย่างไร โดยเป็นออฟเซ็ตใน Y ตามด้วยออฟเซ็ตใน X ในกรณีนี้ ต้นกำเนิดพิกเซลของ COG อยู่ที่ (0, 8192) เมื่อเทียบกับต้นกำเนิดของรูปภาพ Earth Engine
เนื่องจากจำเป็นต้องแบ่งย่อยรูปภาพ Earth Engine แต่ละรูป (ซึ่งมีขนาด 16384x16384 พิกเซล) เพื่อให้ COG ที่ได้ไม่ใหญ่เกินไป
การยกเลิกการหาปริมาณ
หากต้องการเปลี่ยนค่า 8 บิตที่ลงนามแบบดิบ (ซึ่งจะอยู่ระหว่าง -127 ถึง 127 รวมด้วย เนื่องจาก -128 สงวนไว้เป็นค่า "ไม่มีข้อมูล") ในแต่ละแชแนลของแต่ละ พิกเซลเป็นค่าทศนิยมที่พร้อมสำหรับการวิเคราะห์ (ซึ่งจะอยู่ระหว่าง -1 ถึง 1) การแมปที่จะดำเนินการคือ
- หารด้วย 127.5
- สี่เหลี่ยมจัตุรัส
- คูณด้วยเครื่องหมายของค่าเดิม
ซึ่งจะแสดงใน NumPy เป็น
# values is a NumPy array of raw pixel values
de_quantized_values = ((values / 127.5) ** 2) * np.sign(values)
ใน Earth Engine การดำเนินการที่เกี่ยวข้องจะเป็น
var de_quantized_values = values.divide(127.5).pow(2).multiply(values.signum());
ไฟล์ Manifest และดัชนี
คุณดูรายการไฟล์ในชุดข้อมูลนี้ได้ที่
gs://alphaearth_foundations/satellite_embedding/v1/annual/manifest.txt
เนื่องจากไม่สามารถระบุพื้นที่ของโลกที่ครอบคลุมจากชื่อไฟล์ได้
เราจึงจัดทำดัชนีไว้ใน 3 รูปแบบ (GeoParquet, GeoPackage และ CSV) ในไฟล์
gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.parquet
gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.gpkg และ
gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.csv ดัชนีนี้มีรายการ 1 รายการสำหรับแต่ละไฟล์ในชุดข้อมูล ข้อมูลที่ระบุ
สำหรับแต่ละไฟล์คือ
- เรขาคณิตของไฟล์เป็น WGS84 (เช่น EPSG:4326) ในรูปแบบ CSV
ฟอร์ม ข้อมูลนี้จะอยู่ในคอลัมน์
WKTดูรายละเอียดเกี่ยวกับวิธีคำนวณเรขาคณิตนี้ได้ที่ด้านล่าง crs: CRS ของโซน UTM ที่รูปภาพนี้เป็นของรหัส EPSG เช่นEPSG:32610year: ปีที่รูปภาพครอบคลุมutm_zone: โซน UTM ของรูปภาพ เช่น10Nutm_west,utm_south,utm_east,utm_north: ขอบเขต UTM ของอาร์เรย์พิกเซลดิบ ซึ่งไม่ได้แสดงการประมวลผลเรขาคณิต และรวมพิกเซลทั้งหมดไม่ว่าจะถูกต้องหรือไม่ก็ตามwgs84_west,wgs84_south,wgs84_east,wgs84_north: ลองจิจูดและละติจูดต่ำสุด/สูงสุด ของรูปทรงเรขาคณิต WGS84
การประมวลผลเรขาคณิต
อาร์เรย์พิกเซลอยู่ในโซน UTM บางโซนโดยกำเนิด ดังนั้นในโซน UTM นั้นๆ กรอบล้อมรอบ ของอาร์เรย์พิกเซลจึงเป็นสี่เหลี่ยมผืนผ้าธรรมดา ระบบจะแปลงกรอบล้อมรอบนั้น เป็นรูปหลายเหลี่ยมใน WGS84 รูปหลายเหลี่ยมนี้มีจุดเพิ่มเติมหลายจุดเพื่อให้ขอบของรูป หลายเหลี่ยมเป็นไปตามเส้นโค้งใน WGS84 อย่างใกล้ชิด ซึ่งเส้นตรงใน UTM จะเปลี่ยนเป็นเส้นโค้ง รูปหลายเหลี่ยมนี้ไม่ได้คำนึงถึงความถูกต้อง/ไม่ถูกต้องของพิกเซลในรูปภาพ แต่คำนึงถึงขอบเขตของอาร์เรย์พิกเซลของรูปภาพเท่านั้น
จากนั้นจะตัดรูปหลายเหลี่ยมให้มีลองจิจูดต่ำสุดและสูงสุดของ เขต UTM ของรูปภาพ ในทางปฏิบัติ การดำเนินการนี้อาจทำให้ไม่รวมพิกเซลที่ถูกต้องบางส่วนซึ่ง อยู่บริเวณขอบของโซน UTM การละเว้นพิกเซลเหล่านี้จากดัชนี ไม่น่าจะทำให้เกิดปัญหาใดๆ เนื่องจากรูปภาพบางส่วนจากโซน UTM ที่อยู่ใกล้เคียงควร ครอบคลุมพื้นที่ดังกล่าว
โปรดทราบว่าการตัดไปยังลองจิจูดต่ำสุด/สูงสุดของเขต UTM หมายความว่าไม่มี รูปหลายเหลี่ยมข้ามเส้นเมริเดียนที่ 180 ซึ่งจะช่วยให้การประมวลผลไฟล์นี้ง่ายขึ้นเล็กน้อย