Bucket GCS gs://alphaearth_foundations berisi file COG (Cloud Optimized GeoTIFF) yang bersama-sama membentuk set data Penyematan Satelit tahunan AlphaEarth Foundations. Dataset ini berisi embedding tahunan untuk tahun 2017 hingga 2024, termasuk.
Lisensi
Set data ini dilisensikan berdasarkan CC-BY 4.0 dan memerlukan teks atribusi berikut: "Set data AlphaEarth Foundations Satellite Embedding dibuat oleh Google dan Google DeepMind."
Bucket ini disiapkan sebagai "pembayar adalah peminta", sehingga mendownload data dapat menimbulkan biaya keluar dan biaya lainnya.
Struktur direktori
File tersebut dibagi ke dalam direktori berdasarkan tahun; setiap direktori tahun dibagi menjadi
120 subdirektori, satu per zona UTM, yang namanya mencerminkan nomor zona dan
belahan bumi (N atau S).
Dalam setiap direktori terdapat sejumlah file COG. File ini berisi semua data piksel untuk zona UTM tersebut.
Struktur file
Setiap file berukuran 8192x8192 piksel, dengan 64 saluran. Besarnya setiap piksel, setelah pemetaan de-kuantisasi diterapkan (lihat di bawah), telah dinormalisasi sehingga memiliki panjang Euclidean 1.
File berisi lapisan ringkasan pada 4096x4096 piksel, 2048x2048 piksel, dan seterusnya hingga lapisan ringkasan tingkat atas 1x1. Lapisan ringkasan ini dibuat sehingga setiap piksel ringkasan adalah rata-rata piksel beresolusi tertinggi di bawah piksel ringkasan tersebut, dengan besarnya rata-rata telah dinormalisasi agar memiliki panjang 1.
Saluran sesuai, secara berurutan, dengan sumbu A00 hingga A63 dari
set data Sematan Satelit. COG juga berisi penamaan ini untuk saluran.
Nilai setiap piksel untuk setiap saluran adalah bilangan bulat 8-bit bertanda. Cara nilai ini dipetakan ke nilai native (dalam rentang [-1, 1]) dari sematan dijelaskan di bawah.
Nilai -128 sesuai dengan piksel yang tertutup. Jika ada di satu channel, maka akan ada di semua channel. COG mencerminkan hal ini (yaitu, memiliki nilai
NoData yang ditetapkan ke -128).
Nama setiap file juga membawa beberapa informasi. Misalnya, pertimbangkan
file bernama
gs://alphaearth_foundations/satellite_embedding/v1/annual/2019/1S/x8qqwcsisbgygl2ry-0000008192-0000000000.tiff.
Seperti yang dijelaskan di atas, file ini adalah bagian dari penyematan tahunan 2019, dan berada di
zona UTM 1S (zona 1, belahan bumi selatan). Nama file dasar,
x8qqwcsisbgygl2ry-0000008192-0000000000, berfungsi untuk menautkan file ini ke
nama Gambar Embedding Satelit Earth Engine yang sesuai. Dalam contoh ini, file
ini sesuai dengan sebagian gambar Earth Engine
GOOGLE/SATELLITE_EMBEDDING/V1/ANNUAL/x8qqwcsisbgygl2ry. Dua bagian desimal
dari nama file menentukan lokasi nilai COG ini relatif terhadap Gambar Earth
Engine tersebut, sebagai offset dalam Y yang diikuti dengan offset dalam X. Dalam hal ini, asal piksel COG berada di (0, 8192) relatif terhadap asal Image Earth Engine.
Hal ini karena setiap Gambar Earth Engine (yang berukuran 16384x16384 piksel) harus dibagi-bagi agar COG yang dihasilkan tidak terlalu sulit dikelola.
De-kuantisasi
Untuk mengubah nilai 8-bit bertanda mentah (yang akan berada di antara -127 dan 127 inklusif, karena -128 dicadangkan sebagai nilai "tanpa data") di setiap saluran setiap piksel menjadi nilai floating point siap analisis (yang akan berada di antara -1 dan 1), pemetaan yang akan dilakukan adalah
- dibagi dengan 127,5
- persegi
- dikalikan dengan tanda nilai asli
Hal ini akan dinyatakan dalam NumPy sebagai
# values is a NumPy array of raw pixel values
de_quantized_values = ((values / 127.5) ** 2) * np.sign(values)
Di Earth Engine, operasi yang sesuai adalah
var de_quantized_values = values.divide(127.5).pow(2).multiply(values.signum());
Manifes dan indeks
Daftar file dalam set data ini dapat ditemukan di
gs://alphaearth_foundations/satellite_embedding/v1/annual/manifest.txt.
Karena tidak mungkin menentukan area dunia yang dicakup dari nama file, indeks juga telah disediakan, dalam tiga bentuk (GeoParquet, GeoPackage, dan CSV) dalam file gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.parquet, gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.gpkg, dan gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.csv. Indeks ini berisi satu entri untuk setiap file dalam set data. Informasi yang diberikan untuk setiap file adalah
- geometri file sebagai WGS84 (yaitu, EPSG:4326) poligon. Dalam format CSV, informasi ini ada di kolom
WKT. Lihat di bawah untuk mengetahui detail cara penghitungan geometri ini. crs: CRS zona UTM tempat gambar ini berada sebagai kode EPSG, sepertiEPSG:32610.year: Tahun yang dicakup oleh gambar.utm_zone: Zona UTM gambar, seperti10N.utm_west,utm_south,utm_east,utm_north: Batas UTM array piksel mentah. Hal ini tidak mencerminkan pemrosesan geometri apa pun, dan mencakup semua piksel, baik valid maupun tidak.wgs84_west,wgs84_south,wgs84_east,wgs84_north: Bujur dan lintang minimum/maksimum geometri WGS84.
Pemrosesan geometri
Array piksel secara native berada di zona UTM tertentu, sehingga di zona UTM tersebut, kotak pembatas array piksel adalah persegi panjang sederhana. Kotak pembatas tersebut diubah menjadi poligon dalam WGS84. Poligon ini mencakup sejumlah titik tambahan sehingga tepinya mengikuti garis melengkung dalam WGS84 yang diubah menjadi garis lurus dalam UTM. Poligon ini tidak memperhitungkan validitas/invaliditas piksel dalam gambar, hanya batas array piksel gambar.
Poligon kemudian diklip ke bujur minimum dan maksimum zona UTM gambar. Dalam praktiknya, hal ini dapat menyebabkan beberapa piksel valid yang melebihi batas zona UTM tidak disertakan. Menghilangkan piksel ini dari indeks tidak akan menimbulkan masalah: beberapa gambar dari zona UTM tetangga akan mencakup area tersebut.
Perhatikan bahwa memangkas ke bujur minimum/maksimum zona UTM berarti tidak ada poligon yang melintasi antimeridian, yang akan membuat pemrosesan file ini sedikit lebih sederhana.