gs://alphaearth_foundations GCS 值區包含 COG (Cloud Optimized GeoTIFF) 檔案,這些檔案共同組成 AlphaEarth Foundations 年度衛星嵌入資料集。其中包含 2017 年至 2024 年的年度嵌入 (含 2017 年和 2024 年)。
授權
這個資料集是依據「創用 CC 姓名標示 4.0」(CC BY 4.0) 條款授權,且必須附上以下出處資訊:「AlphaEarth Foundations Satellite Embedding 資料集是由 Google 和 Google DeepMind 製作。」
這個值區設為「要求者付費」,因此下載資料可能會產生輸出和其他費用。
目錄結構
這些檔案會依年份劃分為目錄;每個年份的目錄會劃分為 120 個子目錄,每個子目錄對應一個 UTM 區域,子目錄名稱會反映區域編號和半球 (N 或 S)。
每個目錄中都有許多 COG 檔案。這些檔案包含該 UTM 區域的所有像素資料。
檔案結構
每個檔案都是 8192x8192 像素,並有 64 個通道。套用去量化對應 (如下所示) 後,每個像素的大小都會經過正規化,因此歐幾里得長度為 1。
檔案包含 4096x4096 像素、2048x2048 像素等概覽圖層,直到 1x1 的頂層概覽圖層為止。這些概覽圖層的建構方式,是讓每個概覽像素都是該概覽像素下方最高解析度像素的平均值,且平均值的量值已正規化為長度 1。
這些管道依序對應至 Satellite Embedding 資料集的 A00 到 A63 軸。COGs 也包含頻道的這個命名。
每個像素的各個管道值都是帶正負號的 8 位元整數。這些值如何對應至嵌入項目的原生值 (範圍為 [-1, 1]),說明如下。
值為 -128 時,對應的是已遮蓋的像素。如果某個管道有這項資訊,所有管道都會有。COGS 會反映這點 (也就是說,COGS 的 NoData 值設為 -128)。
每個檔案的名稱也包含一些資訊。舉例來說,請考慮名為 gs://alphaearth_foundations/satellite_embedding/v1/annual/2019/1S/x8qqwcsisbgygl2ry-0000008192-0000000000.tiff 的檔案。如上所述,這個檔案是 2019 年年度嵌入作業的一部分,位於 UTM 1S 區域 (第 1 區,南半球)。基本檔案名稱 x8qqwcsisbgygl2ry-0000008192-0000000000 可將這個檔案連結至對應的 Earth Engine 衛星嵌入圖片名稱。在本範例中,這個檔案對應於 Earth Engine 圖片 GOOGLE/SATELLITE_EMBEDDING/V1/ANNUAL/x8qqwcsisbgygl2ry 的一部分。檔案名稱的兩個十進位部分會指定這個 COG 的值相對於該 Earth Engine 影像的位置,以 Y 中的偏移量表示,後接 X 中的偏移量。在本例中,相對於 Earth Engine 影像的原點,COG 的像素原點位於 (0, 8192)。這是因為必須細分每個 Earth Engine 圖像 (16384x16384 像素),才能避免產生的 COG 過於笨重。
反量化
如要將每個像素各管道的原始 8 位元帶正負號值 (介於 -127 和 127 之間,因為 -128 保留做為「無資料」值) 轉換為可供分析的浮點值 (介於 -1 和 1 之間),請執行下列對應:
- 除以 127.5
- 正方形
- 乘以原始值的正負號
在 NumPy 中,這會表示為
# values is a NumPy array of raw pixel values
de_quantized_values = ((values / 127.5) ** 2) * np.sign(values)
在 Earth Engine 中,對應的作業會是
var de_quantized_values = values.divide(127.5).pow(2).multiply(values.signum());
資訊清單和索引
如要查看這個資料集中的檔案清單,請參閱 gs://alphaearth_foundations/satellite_embedding/v1/annual/manifest.txt。
由於無法從檔案名稱判斷涵蓋的全球區域,因此我們也以三種形式 (GeoParquet、GeoPackage 和 CSV) 提供索引,分別位於 gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.parquet、gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.gpkg 和 gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.csv 檔案中。這個索引包含資料集中每個檔案的項目。每個檔案的資訊
- 檔案的幾何圖形,以 WGS84 (即 EPSG:4326) 多邊形。在 CSV 格式中,這位於
WKT欄。請參閱下文,瞭解如何計算這項幾何圖形。 crs:這個圖片所屬 UTM 區域的 CRS,以 EPSG 程式碼表示,例如EPSG:32610。year:圖片涵蓋的年份。utm_zone:圖片的 UTM 區域,例如10N。utm_west、utm_south、utm_east、utm_north:原始像素陣列的 UTM 邊界。這不反映任何幾何處理,且包含所有像素,無論是否有效。wgs84_west、wgs84_south、wgs84_east、wgs84_north:WGS84 幾何的最小/最大經緯度。
幾何處理
像素陣列原生於某些 UTM 區域,因此在該 UTM 區域中,像素陣列的邊界方塊是簡單的矩形。該定界框會轉換為 WGS84 中的多邊形。這個多邊形包含許多額外點,因此邊緣會緊密貼合 WGS84 中的曲線,而這些曲線是 UTM 中的直線轉換而來。這個多邊形不會考量圖片中像素的有效性/無效性,只會考量圖片像素陣列的界線。
然後,系統會將多邊形裁剪至圖片 UTM 區域的最小和最大經度。實際上,這可能會導致系統未納入幾個位於 UTM 區域邊緣的有效像素。從索引中省略這些像素應該不會造成任何問題:鄰近 UTM 區域的某些圖片應會涵蓋該區域。
請注意,裁剪至 UTM 區域的最小/最大經度表示沒有多邊形會跨越子午線,這應該會讓處理這個檔案稍微簡單一些。