AlphaEarth Foundations GCS 資料

gs://alphaearth_foundations GCS 值區包含 COG (Cloud Optimized GeoTIFF) 檔案,這些檔案共同組成 AlphaEarth Foundations 年度衛星嵌入資料集。其中包含 2017 年至 2024 年的年度嵌入 (含 2017 年和 2024 年)。

授權

這個資料集是依據「創用 CC 姓名標示 4.0」(CC BY 4.0) 條款授權,且必須附上以下出處資訊:「AlphaEarth Foundations Satellite Embedding 資料集是由 Google 和 Google DeepMind 製作。」

這個值區設為「要求者付費」,因此下載資料可能會產生輸出和其他費用。

目錄結構

這些檔案會依年份劃分為目錄;每個年份的目錄會劃分為 120 個子目錄,每個子目錄對應一個 UTM 區域,子目錄名稱會反映區域編號和半球 (NS)。

每個目錄中都有許多 COG 檔案。這些檔案包含該 UTM 區域的所有像素資料。

檔案結構

每個檔案都是 8192x8192 像素,並有 64 個通道。套用去量化對應 (如下所示) 後,每個像素的大小都會經過正規化,因此歐幾里得長度為 1。

檔案包含 4096x4096 像素、2048x2048 像素等概覽圖層,直到 1x1 的頂層概覽圖層為止。這些概覽圖層的建構方式,是讓每個概覽像素都是該概覽像素下方最高解析度像素的平均值,且平均值的量值已正規化為長度 1。

這些管道依序對應至 Satellite Embedding 資料集的 A00A63 軸。COGs 也包含頻道的這個命名。

每個像素的各個管道值都是帶正負號的 8 位元整數。這些值如何對應至嵌入項目的原生值 (範圍為 [-1, 1]),說明如下。

值為 -128 時,對應的是已遮蓋的像素。如果某個管道有這項資訊,所有管道都會有。COGS 會反映這點 (也就是說,COGS 的 NoData 值設為 -128)。

每個檔案的名稱也包含一些資訊。舉例來說,請考慮名為 gs://alphaearth_foundations/satellite_embedding/v1/annual/2019/1S/x8qqwcsisbgygl2ry-0000008192-0000000000.tiff 的檔案。如上所述,這個檔案是 2019 年年度嵌入作業的一部分,位於 UTM 1S 區域 (第 1 區,南半球)。基本檔案名稱 x8qqwcsisbgygl2ry-0000008192-0000000000 可將這個檔案連結至對應的 Earth Engine 衛星嵌入圖片名稱。在本範例中,這個檔案對應於 Earth Engine 圖片 GOOGLE/SATELLITE_EMBEDDING/V1/ANNUAL/x8qqwcsisbgygl2ry 的一部分。檔案名稱的兩個十進位部分會指定這個 COG 的值相對於該 Earth Engine 影像的位置,以 Y 中的偏移量表示,後接 X 中的偏移量。在本例中,相對於 Earth Engine 影像的原點,COG 的像素原點位於 (0, 8192)。這是因為必須細分每個 Earth Engine 圖像 (16384x16384 像素),才能避免產生的 COG 過於笨重。

反量化

如要將每個像素各管道的原始 8 位元帶正負號值 (介於 -127 和 127 之間,因為 -128 保留做為「無資料」值) 轉換為可供分析的浮點值 (介於 -1 和 1 之間),請執行下列對應:

  • 除以 127.5
  • 正方形
  • 乘以原始值的正負號

在 NumPy 中,這會表示為

  # values is a NumPy array of raw pixel values
  de_quantized_values = ((values / 127.5) ** 2) * np.sign(values)

在 Earth Engine 中,對應的作業會是

  var de_quantized_values = values.divide(127.5).pow(2).multiply(values.signum());

資訊清單和索引

如要查看這個資料集中的檔案清單,請參閱 gs://alphaearth_foundations/satellite_embedding/v1/annual/manifest.txt

由於無法從檔案名稱判斷涵蓋的全球區域,因此我們也以三種形式 (GeoParquet、GeoPackage 和 CSV) 提供索引,分別位於 gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.parquetgs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.gpkggs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.csv 檔案中。這個索引包含資料集中每個檔案的項目。每個檔案的資訊

  • 檔案的幾何圖形,以 WGS84 (即 EPSG:4326) 多邊形。在 CSV 格式中,這位於 WKT 欄。請參閱下文,瞭解如何計算這項幾何圖形。
  • crs:這個圖片所屬 UTM 區域的 CRS,以 EPSG 程式碼表示,例如 EPSG:32610
  • year:圖片涵蓋的年份。
  • utm_zone:圖片的 UTM 區域,例如 10N
  • utm_westutm_southutm_eastutm_north:原始像素陣列的 UTM 邊界。這不反映任何幾何處理,且包含所有像素,無論是否有效。
  • wgs84_westwgs84_southwgs84_eastwgs84_north:WGS84 幾何的最小/最大經緯度。

幾何處理

像素陣列原生於某些 UTM 區域,因此在該 UTM 區域中,像素陣列的邊界方塊是簡單的矩形。該定界框會轉換為 WGS84 中的多邊形。這個多邊形包含許多額外點,因此邊緣會緊密貼合 WGS84 中的曲線,而這些曲線是 UTM 中的直線轉換而來。這個多邊形不會考量圖片中像素的有效性/無效性,只會考量圖片像素陣列的界線。

然後,系統會將多邊形裁剪至圖片 UTM 區域的最小和最大經度。實際上,這可能會導致系統未納入幾個位於 UTM 區域邊緣的有效像素。從索引中省略這些像素應該不會造成任何問題:鄰近 UTM 區域的某些圖片應會涵蓋該區域。

請注意,裁剪至 UTM 區域的最小/最大經度表示沒有多邊形會跨越子午線,這應該會讓處理這個檔案稍微簡單一些。