AlphaEarth Foundations GCS 数据

gs://alphaearth_foundations GCS 存储分区包含 COG(云优化的 GeoTIFF)文件,这些文件共同构成了 AlphaEarth Foundations 年度卫星嵌入数据集。它包含 2017 年到 2024 年(含)的年度嵌入。

许可

此数据集已获得 CC-BY 4.0 许可,并且需要提供以下提供方信息:“AlphaEarth Foundations 卫星嵌入数据集由 Google 和 Google DeepMind 制作。”

此存储分区设置为“请求者付费”,因此下载数据可能会产生出站流量费用和其他费用。

目录结构

这些文件按年份划分为目录;每个年份的目录又划分为 120 个子目录,每个子目录对应一个 UTM 带区,其名称反映了带区编号和半球(NS)。

每个目录中都有许多 COG 文件。这些文件包含相应 UTM 地带的所有像素数据。

文件结构

每个文件的尺寸为 8192x8192 像素,包含 64 个通道。在应用反量化映射(见下文)后,每个像素的幅度都已归一化,使其欧几里得长度为 1。

这些文件包含 4096x4096 像素、2048x2048 像素等尺寸的概览层,一直到 1x1 像素的顶级概览层。这些概览层经过精心构建,使得每个概览像素都是该概览像素下最高分辨率像素的平均值,其中平均值的大小已归一化为长度 1。

这些渠道按顺序对应于卫星嵌入数据集的 A00A63 轴。COGs 还包含渠道的这种命名方式。

每个渠道的每个像素值都是一个有符号的 8 位整数。下文介绍了如何将这些值映射到嵌入的本地值(范围为 [-1, 1])。

值 -128 对应于被遮盖的像素。如果某个频道中存在该属性,则所有频道中都会存在该属性。COGS 会反映这一点(即,它们的 NoData 值设置为 -128)。

每个文件的名称也包含一些信息。例如,假设存在名为 gs://alphaearth_foundations/satellite_embedding/v1/annual/2019/1S/x8qqwcsisbgygl2ry-0000008192-0000000000.tiff 的文件。 如上所述,此文件是 2019 年年度嵌入的一部分,位于 UTM 区域 1S(区域 1,南半球)。基本文件名 x8qqwcsisbgygl2ry-0000008192-0000000000 用于将此文件与相应的 Earth Engine 卫星嵌入图片名称相关联。在此示例中,此文件对应于 Earth Engine 影像 GOOGLE/SATELLITE_EMBEDDING/V1/ANNUAL/x8qqwcsisbgygl2ry 的一部分。文件名的两个十进制部分指定了相应 COG 的值相对于相应 Earth Engine 影像的位置,以 Y 偏移量在前、X 偏移量在后的顺序表示。在这种情况下,相对于 Earth Engine 映像的原点,COG 的像素原点位于 (0, 8192)。这是因为有必要细分每个 Earth Engine 映像(16384x16384 像素),以便生成的 COG 不会过于笨重。

反量化

为了将每个像素的每个通道中的原始有符号 8 位值(介于 -127 和 127 之间,含这两个值,因为 -128 保留为“无数据”值)转换为可用于分析的浮点值(介于 -1 和 1 之间),需要执行的映射为

  • 除以 127.5
  • 正方形
  • 乘以原始值的符号

在 NumPy 中,这可以表示为

  # values is a NumPy array of raw pixel values
  de_quantized_values = ((values / 127.5) ** 2) * np.sign(values)

在 Earth Engine 中,相应的操作将是

  var de_quantized_values = values.divide(127.5).pow(2).multiply(values.signum());

清单和索引

此数据集中的文件列表可在 gs://alphaearth_foundations/satellite_embedding/v1/annual/manifest.txt 中找到。

由于无法从文件名中确定这些文件覆盖的世界区域,因此我们还提供了索引,以三种形式(GeoParquet、GeoPackage 和 CSV)包含在文件 gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.parquetgs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.gpkggs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.csv 中。此索引包含数据集中每个文件对应的一个条目。为每个文件提供的信息包括

  • 文件的几何图形(采用 WGS84 坐标系,即EPSG:4326) 多边形。在 CSV 表单中,此信息位于 WKT 列中。如需详细了解如何计算此几何图形,请参阅下文。
  • crs:相应图片所属 UTM 带的 CRS(以 EPSG 代码表示),例如 EPSG:32610
  • year:相应图片涵盖的年份。
  • utm_zone:图片的 UTM 带区,例如 10N
  • utm_westutm_southutm_eastutm_north:原始像素数组的 UTM 边界。这不反映任何几何处理,并且包括所有像素,无论它们是否有效。
  • wgs84_westwgs84_southwgs84_eastwgs84_north:WGS84 几何图形的最小/最大经度和纬度。

几何图形处理

像素阵列本身位于某个 UTM 带中,因此在该 UTM 带中,像素阵列的边界框是一个简单的矩形。该边界框会转换为 WGS84 中的多边形。此多边形包含许多额外的点,因此其边会紧密贴合 WGS84 中 UTM 转换成的直线所对应的曲线。此多边形不考虑图片中像素的有效性/无效性,仅考虑图片像素数组的边界。

然后,将多边形裁剪为图片所在 UTM 区域的最小和最大经度。实际上,这可能会导致它不包含悬挂在 UTM 区域边缘的一些有效像素。从索引中省略这些像素应该不会造成任何问题:相邻 UTM 带中的某些图片应该会覆盖该区域。

请注意,剪裁到 UTM 区域的最小/最大经度意味着没有多边形会跨越反子午线,这应该会使处理此文件变得简单一些。