gs://alphaearth_foundations GCS 存储分区包含 COG(云优化的 GeoTIFF)文件,这些文件共同构成了 AlphaEarth Foundations 年度卫星嵌入数据集。它包含 2017 年到 2024 年(含)的年度嵌入。
许可
此数据集已获得 CC-BY 4.0 许可,并且需要提供以下提供方信息:“AlphaEarth Foundations 卫星嵌入数据集由 Google 和 Google DeepMind 制作。”
此存储分区设置为“请求者付费”,因此下载数据可能会产生出站流量费用和其他费用。
目录结构
这些文件按年份划分为目录;每个年份的目录又划分为 120 个子目录,每个子目录对应一个 UTM 带区,其名称反映了带区编号和半球(N 或 S)。
每个目录中都有许多 COG 文件。这些文件包含相应 UTM 地带的所有像素数据。
文件结构
每个文件的尺寸为 8192x8192 像素,包含 64 个通道。在应用反量化映射(见下文)后,每个像素的幅度都已归一化,使其欧几里得长度为 1。
这些文件包含 4096x4096 像素、2048x2048 像素等尺寸的概览层,一直到 1x1 像素的顶级概览层。这些概览层经过精心构建,使得每个概览像素都是该概览像素下最高分辨率像素的平均值,其中平均值的大小已归一化为长度 1。
这些渠道按顺序对应于卫星嵌入数据集的 A00 到 A63 轴。COGs 还包含渠道的这种命名方式。
每个渠道的每个像素值都是一个有符号的 8 位整数。下文介绍了如何将这些值映射到嵌入的本地值(范围为 [-1, 1])。
值 -128 对应于被遮盖的像素。如果某个频道中存在该属性,则所有频道中都会存在该属性。COGS 会反映这一点(即,它们的 NoData 值设置为 -128)。
每个文件的名称也包含一些信息。例如,假设存在名为 gs://alphaearth_foundations/satellite_embedding/v1/annual/2019/1S/x8qqwcsisbgygl2ry-0000008192-0000000000.tiff 的文件。
如上所述,此文件是 2019 年年度嵌入的一部分,位于 UTM 区域 1S(区域 1,南半球)。基本文件名 x8qqwcsisbgygl2ry-0000008192-0000000000 用于将此文件与相应的 Earth Engine 卫星嵌入图片名称相关联。在此示例中,此文件对应于 Earth Engine 影像 GOOGLE/SATELLITE_EMBEDDING/V1/ANNUAL/x8qqwcsisbgygl2ry 的一部分。文件名的两个十进制部分指定了相应 COG 的值相对于相应 Earth Engine 影像的位置,以 Y 偏移量在前、X 偏移量在后的顺序表示。在这种情况下,相对于 Earth Engine 映像的原点,COG 的像素原点位于 (0, 8192)。这是因为有必要细分每个 Earth Engine 映像(16384x16384 像素),以便生成的 COG 不会过于笨重。
反量化
为了将每个像素的每个通道中的原始有符号 8 位值(介于 -127 和 127 之间,含这两个值,因为 -128 保留为“无数据”值)转换为可用于分析的浮点值(介于 -1 和 1 之间),需要执行的映射为
- 除以 127.5
- 正方形
- 乘以原始值的符号
在 NumPy 中,这可以表示为
# values is a NumPy array of raw pixel values
de_quantized_values = ((values / 127.5) ** 2) * np.sign(values)
在 Earth Engine 中,相应的操作将是
var de_quantized_values = values.divide(127.5).pow(2).multiply(values.signum());
清单和索引
此数据集中的文件列表可在 gs://alphaearth_foundations/satellite_embedding/v1/annual/manifest.txt 中找到。
由于无法从文件名中确定这些文件覆盖的世界区域,因此我们还提供了索引,以三种形式(GeoParquet、GeoPackage 和 CSV)包含在文件 gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.parquet、gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.gpkg 和 gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.csv 中。此索引包含数据集中每个文件对应的一个条目。为每个文件提供的信息包括
- 文件的几何图形(采用 WGS84 坐标系,即EPSG:4326) 多边形。在 CSV 表单中,此信息位于
WKT列中。如需详细了解如何计算此几何图形,请参阅下文。 crs:相应图片所属 UTM 带的 CRS(以 EPSG 代码表示),例如EPSG:32610。year:相应图片涵盖的年份。utm_zone:图片的 UTM 带区,例如10N。utm_west、utm_south、utm_east、utm_north:原始像素数组的 UTM 边界。这不反映任何几何处理,并且包括所有像素,无论它们是否有效。wgs84_west、wgs84_south、wgs84_east、wgs84_north:WGS84 几何图形的最小/最大经度和纬度。
几何图形处理
像素阵列本身位于某个 UTM 带中,因此在该 UTM 带中,像素阵列的边界框是一个简单的矩形。该边界框会转换为 WGS84 中的多边形。此多边形包含许多额外的点,因此其边会紧密贴合 WGS84 中 UTM 转换成的直线所对应的曲线。此多边形不考虑图片中像素的有效性/无效性,仅考虑图片像素数组的边界。
然后,将多边形裁剪为图片所在 UTM 区域的最小和最大经度。实际上,这可能会导致它不包含悬挂在 UTM 区域边缘的一些有效像素。从索引中省略这些像素应该不会造成任何问题:相邻 UTM 带中的某些图片应该会覆盖该区域。
请注意,剪裁到 UTM 区域的最小/最大经度意味着没有多边形会跨越反子午线,这应该会使处理此文件变得简单一些。