Datos de AlphaEarth Foundations en GCS

El bucket de GCS gs://alphaearth_foundations contiene archivos COG (GeoTIFF optimizado para la nube) que, en conjunto, conforman el conjunto de datos anual de Incorporación de satélites de AlphaEarth Foundations. Contiene los embeddings anuales de los años 2017 a 2025, inclusive.

Google se compromete a producir capas de incorporación de satélites anuales de forma continua y proporcionará un aviso con al menos un año de anticipación sobre cualquier cambio previsto en la entrega, sujeto a la disponibilidad continua de los flujos de datos de entrada del USGS y la ESA en los que se basa la producción del conjunto de datos.

Licencia

Este conjunto de datos se publica bajo la licencia CC-BY 4.0 y requiere el siguiente texto de atribución: "El conjunto de datos de AlphaEarth Foundations Satellite Embedding es un producto de Google y Google DeepMind".

Este bucket está configurado como "pago por solicitud", por lo que la descarga de datos puede generar cargos de salida y otros cargos.

Estructura del directorio

Se dividen en directorios por año. El directorio de cada año se divide en 120 subdirectorios, uno por zona UTM, cuyos nombres reflejan el número de zona y el hemisferio (N o S).

Dentro de cada directorio, hay varios archivos COG. Estos archivos contienen todos los datos de píxeles de esa zona UTM.

Estructura de archivos

Cada archivo tiene 8,192 × 8,192 píxeles y 64 canales. La magnitud de cada píxel, después de que se aplicó la asignación de desantificación (consulta a continuación), se normalizó para que tenga una longitud euclidiana de 1.

Los archivos contienen capas de vista general de 4096 x 4096 píxeles, 2048 x 2048 píxeles, y así sucesivamente, hasta una capa de vista general de nivel superior de 1 x 1. Estas capas de vista general se construyen de modo que cada píxel de vista general sea la media de los píxeles de mayor resolución que se encuentran debajo de ese píxel de vista general, en la que la magnitud de la media se normalizó para tener una longitud de 1.

Los canales corresponden, en orden, a los ejes A00 a A63 del conjunto de datos de Satellite Embedding. Los COG también contienen esta nomenclatura para los canales.

El valor de cada píxel para cada canal es un número entero de 8 bits con signo. La forma en que estos valores se asignan a los valores nativos (en el rango [-1, 1]) de las incorporaciones se explica en Cuantización inversa.

El valor -128 corresponde a un píxel enmascarado. Si está presente en un canal, estará presente en todos los canales. Los COG reflejan esto (es decir, tienen el valor NoData establecido en -128).

El nombre de cada archivo también contiene información. Por ejemplo, considera el archivo llamado gs://alphaearth_foundations/satellite_embedding/v1/annual/2019/1S/x8qqwcsisbgygl2ry-0000008192-0000000000.tiff. Como se evidencia en el nombre del archivo, este archivo forma parte de la incorporación anual de 2019 para la zona UTM 1S (zona 1, hemisferio sur). El nombre de archivo base, x8qqwcsisbgygl2ry-0000008192-0000000000, sirve para vincular este archivo con el nombre de la imagen de Satellite Embedding de Earth Engine correspondiente. En este ejemplo, este archivo corresponde a una parte de la imagen de Earth Engine GOOGLE/SATELLITE_EMBEDDING/V1/ANNUAL/x8qqwcsisbgygl2ry. Las dos partes decimales del nombre de archivo especifican dónde se encuentran los valores de este COG en relación con esa imagen de Earth Engine, como un desplazamiento en Y seguido de un desplazamiento en X. En este caso, el origen del píxel del COG se encuentra en (0, 8192) en relación con el origen de la imagen de Earth Engine. Esto se debe a que fue necesario subdividir cada imagen de Earth Engine (que son de 16384 x 16384 píxeles) para que los COG resultantes no fueran demasiado difíciles de manejar.

Descuantización

Para transformar el valor sin procesar de 8 bits con signo (que estará entre -127 y 127 inclusive, ya que -128 se reserva como el valor "sin datos") en cada canal de cada píxel en el valor de punto flotante listo para el análisis (que estará entre -1 y 1), la asignación que se debe realizar es

Dividir por 127.5
cuadrado
multiplicar por el signo del valor original

En NumPy, esto se expresaría de la siguiente manera:

  # values is a NumPy array of raw pixel values
  de_quantized_values = ((values / 127.5) ** 2) * np.sign(values)

En Earth Engine, la operación correspondiente sería

  var de_quantized_values = values.divide(127.5).pow(2).multiply(values.signum());

Cómo crear pirámides de muestras reducidas

Si planeas crear tus propias versiones con resolución reducida o vistas generales externas a partir de la capa de resolución base de estos COG (por ejemplo, después de crear un mosaico con varios archivos), debes seguir el siguiente procedimiento. Las técnicas de piramidación ráster estándar (p.ej., usar gdaladdo con -r average en los valores enteros sin procesar) no producirán resultados correctos.

Descuantización: Convierte los números enteros sin procesar de 8 bits en números de punto flotante con el método que se describe en Descuantización.
Suma de vectores: Realiza una suma de cada elemento de los vectores sin cuantizar.
Normalizar: Calcula la norma euclidiana del vector de suma resultante y divídela por la norma para volver a normalizarla a la longitud de unidad.

import numpy as np

# Assuming 'raw_values' is a NumPy array of shape (N, 64)
# containing the raw signed 8-bit integers from N pixels.
# N = 4 for a 2x2 aggregation, for example.

# 1. De-quantize
de_quantized_values = ((raw_values / 127.5) ** 2) * np.sign(raw_values)

# 2. Sum the de-quantized vectors
sum_vec = np.sum(de_quantized_values, axis=0)  # Shape (64,)

# 3. Normalize the sum vector
norm = np.linalg.norm(sum_vec)
# Add epsilon to prevent division by zero
pyramided_vec = sum_vec / (norm + 1e-9)

# 'pyramided_vec' is the correctly downsampled 64-dimensional unit vector.

Las capas de vista general de los COG se generaron con este procedimiento. Si satisfacen tus necesidades, puedes usarlas de inmediato sin realizar cálculos adicionales.

Manifiesto e índice

Puedes encontrar una lista de los archivos de este conjunto de datos en gs://alphaearth_foundations/satellite_embedding/v1/annual/manifest.txt.

Como no es posible determinar a partir de los nombres de los archivos qué área del mundo abarcan, también se proporcionó un índice en tres formatos (GeoParquet, GeoPackage y CSV) en los archivos gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.parquet, gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.gpkg y gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.csv. Este índice contiene una entrada para cada archivo del conjunto de datos. La información que se proporciona para cada archivo es la siguiente:

la geometría del archivo como WGS84 (es decir, EPSG:4326). En el formulario CSV, se encuentra en la columna WKT. Consulta Procesamiento de geometría para obtener detalles sobre los cálculos.
crs: CRS de la zona UTM a la que pertenece esta imagen como código EPSG, como EPSG:32610.
year: Año que abarca la imagen.
utm_zone: Es la zona UTM de la imagen, como 10N.
utm_west, utm_south, utm_east, utm_north: Son los límites de UTM del array de píxeles sin procesar. Esto no refleja ningún procesamiento de geometría y, además, incluye todos los píxeles, ya sean válidos o no.
wgs84_west, wgs84_south, wgs84_east, wgs84_north: Son la longitud y la latitud mínimas y máximas de la geometría WGS84.

Procesamiento de geometría

El array de píxeles se encuentra de forma nativa en alguna zona UTM, por lo que, en esa zona, el cuadro delimitador del array de píxeles es un rectángulo simple. Ese cuadro de límite se transforma en un polígono en WGS84. Este polígono incluye varios puntos adicionales para que sus bordes sigan de cerca las líneas curvas en WGS84 en las que se transforman las líneas rectas en UTM. Este polígono no tiene en cuenta la validez de los píxeles en la imagen, solo los límites del array de píxeles de la imagen.

Luego, el polígono se recorta según la longitud mínima y máxima de la zona UTM de la imagen. En la práctica, esto puede hacer que no se incluyan algunos píxeles válidos que se extienden más allá del borde de la zona UTM. Omitir estos píxeles del índice no debería causar ningún problema, ya que alguna imagen de la zona UTM vecina debería cubrir esa área.

Ten en cuenta que el recorte a la longitud mínima y máxima de la zona UTM significa que ningún polígono cruza el antimeridiano, lo que debería simplificar un poco el procesamiento de este archivo.

Datos de AlphaEarth Foundations en GCS Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.