AlphaEarth Foundations GCS 데이터

gs://alphaearth_foundations GCS 버킷에는 AlphaEarth Foundations 연간 위성 삽입 데이터 세트를 구성하는 COG (Cloud Optimized GeoTIFF) 파일이 포함되어 있습니다. 2017년부터 2025년까지의 연간 임베딩이 포함되어 있습니다.

Google은 연간 위성 삽입 레이어를 지속적으로 제작하기 위해 노력하고 있으며, 데이터 세트 제작에 사용되는 USGS 및 ESA의 입력 데이터 스트림의 지속적인 사용 가능 여부에 따라 제공에 예상되는 변경사항이 있는 경우 최소 1년 전에 사전 통지를 제공합니다.

라이선스

이 데이터 세트는 CC-BY 4.0에 따라 라이선스가 부여되며 다음과 같은 저작자 표시 텍스트가 필요합니다. 'AlphaEarth Foundations Satellite Embedding 데이터 세트는 Google 및 Google DeepMind에서 제작했습니다.'

이 버킷은 '액세스 요금은 요청자가 지불'로 설정되어 있으므로 데이터를 다운로드하면 데이터 유출 및 기타 요금이 발생할 수 있습니다.

디렉터리 구조

연도별로 디렉터리로 구분되며, 각 연도의 디렉터리는 UTM 영역당 하나씩 120개의 하위 디렉터리로 구분됩니다. 하위 디렉터리의 이름은 영역 번호와 반구 (N 또는 S)를 반영합니다.

각 디렉터리에는 여러 COG 파일이 있습니다. 이 파일에는 해당 UTM 영역의 모든 픽셀 데이터가 포함됩니다.

파일 구조

각 파일은 8192x8192픽셀이며 채널은 64개입니다. 역양자화 매핑이 적용된 후 (아래 참고) 각 픽셀의 크기는 유클리드 길이가 1이 되도록 정규화되었습니다.

파일에는 4096x4096픽셀, 2048x2048픽셀 등의 개요 레이어가 1x1 최상위 개요 레이어까지 포함됩니다. 이러한 개요 레이어는 각 개요 픽셀이 해당 개요 픽셀 아래에 있는 최고 해상도 픽셀의 평균이 되도록 구성됩니다. 여기서 평균의 크기는 길이가 1이 되도록 정규화됩니다.

채널은 위성 임베딩 데이터 세트의 A00~A63 축에 순서대로 대응합니다. COG에도 채널의 이 이름이 포함됩니다.

각 채널의 각 픽셀 값은 부호가 있는 8비트 정수입니다. 이러한 값이 삽입의 네이티브 값 (범위 [-1, 1])에 매핑되는 방식은 역양자화에 설명되어 있습니다.

-128 값은 마스크 처리된 픽셀에 해당합니다. 한 채널에 있으면 모든 채널에 표시됩니다. COG는 이를 반영합니다 (즉, NoData 값이 -128로 설정되어 있음).

각 파일의 이름에도 일부 정보가 포함됩니다. 예를 들어 gs://alphaearth_foundations/satellite_embedding/v1/annual/2019/1S/x8qqwcsisbgygl2ry-0000008192-0000000000.tiff이라는 파일을 생각해 보세요. 파일 이름에서 알 수 있듯이 이 파일은 UTM 영역 1S (영역 1, 남반구)의 2019년 연간 삽입의 일부입니다. 기본 파일 이름 x8qqwcsisbgygl2ry-0000008192-0000000000은 이 파일을 해당 Earth Engine 위성 삽입 이미지 이름에 연결하는 데 사용됩니다. 이 예에서 이 파일은 Earth Engine 이미지 GOOGLE/SATELLITE_EMBEDDING/V1/ANNUAL/x8qqwcsisbgygl2ry의 일부에 해당합니다. 파일 이름의 두 소수 부분은 이 COG의 값이 해당 Earth Engine 이미지에 대해 Y 오프셋과 X 오프셋으로 지정되는 위치를 나타냅니다. 이 경우 COG의 픽셀 원점은 Earth Engine 이미지의 원점을 기준으로 (0, 8192)에 있습니다. 이는 결과 COG가 너무 다루기 어려워지지 않도록 각 Earth Engine 이미지 (16384x16384픽셀)를 세분화해야 했기 때문입니다.

역양자화

각 픽셀의 각 채널에 있는 원시 부호 있는 8비트 값(-128은 '데이터 없음' 값으로 예약되어 있으므로 -127~127)을 분석 준비 부동 소수점 값(-1~1)으로 변환하려면 실행할 매핑은 다음과 같습니다.

  • 127.5로 나눕니다.
  • 정사각형
  • 원래 값의 부호를 곱합니다.

NumPy에서는 다음과 같이 표현됩니다.

  # values is a NumPy array of raw pixel values
  de_quantized_values = ((values / 127.5) ** 2) * np.sign(values)

Earth Engine에서 이에 해당하는 작업은 다음과 같습니다.

  var de_quantized_values = values.divide(127.5).pow(2).multiply(values.signum());

다운샘플링된 피라미드 만들기

이러한 COG의 기본 해상도 레이어에서 자체 다운샘플링 버전이나 외부 개요를 만들려면 (예: 여러 파일을 모자이크한 후) 다음 절차를 사용해야 합니다. 표준 래스터 피라미드 기법 (예: 원시 정수 값에 -r average를 사용하여 gdaladdo 사용)은 올바른 결과를 생성하지 않습니다.

  1. 양자화 해제: 양자화 해제에 설명된 방법을 사용하여 원시 8비트 정수를 부동 소수점으로 변환합니다.
  2. 벡터 합계: 양자화 해제된 벡터의 요소별 합계를 실행합니다.
  3. 정규화: 결과 합계 벡터의 유클리드 노름을 계산하고 노름으로 나누어 단위 길이로 다시 정규화합니다.
import numpy as np

# Assuming 'raw_values' is a NumPy array of shape (N, 64)
# containing the raw signed 8-bit integers from N pixels.
# N = 4 for a 2x2 aggregation, for example.

# 1. De-quantize
de_quantized_values = ((raw_values / 127.5) ** 2) * np.sign(raw_values)

# 2. Sum the de-quantized vectors
sum_vec = np.sum(de_quantized_values, axis=0)  # Shape (64,)

# 3. Normalize the sum vector
norm = np.linalg.norm(sum_vec)
# Add epsilon to prevent division by zero
pyramided_vec = sum_vec / (norm + 1e-9)

# 'pyramided_vec' is the correctly downsampled 64-dimensional unit vector.

COG의 개요 레이어는 이 절차를 사용하여 생성되었습니다. 필요에 맞는 경우 추가 계산 없이 이러한 개요 레이어를 즉시 사용할 수 있습니다.

매니페스트 및 색인

이 데이터 세트의 파일 목록은 gs://alphaearth_foundations/satellite_embedding/v1/annual/manifest.txt에서 확인할 수 있습니다.

파일 이름에서 다루는 지역을 확인할 수 없으므로 gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.parquet, gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.gpkg, gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.csv 파일에 세 가지 형식 (GeoParquet, GeoPackage, CSV)으로 색인도 제공됩니다. 이 색인에는 데이터 세트의 각 파일에 대한 항목이 하나씩 포함됩니다. 각 파일에 제공되는 정보는 다음과 같습니다.

  • 파일의 지오메트리를 WGS84 (예: EPSG:4326) 다각형입니다. CSV 형식에서는 WKT 열에 있습니다. 계산에 관한 자세한 내용은 기하 도형 처리를 참고하세요.
  • crs: 이 이미지가 속한 UTM 영역의 CRS입니다(EPSG 코드, 예: EPSG:32610).
  • year: 이미지가 포함하는 연도입니다.
  • utm_zone: 이미지의 UTM 영역입니다(예: 10N).
  • utm_west, utm_south, utm_east, utm_north: 원시 픽셀 배열의 UTM 경계입니다. 여기에는 형상 처리가 반영되지 않으며 유효한지 여부와 관계없이 모든 픽셀이 포함됩니다.
  • wgs84_west, wgs84_south, wgs84_east, wgs84_north: WGS84 지오메트리의 최소 및 최대 경도와 위도입니다.

기하학 처리

픽셀 배열은 기본적으로 일부 UTM 영역에 있으므로 해당 UTM 영역에서 픽셀 배열의 경계 상자는 단순한 직사각형입니다. 이 경계 상자는 WGS84의 다각형으로 변환됩니다. 이 다각형에는 UTM의 직선이 변환되는 WGS84의 곡선을 가장 잘 따르도록 여러 개의 추가 점이 포함되어 있습니다. 이 다각형은 이미지의 픽셀 유효성을 고려하지 않고 이미지의 픽셀 배열 경계만 고려합니다.

그런 다음 다각형이 이미지의 UTM 영역의 최소 및 최대 경도로 클리핑됩니다. 실제로 UTM 영역의 가장자리를 지나 확장되는 유효한 픽셀이 몇 개 포함되지 않을 수 있습니다. 인덱스에서 이러한 픽셀을 생략해도 문제는 없습니다. 인접한 UTM 영역의 이미지가 해당 영역을 커버해야 합니다.

UTM 영역의 최소 및 최대 경도로 클리핑하면 다각형이 본초 자오선을 교차하지 않으므로 이 파일의 처리가 약간 더 간단해집니다.