gs://alphaearth_foundations GCS 버킷에는 AlphaEarth Foundations 연간 위성 삽입 데이터 세트를 구성하는 COG (Cloud Optimized GeoTIFF) 파일이 포함되어 있습니다. 2017년부터 2024년까지의 연간 임베딩이 포함되어 있습니다.
라이선스
이 데이터 세트는 CC-BY 4.0에 따라 라이선스가 부여되며, 다음과 같은 저작자 표시 텍스트가 필요합니다. 'AlphaEarth Foundations Satellite Embedding 데이터 세트는 Google 및 Google DeepMind에서 제작했습니다.'
이 버킷은 '액세스 요금은 요청자가 지불'로 설정되어 있으므로 데이터를 다운로드하면 데이터 유출 및 기타 요금이 발생할 수 있습니다.
디렉터리 구조
연도별로 디렉터리로 구분되며, 각 연도의 디렉터리는 UTM 영역당 하나씩 120개의 하위 디렉터리로 구분됩니다. 하위 디렉터리의 이름은 영역 번호와 반구 (N 또는 S)를 반영합니다.
각 디렉터리에는 여러 개의 COG 파일이 있습니다. 이 파일에는 해당 UTM 영역의 모든 픽셀 데이터가 포함됩니다.
파일 구조
각 파일은 8192x8192픽셀이며 채널은 64개입니다. 역양자화 매핑이 적용된 후 (아래 참고) 각 픽셀의 크기는 유클리드 길이가 1이 되도록 정규화되었습니다.
파일에는 4096x4096픽셀, 2048x2048픽셀 등의 개요 레이어가 1x1 최상위 개요 레이어까지 포함됩니다. 이러한 개요 레이어는 각 개요 픽셀이 해당 개요 픽셀 아래에 있는 최고 해상도 픽셀의 평균이 되도록 구성됩니다. 여기서 평균의 크기는 길이가 1이 되도록 정규화됩니다.
채널은 위성 임베딩 데이터 세트의 A00~A63 축에 순서대로 대응합니다. COG에도 채널의 이름이 포함됩니다.
각 채널의 각 픽셀 값은 부호가 있는 8비트 정수입니다. 이러한 값이 삽입의 네이티브 값 (범위 [-1, 1])에 매핑되는 방식은 아래에 설명되어 있습니다.
-128 값은 마스크 처리된 픽셀에 해당합니다. 한 채널에 있으면 모든 채널에 표시됩니다. COG는 이를 반영합니다 (즉, NoData 값이 -128로 설정되어 있음).
각 파일의 이름에도 일부 정보가 포함됩니다. 예를 들어 gs://alphaearth_foundations/satellite_embedding/v1/annual/2019/1S/x8qqwcsisbgygl2ry-0000008192-0000000000.tiff이라는 파일을 생각해 보세요.
위에서 설명한 것처럼 이 파일은 2019년 연간 삽입의 일부이며 UTM 영역 1S (영역 1, 남반구)에 있습니다. 기본 파일 이름 x8qqwcsisbgygl2ry-0000008192-0000000000은 이 파일을 해당 Earth Engine 위성 삽입 이미지 이름에 연결하는 데 사용됩니다. 이 예에서 이 파일은 Earth Engine 이미지 GOOGLE/SATELLITE_EMBEDDING/V1/ANNUAL/x8qqwcsisbgygl2ry의 일부에 해당합니다. 파일 이름의 두 소수 부분은 이 COG의 값이 해당 Earth Engine 이미지와 관련하여 어디에 있는지 Y의 오프셋과 X의 오프셋으로 지정합니다. 이 경우 COG의 픽셀 원점은 Earth Engine 이미지의 원점을 기준으로 (0, 8192)에 있습니다.
결과 COG가 너무 커지지 않도록 각 Earth Engine 이미지 (16384x16384픽셀)를 세분화해야 했기 때문입니다.
역양자화
각 픽셀의 각 채널에 있는 원시 부호 있는 8비트 값(-128은 '데이터 없음' 값으로 예약되어 있으므로 -127~127)을 분석 준비 부동 소수점 값(-1~1)으로 변환하려면 실행할 매핑은 다음과 같습니다.
- 127.5로 나눕니다.
- 정사각형
- 원래 값의 부호를 곱합니다.
NumPy에서는 다음과 같이 표현됩니다.
# values is a NumPy array of raw pixel values
de_quantized_values = ((values / 127.5) ** 2) * np.sign(values)
Earth Engine에서 이에 해당하는 작업은 다음과 같습니다.
var de_quantized_values = values.divide(127.5).pow(2).multiply(values.signum());
매니페스트 및 색인
이 데이터 세트의 파일 목록은 gs://alphaearth_foundations/satellite_embedding/v1/annual/manifest.txt에서 확인할 수 있습니다.
파일 이름에서 전 세계 어느 지역을 다루는지 확인할 수 없으므로 gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.parquet, gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.gpkg, gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.csv 파일에 세 가지 형식 (GeoParquet, GeoPackage, CSV)의 색인도 제공됩니다. 이 색인에는 데이터 세트의 각 파일에 대한 항목이 하나씩 포함됩니다. 각 파일에 제공되는 정보는 다음과 같습니다.
- 파일의 지오메트리를 WGS84 (예: EPSG:4326) 다각형입니다. CSV 형식에서는
WKT열에 있습니다. 이 지오메트리가 계산되는 방식에 관한 자세한 내용은 아래를 참고하세요. crs: 이 이미지가 속한 UTM 영역의 CRS입니다(EPSG 코드, 예:EPSG:32610).year: 이미지가 포함하는 연도입니다.utm_zone: 이미지의 UTM 영역입니다(예:10N).utm_west,utm_south,utm_east,utm_north: 원시 픽셀 배열의 UTM 경계입니다. 여기에는 형상 처리가 반영되지 않으며 유효한지 여부와 관계없이 모든 픽셀이 포함됩니다.wgs84_west,wgs84_south,wgs84_east,wgs84_north: WGS84 지오메트리의 최소/최대 경도 및 위도입니다.
기하학 처리
픽셀 배열은 기본적으로 일부 UTM 영역에 있으므로 해당 UTM 영역에서 픽셀 배열의 경계 상자는 단순한 직사각형입니다. 이 경계 상자는 WGS84의 다각형으로 변환됩니다. 이 다각형에는 UTM의 직선이 변환되는 WGS84의 곡선을 가장 잘 따르도록 여러 개의 추가 점이 포함되어 있습니다. 이 다각형은 이미지의 픽셀 유효성/무효성을 고려하지 않고 이미지의 픽셀 배열 경계만 고려합니다.
그런 다음 다각형이 이미지의 UTM 영역의 최소 및 최대 경도로 클리핑됩니다. 실제로 UTM 영역의 가장자리에 걸쳐 있는 유효한 픽셀이 포함되지 않을 수 있습니다. 인덱스에서 이러한 픽셀을 생략해도 문제는 없습니다. 인접한 UTM 영역의 이미지가 해당 영역을 커버해야 합니다.
UTM 영역의 최소/최대 경도로 클리핑하면 다각형이 본초 자오선을 교차하지 않으므로 이 파일의 처리가 약간 더 간단해집니다.