개요
Earth Engine의 계산 아키텍처는 이미지(픽셀 기반) 계산을 빠르고 확장 가능하게 만드는 데 최적화되어 있습니다. BigQuery는 마찬가지로 테이블 형식 데이터 (벡터)의 확장 가능한 처리에 최적화되어 있으며 Earth Engine을 보완하는 여러 기능을 갖추고 있습니다.
워크플로의 예는 다음과 같습니다.
- Earth Engine에서 생성된 데이터에 대규모 BigQuery 조인 실행
- BigQuery에서 추가 처리를 위해 이미지에서 파생된 통계로 벡터 데이터에 주석 추가
- Earth Engine에서 추가 가능한 BigQuery 테이블로 주기적으로 데이터 내보내기
다른 멋진 사용 사례가 있으면 공유해 주세요.
BigQuery 기본사항
Earth Engine은 BigQuery 테이블에 작성하며 모든 테이블은 데이터 세트에 포함됩니다. 지정된 데이터 세트가 BigQuery에 없으면 내보내기 작업이 실패합니다. BigQuery 데이터 세트 소개에서 자세히 알아보세요.
데이터 세트 만들기
데이터 세트에는 이름, 스토리지 리전, 만료 동작을 비롯한 여러 생성 시간 옵션과 몇 가지 고급 옵션이 있습니다.
데이터 세트를 만드는 메커니즘은 다양하지만 Cloud 콘솔을 통해 시작하는 것이 가장 간단합니다.
- Cloud 콘솔의 BigQuery 페이지로 이동합니다.
- 메시지가 표시되면 '사용 설정'을 클릭하여 API를 사용 설정합니다.
- 'SQL Workspace' 탭에서 프로젝트 옆에 있는 점 3개 메뉴( )를 클릭합니다.
- '데이터 세트 만들기' 옵션을 선택합니다.
- 구성 가이드를 따릅니다.
데이터 세트를 만들고 구성하는 모든 옵션은 BigQuery 문서를 참고하세요.
권한
호출자는 Earth Engine을 사용하는 데 필요한 표준 역할 및 권한 외에도 Cloud 프로젝트 또는 데이터 세트에 대한 올바른 BigQuery 권한도 필요합니다.
bigquery.tables.get
bigquery.tables.create
bigquery.tables.updateData
bigquery.tables.delete
bigquery.jobs.create
다음과 같은 사전 정의된 Identity and Access Management(IAM) 역할 조합에는 필요한 권한이 포함되어 있습니다.
bigquery.dataEditor
+bigquery.jobUser
bigquery.dataOwner
+bigquery.jobUser
bigquery.user
bigquery.admin
가격 책정
BigQuery는 유료 Google Cloud 서비스이므로 BigQuery로 내보내는 Earth Engine 데이터의 저장소 및 분석을 비롯하여 BigQuery 사용에 대한 요금이 청구됩니다.
Earth Engine의 BigQuery 내보내기 기능 가격 책정에 관한 자세한 내용은 아래의 가격 책정 섹션을 참고하세요.
구성 내보내기
구문
코드 편집기 (JavaScript)
Export.table.toBigQuery({ collection: features, table: 'myproject.mydataset.mytable', description: 'put_my_data_in_bigquery', append: true, overwrite: false });
import ee import geemap.core as geemap
Colab (Python)
task = ee.batch.Export.table.toBigQuery( collection=features, table='myproject.mydataset.mytable', description='put_my_data_in_bigquery', append=True, overwrite=False, ) task.start()
자동 또는 수동 스키마 사양
BigQuery에 테이블이 없으면 Earth Engine은 컬렉션의 첫 번째 ee.Feature
의 속성을 사용하여 스키마를 결정하려고 시도합니다. 이는 최선의 추측이며 첫 번째 지형지물의 스키마가 다른 지형지물의 스키마와 다른 컬렉션을 구성할 수 있습니다.
BigQuery 테이블에 특정 스키마가 필요한 경우 대상 스키마로 빈 테이블을 만들어 구성합니다.
속성 이름
Earth Engine 지형지물의 속성은 BigQuery의 열에 해당합니다. Earth Engine은 ee.Feature
도형('.geo' 선택기)을 BigQuery에 쓸 때 'geo'라는 이름을 사용합니다.
이름을 바꾸지 않으려면 ee.Feature
객체에 유효한 열 이름 속성이 있고 'geo'라는 이름이 없는지 확인합니다. 이 이름은 Earth Engine에 이름이 없는 지형지물의 도형에 사용되기 때문입니다.
속성 이름에 유효하지 않은 문자가 있으면 BigQuery 열 이름에 대한 제한사항으로 인해 내보내기에 실패합니다.
유형 변환
Earth Engine (ee.Feature
속성의 값) 데이터는 가능한 경우 상응하는 BigQuery 유형으로 변환됩니다. null 허용 여부는 유형이 아닌 테이블 스키마에서 제어합니다.
Earth Engine 유형 | BigQuery 유형 | 참고 |
---|---|---|
ee.String |
STRING |
|
ee.Number
|
FLOAT 또는
INTEGER
|
|
ee.Geometry |
GEOGRAPHY |
|
ee.Date |
TIMESTAMP |
|
ee.ByteString |
BYTES |
|
ee.Array
|
STRUCT<ARRAY<INT64>,
ARRAY<INT64|FLOAT64>> |
배열 섹션을 참고하세요. |
기타 ee.* 유형
|
지원되지 않음 | JSON 값 섹션을 참고하세요. |
배열
Earth Engine은 BigQuery의 ML.DECODE_IMAGE 함수에서 사용하는 형식과 마찬가지로 모든 다차원 ee.Array
를 STRUCT<ARRAY<INT64> dimensions, ARRAY<INT64|FLOAT64> values>
로 내보냅니다.
구조체의 첫 번째 배열인 dimensions
에는 Earth Engine 배열의 크기인 $d_1$ ~ $d_n$이 포함됩니다.
구조체의 두 번째 배열인 values
에는 다차원 배열의 모든 값이 포함되며 단일 BigQuery 배열로 평면화됩니다.
평면 배열의 총 값 수는 $\sum_{i=1}^n d_i$이고 원래 Earth Engine 배열의 색인 $(i_i, \ldots, i_n)$ 의 값은 평면 배열의 다음 색인에 있는 값에 해당합니다.
\[ \sum_{j=1}^n \left( i_j \cdot \prod_{k=j+1}^n d_k \right) \]
일반적인 경우 values
배열의 색인 표현식은 다음과 같습니다.
배열 크기 | 크기 | 색인 생성 표현식 |
---|---|---|
1차원 | d1 |
[i1] |
2차원 | d1, d2 |
[(i1 * d2) + i2] |
3차원 | d1, d2, d3 |
[(i1 * d2 * d3) + (i2 * d3) + i3] |
예를 들어 2x3x4
Earth Engine 배열을 생각해 보겠습니다.
ee.Array([
[
[1, 2, 3, 4],
[5, 6, 7, 8],
[9, 10, 11, 12]
],
[
[13, 14, 15, 16],
[17, 18, 19, 20],
[21, 22, 23, 24]
]
]);
이 배열은 dimensions
요소가 배열 [2, 3, 4]
이고 values
요소가 평면화된 배열 [1, 2, 3, 4, 5, 6, 7, 8, ..., 21, 22, 23, 24]
인 BigQuery STRUCT
로 변환됩니다.
평면화된 배열의 색인은 [(i1 * 12) + (i2 * 4) + i3]
로 계산할 수 있습니다.
JSON 값
셀 내에서 더 풍부한 구조의 데이터를 지원하려면 Earth Engine 값을 JSON 객체로 인코딩하면 됩니다. BigQuery는 JSON 인코딩 데이터에 대한 SQL 작업을 지원하므로 Earth Engine에서 생성한 인코딩된 JSON 값을 '내부에서 살펴보는' 쿼리를 실행할 수 있습니다.
코드 편집기 (JavaScript)
var states = ee.FeatureCollection('TIGER/2018/States'); var mod11a1 = ee.ImageCollection('MODIS/061/MOD11A1'); // Find the max day and night temperatures per pixel for a given time. var maxTemp = mod11a1 .select(['LST_Day_1km', 'LST_Night_1km']) .filterDate('2023-05-15', '2023-05-25') .max(); // Annotate each state with its max day/night temperatures. var annotatedStates = states.map(function (e) { var dict = maxTemp.reduceRegion({ reducer: ee.Reducer.max(), geometry: e.geometry(), scale: 10 * 1000, // 10 km }); // Convert the dictionary to JSON and add it as a property. return e.set('maxTemp', ee.String.encodeJSON(dict)); }); Export.table.toBigQuery(annotatedStates);
import ee import geemap.core as geemap
Colab (Python)
states = ee.FeatureCollection('TIGER/2018/States') mod11a1 = ee.ImageCollection('MODIS/061/MOD11A1') # Find the max day and night temperatures per pixel for a given time. max_temp = ( mod11a1.select(['LST_Day_1km', 'LST_Night_1km']) .filterDate('2023-05-15', '2023-05-25') .max() ) def get_max_temp_for_state(e): max_temp_dict = max_temp.reduceRegion( reducer=ee.Reducer.max(), geometry=e.geometry(), scale=10 * 1000, # 10 km ) # Convert the dictionary to JSON and add it as a property. return e.set('maxTemp', ee.String.encodeJSON(max_temp_dict)) # Annotate each state with its max day/night temperatures. annotated_states = states.map(get_max_temp_for_state) task = ee.batch.Export.table.toBigQuery( collection=annotated_states, table='myproject.mydataset.mytable' ) task.start()
도형 변환
BigQuery는 다양한 투영을 제한적으로 지원하므로 모든 Earth Engine 도형은 오류 마진 1m를 사용하여 지오데시ック EPSG:4326
로 변환됩니다.
이 변환 프로세스를 더 세부적으로 제어하려면 지형지물을 수동으로 매핑하고 도형을 변환하면 됩니다.예를 들면 다음과 같습니다.
코드 편집기 (JavaScript)
var transformedCollection = originalCollection.map(function transformGeo(e) { var myErrorMargin = 10 * 1000; // meters return e.setGeometry(e.geometry(myErrorMargin, 'EPSG:4326', true)); });
import ee import geemap.core as geemap
Colab (Python)
def transform_geo(e): my_error_margin = 10 * 1000 # meters return e.setGeometry(e.geometry(my_error_margin, 'EPSG:4326', True)) transformed_collection = original_collection.map(transform_geo)
성능
Earth Engine 성능
Earth Engine 계산은 종종 Export
작업의 병목 현상입니다. 이를 위해 최대한의 동시 로드를 위해 처리를 구성하는 것이 중요합니다.
직렬 처리에서 베이킹되는 모든 계산 (예: ee.FeatureCollection.iterate()
)으로 인해 내보내기가 느리게 실행되거나 실패할 수 있습니다.
BigQuery의 성능
데이터를 올바르게 구조화하고 클러스터링하는 것이 BigQuery에서 효율적인 쿼리를 실행하는 가장 좋은 방법입니다. BigQuery에 아직 테이블이 없는 경우 Earth Engine에서 내보낸 테이블은 지형지물의 도형 (있는 경우)에 따라 클러스터링됩니다. 지리 필드별 클러스터링은 지리정보 데이터에서 매우 일반적입니다. 공간 필터를 사용하는 쿼리의 성능을 개선하고 비용을 절감합니다. 주로 다음과 같은 BigQuery 작업에 사용됩니다.
WHERE ST_DWithin(<table_column>, <constant_geography>, <distance>)
WHERE ST_Intersects(<table_column>, <constant_geography>)
클러스터링되지 않은 테이블에 클러스터링을 추가해도 일반적으로 아무런 문제가 없지만 테이블에 데이터를 로드하는 시간이 약간 늘어날 수 있습니다. 쿼리 최적화에 관한 자세한 내용은 BigQuery 문서를 참고하세요.
클러스터링 설정은 테이블에 쓰여진 새 데이터에만 영향을 미칩니다.
데모: reduceRegions
사용
경우에 따라 reduceRegions
를 사용하여 Earth Engine 처리 인프라에서 최대한 많은 동시 로드를 얻을 수 있습니다. 이 예에서는 수만 개의 reduceRegion
호출 (컬렉션에 함수를 매핑하는 일반적인 접근 방식) 대신 적은 수의 reduceRegions
호출 (수백 개)을 사용하는 방법을 보여줍니다.
코드 편집기 (JavaScript)
var lucas = ee.FeatureCollection('JRC/LUCAS_HARMO/COPERNICUS_POLYGONS/V1/2018'); var s2 = ee.ImageCollection('COPERNICUS/S2_SR_HARMONIZED'); // Fetch the unique date values from the dataset. var dates = lucas.aggregate_array('survey_date') .distinct() .map(function (date) { return ee.Date.parse('dd/MM/yy', date); }); // For each date, annotate the LUCAS samples with the Sentinel-2 band values for // a two-week window. function getLucasSamplesForDate(date) { date = ee.Date(date); var imageForDate = s2 .filterDate( date.advance(-1, 'week'), date.advance(1, 'week')) .select('B.*'); var median = imageForDate.median(); var lucasForDate = lucas.filter( ee.Filter.equals('survey_date', date.format('dd/MM/yy'))); var sample = median.reduceRegions({ collection: lucasForDate, reducer: ee.Reducer.mean(), scale: 10, tileScale: 8, }); return sample; } // Flatten the collection. var withSamples = ee.FeatureCollection(dates.map(getLucasSamplesForDate)) .flatten(); Export.table.toBigQuery({ collection: withSamples, description: 'lucas_s2_annotated' });
import ee import geemap.core as geemap
Colab (Python)
lucas = ee.FeatureCollection('JRC/LUCAS_HARMO/COPERNICUS_POLYGONS/V1/2018') s2 = ee.ImageCollection('COPERNICUS/S2_SR_HARMONIZED') # Fetch the unique date values from the dataset. dates = ( lucas.aggregate_array('survey_date') .distinct() .map(lambda date: ee.Date.parse('dd/MM/yy', date)) ) # For each date, annotate the LUCAS samples with the Sentinel-2 band values for # a two-week window. def get_lucas_samples_for_date(date): date = ee.Date(date) image_for_date = s2.filterDate( date.advance(-1, 'week'), date.advance(1, 'week') ).select('B.*') median = image_for_date.median() lucas_for_date = lucas.filter( ee.Filter.equals('survey_date', date.format('dd/MM/yy')) ) sample = median.reduceRegions( collection=lucas_for_date, reducer=ee.Reducer.mean(), scale=10, tileScale=8, ) return sample # Flatten the collection. with_samples = ee.FeatureCollection( dates.map(get_lucas_samples_for_date) ).flatten() task = ee.batch.Export.table.toBigQuery( collection=with_samples, table='myproject.mydataset.mytable', description='lucas_s2_annotated', ) task.start()
태스크 병렬 처리
{append: true}
옵션을 사용하면 여러 태스크가 BigQuery 테이블에 데이터를 동시에 쓸 수 있습니다. 이는 더 높은 처리량으로 데이터를 쓰기 위한 메커니즘이지만 복잡성 (작업 큐 관리, 재시도 등)이 증가합니다.
append
및 overwrite
매개변수 간의 성능 차이
BigQuery는 이전 데이터를 덮어쓰기 전에 새 데이터를 처리해야 하므로 덮어쓰기는 추가보다 느립니다. 기존 BigQuery 테이블로 내보낼 때 {overwrite: true} 매개변수를 설정하면 안전한 덮어쓰기 프로세스가 트리거됩니다.
- 임시 테이블: 데이터가 대상 데이터 세트 내의 새 임시 테이블로 내보내집니다.
- 원자적 덮어쓰기: 임시 테이블의 콘텐츠가 최종 대상 테이블에 복사되어 단일 원자적 트랜잭션에서 기존 데이터를 대체합니다.
- 정리: 임시 테이블이 삭제됩니다.
이렇게 하면 내보내기 중 발생한 오류로 인해 기존 데이터가 손상되지 않습니다. 작은 테이블의 경우 일반적으로 몇 분 정도 지연됩니다.
고성능 대안
매우 높은 처리량이 필요한 워크플로의 경우 GeoBeam을 사용하여 Earth Engine에서 BigQuery로 데이터를 이동하는 것이 좋습니다. 이렇게 하려면 더 많은 구성과 인프라가 필요하므로 내장된 Earth Engine 기능으로 시작하는 것이 좋습니다.
가격 책정
BigQuery로 내보내는 작업은 일괄 EECU 시간을 소비하는 일괄 프로세스입니다. Earth Engine을 상업적으로 또는 운영적으로 사용하는 경우 BigQuery로 데이터를 내보내면 작업에 사용된 EECU 시간이 청구됩니다. 나머지 Earth Engine에서 작동하는 것과 정확히 동일한 모니터링 도구를 사용하여 모든 사용량을 모니터링할 수 있습니다.
Cloud Billing 계정
BigQuery에 데이터를 쓰려면 연결된 Cloud 프로젝트에 결제 계정이 사용 설정되어 있어야 합니다. 결제 계정 구성에 대해 자세히 알아보려면 Cloud 결제 계정 문서를 참고하세요.
이그레스
모든 인그레스 및 이그레스 비용은 표준 네트워크 트래픽으로 청구됩니다.
Earth Engine은 미국에서만 호스팅되지만 BigQuery 데이터 세트는 여러 리전에서 호스팅될 수 있습니다. 관련 리전 및 데이터 양에 따라 Earth Engine에서 BigQuery로 데이터를 쓰면 상당한 네트워크 트래픽이 발생할 수 있습니다.
알려진 문제
대형 다각형의 방향
BigQuery Export 함수는 방향을 반대로 하여 (다각형을 기하학적 보완으로 변경) 반구보다 큰 다각형을 뒤집습니다. 드물지만 반구보다 큰 다각형이 로드되지 않을 수 있습니다.
필요한 경우 BigQuery 표현식 ST_Difference(ST_GeogFromText('fullglobe'), geo)
를 사용하여 뒤집힌 다각형을 다시 뒤집어 BigQuery 내에서 수정할 수 있습니다.
자세한 내용은 여기를 참고하세요.