Machine Learning API
머신러닝 (ML)은 지구 관측 데이터를 분석하는 강력한 기술입니다. Earth Engine에는 사용자가 사용하기 쉬운 API로 일반적인 시나리오에서 ML 모델을 빌드하고 사용할 수 있게 해주는 기본 제공 기능이 있습니다.
일반적인 ML 태스크는 위성 이미지의 픽셀을 두 개 이상의 카테고리로 분류하는 것입니다. 이 접근 방식은 토지 이용 및 토지 피복 매핑 및 기타 인기 있는 애플리케이션에 유용합니다.
- 지도 분류: 토지를 분류하는 한 가지 ML 기법은 실제 예시를 사용하여 모델에 클래스를 구분하는 방법을 가르치는 것입니다. Earth Engine의 기본 제공 지도 분류는 이 프로세스를 지원합니다.
- 비지도 분류: 비지도 분류에서는 학습 알고리즘에 정답 예시가 제공되지 않습니다. 대신 알고리즘은 고유한 차이를 기반으로 사용 가능한 데이터를 클러스터로 분할합니다. Earth Engine의 비지도 분류기는 지상 진실 데이터가 없거나 최종 클래스 수를 알 수 없거나 빠르게 실험하려는 경우에 특히 유용합니다.
- 회귀: 분류 모델은 각 입력을 개별 클래스로 분류하려고 시도하는 반면, 회귀 모델은 각 입력에 대해 연속 변수를 예측하려고 시도합니다. 예를 들어 회귀 모델은 수질, 숲 면적 비율, 구름 면적 비율 또는 작물 수확량을 예측할 수 있습니다. 자세한 내용은 ee.Reducers의 선형 회귀 섹션을 참고하세요.
Earth Engine 외부에서 학습 및 예측
딥 러닝과 신경망은 위성 이미지와 같은 복잡한 데이터에 효과적으로 작동하는 머신러닝 기술입니다. Earth Engine의 머신러닝 API에서는 딥 러닝이나 신경망이 지원되지 않습니다. 대신 이러한 기능을 활용하려면 TensorFlow 또는 PyTorch와 같은 프레임워크를 사용하고 Earth Engine 외부에서 모델을 학습시켜야 합니다.
기존 머신러닝을 위한 scikit-learn 또는 그래디언트 부스티드 결정 트리를 위한 XGBoost와 같은 프레임워크에 이미 익숙한 경우 Earth Engine 외부에서 학습하는 것이 좋습니다.
마지막으로 데이터 세트가 매우 커서 아래에 설명된 한도를 초과하는 경우 Earth Engine 외부에서 모델을 학습하는 것이 좋습니다.
학습을 위해 Earth Engine에서 데이터 내보내기
- TFRecord 데이터 형식은 TensorFlow 학습에 최적화되어 있습니다. 머신러닝 예시 페이지에는 TFRecords를 사용하여 모델을 학습하는 방법을 보여주는 여러 TensorFlow 워크플로가 포함되어 있습니다.
- 또는 Google Cloud Dataflow에 호스팅된 Apache Beam을 사용하여 데이터를 다운로드한 후 TensorFlow를 사용하여 Vertex AI에서 학습시키는 방법의 예를 보려면 지형지물 분류 튜토리얼을 방문하여 Colab 노트북을 따라 진행하세요.
Earth Engine 외부의 모델에서 예측 가져오기
Earth Engine 외부에서 모델을 학습하는 경우 해당 모델에서 예측을 가져오는 몇 가지 옵션이 있습니다.
-
Earth Engine의
ee.Model
패키지를 사용하면 Earth Engine의 데이터와 Google의 Vertex AI에 호스팅된 학습된 모델을 사용하여 예측할 수 있습니다. Vertex AI에서 커스텀 학습 모델을 호스팅하고ee.Model.fromVertexAi
를 사용하여 Earth Engine에서 직접 추론을 실행할 수 있습니다. 자세한 내용은 Vertex AI에 호스팅된 모델에 연결하기를 참고하세요. - 또는 지형지물 분류 튜토리얼에서 Cloud Functions와 같은 클라우드 서비스를 사용하여 예측하는 방법을 확인할 수 있습니다.
Earth Engine 외부에서 모델을 학습해야 하는 다른 이유
익숙함과 선호도 외에도 Earth Engine의 머신러닝 API에서 지원되지 않는 모델 아키텍처 (예: 컨볼루션 신경망)를 사용하려는 경우, Vertex AI의 더 많은 기능을 사용하려는 경우 또는 Earth Engine의 머신러닝 API에서 확장 제한이 발생하는 경우 Earth Engine 외부에서 모델을 학습하는 것이 좋습니다.
학습 세트 한도
ee.Classifier
또는 ee.Clusterer
를 사용한 학습은 일반적으로 최대 100MB의 데이터 세트에서 효과적입니다. 매우 대략적인 가이드라인으로, 32비트 (즉, 부동 소수점 수) 정밀도를 가정하면 다음을 충족하는 학습 데이터 세트를 수용할 수 있습니다 (여기서 n은 예시 수이고 b는 밴드 수임).
nb ≤ (100 * 2 20) / 4
예를 들어 100개 밴드를 사용하여 학습하는 경우 학습에 사용되는 예시 수는 200,000개 미만이어야 합니다.
추론 한도
Earth Engine은 256x256 이미지 타일을 처리하므로 이미지에 대한 추론 요청은 400개 미만의 밴드를 보유해야 합니다 (다시 말해 이미지의 정밀도가 32비트라고 가정).
분류기를 두 번 이상 재학습하여 각 학습 실행의 데이터 세트를 한도 내로 유지할 수 있습니다.
var trainings = ee.List.sequence(0, 3).map(function(cover) { return image.addBands(landcover.eq(cover).stratifiedSample(…) }) var classifier = ee.Classifier.smileCart() .train(trainings.get(0), "cover") .train(trainings.get(1), "cover") .train(trainings.get(2), "cover") .train(trainings.get(3), "cover")
모델 크기 제한
또한 모델 자체는 100MB 미만이어야 합니다. Google의 많은 분류기를 구성하여 복잡도와 크기를 제한할 수 있습니다. 예를 들면 다음과 같습니다.
var classifier = ee.Classifier.smileRandomForest({ numberOfTrees: 10, minLeafPopulation: 10, maxNodes: 10000 })