ブラジルの森林画像データセット(G-BFID v1.0)

はじめに

ブラジル政府がブラジル森林法を施行し、私有地の森林を保護する取り組みを支援するため、Google は SPOT 衛星観測から得られた 2 つの基本地図(ビジュアル 基本地図分析 基本地図(G-BFID v1.0))を作成しました。

これらのモザイク画像プロダクトは、2008 年 7 月 22 日の基準値を設定します。この日は、ブラジル森林法で「統合地域」(人間が居住または農業利用している地域)を特定するための重要な日付です。SPOT 衛星アーカイブから派生したこれらのモザイク データセットは、このベースラインの確立に従来使用されていた 30 メートルの Landsat データよりも高解像度の代替手段となります。

数千枚の SPOT 画像を統合された基本地図に合成するために、画像は次の処理ルーティンを受けました。

  • 圧縮アーティファクトを除去するエッジの調整
  • Landsat ベースラインに対する放射量正規化
  • 雲のマスキング(保守的、手動)。
  • 位置ずれ補正(Landsat コンポジットへのコア登録)。

最終的な合成には、統計的削減ではなく、決定論的モザイク法が採用されました。ピクセルは空間解像度と衛星ミッションの年代順に従ってレイヤリングされ、新しい衛星からの観測が優先されました。このレイヤリング階層は、最近傍再サンプリングと組み合わせて、厳密なデータ プロベナンスを確立しました。その結果、最終的な基本地図のすべてのピクセルは、個別の元データを保持し、特定のソース観測とそのメタデータに直接追跡できるようになりました。

ブラジルのビジュアルと分析のベースマップ
図 1. 疑似自然色(左)で表示された G-BFID v1.0 ビジュアル ベースマップの全範囲表現と、近赤外線疑似カラー(右)で表示された分析ベースマップ。

ソースデータ

衛星とセンサーの仕様

G-BFID v1.0 ベースマップは、SPOT(地球観測衛星)画像データから派生しています。CNES が運用し、Airbus が配信する SPOT ミッションは、60 km のスワスで高解像度の光学画像を提供します。このプロジェクトでは、3 つの特定の衛星からの画像アーカイブを使用して、2008 年のベースラインを確立しています。

  • SPOT 2 & 4: HRV/HRVIR センサーを搭載し、20 メートルの解像度でマルチスペクトル データ、10 メートルの解像度でパンクロマチック データを提供します。
  • SPOT 5: HRG センサーを搭載し、空間解像度が大幅に向上しています。多重スペクトル データは 10 m の解像度、パンクロマチック データは 5 m の解像度です。
SPOT 2 SPOT 4 SPOT 5
マルチスペクトル 20 分 20 分 10 分
パンクロマチック 10 分 10 分 5 分
スペクトル バンド 緑、赤、NIR 緑、赤、NIR、SWIR 緑、赤、NIR、SWIR

表 1. SPOT 2、4、5 ミッションの技術仕様。

注: Airbus は、SPOT 5 画像を 2.5 メートルの解像度でパンシャープニングするために使用できる「スーパーモード」のパンクロマチック プロダクトを生成します。このプロジェクトの仕様では、これらのデータの可用性が非常に限られているため、含まれていません。

Earth Engine コレクションを入力する

3 つの異なる SPOT データ プロダクトを取り込んで処理し、最終的なベースマップを生成しました。これらのコレクションは 2007 年 1 月 9 日から 2009 年 11 月 26 日までの期間を対象としており、高解像度のベースラインを維持しながら雲の被覆率の制約を克服するために必要な時間的深度を提供します。

シーンの選択

農村環境登録簿(CAR)に登録されている私有地の森林保護活動を支援するため、アマゾン バイオームと「森林破壊の弧」の 5 つの州(マラニョン州、マットグロッソ州、パラー州、ロンドニア州、トカンティンス州)の地理的範囲が優先されました。

ブラジル森林法の要件に沿って、2008 年半ばの期間を対象としました。これらの時間的基準と雲量基準(50% 未満)に基づいて、SPOT 2、4、5 の合計 10,072 枚の画像が特定され、処理のために Earth Engine Data Catalog に取り込まれました。

スペクトル構成に関する注: SPOT 2、4、5 のセンサーは、青色のスペクトル帯域をネイティブにキャプチャしません。ナチュラル カラーの商品の場合、既存のスペクトル帯域から導出された合成青帯域(トゥルー カラー表現を近似するために使用)がデータ配信業者から提供されます。

1. パンシャープンされたマルチスペクトル自然色

  • Earth Engine アセット: AIRBUS/SPOT_2_4_5/BRAZIL/2007_2009/PMS_NC/V1
  • 画像の数: 2977
  • 期間: 2007 年 3 月 1 日~ 2009 年 11 月 26 日
  • 説明: このプロダクトは、高解像度のパンクロマティック バンドとマルチスペクトル バンドを統合して、鮮明な 3 バンド RGB 画像を生成します。これは、ビジュアル ベースマップの優先ソースです。
パンシャープンされた自然色画像コレクションの年月の画像ヒストグラム
図 2. パンシャープンされたマルチスペクトル自然色画像コレクションの画像ヒストグラム(年 / 月別)。

2. マルチスペクトル自然色

  • Earth Engine アセット: AIRBUS/SPOT_2_4_5/BRAZIL/2007_2009/MS_NC/V1
  • 画像の数: 3536
  • 期間: 2007 年 1 月 9 日~ 2009 年 11 月 26 日
  • 説明: ネイティブのマルチスペクトル解像度での 3 バンドの疑似自然色プロダクト(シミュレートされた RGB)。このコレクションは、パンシャープニングされたデータが利用できない場合に、ビジュアル ベースマップのセカンダリ ソースとして使用されます。
マルチスペクトル自然色画像コレクションの年月の画像ヒストグラム
図 3. マルチスペクトル自然色画像コレクションの画像数の年別、月別ヒストグラム。

3. マルチスペクトル

  • Earth Engine アセット: AIRBUS/SPOT_2_4_5/BRAZIL/2007_2009/MS/V1
  • 画像の数: 3,559
  • 期間: 2007 年 1 月 9 日~ 2009 年 11 月 26 日
  • 説明: 分析基本地図のソース。このコレクションには、植生指標(NDVI など)の計算と被覆分類の実行に必要な元のスペクトル バンド(近赤外線と短波赤外線を含む。利用可能な場合)が含まれています。
マルチスペクトル画像コレクションの年月別画像のヒストグラム
図 4. マルチスペクトル画像コレクションの年月の画像数のヒストグラム。

地理的な対象範囲とギャップ

G-BFID v1.0 基本地図の主な目的は、ブラジルの行政区域について、2008 年に近い高解像度のベースラインを確立することです。ただし、高品質で雲の少ない画像をフィルタリングしながら、厳密な時間枠(2007 ~ 2009 年)を維持すると、特に雲が常に覆っている地域で空間的なギャップが生じました。

シーン選択と品質フィルタリング

データの完全性を確保するため、2007 ~ 2009 年の候補プールから、初期雲量が 50% 未満のデータが特定されました。このうち、10,000 枚強の画像が取り込まれ、品質に重大な問題がある画像を除外するためにさらにフィルタリングされました。

  • 不連続性チェック: データ提供元によってバンドルされた不連続なシーンなど、手動で特定されたテレメトリーまたはジオメトリのアーティファクトを含む画像は除外されました。
  • Cloud QA: 雲に覆われているなどの理由で、プロの画像アナリストによって不承認とされたシーン。
  • データ密度: 雲のマスキング後に 10% を超える有効なピクセル(ビジュアル 基本地図)が残っている画像のみが保持されました(アナリティクス 基本地図の場合は 5% を超える)。

空間分布

図 5 に示すように、モザイクは「森林破壊の弧」と北西部/中西部で最も高い密度を実現しています。透明な領域は、上記の品質フィルタを通過した SPOT 2、4、5 の画像が対象期間内に存在しないか、雲でマスクされた領域を表します。

G-BFID v1.0 ビジュアル 基本地図 の空間範囲を示すブラジルの地図。
図 5. G-BFID v1.0 ビジュアル ベースマップの空間範囲。南と東の内部ギャップと不完全なカバレッジは、2008 年の時間ベースライン、品質フィルタリング、クラウド マスキングを優先した結果です。分析用基本地図は表示されませんが、この縮尺では空間範囲が視覚用基本地図とほぼ同じになります。

州別の補償範囲

図 6 は、有効なピクセル カバレッジを州別に示したものです。Rondônia や Mato Grosso などの州では、カバレッジはほぼ完全(95% 超)ですが、南部の州や北東部の一部では、アーカイブとクラウド マスキングの制約により密度が低くなっています。

このグラフは、Visual Basemap がほぼすべての州で Analytic Basemap よりも有効なピクセル カバレッジがわずかに高いことも示しています。この違いは、Visual プロダクトではパンシャープニングされた自然色コレクションとマルチスペクトル自然色コレクションの両方を使用できるのに対し、Analytic プロダクトはマルチスペクトル コレクションのみから導出されるためです。

ブラジルの各州におけるビジュアル ベースマップと分析ベースマップの有効なピクセル カバレッジを比較した棒グラフ。州は縦に、カバレッジの割合は横に表示されます。
図 6. ブラジルの州別のビジュアル ベースマップと分析ベースマップの有効なピクセル カバレッジ。「森林破壊の弧」の州ではカバレッジが最も高く、雲が常に覆っているリージョン、SPOT の取得が制限されているリージョン、雲のマスキングが行われているリージョンではカバレッジが最も低くなっています。

処理方法

G-BFID v1.0 ベースマップの処理方法では、森林法の遵守状況の評価をサポートするために、データの出所と放射測定の完全性が優先されます。このセクションでは、まず、この完全性を維持するために使用される包括的なモザイク アーキテクチャとレイヤリング ロジックを定義します。次に、最終的な組み立ての前に個々のソース画像に適用される時系列の前処理と正規化の手順について説明します。

モザイク方法

最終的なベースマップは、統計的縮小関数(平均値や中央値の合成など)ではなく、モザイク手法を使用して作成されました。このアプローチにより、最終的なプロダクトでソース画像元のスペクトル値と空間テクスチャが保持されます。モザイクでは複数の観測値の平均を回避することで、各ピクセルの個別の出所が保持されます。

レイヤリング ロジック

入力画像は、空間解像度が高く、衛星ミッションが新しいものを優先する階層を使用してレイヤ化されました。

  • 視覚基本地図: 画像はピクセルサイズで並べ替えられ(利用可能な最高解像度のデータが優先)、次に衛星ミッションで並べ替えられました(新しい SPOT 衛星からのデータが優先)。
  • 分析用基本地図: 衛星ミッションごとに画像をレイヤリングし、利用可能な最良のデータをターゲットとするため、後の SPOT ミッションの観測を優先しました。

完全性とトレーサビリティ

  • リサンプリング: すべての内部再投影で最近傍リサンプリングが使用されました。これにより、他の方法の補間平滑化効果が回避され、ソースピクセルの元の放射測定特性と空間特性が近隣のピクセルの影響を受けないようになります。

  • データのトレーサビリティ: ピクセル単位の date メタデータ バンドが両方のプロダクトに含まれています。これにより、ユーザーは特定の場所の観測日を正確に特定できるため、森林法遵守の評価の透明性を確保できます。

画像のエッジの調整

重複するシーン間の境界を明確にするため、エッジの調整プロセスを適用して、ソース画像に存在するアーティファクトを削除しました。これらのアーティファクトは、画像の境界に沿って斑点状または「ノイズ」状のピクセルとして現れ、プロバイダが配信するデータのロッシー圧縮の特徴でした。この問題を解決するため、イメージマスクに 2.5 ピクセルの焦点最小収縮を適用し、低品質のエッジ アーティファクトを除去して、最終的なモザイクで有効なデータのみが使用されるようにしました(図 7)。

画像のエッジ アーティファクトの改善前後の比較。
図 7. エッジの調整処理の前(左)と後(右)の画像境界の比較。2.5 ピクセルの収縮により、非可逆圧縮によって生じる「ノイズ」アーティファクトが除去され、重複するシーン間のトランジションがよりスムーズになります。

雲のマスキング

G-BFID v1.0 のデータの完全性を最大限に確保するため、画像アーカイブ全体で手動マスキング手順が実装されました。このアプローチは、雲やその他の大気干渉の影響を受けるピクセルをより慎重に除外できるようにするために、自動化された方法よりも優先して選択されました。

マスキング手順

訓練を受けたアナリストが、雲と関連する大気アーティファクトを含む領域を特定しました。これらの問題のあるピクセルを確実にキャプチャするため、簡略化された粗いジオメトリを使用して、保守的なマスキング戦略が採用されました。個々のクラウドの境界線を正確にトレースするのではなく、大きな長方形の領域をマスクして、結果のモザイクが可能な限り鮮明になるようにしました。

このアプローチは意図的にアグレッシブなもので、雲に隣接する有効なピクセルが削除されることもありますが、2008 年のベースラインで高精度のプロダクトを提供するには必要と判断されました。

マスキング ポリシーと統合

手動マスクは、マルチスペクトルとパンシャープニングされた自然色画像コレクション専用に作成されました。マルチスペクトル自然色プロダクトはマルチスペクトル データから派生しているため、これらのマスクは処理中に同時期のマルチスペクトル画像に伝播されました。

一致する手動マスクの自然色画像がないマルチスペクトル画像は、最終的なモザイクから除外されました。これにより、G-BFID v1.0 スイートに含まれるすべてのピクセル(商品タイプに関係なく)から雲が除去されます。

データギャップの解釈

最終的なモザイクの透明なギャップは、2007 ~ 2009 年の期間内に有効で高品質なデータが利用できない領域を表します。これらのギャップは、上記の保守的な手動マスキング、雲量が多い(50% 超)シーンの初期拒否、特定のリージョンのプロバイダから利用可能なソース画像がまったくないことの組み合わせによって発生します。地域間の大きなギャップは、通常、2008 年代の画像が利用できないことを反映していますが、図 9 に示されている明確な「ブロック状」のパターンは、雲のマスキングの結果です。

衛星画像の手動による雲マスクの例。長方形の領域が削除されている。
図 9. ビジュアル 基本地図に手動マスキングを適用した例。長方形の黒いポリゴンは、最終的なプロダクトから雲やその他の大気アーティファクトを除外するために使用される保守的なアプローチを示しています。データ プロダクトのマスクされたピクセル(データなし)は透明です。

位置ずれの補正

SPOT ソース画像における、Landsat Collection 2 データから導出された地理的ベースラインに対する大幅な位置ずれを軽減するため、自動コア登録ワークフローが実装されました。

リファレンス ベースライン

雲のない Landsat Collection 2 参照モザイクが生成され、コア登録参照画像として使用されました。この参照画像は、2006 ~ 2010 年の期間にブラジルと交差する Landsat 7 と 8 の画像の中央値リデューサーを使用して作成されました。SPOT の赤色バンドと一致させるため、Landsat の赤色バンドがプライマリ登録ターゲットとして選択されました。

変位の推定

ee.Image.displacement アルゴリズムを使用して、SPOT ソースデータと Landsat リファレンスの間のピクセルレベルのオフセットを計算しました。

  • 検索パラメータ: 変位モデルに最大オフセット 500 m と剛性パラメータ 5 が適用されました。
  • 統計的集計: デルタ x($dx$)、デルタ y($dy$)、信頼値は、平均リデューサーを使用して画像領域全体で集計されました。
  • 大きさの計算: これらの集計統計から、シーンの平均変位を表す合計大きさオフセット推定値 $M = \sqrt{dx^2 + dy^2}$ が計算されました。

修正ポリシー

計算された変位統計に基づいてシーンを分類し、修正して、新しいアーティファクトの導入を回避しながら大幅な改善を優先しました。

  • 自動補正: 変位の大きさ $M > 30$ m で信頼スコア $C > 0.3$ の画像は、推定された $dx$ と $dy$ の値を使用して自動的にシフトされました。
  • 手動評価: 推定変位が非常に大きい($M > 100$ m)が信頼度が低い($C \le 0.3$)シーンについては、手動レビューを実施しました。修正は、結果として得られた同時登録が元のプレースメントよりも明らかに改善された場合にのみ承認されました。
  • 除外: 補正を試みても大幅な位置ずれが残ったシーンや、信頼性の高いマッチングを行うのに十分な特徴がないシーンは、モザイクから除外されました。

実装と品質管理

補正された画像は、最近傍再サンプリングを使用して再投影され、元の放射値が保持され、バイリニア補間やキュービック補間の平滑化効果が回避されました。

空間のトレーサビリティを確保するため、ブール値の coregistered バンドが各画像に追加され、最終的なモザイクで保持されました。このメタデータを使用すると、空間調整が行われたピクセルと、元の配信位置で保持されたピクセルを区別できます。

放射量正規化

SPOT ソース コレクション間の大気条件とセンサーの違いを考慮して、モザイク プロダクトを構成する画像に放射量正規化が適用されました。ビジュアル ベースマップと分析ベースマップの両方で、一貫した 2008 年の Landsat ターゲット ベースラインに対するヒストグラム マッチングが使用されています。

Landsat が MODIS などの粗い代替手段よりも参照として選択されたのは、30 メートルの解像度が 5 ~ 20 メートルの SPOT データとより密接に一致しているためです。この類似性により、スペクトル ヒストグラムの代表性がより均等になり、マッチング プロセス中の放射量測定の転送がより正確になります。この調和の具体的な方法は、最終的なユースケースが視覚的か分析的かによって若干異なります。

ビジュアル ベースマップ

隣接する画像間の放射輝度値の不連続性を最小限に抑え、ほぼシームレスな外観を確保するために、ヒストグラム マッチングを使用したカラー バランス ワークフローが実装されました。ピクセル値は、一貫した 2008 年の Landsat モザイク ターゲット ベースラインに一致するように調整されました。

このプロセスは次の手順で行われます。

  • 分析マスキング: ヒストグラム マッチング中に統計情報を安定させるため、データを歪める可能性のある領域を除外する一時的な分析マスクが生成されます。このマスキングは、次の 2 つの主な機能を対象としています。
    • 変化の大きい領域: SPOT 画像と Landsat 参照モザイクの絶対差の 95 パーセンタイルを超えるピクセルは除外されます。
    • 水域: JRC の年間水域分類履歴データセットを使用して、水域での反射率の変動が大きい領域を除外します。データセットは 2008 年にフィルタされ、逆マスクが適用されて、統計分析用に水以外のクラスのみが保持されるようになっています。
  • ルックアップ テーブル(LUT)の生成: マスクされたデータを使用して、ソース SPOT バンドとターゲット Landsat バンドの両方について累積ヒストグラムが計算されます。
  • 補間: 生成された LUT を使用してソース ピクセル値がターゲット値に再マッピングされ、SPOT データの放射測定プロファイルが 2008 年の Landsat リファレンスに合わせられます。
放射量正規化の前後の画像モザイクの比較。左は色の不一致を示し、右はシームレスな色を示しています。
図 8. Visual Basemap の放射量正規化。元の画像(左)には、大きな放射量測定値のばらつきが見られます。ヒストグラム マッチング(右)の後、シーン間のトランジションはほぼシームレスになり、モザイク全体で一貫した視覚的表現が提供されます。黒い背景のピクセルは、データのない領域です。

分析用ベースマップ

解析基本地図の処理はビジュアル基本地図をミラーリングしますが、DN 値を大気圏外反射率に変換する処理が含まれます。

1. 大気上端(TOA)の反射率変換

SPOT の生デジタル番号(DN)は、物理センサーの特性と太陽の幾何学を考慮して、TOA 反射率に変換されます。

  • 放射輝度計算: プロバイダのバンド固有の物理ゲインとバイアスのメタデータの適用。
  • 反射率の正規化: 放射輝度は、太陽放射照度、太陽天頂角のコサイン、特定の取得日の地球と太陽の距離で正規化されます。
2. ヒストグラム マッチング

異なる SPOT 画像間の放射量測定の差をさらに最小限に抑えるために、ヒストグラム マッチング ワークフローが適用されます。

  • 分析マスキング: このステップでは、上記の「ビジュアル基本地図」セクションで説明した分析マスキングとまったく同じ処理を行います。つまり、95 パーセンタイルを超える変化ピクセルを除外し、2008 年の JRC 分類マスクを反転して水ピクセルをフィルタリングします。

  • 調和: 視覚的な基本地図と同様に、ルックアップ テーブルを使用してピクセル値を再マッピングし、放射計測プロファイルを Landsat TOA 参照に合わせます。これにより、広範囲の機械学習モデルのトレーニングと信頼性の高い推論の実行において、モザイク全体の放射量の一貫性が確立されます。

制限事項と既知の問題

G-BFID v1.0 は 2008 年代の高解像度ベースラインを提供しますが、ユーザーは、過去の SPOT アーカイブと使用されている処理方法に固有のいくつかの制限事項に注意する必要があります。

空間の完全性とギャップ

ベースマップは、ブラジルの地理的範囲を 100% カバーしていません。2008 年当時のプロジェクトの厳格な時間枠(2007 ~ 2009 年)、雲量しきい値、品質基準を満たす画像がなかったため、ギャップが生じています。このようなギャップは、雲が常に覆っている地域や、過去の衛星データの取得頻度が低い地域で最も多く発生します。詳しくは、地理的範囲とギャップのセクションをご覧ください。

可変ネイティブ解像度

最終的なプロダクトは、5 メートル(ビジュアル)と 10 メートル(分析)の公称ピクセル サイズで配信されますが、ソース画像は 5 m、10 m、20 m のネイティブ ピクセルが混在しています。スペクトル整合性を維持するために最近傍再サンプリングが使用されたため、異なる解像度の境界が表示されることがあります。

シーンの境界をまたいで、画像の解像度と粒状感が急激に変化する。
図 10. シーン境界をまたいでネイティブ ソースの解像度が変化する例。「粒状感」またはシャープネスの変化は、最終製品で保持されるさまざまな SPOT センサーの解像度間の移行を反映しています。

残余のミスレジストレーション

自動コア登録ワークフローを使用しても、一部の地域では空間シフトが残る可能性があります。残差のミスレジストレーションは、地形の起伏が激しい地域や、アルゴリズムが信頼度の高い変位ベクトルを計算するのに十分なランドマークを欠いている、密度の高い均質な森林地帯で発生する可能性が最も高くなります。

大気と雲のアーティファクト

手動の雲マスク処理は意図的に保守的かつ積極的でしたが、完全ではありません。ユーザーは、非常に薄い巻雲の霞や小さな雲の影など、残存するアーティファクトがまれに発生することがあります。

マスキングで除去されなかった薄いもや状の雲が残っている衛星画像。
図 11. 手動の雲マスキング プロセスの後に残った薄い雲の例。

放射量の不整合と ML のパフォーマンス

ヒストグラム マッチングは放射測定の不連続性を最小限に抑えるために使用されましたが、隣接する画像間にはスペクトル変動の残差が残っています。自動土地被覆分類や機械学習アプリケーションの場合、この変動により、モザイク全体で特定の土地被覆タイプのスペクトル分散が増加します。データ範囲が広くなると、推論時のクラス分離の精度が低下し、エラー率が高くなる可能性があります。

3 つの衛星画像が重なり合う境界線に、目に見える継ぎ目と色/明るさの差異がある。
図 12. 3 枚の画像の交点に表示された残差スペクトルの違い。このような不連続性は、重複する画像間の明るさや色の変化として現れ、機械学習モデルのパフォーマンスに影響する可能性があります。

スペクトル彩度

反射率の高い都市部の表面、特定の土壌タイプ、明るい砂など、極端に明るい領域では、ピクセルがセンサーの最大検出限界に達する可能性があります。この「彩度」により、特定の場所でテクスチャとディテールが失われます。

Visual(左)と Analytic(右)のモザイクにおけるスペクトル飽和の例。明るいパッチと不自然なオレンジ、黄色、シアンの色が表示されています。
図 13. スペクトル彩度と結果として生じるカラー アーティファクトの可視化。明るいパッチと不自然な色合い(左のビジュアル モザイクではオレンジと黄色、右の分析モザイクではシアン)は、1 つ以上のスペクトル バンドが検出可能な最大値に達し、テクスチャと色の両方の表現が歪んでいることを示しています。

バンド比率と植生指標を変更しました

ほぼシームレスなモザイクを実現するために、各スペクトル バンドに個別にヒストグラム マッチングが適用されました。これにより、バンド間の元の物理比率が本質的に変更されます。そのため、NDVI などの一般的な指標や他のバンド比率指標を計算すると、変更されていないソース データセットとは異なる値が生成されます。これらの派生指標は、モザイク全体の相対的な空間パターンを捉えることはできますが、絶対的な目的、センサー間の比較、厳密な指標のしきい値に依存する分析には使用しないでください。