巴西森林圖像資料集 (G-BFID v1.0)

簡介

為配合巴西政府實施《巴西森林法》和保護私人土地森林的措施,Google 運用 SPOT 衛星觀測資料製作了兩張基本地圖:影像基本地圖分析基本地圖 (G-BFID v1.0)。

這些鑲嵌影像產品以 2008 年 7 月 22 日為基準,這是《巴西森林法》中用來識別「整合區域」的重要日期,也就是先前有人類居住或用於農業的區域。這些鑲嵌資料集衍生自 SPOT 衛星封存資料,可提供比傳統上用於建立基準的 30 公尺 Landsat 資料更高的解析度。

為將數千張 SPOT 圖像合成統一的基本地圖,這些圖像經過下列處理程序:

  • 邊緣修正:移除壓縮失真。
  • 以 Landsat 基準線進行放射正規化
  • 雲遮罩 (保守、手動)。
  • 誤登記修正 (與 Landsat 複合影像共同登記)。

最後的合成作業採用確定性鑲嵌法,而非統計縮減法。像素是根據空間解析度和衛星任務時間順序分層,較新衛星的觀測結果優先。這個分層階層與最鄰近鄰居重取樣結合,可建立嚴格的資料出處。因此,最終基本地圖中的每個像素都保留了個別來源,且仍可直接追溯至特定來源觀測資料及其元資料。

巴西的視覺和分析基本地圖
圖 1. G-BFID v1.0 視覺化底圖的完整範圍表示法,左側為偽自然色,右側為以近紅外線假色顯示的分析底圖。

來源資料

衛星和感應器規格

G-BFID v1.0 基本地圖是根據 SPOT (Satellite pour l’Observation de la Terre) 圖像資料製作而成。SPOT 任務由 CNES 負責營運,Airbus 負責發布,提供 60 公里寬幅的高解析度光學圖像。這項專案使用三顆特定衛星的圖像封存檔,建立 2008 年的基準:

  • SPOT 2 和 4:搭載 HRV/HRVIR 感應器,提供 20 公尺解析度的多光譜資料,以及 10 公尺解析度的全色資料。
  • SPOT 5:搭載 HRG 感應器,可提供顯著提升的空間解析度,多光譜資料的解析度為 10 公尺,全色資料的解析度為 5 公尺
SPOT 2 SPOT 4 SPOT 5
多光譜 20 公尺 20 公尺 10 分鐘
全色 10 分鐘 10 分鐘 5 公尺
光譜帶 綠色、紅色、近紅外線 綠色、紅色、近紅外線、短波紅外線 綠色、紅色、近紅外線、短波紅外線

表 1. SPOT 2、4 和 5 任務的技術規格。

注意:Airbus 會製作「超模式」全色產品,可用於將 SPOT 5 影像銳利化至 2.5 公尺解析度。這些資料的可用性非常有限,不符合本專案的規格,因此未納入。

輸入 Earth Engine 集合

我們擷取並處理了三種不同的 SPOT 資料產品,以生成最終底圖。這些影像集涵蓋 2007 年 1 月 9 日至 2009 年 11 月 26 日的期間,提供必要的時間深度,克服雲層覆蓋限制,同時維持高解析度基準。

場景選擇

為支援在農村環境登記 (CAR) 中註冊的私人土地上進行森林保護工作,我們優先涵蓋亞馬遜生物群系和五個「森林砍伐弧」州:馬拉尼昂州、馬托格羅索州、帕拉州、朗多尼亞州和托坎廷斯州。

為符合巴西森林法規的要求,我們以 2008 年中為時間範圍目標。根據這些時間和雲量標準 (低於 50%),我們從 SPOT 2、4 和 5 識別出 10,072 張圖片,並擷取到 Earth Engine Data Catalog 中進行處理。

光譜組成注意事項: SPOT 2、4 和 5 感應器無法原生擷取藍色光譜帶。對於自然色產品,資料發布者會提供合成藍色波段,該波段是從現有光譜波段衍生而來,可近似於真彩色表示法。

1. 經銳利化的多光譜自然色

  • Earth Engine 資產: AIRBUS/SPOT_2_4_5/BRAZIL/2007_2009/PMS_NC/V1
  • 圖片數量:2977 張
  • 日期範圍:2007 年 3 月 1 日至 2009 年 11 月 26 日
  • 說明:這項產品會合併高解析度的全色帶與多光譜帶,產生銳利的 3 帶 RGB 影像。這是視覺化基本地圖的首選來源
依年/月區分的影像直方圖,適用於經過銳化的自然色影像集
圖 2. 按年月顯示影像的直方圖,適用於經過銳化的多光譜自然色影像集。

2. 多光譜自然色

  • Earth Engine 資產: AIRBUS/SPOT_2_4_5/BRAZIL/2007_2009/MS_NC/V1
  • 圖片數量:3536
  • 日期範圍:2007 年 1 月 9 日至 2009 年 11 月 26 日
  • 說明:以原生多光譜解析度呈現的 3 波段偽自然色產品 (模擬 RGB)。如果無法取得銳化資料,視覺化底圖就會使用這個集合做為次要來源。
多光譜自然色圖像集按年月分類的圖像直方圖
圖 3. 多光譜自然色影像集按年月分類的影像直方圖。

3. 多光譜

  • Earth Engine 資產: AIRBUS/SPOT_2_4_5/BRAZIL/2007_2009/MS/V1
  • 圖片數量:3559
  • 日期範圍:2007 年 1 月 9 日至 2009 年 11 月 26 日
  • 說明:分析基本地圖的來源。這個集合包含計算植被指數 (例如 NDVI) 和執行地表覆蓋分類所需的原始光譜波段 (包括近紅外線和短波紅外線,如有)。
多光譜圖像集按年月分類的圖像直方圖
圖 4. 多光譜影像集按年月分類的影像直方圖。

地理涵蓋範圍和缺口

G-BFID v1.0 基本地圖的主要目標,是為巴西行政區域建立 2008 年前後的高解析度基準。不過,在篩選出高品質、低雲量圖片的同時,維持嚴格的時間範圍 (2007 年至 2009 年) 會導致空間間隙,尤其是在雲層持續覆蓋的區域。

場景選擇和品質篩選

為確保資料完整性,我們從 2007 年至 2009 年間,找出初始雲量 <50% 的候選集。因此,我們總共擷取了 10,000 多張圖片,並進一步篩選,排除品質有重大問題的圖片:

  • 不連續性檢查:排除含有手動識別的遙測或幾何誤差假影的圖像,包括資料供應商綁在一起的不連續場景。
  • 雲端 QA:專業圖像分析師因場景完全被雲層遮蓋或其他原因而拒絕。
  • 資料密度:只有雲層遮罩處理後,仍有超過 10% 有效像素 (視覺化底圖) 的圖片會保留下來 (分析底圖則為超過 5%)。

空間分布

如圖 5 所示,在「森林砍伐弧」和中西部/北部地區,馬賽克圖像的密度最高。透明區域代表在目標時間範圍內,沒有任何 SPOT 2、4 或 5 圖像通過上述品質篩選器,或是圖像遭到雲層遮蓋。

巴西地圖,顯示 G-BFID v1.0 視覺化基本地圖的空間涵蓋範圍。
圖 5. G-BFID v1.0 視覺化底圖的空間範圍。南部和東部的內部間隙和涵蓋範圍不完整,是因為我們優先處理 2008 年的時間基準、品質篩選和雲端遮罩。雖然系統未顯示 Analytic Basemap,但在此比例下,其空間範圍與 Visual Basemap 幾乎相同。

各州涵蓋範圍

圖 6 顯示各州/省的有效像素涵蓋率。朗多尼亞州和馬托格羅索州等地區的涵蓋率接近完整 (超過 95%),但由於封存和雲層遮蓋的限制,巴西南部和東北部部分地區的密度較低。

圖表也顯示,在幾乎所有州別中,視覺底圖提供的有效像素涵蓋範圍都略高於分析底圖。這是因為 Visual 產品可同時使用銳化全色和多光譜自然色集合,而 Analytic 產品僅衍生自多光譜集合。

長條圖:比較巴西各州視覺和分析底圖的有效像素涵蓋範圍。州別會垂直列出,涵蓋率百分比則會水平列出。
圖 6. 巴西各州視覺和數據分析底圖的有效像素涵蓋範圍。「森林砍伐弧」各州涵蓋率最高,而持續有雲層遮蓋、SPOT 採集有限和雲層遮蓋的區域涵蓋率最低。

處理方法

G-BFID v1.0 底圖的處理方法會優先考量資料出處和輻射完整性,以支援森林法規遵循評估。本節首先會定義用於維護完整性的整體馬賽克架構和分層邏輯,然後依時間順序說明套用至個別來源圖片的預先處理和標準化步驟,最後再進行組裝。

馬賽克方法

最終底圖是使用鑲嵌法建立,而非統計縮減器 (例如平均值或中位數合成)。這樣可確保最終產品保留原始光譜值和來源影像的空間紋理。由於避免對多項觀測結果取平均值,因此每個像素的離散出處都會保留在影像中。

分層邏輯

輸入的圖像會根據階層分層,優先顯示空間解析度較高和較新的衛星任務:

  • 影像基本地圖:影像會依像素大小排序 (優先採用最高解析度的可用資料),然後依衛星任務排序 (優先採用較新的 SPOT 衛星資料)。
  • 分析基本地圖:衛星任務會分層顯示圖像,優先顯示較晚 SPOT 任務的觀測結果,以取得最佳可用資料。

完整性和可追溯性

  • 重新取樣:所有內部重新投影都使用最鄰近重新取樣。 這樣可避免其他方法產生的插補平滑化效果,確保來源像素的原始放射和空間屬性不會受到鄰近像素影響。

  • 資料追溯:這兩項產品都包含每個像素的 date 中繼資料頻帶。使用者可藉此找出任何特定地點的確切觀測日期,確保森林法規遵循評估作業完全透明。

修正圖片邊緣

為確保重疊場景之間的界線清楚,我們採用了邊緣細化程序,移除來源圖像中的成品。這些影像在圖片邊框會顯示為斑點或「雜訊」像素,是供應商提供的資料經過有損壓縮的特徵。為解決這個問題,我們對圖片遮罩套用了 2.5 像素的焦點最小侵蝕,移除低品質的邊緣構件,確保最終的鑲嵌影像只使用有效資料 (圖 7)。

並排比較顯示精修前後的圖片邊緣瑕疵。
圖 7. 圖片邊框在邊緣細化程序前後的比較 (左側為前,右側為後)。2.5 像素的侵蝕效果可移除有損壓縮造成的「雜訊」構件,讓重疊場景之間的轉場效果更乾淨。

雲朵遮罩

為確保 G-BFID 1.0 版的資料完整性達到最高水準,我們在圖像封存程序中導入了手動遮蓋程序。我們選擇採用這種方法,而非自動化方法,是為了更保守地排除受雲層或其他大氣干擾影響的像素。

遮蓋程序

受過訓練的分析師會找出含有雲朵和相關大氣構件的區域,為確保完整擷取這些有問題的像素,我們採用保守的遮罩策略,並使用簡化的粗略幾何圖形。我們並未精確追蹤個別雲朵的邊界,而是遮蓋較大的矩形區域,確保產生的影像拼接盡可能清晰。

雖然這種做法刻意採取積極策略,經常會移除雲朵附近的有效像素,但我們認為這是必要措施,才能為 2008 年的基準提供高完整性的產品。

遮蓋政策和整合

手動遮罩僅適用於多光譜和全色銳化自然色影像集。由於多光譜自然色產品是衍生自多光譜資料,因此在處理期間,這些遮罩會傳播至相應的多光譜影像。

如果多光譜影像沒有相符的手動遮罩自然色對應影像,就會從最終的鑲嵌影像中排除。這樣可確保 G-BFID 1.0 版套件中的每個像素 (無論產品類型為何) 都已移除雲朵。

解讀資料缺口

最終影像的透明間隙代表 2007 年至 2009 年時間範圍內沒有可用的有效高品質資料。這些缺口是上述保守的手動遮罩、最初拒絕雲量過高 (>50%) 的場景,或是特定區域完全沒有可用的來源影像所致。較大的區域間隙通常反映出 2008 年代影像的不足,但圖 9 顯示的明顯「方塊」模式是雲層遮罩的結果。

衛星圖像的手動雲層遮罩示例,顯示已移除的矩形區域。
圖 9。 手動遮蓋 Visual Basemap 的範例。黑色矩形多邊形說明瞭排除雲朵和其他大氣構件的保守做法,資料產品中遮蓋的像素 (沒有資料) 會顯示為透明。

誤登記修正

我們導入了自動共同註冊工作流程,以減輕 SPOT 來源影像相對於地理基準的重大誤註冊問題,而地理基準是從 Landsat Collection 2 資料衍生而來。

參考基準

系統產生了無雲的 Landsat Collection 2 參考影像鑲嵌,做為共同註冊參考圖像。這張參考圖像使用 Landsat 7 和 8 影像的巴西交集部分,在 2006 年至 2010 年期間,透過中位數縮減器建構而成。選取 Landsat 紅色波段做為主要註冊目標,以比對 SPOT 紅色波段。

預估位移

ee.Image.displacement 演算法用於計算 SPOT 來源資料和 Landsat 參考資料之間的像素層級偏移。

  • 搜尋參數:位移模型套用的最大偏移值為 500 公尺,剛度參數為 5。
  • 統計匯總:使用平均值縮減器,匯總整個圖像區域的 Delta x ($dx$) 和 Delta y ($dy$),以及信賴度值。
  • 幅度計算:根據這些匯總統計資料,計算出總幅度偏移估計值 $M = \sqrt{dx^2 + dy^2}$,代表場景的平均位移。

修正政策

系統會根據計算出的位移統計資料,對場景進行分類和修正,優先進行重大改善,同時避免引入新的瑕疵:

  • 自動修正:如果圖片的位移量級 $M > 30$ 公尺,且信賴分數 $C > 0.3$,系統就會使用估算的 $dx$ 和 $dy$ 值自動位移圖片。
  • 手動評估:如果場景的估計位移量非常高 ($M > 100$ 公尺),但信賴度很低 ($C \le 0.3$),則會進行手動審查。只有在修正後,共同註冊的成效明顯優於原始刊登位置時,我們才會接受修正。
  • 排除:如果場景在嘗試修正後仍嚴重誤註冊,或特徵不足以進行可靠的配對,就會從影像拼接中排除。

導入與品質控管

使用最鄰近元素重取樣重新投影修正後的影像,以保留原始輻射值,並避免雙線性或立方內插的平滑效果。

為確保空間可追溯性,系統會將布林值 coregistered 頻帶附加至每張圖片,並保留在最終的影像拼接中。這類中繼資料可讓使用者區分經過空間調整的像素,以及保留在原始傳送位置的像素。

放射正規化

為因應 SPOT 來源集合之間的大氣條件和感應器差異,我們對構成影像拼接產品的圖片套用了輻射正規化。視覺和分析底圖都會使用直方圖,與 2008 年 Landsat 目標基準進行比對。

我們選擇 Landsat 做為參考資料,而非 MODIS 等解析度較低的替代方案,是因為 Landsat 的 30 公尺解析度與 SPOT 的 5 到 20 公尺資料更接近。這項相似性可確保光譜直方圖更平均地呈現,進而在比對程序中實現更準確的輻射度轉換。具體方法會因最終用途是視覺化或分析而略有不同。

視覺化基本地圖

為盡量減少相鄰圖像間的輻射不連續性,並確保近乎無縫的外觀,我們使用直方圖比對實作了色彩平衡工作流程。Pixel 值經過調整,可與 2008 年的 Landsat 鑲嵌目標基準保持一致。

流程如下:

  • 分析遮罩:為確保直方圖比對期間的統計資料穩定,系統會產生臨時分析遮罩,排除可能導致資料偏斜的區域。這項遮蓋功能主要針對兩項功能:
    • 變化劇烈區域:排除 SPOT 影像與 Landsat 參考鑲嵌影像之間絕對差異超過第 95 百分位數的像素。
    • 水體:使用 JRC 年度水體分類記錄資料集,排除水體的高反射率變異。資料集會篩選出 2008 年的資料,並套用反向遮罩,確保只保留非水體類別,以供統計分析。
  • 產生對照表 (LUT):使用遮蓋資料計算來源 SPOT 波段和目標 Landsat 波段的累積直方圖。
  • 內插:來源像素值會使用產生的 LUT 重新對應至目標值,使 SPOT 資料的輻射度剖繪與 2008 年的 Landsat 參考資料一致。
放射歸一化前後的影像鑲嵌比較。左側顯示色彩不一致,右側顯示色彩無縫接合。
圖 8. 對視覺基本地圖進行放射歸一化。原始圖片 (左側) 呈現顯著的輻射變化。經過直方圖比對 (右側) 後,場景之間的轉換近乎無縫,可提供整個影像的視覺一致性。黑色背景像素是沒有資料的區域。

Analytic Basemap

處理「分析基本地圖」與「視覺基本地圖」的程序相同,但會將數位號碼值轉換為大氣頂層反射率:

1. 大氣層頂端 (TOA) 反射率轉換

SPOT 原始數位號碼 (DN) 會轉換為 TOA 反射率,以考量實體感應器屬性和太陽幾何:

  • 輻射度計算:套用供應商的頻帶專屬實體增益和偏差中繼資料。
  • 反射率正規化:輻射率會根據太陽輻照度、太陽天頂角的餘弦值,以及特定擷取日期的地日距離進行正規化。
2. 直方圖比對

為進一步縮小不同 SPOT 影像間的輻射差異,我們採用了直方圖比對工作流程:

  • 分析遮蓋:這個步驟會使用與上方「視覺化基本地圖」一節所述完全相同的分析遮蓋:排除第 95 百分位數以上的變化像素,並透過反向 2008 年 JRC 分類遮蓋篩選掉水像素。

  • 協調:與視覺化底圖類似,像素值會透過對照表重新對應,以將輻射剖面與 Landsat TOA 參考資料對齊。這項程序可確保整個鑲嵌格的輻射一致性,有助於訓練大規模機器學習模型及執行可靠的推論。

限制與已知問題

雖然 G-BFID 1.0 版提供 2008 年代的高解析度基準,但使用者應注意歷史 SPOT 封存資料和所用處理方法固有的幾項限制。

空間完整性和缺口

基礎地圖無法提供巴西 100% 的地理覆蓋範圍。如果沒有任何圖像符合專案嚴格的 2008 年代時間範圍 (2007 年至 2009 年)、雲量門檻或品質標準,就會出現缺口。如果區域持續有雲層遮蔽,或衛星歷史資料的擷取頻率較低,就最常出現這些缺漏。詳情請參閱「地理涵蓋範圍和缺口」一節。

可變動的原始解析度

最終產品的像素大小名義上為 5 公尺 (視覺) 和 10 公尺 (分析),但來源圖像是由 5 公尺、10 公尺和 20 公尺的原生像素混合而成。由於系統使用最鄰近元素重取樣來保留光譜完整性,因此不同解析度之間的界線可能會顯示出來。

場景邊界兩側的影像解析度和顆粒感出現明顯變化。
圖 10. 範例:場景邊界的原生來源解析度不同。「顆粒」或銳利度的變化反映了最終產品中保留的不同 SPOT 感應器解析度之間的轉換。

剩餘誤登記

儘管有自動共同註冊工作流程,部分區域仍可能出現空間偏移。在地形起伏劇烈的區域,或是缺乏足夠地標來計算高可信度位移向量的密集同質森林區域,最有可能發生殘餘誤註冊。

大氣和雲層構件

手動雲端遮蓋程序刻意採取保守且積極的做法,但並非詳盡無遺。使用者可能會偶爾遇到殘餘的影像瑕疵,例如極薄的卷雲霧或小雲陰影。

衛星圖像:顯示遮罩未移除的殘餘薄霧雲。
圖 11. 手動雲層遮罩處理程序後,殘留的薄霧狀雲層範例。

放射不一致和機器學習效能

雖然系統會使用直方圖比對功能,盡量減少輻射不連續性, 但相鄰圖片之間仍存在殘餘光譜變異。如果是自動土地覆蓋分類或機器學習應用程式,這種變異性會增加整個鑲嵌的特定土地覆蓋類型光譜變異。這個較廣泛的資料範圍可能會降低推論期間的類別區隔精確度,進而導致錯誤率提高。

三張重疊的衛星影像邊界有明顯接縫,且顏色/亮度不同。
圖 12. 三張圖片交集處顯示的殘餘光譜差異。這些不連續性會以重疊圖像間的亮度與色彩變化呈現,並可能影響機器學習模型的效能。

光譜飽和度

在極亮區域 (例如高反射率的都市表面、特定土壤類型或明亮的沙地),像素可能會達到感應器的最大可偵測極限。這種「飽和度」會導致特定位置的紋理和細節遺失。

視覺 (左) 和分析 (右) 馬賽克中的光譜飽和度示例,顯示明亮的斑塊和不自然的橘色、黃色和青色。
圖 13。 光譜飽和度及產生的色彩偽影視覺化。亮點和不自然的色調 (左側影像鑲嵌圖中的橘色和黃色,以及右側影像鑲嵌圖中的青色) 表示一或多個光譜帶已達到可偵測到的上限,導致紋理和顏色呈現失真。

改變波段比率和植被指數

為盡可能實現無縫拼接,我們對每個光譜帶個別套用了直方圖比對,這會改變帶間的原始物理比例。因此,計算 NDVI 或其他波段比率指標等常見指數時,會產生與未變更來源資料集不同的值。雖然這些衍生指數仍可擷取整個馬賽克的相對空間模式,但不應用於絕對用途、跨感應器比較,或依賴嚴格指數門檻的分析。