Introduction
Pour soutenir les efforts du gouvernement brésilien visant à appliquer le Code forestier brésilien et à protéger les forêts sur les terres privées, Google a produit deux cartes de base dérivées des observations du satellite SPOT : une carte de base visuelle et une carte de base analytique (G-BFID v1.0).
Ces produits d'imagerie mosaïquée établissent une référence pour le 22 juillet 2008, date critique en vertu du Code forestier brésilien pour identifier les "zones consolidées", c'est-à-dire les régions avec une occupation humaine ou une utilisation agricole préexistantes. Dérivés des archives satellitaires SPOT, ces ensembles de données mosaïques offrent une alternative à plus haute résolution aux données Landsat de 30 mètres traditionnellement utilisées pour établir cette référence.
Pour synthétiser des milliers d'images SPOT en cartes de base unifiées, les images ont été traitées selon une routine comprenant les étapes suivantes :
- Affiner les contours pour supprimer les artefacts de compression.
- Normalisation radiométrique par rapport à une référence Landsat.
- Masquage des nuages (conservateur, manuel).
- Correction du décalage (corégistration à un composite Landsat).
Pour la composition finale, une méthode de mosaïque déterministe a été utilisée plutôt qu'une réduction statistique. Les pixels ont été superposés en fonction de la résolution spatiale et de la chronologie des missions satellites, en privilégiant les observations des satellites les plus récents. Cette hiérarchie de couches a été combinée à un rééchantillonnage du voisin le plus proche pour établir une provenance stricte des données. Par conséquent, chaque pixel de la carte de base finale a conservé son origine discrète et est resté directement traçable à une observation source spécifique et à ses métadonnées.
Données source
Spécifications des satellites et des capteurs
Les cartes de base G-BFID v1.0 sont dérivées des données d'images SPOT (Satellite pour l'Observation de la Terre). Les missions SPOT, opérées par le CNES et distribuées par Airbus, fournissent des images optiques haute résolution avec une fauchée de 60 km. Ce projet utilise une archive d'images provenant de trois satellites spécifiques pour établir la référence de 2008 :
- SPOT 2 et 4 : équipés des capteurs HRV/HRVIR, ils fournissent des données multispectrales à une résolution de 20 mètres et des données panchromatiques à une résolution de 10 mètres.
- SPOT 5 : équipé du capteur HRG, il offre une résolution spatiale considérablement améliorée avec des données multispectrales à une résolution de 10 mètres et des données panchromatiques à une résolution de 5 mètres.
| SPOT 2 | SPOT 4 | SPOT 5 | |
|---|---|---|---|
| Multispectrale | 20 m | 20 m | 10 min |
| Panchromatique | 10 min | 10 min | 5 m |
| Bandes spectrales | Vert, rouge, NIR | Vert, rouge, NIR, SWIR | Vert, rouge, NIR, SWIR |
Tableau 1. Caractéristiques techniques des missions SPOT 2, 4 et 5.
Remarque : Airbus produit un produit panchromatique "supermode" qui peut être utilisé pour améliorer la résolution des images SPOT 5 à 2,5 mètres. La disponibilité de ces données est très limitée pour les spécifications de ce projet et elles n'ont pas été incluses.
Collections Earth Engine en entrée
Trois produits de données SPOT distincts ont été ingérés et traités pour générer les fonds de carte finaux. Ces collections couvrent la période du 9 janvier 2007 au 26 novembre 2009, ce qui offre la profondeur temporelle nécessaire pour surmonter les contraintes de couverture nuageuse tout en conservant une référence haute résolution.
Sélection de scènes
Pour soutenir les efforts de protection des forêts sur les terres privées enregistrées dans le Registre environnemental rural (CAR), la couverture géographique a été privilégiée pour le biome amazonien et les cinq États de l'"Arc de déforestation" : Maranhão, Mato Grosso, Pará, Rondônia et Tocantins.
Pour répondre aux exigences du code forestier brésilien, une fenêtre temporelle de mi-2008 a été ciblée. Sur la base de ces critères temporels et de couverture nuageuse (< 50 %), un total de 10 072 images de SPOT 2, 4 et 5 ont été identifiées et ingérées dans le catalogue de données Earth Engine pour traitement.
Remarque sur la composition spectrale : Les capteurs SPOT 2, 4 et 5 ne capturent pas de bande spectrale bleue de manière native. Pour les produits en couleurs naturelles, une bande bleue synthétisée (dérivée des bandes spectrales existantes pour approximer une représentation en vraies couleurs) est fournie par le distributeur de données.
1. Couleur naturelle multispectrale pansharpenée
- Asset Earth Engine :
AIRBUS/SPOT_2_4_5/BRAZIL/2007_2009/PMS_NC/V1 - Nombre d'images : 2 977
- Période : du 1er mars 2007 au 26 novembre 2009
- Description : ce produit fusionne la bande panchromatique à haute résolution avec les bandes multispectrales pour produire une image RVB nette à trois bandes. Il s'agit de la source privilégiée pour le fond de carte visuel.
2. Couleur naturelle multispectrale
- Asset Earth Engine :
AIRBUS/SPOT_2_4_5/BRAZIL/2007_2009/MS_NC/V1 - Nombre d'images : 3 536
- Période : du 9 janvier 2007 au 26 novembre 2009
- Description : produit en pseudo-couleur naturelle à trois bandes (RVB simulé) à la résolution multispectrale native. Cette collection est utilisée dans la carte de base visuelle comme source secondaire lorsque les données pansharpened ne sont pas disponibles.
3. Multispectral
- Asset Earth Engine :
AIRBUS/SPOT_2_4_5/BRAZIL/2007_2009/MS/V1 - Nombre d'images : 3 559
- Période : du 9 janvier 2007 au 26 novembre 2009
- Description : source de la carte de base analytique. Cette collection contient les bandes spectrales d'origine (y compris le proche infrarouge et l'infrarouge à ondes courtes, le cas échéant) nécessaires au calcul des indices de végétation (par exemple, le NDVI) et à la classification de la couverture.
Couverture géographique et lacunes
L'objectif principal des cartes de base G-BFID v1.0 est d'établir une référence haute résolution pour le territoire administratif du Brésil, proche de l'année 2008. Toutefois, le maintien d'une fenêtre temporelle stricte (2007-2009) lors du filtrage des images de haute qualité et peu nuageuses a entraîné des lacunes spatiales, en particulier dans les régions où la couverture nuageuse est persistante.
Sélection de scènes et filtrage de la qualité
Pour garantir l'intégrité des données, un pool de candidats a été identifié pour la période 2007-2009 avec une couverture nuageuse initiale inférieure à 50 %. Au total, un peu plus de 10 000 images ont été ingérées,puis filtrées pour exclure celles présentant des problèmes de qualité importants :
- Contrôle de la discontinuité : les images présentant des artefacts télémétriques ou géométriques identifiés manuellement, y compris les scènes discontinues regroupées par le fournisseur de données, ont été exclues.
- Contrôle qualité Cloud : scènes refusées par des analystes d'images professionnels, car elles sont entièrement couvertes de nuages ou pour d'autres raisons.
- Densité des données : seules les images avec plus de 10 % de pixels valides (fond de carte visuel) après le masquage des nuages ont été conservées (plus de 5 % pour le fond de carte analytique).
Distribution spatiale
Comme le montre la figure 5, les mosaïques atteignent la densité la plus élevée dans l'"Arc de déforestation" et dans les régions du nord et du centre-ouest. Les zones transparentes représentent les régions où aucune image SPOT 2, 4 ou 5 n'a passé les filtres de qualité listés ci-dessus au cours de la période cible ou a été masquée par des nuages.
Couverture par État
La figure 6 fournit une répartition par État de la couverture de pixels valide. La couverture est presque complète (> 95 %) pour des États tels que Rondônia et Mato Grosso, tandis que les États du sud et certaines parties du nord-est présentent une densité plus faible en raison des contraintes de l'archive et du masquage du cloud.
Le graphique montre également que la carte de base visuelle fournit systématiquement une couverture de pixels valides légèrement supérieure à celle de la carte de base analytique dans presque tous les États. Cette différence existe, car le produit visuel peut utiliser à la fois les collections multispectrales et pansharpened en couleur naturelle, tandis que le produit analytique est dérivé uniquement de la collection multispectrale.
Méthodologie de traitement
La méthodologie de traitement des fonds de carte G-BFID v1.0 privilégie la provenance des données et l'intégrité radiométrique pour permettre d'évaluer la conformité au code forestier. Cette section définit d'abord l'architecture globale du mosaïque et la logique de superposition utilisées pour préserver cette intégrité, puis les étapes chronologiques de prétraitement et de normalisation appliquées aux images sources individuelles avant l'assemblage final.
Méthode de mosaïque
Les cartes de base finales ont été créées à l'aide d'une méthode de mosaïque plutôt que de réducteurs statistiques (tels que les composites de moyenne ou de médiane). Cette approche garantit que les produits finaux conservent les valeurs spectrales et les textures spatiales d'origine des images sources. En évitant la moyenne de plusieurs observations, la mosaïque préserve la provenance discrète de chaque pixel.
Logique de superposition
L'imagerie d'entrée a été superposée à l'aide d'une hiérarchie qui favorise une résolution spatiale plus élevée et les missions satellitaires ultérieures :
- Carte de base visuelle : les images ont été triées par taille de pixel (en privilégiant les données de la plus haute résolution disponible), puis par mission satellitaire (en privilégiant les données des satellites SPOT les plus récents).
- Carte de base analytique : les images ont été superposées par mission satellite, en privilégiant les observations des missions SPOT ultérieures pour cibler les meilleures données disponibles.
Intégrité et traçabilité
Rééchantillonnage : toutes les reprojections internes ont utilisé le rééchantillonnage du voisin le plus proche. Cela évite les effets de lissage par interpolation d'autres méthodes, ce qui garantit que les propriétés radiométriques et spatiales d'origine des pixels sources ne sont pas influencées par leurs voisins.
Traçabilité des données : une bande de métadonnées
datepar pixel est incluse dans les deux produits. Cela permet aux utilisateurs d'identifier la date exacte d'observation pour n'importe quel lieu, ce qui garantit une transparence totale pour les évaluations de conformité au code forestier.
Affinage des bords de l'image
Pour garantir des limites nettes entre les scènes qui se chevauchent, un processus d'affinage des contours a été appliqué pour supprimer les artefacts présents dans les images sources. Ces artefacts, qui se présentent sous la forme de pixels mouchetés ou "bruyants" le long des bordures des images, étaient une caractéristique de la compression avec perte dans les données fournies par le fournisseur. Pour résoudre ce problème, une érosion focale minimale de 2,5 pixels a été appliquée aux masques d'image, ce qui a permis de supprimer les artefacts de bord de mauvaise qualité et de s'assurer que seules les données valides sont utilisées dans les mosaïques finales (figure 7).
Masquage des nuages
Pour assurer la meilleure intégrité possible des données pour G-BFID v1.0, une procédure de masquage manuel a été mise en œuvre dans l'ensemble des archives d'images. Cette approche a été choisie plutôt que des méthodes automatisées pour permettre une exclusion plus prudente des pixels affectés par les nuages ou d'autres interférences atmosphériques.
Procédure de masquage
Des analystes expérimentés ont identifié les zones contenant des nuages et les artefacts atmosphériques associés. Pour s'assurer que ces pixels problématiques étaient entièrement capturés, une stratégie de masquage conservatrice a été utilisée à l'aide de géométries simplifiées et grossières. Plutôt que de tracer précisément les périmètres de chaque nuage, de plus grandes zones rectangulaires ont été masquées pour que la mosaïque obtenue reste aussi claire que possible.
Bien que cette approche soit volontairement agressive (elle supprime souvent les pixels valides adjacents aux nuages), elle a été jugée nécessaire pour fournir un produit de haute qualité pour la référence de 2008.
Règles de masquage et intégration
Les masques manuels ont été produits exclusivement pour les collections d'images multispectrales et pansharpened en couleurs naturelles. Étant donné que le produit multispectral en couleur naturelle est dérivé des données multispectrales, ces masques ont ensuite été propagés aux images multispectrales coïncidentes lors du traitement.
Toute image multispectrale qui ne disposait pas d'une image en couleurs naturelles correspondante masquée manuellement a été exclue de la mosaïque finale. Cela permet de s'assurer que les nuages ont été supprimés de chaque pixel inclus dans la suite G-BFID v1.0, quel que soit le type de produit.
Interprétation des données manquantes
Les zones transparentes dans les mosaïques finales représentent les zones pour lesquelles aucune donnée valide et de haute qualité n'est disponible dans la fenêtre temporelle de 2007 à 2009. Ces lacunes résultent d'une combinaison du masquage manuel conservateur décrit ci-dessus, du rejet initial des scènes avec une couverture nuageuse élevée (> 50 %) ou d'une absence totale d'imagerie source disponible auprès du fournisseur pour une région spécifique. Si les écarts régionaux plus importants reflètent généralement un manque d'images disponibles datant de 2008, les motifs distincts en forme de blocs présentés sur la figure 9 sont une conséquence du masquage des nuages.
Correction du décalage
Un workflow de corégistration automatisé a été implémenté pour atténuer les erreurs d'enregistrement importantes dans l'imagerie source SPOT par rapport à une référence géographique dérivée des données Landsat Collection 2.
Référence de base
Une mosaïque de référence Landsat Collection 2 sans nuage a été générée pour servir d'image de référence pour la corégistration. Cette image de référence a été construite à l'aide d'un réducteur médian sur les images Landsat 7 et 8 croisant le Brésil pour la période 2006-2010. La bande rouge Landsat a été sélectionnée comme cible d'enregistrement principale pour correspondre à la bande rouge SPOT.
Estimation du déplacement
L'algorithme ee.Image.displacement a été utilisé pour calculer le décalage au niveau des pixels entre les données sources SPOT et la référence Landsat.
- Paramètres de recherche : un décalage maximal de 500 m et un paramètre de rigidité de 5 ont été appliqués au modèle de déplacement.
- Agrégation statistique : les valeurs delta x ($dx$) et delta y ($dy$), ainsi que les valeurs de confiance, ont été agrégées sur l'ensemble de la zone de l'image à l'aide d'un réducteur de moyenne.
- Calcul de la magnitude : à partir de ces statistiques agrégées, une estimation du décalage de magnitude totale $M = \sqrt{dx^2 + dy^2}$ a été calculée pour représenter le déplacement moyen de la scène.
Règles de correction
Les scènes ont été classées et corrigées en fonction des statistiques de déplacement calculées afin de privilégier les améliorations importantes tout en évitant l'introduction de nouveaux artefacts :
- Correction automatique : les images présentant une amplitude de déplacement $M > 30$ m avec un score de confiance $C > 0,3$ ont été automatiquement déplacées à l'aide des valeurs $dx$ et $dy$ estimées.
- Évaluation manuelle : pour les scènes avec un déplacement estimé très élevé ($M > 100$ m) mais une faible confiance ($C \le 0,3$), un examen manuel a été effectué. Les corrections n'ont été acceptées que si la corégistration obtenue présentait une amélioration définitive par rapport au placement d'origine.
- Exclusion : les scènes qui sont restées mal enregistrées de manière significative après une tentative de correction, ou celles qui ne comportaient pas suffisamment de caractéristiques pour une mise en correspondance fiable, ont été exclues de la mosaïque.
Implémentation et contrôle qualité
Les images corrigées ont été reprojetées à l'aide du rééchantillonnage du voisin le plus proche pour préserver les valeurs radiométriques d'origine et éviter les effets de lissage de l'interpolation bilinéaire ou cubique.
Pour assurer la traçabilité spatiale, une bande booléenne coregistered a été ajoutée à chaque image et conservée dans la mosaïque finale. Ces métadonnées permettent aux utilisateurs de faire la distinction entre les pixels ayant subi un ajustement spatial et ceux conservés dans leur position d'origine.
Normalisation radiométrique
Pour tenir compte des variations des conditions atmosphériques et des différences de capteurs entre les collections sources SPOT, une normalisation radiométrique a été appliquée aux images composant les produits mosaïques. Les fonds de carte visuels et analytiques utilisent tous deux la mise en correspondance d'histogrammes par rapport à une référence Landsat cible cohérente de 2008.
Landsat a été sélectionné comme référence plutôt que des alternatives plus grossières comme MODIS, car sa résolution de 30 mètres correspond davantage aux données SPOT de 5 à 20 mètres. Cette similarité garantit que les histogrammes spectraux sont plus représentatifs de manière égale, ce qui permet un transfert radiométrique plus précis lors du processus de mise en correspondance. La méthodologie spécifique de cette harmonisation diffère légèrement selon que le cas d'utilisation final est visuel ou analytique.
Carte de base visuelle
Pour minimiser les discontinuités radiométriques entre les images adjacentes et garantir une apparence presque homogène, un workflow d'équilibrage des couleurs a été implémenté à l'aide de la correspondance d'histogrammes. Les valeurs des pixels ont été ajustées pour correspondre à une référence cible cohérente du mosaïque Landsat de 2008.
Le processus se déroule comme suit :
- Masquage de l'analyse : pour garantir des statistiques stables lors de la mise en correspondance des histogrammes, un masque d'analyse temporaire est généré pour exclure les zones susceptibles de fausser les données. Ce masquage cible deux fonctionnalités principales :
- Zones de forte variation : les pixels dépassant le 95e centile de la différence absolue entre l'image SPOT et la mosaïque de référence Landsat sont exclus.
- Masse d'eau : la forte variabilité de la réflectance sur l'eau est exclue à l'aide de l'ensemble de données "JRC Yearly Water Classification History". L'ensemble de données est filtré pour l'année 2008, et un masque inversé est appliqué pour s'assurer que seules les classes non liées à l'eau sont conservées pour l'analyse statistique.
- Génération de tables de correspondance (LUT) : à l'aide des données masquées, des histogrammes cumulatifs sont calculés pour les bandes SPOT sources et les bandes Landsat cibles.
- Interpolation : les valeurs des pixels sources sont remappées sur les valeurs cibles à l'aide de la LUT générée, ce qui permet d'aligner le profil radiométrique des données SPOT sur la référence Landsat de 2008.
Carte de base analytique
Le traitement de la carte de base analytique est identique à celui de la carte de base visuelle, mais inclut la conversion des valeurs DN en réflectance au sommet de l'atmosphère :
1. Conversion de la réflectance au sommet de l'atmosphère (TOA)
Les nombres numériques bruts (DN) SPOT sont convertis en réflectance TOA pour tenir compte des propriétés physiques du capteur et de la géométrie solaire :
- Calcul de l'éclat : application des métadonnées de gain physique et de biais spécifiques à la bande du fournisseur.
- Normalisation de la réflectance : la radiance est normalisée par l'irradiance solaire, le cosinus de l'angle zénithal solaire et la distance Terre-Soleil pour le jour d'acquisition spécifique.
2. Mise en correspondance des histogrammes
Pour minimiser davantage les différences radiométriques entre les différentes images SPOT, un workflow de correspondance d'histogramme est appliqué :
Masquage de l'analyse : cette étape utilise exactement le même masquage de l'analyse que celui décrit dans la section "Carte de base visuelle" ci-dessus. Elle exclut les pixels de changement supérieurs au 95e centile et filtre les pixels d'eau à l'aide du masque de classification JRC de 2008 inversé.
Harmonisation : comme pour la carte de base visuelle, les valeurs de pixels sont remappées via une table de correspondance pour aligner le profil radiométrique sur une référence Landsat TOA. Cela permet d'établir une cohérence radiométrique à l'échelle de la mosaïque pour entraîner des modèles de machine learning à grande échelle et exécuter des inférences fiables.
Limites et problèmes connus
Bien que G-BFID v1.0 fournisse une référence haute résolution de l'année 2008, les utilisateurs doivent être conscients de plusieurs limites inhérentes à l'archive historique SPOT et aux méthodologies de traitement utilisées.
Exhaustivité spatiale et lacunes
Les cartes de base ne couvrent pas 100 % du territoire brésilien. Des lacunes existent là où aucune image ne répondait à la fenêtre temporelle stricte du projet (2007-2009), aux seuils de couverture nuageuse ou aux normes de qualité de 2008. Ces lacunes sont plus fréquentes dans les régions où la couverture nuageuse est persistante ou où la fréquence d'acquisition historique des satellites est plus faible. Pour en savoir plus, consultez la section Couverture géographique et lacunes.
Résolution native variable
Bien que les produits finaux soient fournis avec une taille de pixel nominale de 5 mètres (visuel) et de 10 mètres (analytique), l'imagerie source se compose d'un mélange de pixels natifs de 5 m, 10 m et 20 m. Étant donné que le rééchantillonnage du voisin le plus proche a été utilisé pour préserver l'intégrité spectrale, les limites entre les différentes résolutions peuvent être visibles.

Erreur d'enregistrement résiduelle
Malgré le workflow de corégistration automatique, des décalages spatiaux peuvent persister dans certaines zones. Le désalignement résiduel est plus susceptible de se produire dans les régions présentant un relief extrême ou dans les zones forestières denses et homogènes où l'algorithme ne disposait pas de suffisamment de points de repère pour calculer des vecteurs de déplacement fiables.
Artefacts atmosphériques et nuageux
Le processus de masquage manuel des nuages était intentionnellement conservateur et agressif, mais il n'est pas exhaustif. Les utilisateurs peuvent rencontrer des artefacts résiduels occasionnels, tels qu'un voile de cirrus très fin ou de petites ombres de nuages.
Incohérence radiométrique et performances du ML
Bien que la mise en correspondance d'histogrammes ait été utilisée pour minimiser les discontinuités radiométriques, une variation spectrale résiduelle subsiste entre les images adjacentes. Pour la classification automatisée de la couverture terrestre ou les applications de machine learning, cette variabilité augmente la variance spectrale pour un type de couverture terrestre donné dans la mosaïque. Cette plage de données plus large peut réduire la précision de la séparation des classes lors de l'inférence, ce qui peut entraîner des taux d'erreur plus élevés.
Saturation spectrale
Dans les zones de luminosité extrême (surfaces urbaines très réfléchissantes, types de sol spécifiques ou sable clair, par exemple), les pixels peuvent atteindre la limite de détection maximale du capteur. Cette "saturation" entraîne une perte de texture et de détails à ces endroits spécifiques.
Rapports de bandes et indices de végétation modifiés
Pour obtenir une mosaïque presque parfaite, une correspondance d'histogramme a été appliquée à chaque bande spectrale individuellement, ce qui modifie intrinsèquement les rapports physiques d'origine entre les bandes. Par conséquent, le calcul d'indices courants tels que le NDVI ou d'autres métriques de rapport de bandes générera des valeurs différentes de celles des ensembles de données sources non modifiés. Bien que ces indices dérivés puissent encore capturer des modèles spatiaux relatifs dans la mosaïque, ils ne doivent pas être utilisés à des fins absolues, pour des comparaisons multisenseurs ou pour des analyses qui reposent sur des seuils d'index rigides.