Introdução
Para apoiar os esforços do governo brasileiro na implementação do Código Florestal e na proteção das florestas em terras privadas, o Google produziu dois mapas de base derivados de observações do satélite SPOT: um mapa de base visual e um mapa de base analítico (G-BFID v1.0).
Esses produtos de imagens em mosaico estabelecem um valor de referência para 22 de julho de 2008, uma data crítica de acordo com o Código Florestal do Brasil para identificar "áreas consolidadas", ou seja, regiões com ocupação humana ou uso agrícola preexistentes. Derivados do arquivo de satélite SPOT, esses conjuntos de dados de mosaico oferecem uma alternativa de resolução mais alta aos dados de 30 metros do Landsat, tradicionalmente usados para estabelecer esse valor de referência.
Para sintetizar milhares de imagens do SPOT em mapas de base unificados, as imagens passaram por uma rotina de processamento que consistia em:
- Refinamento de borda para remover artefatos de compactação.
- Normalização radiométrica em relação a um valor de referência do Landsat.
- Máscara de nuvem (conservadora, manual).
- Correção de desalinhamento (corregistro com um mosaico do Landsat).
Para a composição final, foi usado um método de mosaico determinístico em vez de redução estatística. Os pixels foram organizados em camadas de acordo com a resolução espacial e a cronologia da missão do satélite, com prioridade para observações de satélites mais novos. Essa hierarquia de camadas foi combinada com a reamostragem do vizinho mais próximo para estabelecer uma origem de dados estrita. Como resultado, cada pixel no mapa de base final manteve sua origem discreta e permaneceu diretamente rastreável a uma observação de origem específica e seus metadados.
Dados de origem
Especificações de satélite e sensor
Os mapas de base do G-BFID v1.0 são derivados de dados de imagens do SPOT (Satellite pour l’Observation de la Terre). As missões SPOT, operadas pelo CNES e distribuídas pela Airbus, fornecem imagens ópticas de alta resolução com uma faixa de 60 km. Este projeto usa um arquivo de imagens de três satélites específicos para estabelecer o valor de referência de 2008:
- SPOT 2 e 4:equipados com sensores HRV/HRVIR, fornecendo dados multiespectrais com resolução de 20 metros e dados pancromáticos com resolução de 10 metros.
- SPOT 5:equipado com o sensor HRG, oferece resolução espacial significativamente aprimorada com dados multiespectrais em resolução de 10 metros e dados pancromáticos em resolução de 5 metros.
| SPOT 2 | SPOT 4 | SPOT 5 | |
|---|---|---|---|
| Multiespectral | 20min | 20min | 10min |
| Pancromático | 10min | 10min | 5 m |
| Bandas espectrais | Verde, vermelho, NIR | Verde, vermelho, NIR, SWIR | Verde, vermelho, NIR, SWIR |
Tabela 1. Especificações técnicas das missões SPOT 2, 4 e 5.
Observação: a Airbus produz um produto pancromático "supermode" que pode ser usado para aumentar a nitidez de imagens do SPOT 5 com resolução de 2,5 metros. A disponibilidade desses dados é muito limitada para as especificações deste projeto e não foi incluída.
Inserir coleções do Earth Engine
Três produtos de dados do SPOT distintos foram ingeridos e processados para gerar os mapas de base finais. Essas coleções abrangem o período de 9 de janeiro de 2007 a 26 de novembro de 2009, fornecendo a profundidade temporal necessária para superar as restrições de cobertura de nuvens e manter uma base de alta resolução.
Seleção de cena
Para apoiar os esforços de proteção florestal em terras privadas registradas no Cadastro Ambiental Rural (CAR), a cobertura geográfica foi priorizada para o bioma Amazônia e os cinco estados do "Arco do Desmatamento": Maranhão, Mato Grosso, Pará, Rondônia e Tocantins.
Para se alinhar aos requisitos do Código Florestal do Brasil, foi usada uma janela temporal de meados de 2008. Com base nesses critérios temporais e de cobertura de nuvens (<50%), um total de 10.072 imagens do SPOT 2, 4 e 5 foram identificadas e ingeridas no Data Catalog do Earth Engine para processamento.
Observação sobre a composição espectral:os sensores SPOT 2, 4 e 5 não capturam uma banda espectral azul de forma nativa. Para os produtos de cor natural, o distribuidor de dados fornece uma banda azul sintetizada, derivada de bandas espectrais atuais para aproximar uma representação de cor verdadeira.
1. Pansharpened multispectral natural color
- Recurso do Earth Engine:
AIRBUS/SPOT_2_4_5/BRAZIL/2007_2009/PMS_NC/V1 - Número de imagens:2.977
- Período:1º de março de 2007 a 26 de novembro de 2009
- Descrição:esse produto combina a banda pancromática de maior resolução com as bandas multiespectrais para produzir uma imagem RGB nítida de três bandas. Essa é a fonte preferida para o mapa de base visual.
2. Cor natural multiespectral
- Recurso do Earth Engine:
AIRBUS/SPOT_2_4_5/BRAZIL/2007_2009/MS_NC/V1 - Número de imagens:3.536
- Período:9 de janeiro de 2007 a 26 de novembro de 2009
- Descrição:um produto de cor pseudo-natural de três bandas (RGB simulado) com resolução multiespectral nativa. Essa coleção é usada no Mapa de base visual como uma fonte secundária em que os dados de fusão pancromática podem estar indisponíveis.
3. Multiespectral
- Recurso do Earth Engine:
AIRBUS/SPOT_2_4_5/BRAZIL/2007_2009/MS/V1 - Número de imagens:3.559
- Período:9 de janeiro de 2007 a 26 de novembro de 2009
- Descrição:a origem do mapa de base analítico. Essa coleção contém as bandas espectrais originais (incluindo infravermelho próximo e infravermelho de ondas curtas, quando disponíveis) necessárias para calcular índices de vegetação (por exemplo, NDVI) e realizar a classificação de cobertura.
Cobertura e lacunas geográficas
O objetivo principal dos mapas base do G-BFID v1.0 é estabelecer uma linha de base de alta resolução, próxima a 2008, para o território administrativo do Brasil. No entanto, manter uma janela temporal estrita (2007 a 2009) ao filtrar imagens de alta qualidade e com poucas nuvens resultou em lacunas espaciais, principalmente em regiões com cobertura de nuvens persistente.
Seleção de cena e filtragem de qualidade
Para garantir a integridade de dados, um grupo de candidatos foi identificado entre 2007 e 2009 com menos de 50% de cobertura inicial de nuvens. Com isso, um total de pouco mais de 10.000 imagens foram ingeridas e filtradas para excluir aquelas com problemas significativos de qualidade:
- Verificação de descontinuidade: imagens com telemetria ou artefatos geométricos identificados manualmente, incluindo cenas descontínuas agrupadas pelo provedor de dados, foram excluídas.
- Controle de qualidade na nuvem: cenas rejeitadas por analistas de imagens profissionais por serem totalmente cobertas por nuvens ou por outros motivos.
- Densidade de dados: somente imagens com mais de 10% de pixels válidos (mapa de base visual) restantes após a mascaramento de nuvens foram retidas (mais de 5% para o mapa de base analítico).
Distribuição espacial
Como mostrado na Figura 5, os mosaicos alcançam a maior densidade no "Arco do Desmatamento" e nas regiões norte/centro-oeste. As áreas transparentes representam regiões em que nenhuma imagem do SPOT 2, 4 ou 5 passou pelos filtros de qualidade listados acima no período de tempo desejado ou foram mascaradas por nuvens.
Cobertura por estado
A Figura 6 mostra um detalhamento estado por estado da cobertura de pixels válida. A cobertura é quase completa (>95%) em estados como Rondônia e Mato Grosso, enquanto estados do sul e partes do nordeste mostram densidade menor devido às restrições do arquivo e da mascaramento de nuvens.
O gráfico também mostra que o mapa de base visual oferece uma cobertura de pixels válidos um pouco maior do que o mapa de base analítico em quase todos os estados. Essa diferença existe porque o produto Visual pode usar as coleções de cores naturais pancromáticas e multiespectrais, enquanto o produto Analytic é derivado apenas da coleção multiespectral.
Metodologia de tratamento
A metodologia de tratamento dos mapas de base do G-BFID v1.0 prioriza a origem dos dados e a integridade radiométrica para oferecer suporte às avaliações de conformidade com o Código Florestal. Esta seção primeiro define a arquitetura geral de mosaico e a lógica de camadas usada para preservar essa integridade, seguida pelas etapas cronológicas de pré-processamento e normalização aplicadas a imagens de origem individuais antes da montagem final.
Método de mosaico
Os mapas de base finais foram criados usando um método de mosaico em vez de redutores estatísticos, como composições de média ou mediana. Essa abordagem garante que os produtos finais mantenham os valores espectrais e as texturas espaciais originais das imagens de origem. Ao evitar a média de várias observações, o mosaico preserva a origem discreta de cada pixel.
Lógica de camadas
As imagens de entrada foram organizadas em camadas usando uma hierarquia que favorece resoluções espaciais mais altas e missões de satélite posteriores:
- Mapa base visual:as imagens foram classificadas por tamanho do pixel (priorizando os dados de maior resolução disponíveis) e, em seguida, por missão de satélite (priorizando dados de satélites SPOT mais recentes).
- Mapa base analítico:as imagens foram organizadas por missão de satélite, priorizando observações de missões SPOT mais recentes para segmentar os melhores dados disponíveis.
Integridade e rastreabilidade
Reamostragem:todas as reprojeções internas usaram a reamostragem do vizinho mais próximo. Isso evita os efeitos de suavização interpolativa de outros métodos, garantindo que as propriedades radiométricas e espaciais originais dos pixels de origem não sejam influenciadas pelos vizinhos.
Rastreabilidade de dados:uma banda de metadados
datepor pixel é incluída nos dois produtos. Isso permite que os usuários identifiquem a data exata da observação para qualquer local, garantindo total transparência nas avaliações de conformidade com o Código Florestal.
Refinamento da borda da imagem
Para garantir limites claros entre cenas sobrepostas, um processo de refinamento de borda foi aplicado para remover artefatos presentes nas imagens de origem. Esses artefatos, que aparecem como pixels salpicados ou "ruidosos" ao longo das bordas da imagem, eram uma característica da compressão com perdas nos dados entregues pelo provedor. Para resolver isso, uma erosão mínima focal de 2,5 pixels foi aplicada às máscaras de imagem, removendo os artefatos de borda de baixa qualidade e garantindo que apenas dados válidos sejam usados nos mosaicos finais (Figura 7).
Máscara de nuvem
Para garantir a maior integridade de dados possível para o G-BFID v1.0, um procedimento de mascaramento manual foi implementado em todo o arquivo de imagens. Essa abordagem foi escolhida em vez de métodos automatizados para permitir uma exclusão mais conservadora de pixels afetados por nuvens ou outras interferências atmosféricas.
Procedimento de mascaramento
Analistas treinados identificaram áreas com nuvens e artefatos atmosféricos relacionados. Para garantir que esses pixels problemáticos fossem totalmente capturados, uma estratégia de mascaramento conservadora foi usada com geometrias simplificadas e grosseiras. Em vez de traçar precisamente os perímetros individuais das nuvens, áreas retangulares maiores foram mascaradas para garantir que o mosaico resultante permanecesse o mais claro possível.
Embora essa abordagem seja intencionalmente agressiva, removendo pixels válidos adjacentes a nuvens, ela foi considerada necessária para fornecer um produto de alta integridade para o ano de 2008.
Política de mascaramento e integração
As máscaras manuais foram produzidas exclusivamente para as coleções de imagens multiespectrais e pancromáticas de cores naturais. Como o produto de cor natural multiespectral é derivado dos dados multiespectrais, essas máscaras foram propagadas para as imagens multiespectrais coincidentes durante o processamento.
Qualquer imagem multiespectral que não tivesse uma contraparte de cor natural correspondente e mascarada manualmente foi excluída do mosaico final. Isso garante que todos os pixels incluídos no pacote G-BFID v1.0, independente do tipo de produto, tenham as nuvens removidas.
Interpretação de lacunas de dados
As lacunas transparentes nos mosaicos finais representam áreas em que não há dados válidos e de alta qualidade disponíveis na janela temporal de 2007 a 2009. Essas lacunas resultam de uma combinação da máscara manual conservadora descrita acima, da rejeição inicial de cenas com alta cobertura de nuvens (>50%) ou da ausência total de imagens de origem disponíveis do provedor para uma região específica. Embora as lacunas regionais maiores geralmente reflitam a falta de imagens disponíveis da era de 2008, os padrões distintos de "blocos" mostrados na Figura 9 são uma consequência da mascaramento de nuvens.
Correção de registro incorreto
Um fluxo de trabalho de correlação automatizada foi implementado para mitigar o desalinhamento significativo nas imagens de origem do SPOT em relação a uma base geográfica derivada dos dados da Coleção 2 do Landsat.
Linha de base de referência
Um mosaico de referência da Coleção 2 do Landsat sem nuvens foi gerado para servir como uma imagem de referência de corregistro. Essa imagem de referência foi criada usando um redutor de mediana em imagens do Landsat 7 e 8 que se cruzam no Brasil no período de 2006 a 2010. A banda vermelha do Landsat foi selecionada como o principal destino de registro para corresponder à banda vermelha do SPOT.
Estimativa de deslocamento
O algoritmo ee.Image.displacement foi usado para calcular o deslocamento no nível do pixel entre os dados de origem do SPOT e a referência do Landsat.
- Parâmetros de pesquisa:um deslocamento máximo de 500 m e um parâmetro de rigidez de 5 foram aplicados ao modelo de deslocamento.
- Agregação estatística:delta x ($dx$) e delta y ($dy$) e valores de confiança foram agregados em toda a área da imagem usando um redutor de média.
- Cálculo da magnitude:com base nessas estatísticas agregadas, foi calculado um deslocamento total da magnitude estimado $M = \sqrt{dx^2 + dy^2}$ para representar o deslocamento médio da cena.
Política de correção
As cenas foram categorizadas e corrigidas com base nas estatísticas de deslocamento calculadas para priorizar melhorias significativas e evitar a introdução de novos artefatos:
- Correção automática: imagens com uma magnitude de deslocamento $M > 30$ m e um nível de confiança $C > 0,3$ foram movidas automaticamente usando os valores estimados $dx$ e $dy$.
- Avaliação manual: para cenas com deslocamento estimado muito alto ($M > 100$ m), mas confiança baixa ($C \le 0,3$), foi realizada uma análise manual. As correções só foram aceitas se o corregistro resultante mostrasse uma melhoria definitiva em relação ao posicionamento original.
- Exclusão: cenas que permaneceram significativamente mal registradas após a tentativa de correção ou que tinham recursos insuficientes para uma correspondência confiável foram excluídas do mosaico.
Implementação e controle de qualidade
As imagens corrigidas foram reprojetadas usando a reamostragem do vizinho mais próximo para preservar os valores radiométricos originais e evitar os efeitos de suavização da interpolação bilinear ou cúbica.
Para garantir a rastreabilidade espacial, uma banda booleana coregistered foi anexada a cada imagem e preservada no mosaico final. Com esses metadados, os usuários podem distinguir entre pixels que passaram por ajuste espacial e aqueles mantidos na posição original de entrega.
Normalização radiométrica
Para considerar as diferentes condições atmosféricas e diferenças de sensores nas coleções de origem do SPOT, a normalização radiométrica foi aplicada às imagens que compõem os produtos de mosaico. Os mapas de base visual e analítico usam a correspondência de histograma com um valor de referência consistente do Landsat de 2008.
O Landsat foi selecionado como referência em vez de alternativas mais grosseiras, como o MODIS, porque a resolução de 30 metros se alinha mais aos dados de 5 a 20 metros do SPOT. Essa semelhança garante que os histogramas espectrais sejam mais igualmente representativos, permitindo uma transferência radiométrica mais precisa durante o processo de correspondência. A metodologia específica para essa harmonização varia um pouco dependendo se o caso de uso final é visual ou analítico.
Mapa de base visual
Para minimizar as descontinuidades radiométricas entre imagens adjacentes e garantir uma aparência quase perfeita, um fluxo de trabalho de balanceamento de cores foi implementado usando a correspondência de histogramas. Os valores de pixel foram ajustados para corresponder a uma referência de mosaico do Landsat de 2008 consistente.
O processo segue estas etapas:
- Mascaramento de análise: para garantir estatísticas estáveis durante a correspondência de histogramas, uma máscara de análise temporária é gerada para excluir áreas que possam distorcer os dados. Essa mascaragem tem como alvo dois recursos principais:
- Áreas de alta mudança: pixels que excedem o percentil 95 da diferença absoluta entre a imagem do SPOT e o mosaico de referência do Landsat são excluídos.
- Corpos d'água: a alta variabilidade de refletância sobre a água é excluída usando o conjunto de dados do histórico anual de classificação de água do JRC. O conjunto de dados é filtrado para o ano de 2008, e uma máscara inversa é aplicada para garantir que apenas classes não relacionadas à água sejam mantidas para a análise estatística.
- Geração de tabela de consulta (LUT): usando os dados mascarados, os histogramas cumulativos são calculados para as bandas SPOT de origem e Landsat de destino.
- Interpolação: os valores de pixel de origem são remapeados para valores de destino usando a LUT gerada, alinhando o perfil radiométrico dos dados do SPOT com a referência do Landsat de 2008.
Mapa de base analítico
O processamento do mapa de base analítico é semelhante ao do mapa de base visual, mas inclui a conversão de valores de DN em refletância do topo da atmosfera:
1. Conversão de refletância no topo da atmosfera (TOA)
Os números digitais (DN) brutos do SPOT são convertidos em refletância TOA para considerar as propriedades físicas do sensor e a geometria solar:
- Cálculo de radiância: aplicação dos metadados de ganho físico e viés específicos da banda do provedor.
- Normalização da refletância: a radiância é normalizada pela irradiância solar, pelo cosseno do ângulo de zênite solar e pela distância entre a Terra e o Sol no dia específico da aquisição.
2. Correspondência de histograma
Para minimizar ainda mais as diferenças radiométricas entre imagens SPOT distintas, um fluxo de trabalho de correspondência de histograma é aplicado:
Mascaramento de análise: esta etapa usa o mesmo mascaramento de análise descrito na seção "Mapa de base visual" acima: exclui pixels de mudança acima do 95º percentil e filtra pixels de água usando a máscara invertida de classificação do JRC de 2008.
Harmonização: semelhante ao mapa de base visual, os valores de pixel são remapeados por uma tabela de consulta para alinhar o perfil radiométrico a uma referência de TOA da Landsat. Isso estabelece consistência radiométrica em todo o mosaico para treinar modelos de machine learning em grande escala e executar inferências confiáveis.
Limitações e problemas conhecidos
Embora o G-BFID v1.0 forneça um valor de referência de alta resolução da era de 2008, os usuários precisam estar cientes de várias limitações inerentes ao arquivo histórico do SPOT e às metodologias de processamento usadas.
Integridade e lacunas espaciais
Os mapas de base não oferecem cobertura geográfica de 100% do Brasil. Existem lacunas quando nenhuma imagem atende à janela temporal estrita do projeto da era de 2008 (2007 a 2009), aos limites de cobertura de nuvens ou aos padrões de qualidade. Essas falhas são mais frequentes em regiões com cobertura de nuvens persistente ou menor frequência histórica de aquisição de satélites. Consulte a seção Cobertura geográfica e lacunas para mais detalhes.
Resolução nativa variável
Embora os produtos finais sejam entregues em um tamanho nominal de pixel de 5 metros (visual) e 10 metros (analítico), as imagens de origem consistem em uma mistura de pixels nativos de 5 m, 10 m e 20 m. Como a reamostragem do vizinho mais próximo foi usada para preservar a integridade espectral, os limites entre resoluções diferentes podem ficar visíveis.
Registro incorreto residual
Apesar do fluxo de trabalho automatizado de correlação, as mudanças espaciais podem persistir em algumas áreas. O desalinhamento residual provavelmente vai ocorrer em regiões com relevo extremo ou em áreas de floresta densas e homogêneas, em que o algoritmo não tinha pontos de referência suficientes para calcular vetores de deslocamento de alta confiança.
Artefatos atmosféricos e de nuvem
O processo manual de mascaramento de nuvens foi intencionalmente conservador e agressivo, mas não é exaustivo. Os usuários podem encontrar artefatos residuais ocasionais, como uma neblina cirrus muito fina ou pequenas sombras de nuvens.
Inconsistência radiométrica e desempenho de ML
Embora a correspondência de histograma tenha sido usada para minimizar as descontinuidades radiométricas, ainda há variação espectral residual entre imagens adjacentes. Para classificação automatizada de cobertura da terra ou aplicativos de aprendizado de máquina, essa variabilidade aumenta a variância espectral de um determinado tipo de cobertura da terra no mosaico. Esse intervalo de dados mais amplo pode reduzir a precisão da separação de classes durante a inferência, o que pode levar a taxas de erro mais altas.
Saturação espectral
Em áreas de brilho extremo, como superfícies urbanas altamente reflexivas, tipos específicos de solo ou areia clara, os pixels podem atingir o limite máximo detectável do sensor. Essa "saturação" resulta em uma perda de textura e detalhes nesses locais específicos.
Razões de banda e índices de vegetação alterados
Para criar um mosaico quase perfeito, a correspondência de histograma foi aplicada a cada banda espectral individualmente, o que altera as proporções físicas originais entre as bandas. Como resultado, o cálculo de índices comuns, como NDVI ou outras métricas de proporção de banda, vai gerar valores diferentes dos conjuntos de dados de origem inalterados. Embora esses índices derivados ainda possam capturar padrões espaciais relativos no mosaico, eles não devem ser usados para fins absolutos, comparações entre sensores ou análises que dependem de limites rígidos de índice.