ब्राज़ील फ़ॉरेस्ट इमेजरी डेटासेट (G-BFID v1.0)

परिचय

ब्राज़ील की सरकार, ब्राज़ील के फ़ॉरेस्ट कोड को लागू करने और निजी ज़मीन पर मौजूद जंगलों को सुरक्षित रखने की कोशिश कर रही है. इसमें मदद करने के लिए, Google ने SPOT सैटलाइट से मिले डेटा के आधार पर दो बेसमैप बनाए हैं: विज़ुअल बेसमैप और विश्लेषण के लिए बेसमैप (G-BFID v1.0).

ये मोज़ेक इमेज प्रॉडक्ट, 22 जुलाई, 2008 के लिए एक बेसलाइन तय करते हैं. ब्राज़ील के फ़ॉरेस्ट कोड के तहत यह तारीख अहम है. इससे "समेकित क्षेत्रों" की पहचान की जाती है. ये ऐसे इलाके होते हैं जहां पहले से ही लोग रहते हैं या खेती की जाती है. SPOT सैटलाइट के संग्रह से लिए गए ये मोज़ेक डेटासेट, 30 मीटर के Landsat डेटा के मुकाबले ज़्यादा रिज़ॉल्यूशन वाला विकल्प उपलब्ध कराते हैं. इस डेटा का इस्तेमाल, आम तौर पर इस बेसलाइन को सेट करने के लिए किया जाता है.

हज़ारों SPOT इमेज को एक ही बेसमैप में जोड़ने के लिए, इमेज को प्रोसेस किया गया. इसमें ये चरण शामिल थे:

  • कंप्रेशन से जुड़ी गड़बड़ियों को हटाने के लिए, किनारों को बेहतर बनाएं.
  • Landsat बेसलाइन के हिसाब से रेडियोमेट्रिक नॉर्मलाइज़ेशन.
  • क्लाउड मास्किंग (कम, मैन्युअल).
  • गलत रजिस्ट्रेशन को ठीक करना (Landsat कंपोज़िट के साथ कोरजिस्ट्रेशन).

फ़ाइनल कंपोज़िटिंग के लिए, स्टैटिस्टिकल रिडक्शन के बजाय, डिटरमिनिस्टिक मोज़ेक तरीके का इस्तेमाल किया गया. पिक्सेल को स्पेशल रिज़ॉल्यूशन और सैटलाइट मिशन के समय के हिसाब से लेयर किया गया था. इसमें नई सैटलाइट से मिले डेटा को प्राथमिकता दी गई थी. डेटा के सोर्स की सटीक जानकारी देने के लिए, लेयरिंग के इस क्रम को सबसे नज़दीकी पड़ोसी के फिर से सैंपलिंग करने की तकनीक के साथ जोड़ा गया था. इसलिए, फ़ाइनल बेस मैप में मौजूद हर पिक्सल का ओरिजनल सोर्स अलग-अलग था. साथ ही, हर पिक्सल को सीधे तौर पर किसी खास सोर्स ऑब्ज़र्वेशन और उसके मेटाडेटा से ट्रैक किया जा सकता था.

ब्राज़ील के विज़ुअल और ऐनलिटिक बेसमैप
इमेज 1. इस इमेज में, G-BFID v1.0 विज़ुअल बेस मैप को पूरी तरह से दिखाया गया है. बाईं ओर, इसे छद्म-प्राकृतिक रंग में दिखाया गया है. दाईं ओर, ऐनलिटिक बेस मैप को नियर-इंफ़्रारेड फ़ॉल्स-कलर के तौर पर दिखाया गया है.

सोर्स डेटा

सैटलाइट और सेंसर की खास बातें

G-BFID v1.0 बेसमैप, SPOT (सैटलाइट पोर ल’ऑब्ज़र्वेशन डे ला टेर) इमेज डेटा से लिए गए हैं. CNES, SPOT मिशन को मैनेज करता है. वहीं, Airbus, SPOT मिशन से मिली इमेज को डिस्ट्रिब्यूट करता है. SPOT मिशन से, 60 कि॰मी॰ के स्वैथ के साथ हाई रिज़ॉल्यूशन वाली ऑप्टिकल इमेज मिलती हैं. इस प्रोजेक्ट में, साल 2008 के बेसलाइन डेटा को तैयार करने के लिए, तीन खास सैटलाइट से ली गई इमेज का संग्रह इस्तेमाल किया गया है:

  • SPOT 2 और 4: इनमें HRV/HRVIR सेंसर लगे होते हैं. ये 20 मीटर के रिज़ॉल्यूशन पर मल्टीस्पेक्ट्रल डेटा और 10 मीटर के रिज़ॉल्यूशन पर पैनक्रोमैटिक डेटा उपलब्ध कराते हैं.
  • SPOT 5: इसमें एचआरजी सेंसर लगा है. यह मल्टीस्पेक्ट्रल डेटा के साथ 10 मीटर रिज़ॉल्यूशन और पैनक्रोमैटिक डेटा के साथ 5 मीटर रिज़ॉल्यूशन पर, स्पैशियल रिज़ॉल्यूशन को बेहतर बनाता है.
SPOT 2 SPOT 4 SPOT 5
मल्टीस्पेक्ट्रल 20 मीटर 20 मीटर 10 मीटर
ब्लैक ऐंड व्हाइट 10 मीटर 10 मीटर 5 मीटर
स्पेक्ट्रल बैंड हरा, लाल, एनआईआर हरा, लाल, एनआईआर, एसडब्ल्यूआईआर हरा, लाल, एनआईआर, एसडब्ल्यूआईआर

पहली टेबल. SPOT 2, 4, और 5 मिशन के लिए तकनीकी जानकारी.

ध्यान दें: Airbus, "सुपरमोड" पैनक्रोमैटिक प्रॉडक्ट बनाता है. इसका इस्तेमाल SPOT 5 की इमेज को पैन–शार्पन करके 2.5 मीटर के रिज़ॉल्यूशन में बदलने के लिए किया जा सकता है. इस प्रोजेक्ट के स्पेसिफ़िकेशन के लिए, यह डेटा बहुत कम उपलब्ध है. इसलिए, इसे शामिल नहीं किया गया है.

Earth Engine के कलेक्शन इनपुट करना

फ़ाइनल बेस मैप जनरेट करने के लिए, SPOT के तीन अलग-अलग डेटा प्रॉडक्ट को प्रोसेस किया गया. ये कलेक्शन, 9 जनवरी, 2007 से 26 नवंबर, 2009 तक के हैं. इनमें समय के हिसाब से ज़रूरी जानकारी दी गई है, ताकि बादलों की वजह से होने वाली समस्याओं को दूर किया जा सके. साथ ही, हाई-रिज़ॉल्यूशन बेसलाइन को बनाए रखा जा सके.

सीन चुनने की सुविधा

ग्रामीण इलाकों में मौजूद निजी ज़मीन को Rural Environmental Registry (CAR) में रजिस्टर किया जाता है. इस ज़मीन पर जंगलों को बचाने के लिए किए जा रहे प्रयासों को बढ़ावा देने के लिए, भौगोलिक कवरेज को प्राथमिकता दी गई. इसमें अमेज़ॉन बायोम और "Arc of Deforestation" के पांच राज्य शामिल हैं: मरांहो, मातो ग्रोसो, पारा, रोंडोनिया, और तोकान्तिंस.

ब्राज़ील के फ़ॉरेस्ट कोड की ज़रूरी शर्तों को पूरा करने के लिए, साल 2008 के बीच के समय को टारगेट किया गया था. समय और बादल के ढके होने की स्थिति (<50%) के आधार पर, SPOT 2, 4, और 5 से ली गई कुल 10,072 इमेज की पहचान की गई. इन्हें प्रोसेस करने के लिए, Earth Engine के डेटा कैटलॉग में शामिल किया गया.

स्पेक्ट्रल कंपोज़िशन के बारे में जानकारी: SPOT 2, 4, और 5 सेंसर, नीले स्पेक्ट्रल बैंड को नेटिव तौर पर कैप्चर नहीं करते हैं. असली रंगों वाले प्रॉडक्ट के लिए, डेटा डिस्ट्रिब्यूटर एक सिंथेसाइज़ किया गया नीला बैंड उपलब्ध कराता है. यह बैंड, मौजूदा स्पेक्ट्रल बैंड से लिया जाता है, ताकि असली रंगों को दिखाया जा सके.

1. नैचुरल कलर वाला पैनशार्पन किया गया मल्टीस्पेक्ट्रल

  • Earth Engine ऐसेट: AIRBUS/SPOT_2_4_5/BRAZIL/2007_2009/PMS_NC/V1
  • इमेज की संख्या: 2977
  • तारीख की सीमा: 1 मार्च, 2007 – 26 नवंबर, 2009
  • ब्यौरा: यह प्रॉडक्ट, ज़्यादा रिज़ॉल्यूशन वाले पैनक्रोमैटिक बैंड को मल्टीस्पेक्ट्रल बैंड के साथ मर्ज करता है, ताकि शार्प और तीन बैंड वाली आरजीबी इमेज बनाई जा सके. यह विज़ुअल बेसमैप के लिए पसंदीदा सोर्स है.
नैचुरल कलर इमेज कलेक्शन के लिए, साल-महीने के हिसाब से इमेज का हिस्टोग्राम
दूसरी इमेज. नैचुरल कलर वाली मल्टीस्पेक्ट्रल इमेज के कलेक्शन के लिए, साल-महीने के हिसाब से इमेज का हिस्टोग्राम.

2. मल्टीस्पेक्ट्रल नैचुरल कलर

  • Earth Engine ऐसेट: AIRBUS/SPOT_2_4_5/BRAZIL/2007_2009/MS_NC/V1
  • इमेज की संख्या: 3536
  • तारीख की सीमा: 9 जनवरी, 2007 – 26 नवंबर, 2009
  • ब्यौरा: यह तीन बैंड वाला छद्म-प्राकृतिक रंगीन प्रॉडक्ट (सिमुलेटेड आरजीबी) है. यह नेटिव मल्टीस्पेक्ट्रल रिज़ॉल्यूशन पर उपलब्ध है. इस कलेक्शन का इस्तेमाल विज़ुअल बेस मैप में सेकंडरी सोर्स के तौर पर किया जाता है. ऐसा तब किया जाता है, जब पैनशार्पन किया गया डेटा उपलब्ध न हो.
मल्टीस्पेक्ट्रल नैचुरल कलर इमेज कलेक्शन के लिए, साल-महीने के हिसाब से इमेज का हिस्टोग्राम
तीसरी इमेज. मल्टीस्पेक्ट्रल नैचुरल कलर इमेज कलेक्शन के लिए, साल-महीने के हिसाब से इमेज का हिस्टोग्राम.

3. मल्टीस्पेक्ट्रल

  • Earth Engine ऐसेट: AIRBUS/SPOT_2_4_5/BRAZIL/2007_2009/MS/V1
  • इमेज की संख्या: 3559
  • तारीख की सीमा: 9 जनवरी, 2007 – 26 नवंबर, 2009
  • जानकारी: Analytics Basemap का सोर्स. इस कलेक्शन में ओरिजनल स्पेक्ट्रल बैंड शामिल हैं.इनमें नियर-इंफ़्रारेड और शॉर्ट-वेव इंफ़्रारेड (जहां उपलब्ध हो) शामिल हैं. ये बैंड, वेजिटेशन इंडेक्स (जैसे, एनडीवीआई) का हिसाब लगाने और कवर क्लासिफ़िकेशन करने के लिए ज़रूरी हैं.
मल्टीस्पेक्ट्रल इमेज कलेक्शन के लिए, साल-महीने के हिसाब से इमेज का हिस्टोग्राम
चौथी इमेज. मल्टीस्पेक्ट्रल इमेज कलेक्शन के लिए, साल-महीने के हिसाब से इमेज का हिस्टोग्राम.

भौगोलिक कवरेज और कमियां

G-BFID v1.0 बेसमैप का मुख्य मकसद, ब्राज़ील के प्रशासनिक क्षेत्र के लिए हाई रिज़ॉल्यूशन वाला, साल 2008 के आस-पास का बेसलाइन डेटा तैयार करना है. हालांकि, अच्छी क्वालिटी वाली और कम बादलों वाली इमेज को फ़िल्टर करते समय, समयसीमा (2007–2009) को सीमित रखने से, इमेज में कुछ जगहों पर डेटा नहीं मिल पाया. ऐसा खास तौर पर उन इलाकों में हुआ जहां हमेशा बादल छाए रहते हैं.

सीन चुनना और क्वालिटी के हिसाब से फ़िल्टर करना

डेटा की विश्वसनीयता बनाए रखने के लिए, 2007 से 2009 के बीच के डेटा से एक कैंडिडेट पूल बनाया गया था. इसमें 50% से कम बादल छाए हुए थे. इनमें से, कुल 10,000 से ज़्यादा इमेज शामिल की गईं. इसके बाद, इन्हें फ़िल्टर किया गया, ताकि क्वालिटी से जुड़ी गंभीर समस्याओं वाली इमेज को हटाया जा सके:

  • डिसकंटिन्यूटी की जांच: मैन्युअल तरीके से पहचान की गई टेलीमेट्री या ज्यामितीय कलाकृतियों वाली इमेज को शामिल नहीं किया गया. इनमें डेटा उपलब्ध कराने वाली कंपनी की ओर से एक साथ बंडल किए गए डिसकंटीन्यूअस सीन भी शामिल हैं.
  • क्लाउड क्यूए: इमेज विश्लेषक, पूरी तरह से बादलों से ढके होने या अन्य वजहों से इन सीन को अस्वीकार कर देते हैं.
  • डेटा डेंसिटी: सिर्फ़ उन इमेज को बनाए रखा गया जिनमें बादल हटाने के बाद, >10% मान्य पिक्सल (विज़ुअल बेस मैप) बचे थे. हालांकि, ऐनलिटिक बेस मैप के लिए यह >5% है.

स्पैशियल डिस्ट्रिब्यूशन

पांचवें फ़िगर में दिखाया गया है कि मोज़ेक, "Arc of Deforestation" और उत्तर/मध्य-पश्चिम क्षेत्रों में सबसे ज़्यादा घनत्व वाले हैं. पारदर्शी क्षेत्र ऐसे इलाकों को दिखाते हैं जहां टारगेट किए गए समयसीमा में, ऊपर दिए गए क्वालिटी फ़िल्टर के हिसाब से SPOT 2, 4 या 5 की इमेज नहीं मिलीं या उन्हें बादलों ने ढक लिया था.

ब्राज़ील का मैप, जिसमें G-BFID v1.0 विज़ुअल बेस मैप का स्पेशल कवरेज दिखाया गया है.
इमेज 5. G-BFID v1.0 विज़ुअल बेसमैप का स्पेशल एक्सटेंट. दक्षिण और पूर्वी इलाकों में, अंदरूनी अंतर और अधूरा कवरेज, 2008 के समय के आधारभूत डेटा, क्वालिटी फ़िल्टरिंग, और क्लाउड मास्किंग को प्राथमिकता देने की वजह से है. हालांकि, ऐनलिटिक बेस मैप नहीं दिखाया गया है, लेकिन इस स्केल पर इसका स्पेशल एक्सटेंट, विज़ुअल बेस मैप के लगभग बराबर है.

राज्य के हिसाब से कवरेज

छठी इमेज में, राज्य के हिसाब से मान्य पिक्सल कवरेज की जानकारी दी गई है. रोंडोनिया और मातो ग्रोसो जैसे राज्यों के लिए, कवरेज लगभग पूरा (>95%) है. वहीं, दक्षिण और पूर्वोत्तर के कुछ हिस्सों में, संग्रह और क्लाउड मास्किंग की सीमाओं की वजह से, कवरेज कम है.

चार्ट से यह भी पता चलता है कि विज़ुअल बेस मैप, ऐनलिटिक बेस मैप की तुलना में ज़्यादातर राज्यों में, मान्य पिक्सल कवरेज थोड़ा ज़्यादा देता है. यह अंतर इसलिए है, क्योंकि विज़ुअल प्रॉडक्ट, पैनशार्प किए गए और मल्टीस्पेक्ट्रल नैचुरल कलर कलेक्शन, दोनों का इस्तेमाल कर सकता है. वहीं, ऐनलिटिक प्रॉडक्ट सिर्फ़ मल्टीस्पेक्ट्रल कलेक्शन से मिलता है.

बार चार्ट में, ब्राज़ील के अलग-अलग राज्यों में विज़ुअल और ऐनलिटिक बेसमैप के मान्य पिक्सल कवरेज की तुलना की गई है. इसमें राज्यों को ऊपर से नीचे की ओर और कवरेज के प्रतिशत को दाएं से बाएं ओर दिखाया जाता है.
इमेज 6. ब्राज़ील के राज्य के हिसाब से, विज़ुअल और ऐनलिटिक बेस मैप के लिए मान्य पिक्सल कवरेज. "Arc of Deforestation" राज्यों में कवरेज सबसे ज़्यादा है. वहीं, जिन इलाकों में लगातार बादल छाए रहते हैं, SPOT से डेटा कम मिलता है, और बादलों को मास्क किया जाता है वहां कवरेज सबसे कम है.

प्रोसेस करने का तरीका

G-BFID v1.0 के बेस मैप के लिए डेटा प्रोसेसिंग के तरीके में, डेटा की उत्पत्ति और रेडिओमेट्रिक इंटिग्रिटी को प्राथमिकता दी जाती है. इससे वन कोड के अनुपालन का आकलन करने में मदद मिलती है. इस सेक्शन में, सबसे पहले मोज़ेक आर्किटेक्चर और लेयरिंग लॉजिक के बारे में बताया गया है. इनका इस्तेमाल, इमेज की इंटिग्रिटी बनाए रखने के लिए किया जाता है. इसके बाद, अलग-अलग सोर्स इमेज पर लागू किए गए, समय के हिसाब से प्रीप्रोसेसिंग और सामान्य बनाने के चरणों के बारे में बताया गया है. ये चरण, फ़ाइनल असेंबली से पहले लागू किए जाते हैं.

मोज़ेक मेथड

फ़ाइनल बेसमैप, सांख्यिकीय रिड्यूसर (जैसे कि औसत या माध्य कंपोज़िट) के बजाय मोज़ेक तरीके का इस्तेमाल करके बनाए गए थे. इस तरीके से, यह पक्का किया जाता है कि फ़ाइनल प्रॉडक्ट में, सोर्स इमेज की ओरिजनल स्पेक्ट्रल वैल्यू और स्पेशल टेक्सचर बने रहें. एक से ज़्यादा ऑब्ज़र्वेशन का औसत न निकालने की वजह से, मोज़ेक हर पिक्सल के अलग-अलग सोर्स को सुरक्षित रखता है.

लेयरिंग लॉजिक

इनपुट इमेज को क्रम के हिसाब से लेयर किया गया था. इसमें, ज़्यादा स्पेशल रिज़ॉल्यूशन और बाद के सैटलाइट मिशन को प्राथमिकता दी गई थी:

  • विज़ुअल बेसमैप: तस्वीरों को पिक्सल साइज़ के हिसाब से क्रम में लगाया गया था. इसमें सबसे ज़्यादा रिज़ॉल्यूशन वाले डेटा को प्राथमिकता दी गई थी. इसके बाद, सैटलाइट मिशन के हिसाब से क्रम में लगाया गया था. इसमें नए SPOT सैटलाइट से मिले डेटा को प्राथमिकता दी गई थी.
  • विश्लेषण के लिए बेसमैप: इमेज को सैटलाइट मिशन के हिसाब से लेयर किया गया था. इसमें सबसे अच्छा डेटा पाने के लिए, बाद के SPOT मिशन से मिले डेटा को प्राथमिकता दी गई थी.

इंटेग्रिटी और ट्रेस करने की सुविधा

  • फिर से सैंपलिंग करना: सभी इंटरनल रीप्रोजेक्शन में, नियरेस्ट नेबर रीसैंपलिंग का इस्तेमाल किया गया. इससे अन्य तरीकों से होने वाले इंटरपोलेटिव स्मूदिंग इफ़ेक्ट से बचा जा सकता है. साथ ही, यह पक्का किया जा सकता है कि सोर्स पिक्सल की ओरिजनल रेडियोमेट्रिक और स्पेशल प्रॉपर्टी पर, आस-पास के पिक्सल का असर न पड़े.

  • डेटा की पहचान करना: दोनों प्रॉडक्ट में, हर पिक्सल के लिए date मेटाडेटा बैंड शामिल होता है. इससे उपयोगकर्ता, किसी भी जगह के लिए इमेज कैप्चर होने की सटीक तारीख का पता लगा सकते हैं. इससे यह पक्का होता है कि वन कोड के पालन से जुड़े आकलन में पूरी पारदर्शिता बरती गई है.

इमेज के किनारों को बेहतर बनाना

ओवरलैप होने वाले सीन के बीच साफ़ तौर पर अंतर दिखाने के लिए, सोर्स इमेज में मौजूद आर्टफ़ैक्ट हटाने के लिए, एज रिफ़ाइनमेंट की प्रोसेस लागू की गई थी. ये आर्टफ़ैक्ट, इमेज के बॉर्डर के साथ-साथ धब्बेदार या "नॉइज़ी" पिक्सल के तौर पर दिखते हैं. ये आर्टफ़ैक्ट, डेटा उपलब्ध कराने वाली कंपनी के ज़रिए डिलीवर किए गए डेटा में लॉसलेस कंप्रेशन की वजह से दिखते हैं. इस समस्या को हल करने के लिए, इमेज मास्क पर 2.5 पिक्सल का फ़ोकल मिनिमम इरोशन लागू किया गया. इससे खराब क्वालिटी वाले एज आर्टफ़ैक्ट हट गए और यह पक्का किया गया कि फ़ाइनल मोज़ेक में सिर्फ़ मान्य डेटा का इस्तेमाल किया जाए (आकृति 7).

इस इमेज में, इमेज के किनारों पर मौजूद आर्टफ़ैक्ट की तुलना की गई है. इसमें दिखाया गया है कि इमेज को बेहतर बनाने से पहले और बाद में, आर्टफ़ैक्ट कैसे दिखते हैं.
इमेज 7. किनारे को बेहतर बनाने की प्रोसेस से पहले (बाईं ओर) और बाद (दाईं ओर) में, इमेज बॉर्डर की तुलना. 2.5 पिक्सल के इरोशन से, लॉसलेस कंप्रेशन की वजह से होने वाले "नॉइज़ी" आर्टफ़ैक्ट हट जाते हैं. इससे ओवरलैप होने वाले सीन के बीच बेहतर ट्रांज़िशन मिलते हैं.

क्लाउड मास्किंग

G-BFID v1.0 के लिए, डेटा की सबसे ज़्यादा सुरक्षा पक्का करने के लिए, इमेज के संग्रह में मैन्युअल मास्किंग की प्रक्रिया लागू की गई थी. ऑटोमेटेड तरीकों के बजाय इस तरीके को इसलिए चुना गया है, ताकि बादलों या अन्य वायुमंडलीय रुकावटों से प्रभावित पिक्सल को ज़्यादा सावधानी से हटाया जा सके.

मास्क करने की प्रोसेस

ट्रेनिंग पा चुके विशेषज्ञों ने बादलों और उनसे जुड़े वायुमंडलीय आर्टफ़ैक्ट वाले इलाकों की पहचान की. यह पक्का करने के लिए कि समस्या वाले इन पिक्सल को पूरी तरह से कैप्चर किया गया है, आसान और मोटे तौर पर ज्यामिति का इस्तेमाल करके, मास्किंग की रणनीति अपनाई गई. हर बादल के किनारों को सटीक तरीके से ट्रेस करने के बजाय, बड़े आयताकार क्षेत्रों को मास्क किया गया, ताकि मोज़ेक इमेज ज़्यादा से ज़्यादा साफ़ रहे.

इस तरीके में, जान-बूझकर ज़्यादा एग्रेसिव तरीके से काम किया जाता है. इसमें अक्सर बादलों के आस-पास मौजूद मान्य पिक्सल हटा दिए जाते हैं. हालांकि, 2008 के बेसलाइन के लिए, ज़्यादा सटीक प्रॉडक्ट उपलब्ध कराना ज़रूरी था.

मास्किंग की नीति और इंटिग्रेशन

मैन्युअल मास्क, मल्टीस्पेक्ट्रल और पैनशार्पन किए गए नैचुरल कलर इमेज कलेक्शन के लिए खास तौर पर बनाए गए थे. मल्टीस्पेक्ट्रल नैचुरल कलर प्रॉडक्ट, मल्टीस्पेक्ट्रल डेटा से मिलता है. इसलिए, प्रोसेसिंग के दौरान इन मास्क को एक साथ ली गई मल्टीस्पेक्ट्रल इमेज में शामिल किया गया.

ऐसी किसी भी मल्टीस्पेक्ट्रल इमेज को फ़ाइनल मोज़ेक में शामिल नहीं किया गया था जिसके साथ, मैन्युअल तरीके से मास्क की गई मिलती-जुलती नैचुरल कलर इमेज मौजूद नहीं थी. इससे यह पक्का होता है कि G-BFID v1.0 सुइट में शामिल हर पिक्सल से बादल हटा दिए गए हैं. भले ही, प्रॉडक्ट का टाइप कुछ भी हो.

डेटा गैप की व्याख्या

फ़ाइनल मोज़ेक में मौजूद पारदर्शी गैप, उन इलाकों को दिखाते हैं जहां 2007 से 2009 के बीच कोई मान्य और अच्छी क्वालिटी वाला डेटा उपलब्ध नहीं है. ये अंतर, ऊपर बताई गई मैन्युअल मास्किंग की वजह से होते हैं. इसके अलावा, ज़्यादा बादल (>50%) होने की वजह से सीन को अस्वीकार कर दिया जाता है. साथ ही, किसी खास इलाके के लिए, इमेज उपलब्ध न होने की वजह से भी ऐसा होता है. आम तौर पर, ज़्यादा बड़े क्षेत्र में डेटा न होने का मतलब है कि साल 2008 के समय की इमेज उपलब्ध नहीं हैं. हालांकि, इमेज 9 में दिखाए गए अलग-अलग "ब्लॉकी" पैटर्न, बादलों को मास्क करने की वजह से बने हैं.

सैटलाइट इमेजरी पर मैन्युअल तरीके से क्लाउड मास्क करने के उदाहरण. इनमें हटाए गए रेक्टैंगल वाले हिस्से दिखाए गए हैं.
इमेज 9. विज़ुअल बेस मैप पर मैन्युअल मास्किंग लागू करने के उदाहरण. आयताकार काले पॉलीगॉन, बादलों और वायुमंडल से जुड़ी अन्य चीज़ों को फ़ाइनल प्रॉडक्ट से हटाने के लिए इस्तेमाल किए गए कंज़र्वेटिव अप्रोच को दिखाते हैं. डेटा प्रॉडक्ट में मास्क किए गए पिक्सल (कोई डेटा नहीं) पारदर्शी होते हैं.

रजिस्ट्रेशन में गड़बड़ी ठीक करना

SPOT सोर्स की इमेज में, Landsat Collection 2 के डेटा से मिले भौगोलिक बेसलाइन की तुलना में, गलत रजिस्ट्रेशन की समस्या को कम करने के लिए, ऑटोमेटेड कोरजिस्ट्रेशन वर्कफ़्लो लागू किया गया था.

रेफ़रंस बेसलाइन

लैंडसैट कलेक्शन 2 के बिना बादलों वाले रेफ़रंस मोज़ेक को, कोरेजिस्ट्रेशन रेफ़रंस इमेज के तौर पर इस्तेमाल करने के लिए जनरेट किया गया था. इस रेफ़रंस इमेज को बनाने के लिए, साल 2006 से 2010 के बीच ब्राज़ील की Landsat 7 और 8 इमेज पर मीडियन रिड्यूसर का इस्तेमाल किया गया था. Landsat के रेड बैंड को प्राइमरी रजिस्ट्रेशन टारगेट के तौर पर चुना गया था, ताकि SPOT के रेड बैंड से मैच किया जा सके.

डिसप्लेसमेंट का अनुमान

ee.Image.displacement एल्गोरिदम का इस्तेमाल, SPOT के सोर्स डेटा और Landsat के रेफ़रंस के बीच पिक्सल-लेवल के ऑफ़सेट का हिसाब लगाने के लिए किया गया था.

  • खोज के पैरामीटर: डिसप्लेसमेंट मॉडल पर ज़्यादा से ज़्यादा 500 मीटर का ऑफ़सेट और 5 का स्टिफ़नेस पैरामीटर लागू किया गया था.
  • सांख्यिकीय एग्रीगेशन: डेल्टा x ($dx$) और डेल्टा y ($dy$) के साथ-साथ कॉन्फ़िडेंस वैल्यू को, पूरे इमेज एरिया में एग्रीगेट किया गया था. इसके लिए, औसत रिड्यूसर का इस्तेमाल किया गया था.
  • मैग्नीट्यूड की गिनती: एग्रीगेट किए गए इन आंकड़ों से, कुल मैग्नीट्यूड ऑफ़सेट का अनुमान $M = \sqrt{dx^2 + dy^2}$ लगाया गया. इससे सीन के औसत डिसप्लेसमेंट के बारे में पता चलता है.

सुधार करने से जुड़ी नीति

कैलकुलेट किए गए डिसप्लेसमेंट के आंकड़ों के आधार पर, सीन को कैटगरी में बांटा गया और उनमें सुधार किया गया. इससे, नए आर्टफ़ैक्ट जोड़े बिना, इमेज की क्वालिटी को बेहतर बनाने में मदद मिली:

  • अपने-आप ठीक होने की सुविधा: जिन इमेज में पिक्सल की जगह बदलने की वैल्यू $M > 30$ मीटर थी और कॉन्फ़िडेंस स्कोर $C > 0.3$ था उन्हें अनुमानित $dx$ और $dy$ वैल्यू का इस्तेमाल करके, अपने-आप दूसरी जगह पर ले जाया गया.
  • मैन्युअल तरीके से आकलन: जिन सीन में अनुमानित विस्थापन बहुत ज़्यादा ($M > 100$ मीटर) था, लेकिन भरोसेमंद स्कोर कम ($C \le 0.3$) था उनके लिए मैन्युअल तरीके से समीक्षा की गई. सुधारों को सिर्फ़ तब स्वीकार किया गया, जब कोरजिस्ट्रेशन के नतीजे से ओरिजनल प्लेसमेंट में काफ़ी सुधार हुआ हो.
  • बाहर रखना: जिन सीन को ठीक करने की कोशिश के बाद भी, उनमें काफ़ी गड़बड़ियां थीं या जिनमें भरोसेमंद तरीके से मिलान करने के लिए ज़रूरी सुविधाएं नहीं थीं उन्हें मोज़ेक से बाहर रखा गया था.

लागू करने और क्वालिटी कंट्रोल करने से जुड़ी जानकारी

सुधारी गई इमेज को फिर से प्रोजेक्ट किया गया. इसके लिए, सबसे नज़दीकी पिक्सल के आधार पर रीसैंपलिंग की गई, ताकि मूल रेडिओमेट्रिक वैल्यू को सुरक्षित रखा जा सके. साथ ही, बाइलिनियर या क्यूबिक इंटरपोलेशन के स्मूदिंग इफ़ेक्ट से बचा जा सके.

स्पेशल ट्रेसबिलिटी को पक्का करने के लिए, हर इमेज में एक बूलियन coregistered बैंड जोड़ा गया था. इसे फ़ाइनल मोज़ेक में भी सुरक्षित रखा गया था. इस मेटाडेटा की मदद से उपयोगकर्ता, उन पिक्सल के बीच अंतर कर सकते हैं जिनमें स्पेशल अडजस्टमेंट किया गया है और उन पिक्सल के बीच अंतर कर सकते हैं जिन्हें उनकी ओरिजनल डिलीवर की गई पोज़िशन में रखा गया है.

रेडियोमेट्रिक नॉर्मलाइज़ेशन

SPOT के अलग-अलग सोर्स कलेक्शन में, वायुमंडल की अलग-अलग स्थितियों और सेंसर के अंतर को ध्यान में रखने के लिए, मोज़ेक प्रॉडक्ट वाली इमेज पर रेडिओमेट्रिक नॉर्मलाइज़ेशन लागू किया गया था. विज़ुअल और ऐनलिटिक, दोनों तरह के बेस मैप में, 2008 के Landsat टारगेट बेसलाइन के हिसाब से हिस्टोग्राम मैचिंग का इस्तेमाल किया जाता है.

Landsat को MODIS जैसे कम रिज़ॉल्यूशन वाले विकल्पों के मुकाबले, रेफ़रंस के तौर पर चुना गया था. इसकी वजह यह है कि इसका 30 मीटर का रिज़ॉल्यूशन, SPOT के 5 से 20 मीटर के डेटा से ज़्यादा मेल खाता है. इनके एक जैसे होने से, स्पेक्ट्रल हिस्टोग्राम ज़्यादा एक जैसे होते हैं. इससे मैचिंग प्रोसेस के दौरान, रेडिओमेट्रिक ट्रांसफ़र ज़्यादा सटीक तरीके से किया जा सकता है. इस तालमेल के लिए इस्तेमाल की जाने वाली खास कार्यप्रणाली, इस बात पर थोड़ी अलग होती है कि इस्तेमाल का फ़ाइनल मामला विज़ुअल है या विश्लेषण से जुड़ा है.

विज़ुअल बेसिक मैप

आस-पास की इमेज के बीच रेडियमेट्रिक डिसकंटिन्यूटी को कम करने और यह पक्का करने के लिए कि इमेज लगभग एक जैसी दिखें, हिस्टोग्राम मैचिंग का इस्तेमाल करके कलर-बैलेंसिंग वर्कफ़्लो लागू किया गया था. पिक्सल की वैल्यू को 2008 के Landsat मोज़ेक टारगेट बेसलाइन से मेल खाने के लिए अडजस्ट किया गया था.

यह प्रोसेस इन चरणों में पूरी होती है:

  • विश्लेषण मास्किंग: हिस्टोग्राम मैचिंग के दौरान आंकड़ों को स्थिर रखने के लिए, विश्लेषण मास्क जनरेट किया जाता है. इससे उन इलाकों को बाहर रखा जाता है जिनकी वजह से डेटा में बदलाव हो सकता है. मास्किंग की यह सुविधा, दो मुख्य सुविधाओं को टारगेट करती है:
    • ज़्यादा बदलाव वाले इलाके: SPOT इमेज और Landsat के रेफ़रंस मोज़ेक के बीच के अंतर के 95वें पर्सेंटाइल से ज़्यादा वाले पिक्सल को शामिल नहीं किया जाता.
    • पानी के स्रोत: पानी के ऊपर ज़्यादा रिफ़्लेक्टेंस वैरिएबिलिटी को बाहर रखा गया है. इसके लिए, JRC Yearly Water Classification History डेटासेट का इस्तेमाल किया गया है. डेटासेट को 2008 के हिसाब से फ़िल्टर किया गया है. साथ ही, यह पक्का करने के लिए कि सांख्यिकीय विश्लेषण के लिए सिर्फ़ पानी के अलावा अन्य क्लास को बनाए रखा जाए, एक इन्वर्स मास्क लागू किया गया है.
  • लुकअप टेबल (एलयूटी) जनरेशन: मास्क किए गए डेटा का इस्तेमाल करके, सोर्स SPOT बैंड और टारगेट Landsat बैंड, दोनों के लिए कुल हिस्टोग्राम का हिसाब लगाया जाता है.
  • इंटरपोलेशन: जनरेट किए गए एलयूटी का इस्तेमाल करके, सोर्स पिक्सल वैल्यू को टारगेट वैल्यू पर फिर से मैप किया जाता है. इससे, SPOT डेटा की रेडियोमेट्रिक प्रोफ़ाइल को 2008 के Landsat रेफ़रंस के साथ अलाइन किया जाता है.
रेडियोमेट्रिक नॉर्मलाइज़ेशन से पहले और बाद में, इमेज मोज़ेक की तुलना. बाईं ओर रंग के मेल न खाने की समस्या दिखाई गई है. वहीं, दाईं ओर रंग के मेल खाने की समस्या नहीं दिखाई गई है.
आठवीं इमेज. विज़ुअल बेसमैप का रेडियोमेट्रिक नॉर्मलाइज़ेशन. ओरिजनल इमेज (बाईं ओर) में, रेडियमेट्रिक में काफ़ी अंतर दिखता है. हिस्टोग्राम मैचिंग (दाईं ओर) के बाद, सीन के बीच ट्रांज़िशन लगभग एक जैसे होते हैं. इससे पूरे मोज़ेक में एक जैसा विज़ुअल मिलता है. काले बैकग्राउंड वाले पिक्सल, ऐसे क्षेत्र होते हैं जिनमें कोई डेटा नहीं होता.

विश्लेषण के लिए बुनियादी मैप

विश्लेषणात्मक बेस मैप को प्रोसेस करने का तरीका, विज़ुअल बेस मैप को प्रोसेस करने के तरीके जैसा ही होता है. हालांकि, इसमें डीएन वैल्यू को टॉप-ऑफ़-ऐटमॉस्फ़ियर रिफ़्लेक्टेंस में बदलने की प्रोसेस भी शामिल होती है:

1. वायुमंडल के सबसे ऊपरी हिस्से (टीओए) में रिफ़्लेक्टेंस कन्वर्ज़न

SPOT के रॉ डिजिटल नंबर (डीएन) को टीओए रिफ़्लेक्टेंस में बदल दिया जाता है, ताकि फ़िज़िकल सेंसर की प्रॉपर्टी और सौर ज्यामिति का हिसाब लगाया जा सके:

  • रेडियंस कैलकुलेशन: इसमें, बैंड के हिसाब से प्रोवाइडर के फ़िज़िकल गेन और बायस मेटाडेटा को लागू किया जाता है.
  • रिफ़्लेक्टेंस नॉर्मलाइज़ेशन: रेडियंस को सौर विकिरण, सूर्य के ज़ेनिथ ऐंगल के कोसाइन, और इमेज कैप्चर करने की तारीख के हिसाब से पृथ्वी और सूर्य के बीच की दूरी के हिसाब से नॉर्मलाइज़ किया जाता है.
2. हिस्टोग्राम मैचिंग

अलग-अलग SPOT इमेज के बीच रेडियोग्रामेट्रिक अंतर को कम करने के लिए, हिस्टोग्राम मैचिंग वर्कफ़्लो लागू किया जाता है:

  • विश्लेषण मास्किंग: इस चरण में, विश्लेषण मास्किंग की उसी तकनीक का इस्तेमाल किया जाता है जिसके बारे में ऊपर विज़ुअल बेस मैप सेक्शन में बताया गया है: इसमें 95वें पर्सेंटाइल से ज़्यादा बदलाव वाले पिक्सल को शामिल नहीं किया जाता है. साथ ही, 2008 के JRC क्लासिफ़िकेशन मास्क के उलट तरीके का इस्तेमाल करके, पानी वाले पिक्सल को फ़िल्टर किया जाता है.

  • हार्मनाइज़ेशन: विज़ुअल बेस मैप की तरह, पिक्सल वैल्यू को लुकअप टेबल के ज़रिए फिर से मैप किया जाता है, ताकि रेडियोमेट्रिक प्रोफ़ाइल को Landsat TOA रेफ़रंस के साथ अलाइन किया जा सके. इससे, बड़े पैमाने पर मशीन लर्निंग मॉडल को ट्रेनिंग देने और भरोसेमंद अनुमान लगाने के लिए, पूरे मोज़ेक में रेडियोमेट्रिक कंसिस्टेंसी मिलती है.

सीमाएं और आम तौर पर होने वाली समस्याएं

G-BFID v1.0, साल 2008 के समय का हाई-रिज़ॉल्यूशन वाला बेसलाइन डेटा उपलब्ध कराता है. हालांकि, उपयोगकर्ताओं को SPOT के पुराने डेटा और डेटा को प्रोसेस करने के लिए इस्तेमाल की गई प्रोसेस से जुड़ी कई सीमाओं के बारे में पता होना चाहिए.

स्पेशल डेटा की पूरी जानकारी और उसमें मौजूद कमियां

बेसमैप में, ब्राज़ील के सभी इलाकों की जानकारी नहीं होती. ऐसे गैप मौजूद हैं जहां प्रोजेक्ट की 2008 की समयसीमा (2007–2009), बादल के ढके होने की थ्रेशोल्ड वैल्यू या क्वालिटी स्टैंडर्ड के मुताबिक कोई इमेज नहीं मिली. ये गैप, उन इलाकों में ज़्यादा दिखते हैं जहां बादल हमेशा छाए रहते हैं या जहां सैटलाइट से इमेज लेने की फ़्रीक्वेंसी कम होती है. ज़्यादा जानकारी के लिए, भौगोलिक कवरेज और कमियां सेक्शन देखें.

नेटिव रिज़ॉल्यूशन में बदलाव करने की सुविधा

फ़ाइनल प्रॉडक्ट, 5 मीटर (विज़ुअल) और 10 मीटर (विश्लेषण) के सामान्य पिक्सल साइज़ में डिलीवर किए जाते हैं. हालांकि, सोर्स इमेज में 5 मीटर, 10 मीटर, और 20 मीटर के नेटिव पिक्सल का मिक्सचर होता है. स्पेक्ट्रल इंटिग्रिटी को बनाए रखने के लिए, सबसे नज़दीकी पिक्सल के आधार पर फिर से सैंपलिंग की गई है. इसलिए, अलग-अलग रिज़ॉल्यूशन के बीच की सीमाएं दिख सकती हैं.

सीन की बाउंड्री के आस-पास, इमेज के रिज़ॉल्यूशन और ग्रेनीनेस में अचानक बदलाव होना.
इमेज 10. किसी सीन की बाउंड्री में, नेटिव सोर्स के अलग-अलग रिज़ॉल्यूशन का उदाहरण. "ग्रेन" या शार्पनेस में बदलाव, फ़ाइनल प्रॉडक्ट में सेव किए गए अलग-अलग SPOT सेंसर रिज़ॉल्यूशन के बीच ट्रांज़िशन को दिखाता है.

रेज़िड्यूअल मिसरजिस्ट्रेशन

अपने-आप होने वाले कोरजिस्ट्रेशन वर्कफ़्लो के बावजूद, कुछ इलाकों में बदलाव दिख सकते हैं. रीजनल मिसरजिस्ट्रेशन की समस्या, उन इलाकों में सबसे ज़्यादा होती है जहां का भूभाग बहुत ऊंचा-नीचा होता है. इसके अलावा, यह समस्या घने और एक जैसे जंगल वाले इलाकों में भी होती है. ऐसा इसलिए, क्योंकि एल्गोरिदम के पास, ज़्यादा भरोसेमंद डिसप्लेसमेंट वेक्टर का हिसाब लगाने के लिए ज़रूरी लैंडमार्क नहीं होते.

वायुमंडलीय और बादल की कलाकृतियां

मैन्युअल तरीके से क्लाउड मास्क करने की प्रोसेस को जान-बूझकर कम और ज़्यादा किया गया था. हालांकि, यह पूरी नहीं है. उपयोगकर्ताओं को कभी-कभी कुछ आर्टफ़ैक्ट दिख सकते हैं. जैसे, बहुत पतली सिरस की धुंध या बादलों की छोटी परछाइयां.

सैटलाइट इमेज में, धुंधले बादलों को दिखाया गया है. इन्हें मास्किंग की मदद से नहीं हटाया गया है.
इमेज 11. मैन्युअल तरीके से क्लाउड मास्किंग की प्रोसेस के बाद, बचे हुए पतले धुंधले बादलों का उदाहरण.

रेडियोमेट्रिक में अंतर और एमएल की परफ़ॉर्मेंस

रेडियोमेट्रिक डिसकंटिन्यूटी को कम करने के लिए, हिस्टोग्राम मैचिंग का इस्तेमाल किया गया था. हालांकि, आस-पास की इमेज के बीच स्पेक्ट्रल वेरिएशन (स्पेक्ट्रल बैंड के हिसाब से पिक्सल की वैल्यू में बदलाव) अब भी मौजूद है. ज़मीन के टाइप का अपने-आप पता लगाने या मशीन लर्निंग के ऐप्लिकेशन के लिए, इस बदलाव की वजह से मोज़ेक में मौजूद ज़मीन के किसी टाइप के लिए स्पेक्ट्रल वेरियंस बढ़ जाता है. डेटा की यह बड़ी रेंज, अनुमान के दौरान क्लास सेपरेशन की सटीक जानकारी को कम कर सकती है. इससे गड़बड़ियों की दर बढ़ सकती है.

तीन ओवरलैप होने वाली सैटलाइट इमेज की सीमाओं पर, सीम और रंग/चमक में अंतर दिख रहा है.
इमेज 12. तीन इमेज के इंटरसेक्शन पर, स्पेक्ट्रल अंतर दिखाया गया है. ये अंतर, ओवरलैप होने वाली इमेज के बीच चमक और रंग में बदलाव के तौर पर दिखते हैं. साथ ही, इनसे मशीन लर्निंग मॉडल की परफ़ॉर्मेंस पर असर पड़ सकता है.

स्पेक्ट्रल सैचुरेशन

ज़्यादा चमक वाले इलाकों में, पिक्सल सेंसर की ज़्यादा से ज़्यादा पहचान करने की सीमा तक पहुंच सकते हैं. जैसे, ज़्यादा रिफ़्लेक्टिव शहरी सतहें, मिट्टी के कुछ खास टाइप या चमकदार रेत. इस "सैचुरेशन" की वजह से, उन खास जगहों पर टेक्सचर और बारीकियों की जानकारी नहीं दिखती.

विज़ुअल (बाईं ओर) और ऐनलिटिक (दाईं ओर) मोज़ेक में स्पेक्ट्रल सैचुरेशन के उदाहरण. इनमें चमकीले पैच और अस्वाभाविक नारंगी, पीले, और सियान रंग दिखाए गए हैं.
इमेज 13. स्पेक्ट्रल सैचुरेशन और उससे बने रंग के आर्टफ़ैक्ट का विज़ुअलाइज़ेशन. विज़ुअल मोज़ेक (बाईं ओर) में नारंगी और पीले रंग के और ऐनलिटिक मोज़ेक (दाईं ओर) में हल्के नीले रंग के चमकदार पैच और बनावटी रंगत से पता चलता है कि एक या उससे ज़्यादा स्पेक्ट्रल बैंड, पता लगाई जा सकने वाली अपनी ज़्यादा से ज़्यादा सीमा तक पहुंच गए हैं. इससे बनावट और रंग, दोनों में गड़बड़ी हुई है.

बैंड के अनुपात और वेजिटेशन इंडेक्स में बदलाव

लगभग पूरी तरह से एक जैसी दिखने वाली मोज़ेक इमेज बनाने के लिए, हर स्पेक्ट्रल बैंड पर अलग-अलग हिस्टोग्राम मैचिंग लागू की गई थी. इससे बैंड के बीच के ओरिजनल फ़िज़िकल रेशियो में बदलाव होता है. इस वजह से, NDVI या अन्य बैंड-अनुपात मेट्रिक जैसे सामान्य इंडेक्स का हिसाब लगाने पर, ऐसी वैल्यू मिलेंगी जो सोर्स डेटासेट में मौजूद वैल्यू से अलग होंगी. हालांकि, ये डिराइव किए गए इंडेक्स, मोज़ेक में अब भी रिलेटिव स्पेशल पैटर्न कैप्चर कर सकते हैं. हालांकि, इनका इस्तेमाल ऐब्सलूट मकसद, अलग-अलग सेंसर की तुलना या ऐसे विश्लेषणों के लिए नहीं किया जाना चाहिए जो इंडेक्स की तय थ्रेशोल्ड पर निर्भर करते हैं.