فایل gs://alphaearth_foundations GCS شامل فایلهای COG (فایل GeoTIFF بهینهشده برای ابر) است که در کنار هم مجموعه دادههای سالانه جاسازی ماهوارهای AlphaEarth Foundations را تشکیل میدهند. این مجموعه شامل جاسازیهای سالانه برای سالهای ۲۰۱۷ تا ۲۰۲۴، از جمله است.
مجوز
این مجموعه داده تحت مجوز CC-BY 4.0 منتشر شده است و به متن ارجاع زیر نیاز دارد: « مجموعه داده جاسازی ماهوارهای AlphaEarth Foundations توسط گوگل و Google DeepMind تولید شده است.»
این سطل به صورت «درخواستکننده هزینه را پرداخت میکند» تنظیم شده است، بنابراین دانلود دادهها ممکن است شامل هزینههای خروجی و سایر هزینهها باشد.
ساختار دایرکتوری
آنها بر اساس سال به دایرکتوریها تقسیم میشوند؛ دایرکتوری هر سال به ۱۲۰ زیردایرکتوری تقسیم میشود، یکی برای هر منطقه UTM، که نام آنها نشان دهنده شماره منطقه و نیمکره ( N یا S ) است.
درون هر دایرکتوری تعدادی فایل COG وجود دارد. این فایلها شامل تمام دادههای پیکسلی برای آن منطقه UTM هستند.
ساختار فایل
هر فایل ۸۱۹۲x۸۱۹۲ پیکسل است و ۶۴ کانال دارد. بزرگی هر پیکسل، پس از اعمال نگاشت غیرکوانتیزه (به زیر مراجعه کنید)، نرمالسازی شده است، به طوری که طول اقلیدسی آن ۱ است.
این فایلها شامل لایههای نمای کلی با ابعاد ۴۰۹۶x۴۰۹۶ پیکسل، ۲۰۴۸x۲۰۴۸ پیکسل و به همین ترتیب تا یک لایه نمای کلی سطح بالا با ابعاد ۱x۱ هستند. این لایههای نمای کلی به گونهای ساخته شدهاند که هر پیکسل نمای کلی، میانگین پیکسلهای با بالاترین وضوح زیر آن پیکسل نمای کلی است، که در آن بزرگی میانگین به طول ۱ نرمالسازی شده است.
این کانالها به ترتیب با محورهای A00 تا A63 از مجموعه دادههای Satellite Embedding مطابقت دارند. COGها نیز حاوی این نامگذاری برای کانالها هستند.
مقدار هر پیکسل برای هر کانال، یک عدد صحیح ۸ بیتی علامتدار است. نحوهی نگاشت این مقادیر به مقادیر اصلی (در محدودهی [-1, 1]) در جاسازیها در زیر توضیح داده شده است.
مقدار -۱۲۸ مربوط به یک پیکسل ماسک شده است. اگر در یک کانال وجود داشته باشد، در تمام کانالها نیز وجود خواهد داشت. COGها این را منعکس میکنند (یعنی مقدار NoData آنها روی -۱۲۸ تنظیم شده است).
نام هر فایل همچنین حاوی اطلاعاتی است. برای مثال، فایلی با نام gs://alphaearth_foundations/satellite_embedding/v1/annual/2019/1S/x8qqwcsisbgygl2ry-0000008192-0000000000.tiff را در نظر بگیرید. همانطور که در بالا توضیح داده شد، این فایل بخشی از جاسازی سالانه ۲۰۱۹ است و در منطقه UTM 1S (منطقه ۱، نیمکره جنوبی) قرار دارد. نام فایل پایه، x8qqwcsisbgygl2ry-0000008192-0000000000 ، برای پیوند این فایل به نام تصویر جاسازی ماهواره موتور زمین مربوطه استفاده میشود. در این مثال، این فایل مربوط به بخشی از تصویر موتور زمین GOOGLE/SATELLITE_EMBEDDING/V1/ANNUAL/x8qqwcsisbgygl2ry است. دو بخش اعشاری نام فایل، مشخص میکنند که مقادیر این COG نسبت به آن تصویر موتور زمین در کجا قرار دارند، به صورت یک آفست در Y و به دنبال آن یک آفست در X. در این حالت، مبدأ پیکسل COG نسبت به مبدأ تصویر موتور زمین در (0, 8192) قرار دارد. دلیل این امر آن است که لازم بود هر تصویر موتور زمین (که 16384x16384 پیکسل هستند) به بخشهای کوچکتری تقسیم شود تا COGهای حاصل خیلی دست و پا گیر نباشند.
دکوانتیزاسیون
برای تبدیل مقدار خام ۸ بیتی علامتدار (که بین ۱۲۷- و ۱۲۷ خواهد بود، زیرا ۱۲۸- به عنوان مقدار "بدون داده" رزرو شده است) در هر کانال از هر پیکسل به مقدار ممیز شناور آماده برای تحلیل (که بین ۱- و ۱ خواهد بود)، نگاشتی که باید انجام شود به صورت زیر است:
- تقسیم بر ۱۲۷.۵
- مربع
- ضرب در علامت مقدار اصلی
این در NumPy به صورت زیر بیان میشود:
# values is a NumPy array of raw pixel values
de_quantized_values = ((values / 127.5) ** 2) * np.sign(values)
در Earth Engine، عملیات مربوطه به صورت زیر خواهد بود:
var de_quantized_values = values.divide(127.5).pow(2).multiply(values.signum());
مانیفست و ایندکس
فهرستی از فایلهای موجود در این مجموعه داده را میتوانید در gs://alphaearth_foundations/satellite_embedding/v1/annual/manifest.txt بیابید.
از آنجایی که از روی نام فایلها نمیتوان مشخص کرد که کدام منطقه از جهان را پوشش میدهند، یک فهرست نیز در سه شکل (GeoParquet، GeoPackage و CSV) در فایلهای gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.parquet ، gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.gpkg و gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.csv ارائه شده است. این فهرست شامل یک ورودی برای هر فایل در مجموعه دادهها است. اطلاعات ارائه شده برای هر فایل به صورت زیر است:
- هندسه فایل به عنوان یک چندضلعی WGS84 (یعنی EPSG:4326). در فرم CSV، این در ستون
WKTقرار دارد. برای جزئیات بیشتر در مورد نحوه محاسبه این هندسه، به زیر مراجعه کنید. -
crs: CRS مربوط به ناحیه UTM که این تصویر به آن تعلق دارد، به صورت یک کد EPSG، مانندEPSG:32610. -
year: سالی که تصویر در آن قرار دارد. -
utm_zone: ناحیه UTM تصویر، مانند10N. -
utm_west،utm_south،utm_east،utm_north: مرزهای UTM آرایه پیکسل خام. این هیچ پردازش هندسی را نشان نمیدهد و شامل تمام پیکسلها میشود، چه معتبر باشند و چه نباشند. -
wgs84_west،wgs84_south،wgs84_east،wgs84_north: حداقل/حداکثر طول و عرض جغرافیایی هندسه WGS84.
پردازش هندسه
آرایه پیکسلی به طور طبیعی در یک ناحیه UTM قرار دارد، بنابراین در آن ناحیه UTM، کادر محدودکننده آرایه پیکسلی یک مستطیل ساده است. آن کادر محدودکننده در WGS84 به یک چندضلعی تبدیل میشود. این چندضلعی شامل تعدادی نقطه اضافی است به طوری که لبههای آن دقیقاً خطوط منحنی در WGS84 را دنبال میکنند که خطوط مستقیم در UTM به آنها تبدیل میشوند. این چندضلعی اعتبار/عدم اعتبار پیکسلهای تصویر را در نظر نمیگیرد، فقط مرزهای آرایه پیکسلی تصویر را در نظر میگیرد.
سپس چندضلعی به حداقل و حداکثر طول جغرافیایی ناحیه UTM تصویر برش داده میشود. در عمل، این ممکن است باعث شود که چند پیکسل معتبر که در لبه ناحیه UTM قرار دارند، شامل نشود. حذف این پیکسلها از فهرست نباید مشکلی ایجاد کند: تصویری از ناحیه UTM همسایه باید آن ناحیه را پوشش دهد.
توجه داشته باشید که برش به حداقل/حداکثر طول جغرافیایی منطقه UTM به این معنی است که هیچ چندضلعی از آنتیمریدین عبور نمیکند، که این امر باید پردازش این فایل را کمی سادهتر کند.