داده‌های GCS بنیاد آلفاارث

فایل gs://alphaearth_foundations GCS شامل فایل‌های COG (فایل GeoTIFF بهینه‌شده برای ابر) است که در کنار هم مجموعه داده‌های سالانه جاسازی ماهواره‌ای AlphaEarth Foundations را تشکیل می‌دهند. این مجموعه شامل جاسازی‌های سالانه برای سال‌های ۲۰۱۷ تا ۲۰۲۴، از جمله است.

مجوز

این مجموعه داده تحت مجوز CC-BY 4.0 منتشر شده است و به متن ارجاع زیر نیاز دارد: « مجموعه داده جاسازی ماهواره‌ای AlphaEarth Foundations توسط گوگل و Google DeepMind تولید شده است.»

این سطل به صورت «درخواست‌کننده هزینه را پرداخت می‌کند» تنظیم شده است، بنابراین دانلود داده‌ها ممکن است شامل هزینه‌های خروجی و سایر هزینه‌ها باشد.

ساختار دایرکتوری

آنها بر اساس سال به دایرکتوری‌ها تقسیم می‌شوند؛ دایرکتوری هر سال به ۱۲۰ زیردایرکتوری تقسیم می‌شود، یکی برای هر منطقه UTM، که نام آنها نشان دهنده شماره منطقه و نیمکره ( N یا S ) است.

درون هر دایرکتوری تعدادی فایل COG وجود دارد. این فایل‌ها شامل تمام داده‌های پیکسلی برای آن منطقه UTM هستند.

ساختار فایل

هر فایل ۸۱۹۲x۸۱۹۲ پیکسل است و ۶۴ کانال دارد. بزرگی هر پیکسل، پس از اعمال نگاشت غیرکوانتیزه (به زیر مراجعه کنید)، نرمال‌سازی شده است، به طوری که طول اقلیدسی آن ۱ است.

این فایل‌ها شامل لایه‌های نمای کلی با ابعاد ۴۰۹۶x۴۰۹۶ پیکسل، ۲۰۴۸x۲۰۴۸ پیکسل و به همین ترتیب تا یک لایه نمای کلی سطح بالا با ابعاد ۱x۱ هستند. این لایه‌های نمای کلی به گونه‌ای ساخته شده‌اند که هر پیکسل نمای کلی، میانگین پیکسل‌های با بالاترین وضوح زیر آن پیکسل نمای کلی است، که در آن بزرگی میانگین به طول ۱ نرمال‌سازی شده است.

این کانال‌ها به ترتیب با محورهای A00 تا A63 از مجموعه داده‌های Satellite Embedding مطابقت دارند. COGها نیز حاوی این نامگذاری برای کانال‌ها هستند.

مقدار هر پیکسل برای هر کانال، یک عدد صحیح ۸ بیتی علامت‌دار است. نحوه‌ی نگاشت این مقادیر به مقادیر اصلی (در محدوده‌ی [-1, 1]) در جاسازی‌ها در زیر توضیح داده شده است.

مقدار -۱۲۸ مربوط به یک پیکسل ماسک شده است. اگر در یک کانال وجود داشته باشد، در تمام کانال‌ها نیز وجود خواهد داشت. COGها این را منعکس می‌کنند (یعنی مقدار NoData آنها روی -۱۲۸ تنظیم شده است).

نام هر فایل همچنین حاوی اطلاعاتی است. برای مثال، فایلی با نام gs://alphaearth_foundations/satellite_embedding/v1/annual/2019/1S/x8qqwcsisbgygl2ry-0000008192-0000000000.tiff را در نظر بگیرید. همانطور که در بالا توضیح داده شد، این فایل بخشی از جاسازی سالانه ۲۰۱۹ است و در منطقه UTM 1S (منطقه ۱، نیمکره جنوبی) قرار دارد. نام فایل پایه، x8qqwcsisbgygl2ry-0000008192-0000000000 ، برای پیوند این فایل به نام تصویر جاسازی ماهواره موتور زمین مربوطه استفاده می‌شود. در این مثال، این فایل مربوط به بخشی از تصویر موتور زمین GOOGLE/SATELLITE_EMBEDDING/V1/ANNUAL/x8qqwcsisbgygl2ry است. دو بخش اعشاری نام فایل، مشخص می‌کنند که مقادیر این COG نسبت به آن تصویر موتور زمین در کجا قرار دارند، به صورت یک آفست در Y و به دنبال آن یک آفست در X. در این حالت، مبدأ پیکسل COG نسبت به مبدأ تصویر موتور زمین در (0, 8192) قرار دارد. دلیل این امر آن است که لازم بود هر تصویر موتور زمین (که 16384x16384 پیکسل هستند) به بخش‌های کوچک‌تری تقسیم شود تا COGهای حاصل خیلی دست و پا گیر نباشند.

دکوانتیزاسیون

برای تبدیل مقدار خام ۸ بیتی علامت‌دار (که بین ۱۲۷- و ۱۲۷ خواهد بود، زیرا ۱۲۸- به عنوان مقدار "بدون داده" رزرو شده است) در هر کانال از هر پیکسل به مقدار ممیز شناور آماده برای تحلیل (که بین ۱- و ۱ خواهد بود)، نگاشتی که باید انجام شود به صورت زیر است:

  • تقسیم بر ۱۲۷.۵
  • مربع
  • ضرب در علامت مقدار اصلی

این در NumPy به صورت زیر بیان می‌شود:

  # values is a NumPy array of raw pixel values
  de_quantized_values = ((values / 127.5) ** 2) * np.sign(values)

در Earth Engine، عملیات مربوطه به صورت زیر خواهد بود:

  var de_quantized_values = values.divide(127.5).pow(2).multiply(values.signum());

مانیفست و ایندکس

فهرستی از فایل‌های موجود در این مجموعه داده را می‌توانید در gs://alphaearth_foundations/satellite_embedding/v1/annual/manifest.txt بیابید.

از آنجایی که از روی نام فایل‌ها نمی‌توان مشخص کرد که کدام منطقه از جهان را پوشش می‌دهند، یک فهرست نیز در سه شکل (GeoParquet، GeoPackage و CSV) در فایل‌های gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.parquet ، gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.gpkg و gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.csv ارائه شده است. این فهرست شامل یک ورودی برای هر فایل در مجموعه داده‌ها است. اطلاعات ارائه شده برای هر فایل به صورت زیر است:

  • هندسه فایل به عنوان یک چندضلعی WGS84 (یعنی EPSG:4326). در فرم CSV، این در ستون WKT قرار دارد. برای جزئیات بیشتر در مورد نحوه محاسبه این هندسه، به زیر مراجعه کنید.
  • crs : CRS مربوط به ناحیه UTM که این تصویر به آن تعلق دارد، به صورت یک کد EPSG، مانند EPSG:32610 .
  • year : سالی که تصویر در آن قرار دارد.
  • utm_zone : ناحیه UTM تصویر، مانند 10N .
  • utm_west ، utm_south ، utm_east ، utm_north : مرزهای UTM آرایه پیکسل خام. این هیچ پردازش هندسی را نشان نمی‌دهد و شامل تمام پیکسل‌ها می‌شود، چه معتبر باشند و چه نباشند.
  • wgs84_west ، wgs84_south ، wgs84_east ، wgs84_north : حداقل/حداکثر طول و عرض جغرافیایی هندسه WGS84.

پردازش هندسه

آرایه پیکسلی به طور طبیعی در یک ناحیه UTM قرار دارد، بنابراین در آن ناحیه UTM، کادر محدودکننده آرایه پیکسلی یک مستطیل ساده است. آن کادر محدودکننده در WGS84 به یک چندضلعی تبدیل می‌شود. این چندضلعی شامل تعدادی نقطه اضافی است به طوری که لبه‌های آن دقیقاً خطوط منحنی در WGS84 را دنبال می‌کنند که خطوط مستقیم در UTM به آنها تبدیل می‌شوند. این چندضلعی اعتبار/عدم اعتبار پیکسل‌های تصویر را در نظر نمی‌گیرد، فقط مرزهای آرایه پیکسلی تصویر را در نظر می‌گیرد.

سپس چندضلعی به حداقل و حداکثر طول جغرافیایی ناحیه UTM تصویر برش داده می‌شود. در عمل، این ممکن است باعث شود که چند پیکسل معتبر که در لبه ناحیه UTM قرار دارند، شامل نشود. حذف این پیکسل‌ها از فهرست نباید مشکلی ایجاد کند: تصویری از ناحیه UTM همسایه باید آن ناحیه را پوشش دهد.

توجه داشته باشید که برش به حداقل/حداکثر طول جغرافیایی منطقه UTM به این معنی است که هیچ چندضلعی از آنتی‌مریدین عبور نمی‌کند، که این امر باید پردازش این فایل را کمی ساده‌تر کند.