بيانات AlphaEarth Foundations GCS

تحتوي حزمة gs://alphaearth_foundations GCS على ملفات COG (ملفات GeoTIFF محسّنة للعمل على السحابة الإلكترونية) تشكّل معًا مجموعة بيانات تضمين صور الأقمار الصناعية السنوية الخاصة بمشروع AlphaEarth Foundations. وتتضمّن هذه الحزمة عمليات التضمين السنوية للسنوات من 2017 إلى 2024، بما في ذلك.

الترخيص

تم ترخيص مجموعة البيانات هذه بموجب CC-BY 4.0، ويجب تضمين نص الإحالة التالي: "تم إنتاج مجموعة بيانات AlphaEarth Foundations Satellite Embedding من قِبل Google وGoogle DeepMind".

تم إعداد هذا الحزمة على أنّها "يدفع الطالب"، لذا قد يتم تحصيل رسوم منك مقابل تنزيل البيانات.

بنية الدليل

يتم تقسيمها إلى أدلة حسب السنة، ويتم تقسيم دليل كل سنة إلى 120 دليلاً فرعيًا، واحد لكل منطقة UTM، وتعكس أسماؤها رقم المنطقة ونصف الكرة الأرضية (N أو S).

يحتوي كل دليل على عدد من ملفات COG. تحتوي هذه الملفات على جميع بيانات البكسل الخاصة بمنطقة UTM هذه.

بنية الملف

يبلغ حجم كل ملف 8192x8192 بكسل، ويتضمّن 64 قناة. تمت تسوية مقدار كل بكسل بعد تطبيق عملية إلغاء التكميم (انظر أدناه) لكي يصبح طوله الإقليدي 1.

تحتوي الملفات على طبقات نظرة عامة بدقة 4096x4096 بكسل و2048x2048 بكسل وما إلى ذلك وصولاً إلى طبقة نظرة عامة من المستوى الأعلى بدقة 1x1. يتم إنشاء طبقات النظرة العامة هذه بحيث يكون كل بكسل من بكسلات النظرة العامة هو متوسط بكسلات أعلى دقة ضمن بكسل النظرة العامة هذا، حيث تم تطبيع مقدار المتوسط ليكون طوله 1.

تتوافق القنوات، بالترتيب، مع المحاور من A00 إلى A63 في مجموعة بيانات Satellite Embedding. تحتوي حزم COG أيضًا على هذا الاسم للقنوات.

قيمة كل بكسل لكل قناة هي عدد صحيح ذو 8 بتات. في ما يلي وصف لطريقة ربط هذه القيم بالقيم الأصلية (في النطاق [-1, 1]) الخاصة بعمليات التضمين.

تشير القيمة -128 إلى بكسل مخفي. إذا كان متوفّرًا في قناة واحدة، سيكون متوفّرًا في جميع القنوات. تعكس حقول COG ذلك (أي أنّ القيمة NoData مضبوطة على -128).

يتضمّن اسم كل ملف أيضًا بعض المعلومات. على سبيل المثال، ضع في اعتبارك الملف المسمّى gs://alphaearth_foundations/satellite_embedding/v1/annual/2019/1S/x8qqwcsisbgygl2ry-0000008192-0000000000.tiff. كما هو موضح أعلاه، يشكّل هذا الملف جزءًا من عملية التضمين السنوية لعام 2019، ويقع في المنطقة 1S من نظام UTM (المنطقة 1، نصف الكرة الجنوبي). يتم استخدام اسم الملف الأساسي، x8qqwcsisbgygl2ry-0000008192-0000000000، لربط هذا الملف باسم صورة القمر الصناعي المضمّنة في Earth Engine. في هذا المثال، يتوافق هذا الملف مع جزء من صورة GOOGLE/SATELLITE_EMBEDDING/V1/ANNUAL/x8qqwcsisbgygl2ry في Earth Engine. يشير الجزءان العشريان من اسم الملف إلى موضع قيم COG بالنسبة إلى صورة Earth Engine، وذلك كإزاحة في Y متبوعة بإزاحة في X. في هذه الحالة، تكون نقطة الأصل لوحدة COG عند الإحداثيات (0, 8192) بالنسبة إلى نقطة الأصل لصورة Earth Engine. ويرجع ذلك إلى ضرورة تقسيم كل صورة من صور Earth Engine (التي تبلغ دقتها 16384 × 16384 بكسل) حتى لا تصبح ملفات COG الناتجة كبيرة جدًا.

إزالة التكميم

لتحويل قيمة 8 بت الأولية الموقّعة (التي ستتراوح بين -127 و127 شاملةً، لأنّ القيمة -128 محجوزة كقيمة "لا توجد بيانات") في كل قناة من كل بكسل إلى قيمة النقطة العائمة الجاهزة للتحليل (التي ستتراوح بين -1 و1)، يجب إجراء عملية الربط التالية:

  • اقسِم على 127.5
  • مربّع
  • الضرب في إشارة القيمة الأصلية

يمكن التعبير عن ذلك في NumPy على النحو التالي:

  # values is a NumPy array of raw pixel values
  de_quantized_values = ((values / 127.5) ** 2) * np.sign(values)

في Earth Engine، ستكون العملية المقابلة هي

  var de_quantized_values = values.divide(127.5).pow(2).multiply(values.signum());

البيان والفهرس

يمكن العثور على قائمة بالملفات في مجموعة البيانات هذه في gs://alphaearth_foundations/satellite_embedding/v1/annual/manifest.txt.

بما أنّه لا يمكن تحديد المنطقة الجغرافية التي تغطيها الملفات من خلال أسماء الملفات، تم توفير فهرس أيضًا بثلاثة أشكال (GeoParquet وGeoPackage وCSV) في الملفات gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.parquet وgs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.gpkg وgs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.csv. يحتوي هذا الفهرس على إدخال واحد لكل ملف في مجموعة البيانات. المعلومات المقدَّمة لكل ملف هي

  • شكل الملف الهندسي بنظام الإسناد العالمي WGS84 (أي مضلّع EPSG:4326). في نموذج CSV، يظهر هذا الحقل في العمود WKT. يمكنك الاطّلاع أدناه على تفاصيل حول كيفية احتساب هذا الشكل الهندسي.
  • crs: نظام الإحداثيات المرجعية لمنطقة UTM التي تنتمي إليها هذه الصورة كرمز EPSG، مثل EPSG:32610
  • year: تمثّل هذه السمة السنة التي تغطيها الصورة.
  • utm_zone: منطقة نظام الإحداثيات العالمي (UTM) للصورة، مثل 10N
  • utm_west وutm_south وutm_east وutm_north: حدود UTM لمجموعة وحدات البكسل الأولية. لا يشمل ذلك أي معالجة هندسية، ويتضمّن جميع وحدات البكسل سواء كانت صالحة أم لا.
  • wgs84_west وwgs84_south وwgs84_east وwgs84_north: الحد الأدنى/الأقصى لخط الطول وخط العرض في شكل WGS84.

معالجة الأشكال الهندسية

تكون مصفوفة وحدات البكسل في بعض مناطق نظام مراقبة الزيارات من Urchin، لذا يكون المربع المحيط بمصفوفة وحدات البكسل في منطقة نظام مراقبة الزيارات من Urchin هذه عبارة عن مستطيل بسيط. يتم تحويل هذا المربع المحيط إلى مضلّع بنظام WGS84. يتضمّن هذا المضلّع عددًا من النقاط الإضافية لكي تتبع حوافه الخطوط المنحنية في نظام WGS84 بشكل دقيق، وهي الخطوط التي تتحوّل إلى خطوط مستقيمة في نظام UTM. لا يأخذ هذا المضلّع في الاعتبار صحة/عدم صحة وحدات البكسل في الصورة، بل يراعي حدود مصفوفة وحدات البكسل الخاصة بالصورة فقط.

يتم بعد ذلك قص المضلّع إلى الحد الأدنى والحد الأقصى لخط الطول في منطقة UTM الخاصة بالصورة. في الواقع، قد يؤدي ذلك إلى عدم تضمين بعض وحدات البكسل الصالحة التي تتدلّى على حافة منطقة UTM. لن يؤدي حذف وحدات البكسل هذه من الفهرس إلى حدوث أي مشاكل، لأنّ بعض الصور من منطقة UTM المجاورة ستغطي هذه المساحة.

يُرجى العِلم أنّ اقتصاص خطوط الطول إلى الحد الأدنى/الأقصى لمنطقة نظام الإحداثيات العالمي يعني أنّه لن يتقاطع أي مضلّع مع خط الزوال المعاكس، ما سيجعل معالجة هذا الملف أسهل قليلاً.