بيانات AlphaEarth Foundations GCS

تحتوي حزمة gs://alphaearth_foundations GCS على ملفات COG (ملفات GeoTIFF محسّنة للعمل على السحابة الإلكترونية) تشكّل معًا مجموعة بيانات تضمين صور الأقمار الصناعية السنوية الخاصة بمشروع AlphaEarth Foundations. وتتضمّن هذه السمة عمليات التضمين السنوية للسنوات من 2017 إلى 2025، بما في ذلك.

تلتزم Google بمواصلة إنتاج طبقات "تضمين صور الأقمار الصناعية" السنوية، وستقدّم إشعارًا قبل عام واحد على الأقل بأي تغيير متوقّع في عملية التسليم، وذلك رهنًا بتوفّر مصادر بيانات USGS وESA التي يعتمد عليها إنتاج مجموعة البيانات.

الترخيص

هذه المجموعة من البيانات مرخّصة بموجب CC-BY 4.0 وتتطلّب نص تحديد المصدر التالي: "تم إنتاج مجموعة بيانات AlphaEarth Foundations Satellite Embedding من قِبل Google وGoogle DeepMind".

تم إعداد هذا الحزمة على أنّها "يدفع الطالب"، لذا قد يتم تحصيل رسوم منك مقابل تنزيل البيانات.

بنية الدليل

يتم تقسيمها إلى أدلة حسب السنة، ويتم تقسيم دليل كل سنة إلى 120 دليلاً فرعيًا، واحد لكل منطقة UTM، وتعكس أسماؤها رقم المنطقة ونصف الكرة الأرضية (N أو S).

يحتوي كل دليل على عدد من ملفات COG. تحتوي هذه الملفات على جميع بيانات البكسل الخاصة بمنطقة UTM هذه.

بنية الملف

يبلغ حجم كل ملف 8192x8192 بكسل، ويتضمّن 64 قناة. تمت تسوية مقدار كل بكسل بعد تطبيق عملية إلغاء التكميم (انظر أدناه) لكي يصبح طوله الإقليدي 1.

تحتوي الملفات على طبقات نظرة عامة بدقة 4096×4096 بكسل و2048×2048 بكسل وما إلى ذلك، وصولاً إلى طبقة نظرة عامة من المستوى الأعلى بدقة 1×1. تم إنشاء طبقات النظرة العامة هذه بطريقة تجعل كل بكسل من بكسلات النظرة العامة هو متوسط بكسلات أعلى دقة ضمن بكسل النظرة العامة هذا، حيث تم تعديل حجم المتوسط ليصبح طوله 1.

تتوافق القنوات، بالترتيب، مع المحاور من A00 إلى A63 في مجموعة بيانات Satellite Embedding. تحتوي حزم COG أيضًا على هذا الاسم للقنوات.

قيمة كل بكسل لكل قناة هي عدد صحيح ذو 8 بتات. يتم توضيح طريقة ربط هذه القيم بالقيم الأصلية (في النطاق [-1, 1]) لعمليات التضمين في مقالة إزالة التكميم.

تشير القيمة -128 إلى بكسل مخفي. إذا كان متوفّرًا في قناة واحدة، سيكون متوفّرًا في جميع القنوات. تعكس حقول COG ذلك (أي أنّ القيمة NoData مضبوطة على -128).

يتضمّن اسم كل ملف أيضًا بعض المعلومات. على سبيل المثال، ضع في اعتبارك الملف المسمّى gs://alphaearth_foundations/satellite_embedding/v1/annual/2019/1S/x8qqwcsisbgygl2ry-0000008192-0000000000.tiff. كما هو واضح في اسم الملف، هذا الملف هو جزء من عملية التضمين السنوية لعام 2019، لمنطقة UTM رقم 1S (المنطقة 1، نصف الكرة الجنوبي). يتم استخدام اسم الملف الأساسي، x8qqwcsisbgygl2ry-0000008192-0000000000، لربط هذا الملف باسم صورة القمر الصناعي المضمّنة في Earth Engine. في هذا المثال، يتوافق هذا الملف مع جزء من صورة GOOGLE/SATELLITE_EMBEDDING/V1/ANNUAL/x8qqwcsisbgygl2ry في Earth Engine. يشير الجزءان العشريان من اسم الملف إلى موضع قيم COG بالنسبة إلى صورة Earth Engine، وذلك كإزاحة في Y متبوعة بإزاحة في X. في هذه الحالة، تكون نقطة الأصل لوحدة COG عند الإحداثيات (0, 8192) بالنسبة إلى نقطة الأصل لصورة Earth Engine. ويعود السبب إلى أنّه كان من الضروري تقسيم كل صورة من صور Earth Engine (التي تبلغ دقتها 16384x16384 بكسل) حتى لا تصبح ملفات COG الناتجة كبيرة جدًا.

إزالة التكميم

لتحويل قيمة 8 بت الأولية الموقّعة (التي ستتراوح بين -127 و127 شاملة، لأنّ القيمة -128 محجوزة كقيمة "لا توجد بيانات") في كل قناة من كل بكسل إلى قيمة النقطة العائمة الجاهزة للتحليل (التي ستتراوح بين -1 و1)، يجب إجراء عملية الربط التالية:

  • اقسِم على 127.5
  • مربّع
  • الضرب في إشارة القيمة الأصلية

يمكن التعبير عن ذلك في NumPy على النحو التالي:

  # values is a NumPy array of raw pixel values
  de_quantized_values = ((values / 127.5) ** 2) * np.sign(values)

في Earth Engine، ستكون العملية المقابلة هي

  var de_quantized_values = values.divide(127.5).pow(2).multiply(values.signum());

إنشاء أهرامات مخفَّضة الدقة

إذا كنت تنوي إنشاء إصدارات مخفَّضة الدقة أو نظرات عامة خارجية من طبقة الدقة الأساسية لملفات COG هذه (على سبيل المثال، بعد تجميع عدة ملفات)، عليك اتّباع الإجراء التالي. لن تؤدي تقنيات إنشاء الهرم النقطي العادية (مثل استخدام gdaladdo مع الخيار -r average على قيم الأعداد الصحيحة الأولية) إلى نتائج صحيحة.

  1. إزالة التكميم: تحويل الأعداد الصحيحة الأولية ذات 8 بت إلى أعداد عشرية باستخدام الطريقة الموضّحة في إزالة التكميم
  2. جمع المتجهات: تنفيذ عملية جمع على مستوى العناصر للمتجهات التي تم إلغاء تحديد كميتها
  3. التسوية: احسب المعيار الإقليدي لمتّجه المجموع الناتج واقسمه على المعيار لإعادة تسويته إلى طول الوحدة.
import numpy as np

# Assuming 'raw_values' is a NumPy array of shape (N, 64)
# containing the raw signed 8-bit integers from N pixels.
# N = 4 for a 2x2 aggregation, for example.

# 1. De-quantize
de_quantized_values = ((raw_values / 127.5) ** 2) * np.sign(raw_values)

# 2. Sum the de-quantized vectors
sum_vec = np.sum(de_quantized_values, axis=0)  # Shape (64,)

# 3. Normalize the sum vector
norm = np.linalg.norm(sum_vec)
# Add epsilon to prevent division by zero
pyramided_vec = sum_vec / (norm + 1e-9)

# 'pyramided_vec' is the correctly downsampled 64-dimensional unit vector.

تم إنشاء طبقات النظرة العامة في ملفات COG باستخدام هذا الإجراء. وإذا كانت هذه الطبقات تناسب احتياجاتك، يمكنك استخدامها على الفور بدون إجراء أي عمليات حسابية إضافية.

البيان والفهرس

يمكن العثور على قائمة بالملفات في مجموعة البيانات هذه في gs://alphaearth_foundations/satellite_embedding/v1/annual/manifest.txt.

بما أنّه لا يمكن تحديد المنطقة الجغرافية التي تغطيها الملفات من خلال أسماء الملفات، تم توفير فهرس أيضًا بثلاثة أشكال (GeoParquet وGeoPackage وCSV) في الملفات gs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.parquet وgs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.gpkg وgs://alphaearth_foundations/satellite_embedding/v1/annual/aef_index.csv. يحتوي هذا الفهرس على إدخال واحد لكل ملف في مجموعة البيانات. المعلومات المقدَّمة لكل ملف هي

  • شكل الملف الهندسي بنظام الإسناد العالمي WGS84 (أي مضلّع EPSG:4326). في نموذج CSV، يظهر هذا الحقل في العمود WKT. راجِع معالجة الأشكال الهندسية للاطّلاع على تفاصيل العمليات الحسابية.
  • crs: نظام الإحداثيات المرجعية لمنطقة UTM التي تنتمي إليها هذه الصورة كرمز EPSG، مثل EPSG:32610
  • year: تمثّل هذه السمة السنة التي تغطيها الصورة.
  • utm_zone: منطقة نظام الإحداثيات العالمي (UTM) للصورة، مثل 10N
  • utm_west وutm_south وutm_east وutm_north: حدود UTM لمجموعة وحدات البكسل الأولية. لا يشمل ذلك أي معالجة هندسية، ويتضمّن جميع وحدات البكسل سواء كانت صالحة أم لا.
  • wgs84_west وwgs84_south وwgs84_east وwgs84_north: الحد الأدنى والحد الأقصى لخطوط الطول والعرض في شكل WGS84 الهندسي

معالجة الأشكال الهندسية

تكون مصفوفة البكسل في بعض مناطق نظام مراقبة الزيارات من Urchin بشكل أصلي، لذا يكون المربع المحيط بمصفوفة البكسل في منطقة نظام مراقبة الزيارات من Urchin هذه عبارة عن مستطيل بسيط. يتم تحويل هذا المربّع المحيط إلى مضلّع بنظام WGS84. يتضمّن هذا المضلّع عددًا من النقاط الإضافية لكي تتبع حوافه الخطوط المنحنية في نظام WGS84 بدقة، وهي الخطوط التي تتحوّل إلى خطوط مستقيمة في نظام UTM. لا يأخذ هذا المضلّع في الاعتبار صحة وحدات البكسل في الصورة، بل يركّز فقط على حدود مصفوفة وحدات البكسل الخاصة بالصورة.

يتم بعد ذلك قص المضلّع إلى الحد الأدنى والحد الأقصى لخط الطول في منطقة UTM الخاصة بالصورة. في الواقع، قد يؤدي ذلك إلى عدم تضمين بعض وحدات البكسل الصالحة التي تتجاوز حافة منطقة UTM. لن يؤدي حذف هذه وحدات البكسل من الفهرس إلى حدوث أي مشاكل، لأنّ بعض الصور من منطقة UTM المجاورة ستغطي هذه المساحة.

يُرجى العِلم أنّ اقتصاص المضلّع إلى الحدّ الأدنى والأقصى لخط الطول في منطقة نظام الإحداثيات العالمي (UTM) يعني أنّه لن يتقاطع أي مضلّع مع خط الزوال المعاكس، ما سيجعل معالجة هذا الملف أسهل قليلاً.