مجموعة البيانات

يصبح العثور على مجموعات البيانات أسهل عند تقديم معلومات تدعمها في شكل بيانات منظّمة، مثل الاسم والوصف والمنشئ وتنسيقات التوزيع. يتّبع محرك البحث Google أسلوبًا لاكتشاف مجموعات البيانات يتمثل في الاستفادة من schema.org وغيرها من معايير البيانات الوصفية التي يمكن إضافتها إلى الصفحات الواصفة لمجموعات البيانات. ويهدف هذا الترميز إلى تحسين مستوى اكتشاف مجموعات البيانات في المجالات، مثل علوم الحياة والعلوم الاجتماعية وتعلُّم الآلة والبيانات المدنية والحكومية وغيرها المزيد.

في ما يلي بعض الأمثلة على العناصر التي يمكن اعتبارها مجموعة بيانات:

  • جدول أو ملف CSV به بعض البيانات
  • مجموعة جداول منظَّمة
  • ملف بتنسيق يتمتع بملكية خاصة يحتوي على بيانات
  • مجموعة ملفات تشكل معًا مجموعة بيانات ذات معنى
  • كائن منظم به بيانات بتنسيق آخر قد تريد تحميله إلى أداة خاصة لمعالجته
  • صور تتضمن بيانات
  • ملفات ذات صلة بتعلُّم الآلة، مثل المعلَمات المُدرَبة أو تعريفات بنية الشبكة العصبونية
  • أي شيء يبدو لك كمجموعة بيانات

الأسلوب الذي نتبعه لاكتشاف مجموعات البيانات

يمكننا فهم البيانات المنظَّمة التي تمت إضافتها إلى صفحات الويب المتعلقة بمجموعات البيانات باستخدام الترميز Dataset من schema.org أو بُنى مكافئة تم تمثيلها بالتنسيق Data Catalog Vocabulary (DCAT) من W3C. كما ندرس الإتاحة التجريبية لعمل البيانات المنظَّمة استنادًا إلى W3C CSVW ونتوقع تطوير أسلوبنا وتكييفه ليصبح أفضل ممارسات لظهور وصف مجموعات البيانات. للحصول على المزيد من المعلومات عن أسلوبنا في اكتشاف مجموعات البيانات، راجع تسهيل اكتشاف مجموعات البيانات العامة.

أمثلة

في ما يلي مثال لمجموعات بيانات ببنية JSON-LD (مفضّلة) في "أداة اختبار البيانات المنظَّمة". يمكن استخدام المصطلحات نفسها في الترميز RDFa 1.1 أو البيانات الجزئية أو W3C DCAT. يستند المثال التالي إلى وصف مجموعة بيانات من الواقع.

JSON-LD

في ما يلي مثال لمجموعة بيانات بالترميز JSON-LD باستخدام "أداة اختبار البيانات المنظَّمة".

RDFa

في ما يلي مثال لمجموعة بيانات بالترميز RDFa باستخدام "أداة اختبار البيانات المنظَّمة".

الإرشادات

يجب على المواقع الإلكترونية اتّباع إرشادات البيانات المنظَّمة. وبالإضافة إلى هذه الإرشادات، ننصح باتّباع أفضل الممارسات المتعلقة بملفات Sitemap والمصدر والأصل الواردة أدناه.

أفضل الممارسات المتعلقة بملفات Sitemap

استخدِم ملف Sitemap لمساعدة Google في العثور على عناوين URL. يساعد استخدام ملفات Sitemap والترميز sameAs في توثيق أسلوب نشر أوصاف مجموعات البيانات في موقعك الإلكتروني.

إذا كان لديك مستودع من مجموعات البيانات، لديك على الأرجح نوعان على الأقل من أنواع الصفحات: الصفحات الأساسية ("الصفحة المقصودة") لكل مجموعة بيانات، والصفحات التي تسرد مجموعات بيانات متعددة (مثل نتائج البحث أو بعض مجموعات بيانات فرعية). وننصحك بإضافة البيانات المنظَّمة المتعلقة بمجموعة البيانات إلى الصفحات الأساسية. استخدِم الخاصية sameAs للارتباط بالصفحة الأساسية في حال إضافة بيانات منظَّمة إلى عدة نُسخ من مجموعة بيانات، مثل البيانات الظاهرة ضمن صفحة نتائج البحث.

أفضل الممارسات المتعلّقة بالمصدر والأصل

يشيع إعادة نشر مجموعات البيانات المفتوحة وتجميعها واستنادها إلى مجموعات بيانات أخرى. في ما يلي مخطط مبدئي لأسلوبنا في تمثيل المواقف التي تكون فيها مجموعة البيانات نسخة من مجموعة أخرى أو مستندة إليها بشكل آخر.

  • استخدِم الخاصية sameAs للإشارة إلى أكثر عناوين URL الأساسية للأصل في الحالات التي تكون فيها مجموعة البيانات أو الوصف عبارة عن إعادة نشر لمواد منشورة في مكان آخر.
  • استخدِم الخاصية isBasedOn في الحالات التي تم إجراء تغييرات كبيرة على مجموعة البيانات المُعاد نشرها (بما فيها البيانات الوصفية).
  • استخدِم الخاصية isBasedOn عندما تكون مجموعة البيانات مشتقة من عدة أصول أو مجمعَة من عدة أصول.
  • استخدِم الخاصية identifier لإرفاق معرّفات الوثيقة الرقمية (DOI) ذات الصلة.

ونأمل في تحسين اقتراحاتنا استنادًا إلى التعليقات الواردة إلينا، لا سيما في ما يخص وصف الأصل ومنح أرقام للإصدارات والتواريخ المرتبطة بنشر السلاسل الزمنية. يرجى الانضمام إلى مناقشات المنتدى.

توصيات الخصائص النصية

ننصح بألا تتجاوز جميع الحقول النصية حد 5000 حرف. يستخدم "بحث مجموعة البيانات من Google" أول 5000 حرف فقط من أي حقل نصي. وعادة ما تكون الأسماء والعناوين مكونة من كلمات قليلة أو جملة قصيرة.

الأخطاء والتحذيرات المعروفة

قد تواجه أخطاء أو تحذيرات في أداة اختبار البيانات المنظَّمة من Google وأنظمة التحقق الأخرى. ويمكنك تحديدًا أن تتجاهل بأمان التحذيرات بشأن الخاصية fileFormat (التي تمت إعادة تسميتها مؤخرًا إلى encodingFormat). قد تقترح أنظمة التحقق أيضًا أن تكون للمؤسسة معلومات اتصال تتضمن الخاصية contactType. ويُذكر أن من بين القيم المفيدة كلاً من customer service وemergency وjournalist وnewsroom وpublic engagement. يمكنك كذلك تجاهل الأخطاء بأن csvw:Table قيمة غير متوقعة للخاصية mainEntity.

تعريفات أنواع البيانات المنظَّمة

يجب تضمين الخصائص المطلوبة حتى يصبح المحتوى مؤهلاً للعرض على شكل نتيجة منسّقة. ويمكنك أيضًا تضمين الخصائص المقترَحة لإضافة المزيد من المعلومات المتعلقة بالمحتوى، ما يؤدي إلى تحسين التجربة التي تقدمها للمستخدِم.

يمكنك استخدام أداة اختبار البيانات المنظَّمة للتحقق من صحة الترميز.

ينصب التركيز على وصف معلومات عن مجموعة البيانات (بياناتها الوصفية) وتمثيل محتواها. على سبيل المثال، تذكر البيانات الوصفية لمجموعة البيانات الموضوع الذي تتناوله المجموعة والمتغيرات التي تقيسها ومنشئها ومعلومات أخرى. ولا تحتوي مثلاً على قيم معينة للمتغيرات.

مجموعة البيانات

يتوفّر تعريف Dataset الكامل على schema.org/Dataset.

يمكنك وصف معلومات إضافية عن نشر مجموعة البيانات، مثل الترخيص أو وقت نشرها أو معرّف الوثيقة الرقمي لها أو الخاصية sameAs التي توجِّه إلى نسخة أساسية من مجموعة البيانات في مستودع مختلف. أضِف identifier وlicense وsameAs لمجموعات البيانات التي تقدّم معلومات عن الأصل والترخيص.

الخصائص المطلوبة
description Text

تمثل هذه الخاصية ملخّصًا قصيرًا يصف مجموعة البيانات.

name Text

تمثل هذه الخاصية اسمًا وصفيًا لمجموعة البيانات. مثل "عمق الثلج في نصف الكرة الشمالي"

الخصائص المقترَحة
citation Text أو CreativeWork

تمثل هذه الخاصية تنويهًا عن جهة النشر يصف مجموعة البيانات. مثل: "J.Smith 'How I created an awesome dataset', Journal of Data Science, 1966".

identifier URL أو Text أو PropertyValue

تمثل هذه الخاصية معرّفًا لمجموعة البيانات، مثل معرّف الوثيقة الرقمي.

keywords Text

تمثل هذه الخاصية الكلمات الرئيسية التي تلخص مجموعة البيانات.

license URL وText

تمثل هذه الخاصية ترخيصًا يتم بموجبه توزيع مجموعة البيانات.

sameAs URL

تمثل هذه الخاصية رابطًا إلى صفحة توفر معلومات إضافية عن مجموعة البيانات نفسها، وتكون عادة في مستودع آخر.

spatialCoverage Text وPlace

يمكنك توفير نقطة واحدة تصف الجانب المكاني لمجموعة البيانات. وتُستخدَم هذه الخاصية فقط إذا كان للمجموعة بُعد مكاني. على سبيل المثال، نقطة واحدة يتم فيها تجميع كل القياسات أو إحداثيات مربع الإحاطة بمنطقة.

النقاط

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

الإحداثيات

استخدِم GeoShape لوصف المناطق ذات الأشكال المختلفة. مثل تحديد مربع الإحاطة

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

المواقع الجغرافية التي لها أسماء

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

تغطي البيانات الموجودة في مجموعة البيانات فاصلاً زمنيًا محددًا. وتُستخدَم هذه الخاصية فقط إذا كان للمجموعة بُعد زماني. يستخدم مخطط Schema.org المعيار ISO 8601 لوصف الفواصل الزمنية والنقاط الزمنية. يمكنك وصف التواريخ بشكل مختلف تبعًا للفاصل الزمني لمجموعة البيانات. أشِر إلى الفواصل الزمنية المفتوحة بنقطتين عشريتين (..).

تاريخ واحد

"temporalCoverage" : "2008"

فترة زمنية

"temporalCoverage" : "1950-01-01/2013-12-18"

فترة زمنية مفتوحة

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text وPropertyValue

تمثل هذه الخاصية المتغير الذي تقيسه مجموعة البيانات. مثل، درجة الحرارة أو الضغط

version Text وNumber

تمثل هذه الخاصية رقم إصدار مجموعة البيانات.

url URL

تمثل هذه الخاصية مكان صفحة تصف مجموعة البيانات.

DataCatalog

يتوفّر تعريف DataCatalog الكامل على schema.org/DataCatalog.

غالبًا ما يتم نشر مجموعات البيانات في مستودعات تحتوي على الكثير من مجموعات البيانات الأخرى. لذلك يمكن تضمين مجموعة البيانات نفسها في أكثر من مستودع واحد. ويمكن الإشارة إلى كتالوج البيانات الذي تنتمي إليه مجموعة البيانات هذه من خلال الإشارة إليها مباشرة.

الخصائص المقترَحة
includedInDataCatalog DataCatalog

تمثل هذه الخاصية الكتالوج الذي تنتمي إليه مجموعة البيانات.

DataDownload

يتوفّر تعريف DataDownload الكامل على schema.org/DataDownload. إلى جانب خصائص "مجموعة البيانات"، أضِف الخصائص التالية لمجموعات البيانات التي توفر خيارات للتنزيل.

تصف الخاصية distribution كيفية الحصول على مجموعة البيانات نفسها لأن عنوان URL غالبًا ما يوجّه إلى الصفحة المقصودة التي تصف مجموعة البيانات. تصف الخاصية distribution المكان الذي سيضع فيه البيانات وبأي تنسيق. يمكن أن تكون لهذه الخاصية عدة قيم: مثل نسخة ملف CSV لها عنوان URL واحد ونسخة ملف Excel متاحة على عنوان مختلف.

الخصائص المطلوبة
distribution.contentUrl URL

تمثل هذه الخاصية رابط التنزيل.

الخصائص
distribution DataDownload

تمثل هذه الخاصية وصفًا للمكان الذي سيتم فيه تنزيل مجموعة البيانات ونسق الملف المراد تنزيله.

distribution.fileFormat Text

تمثل هذه الخاصية نسق الملف المراد توزيعه.

مجموعة البيانات الجدولية

مجموعة البيانات الجدولية هي مجموعة بيانات يتم تنظيمها أساسًا في شكل شبكة من الصفوف والأعمدة. بالنسبة إلى الصفحات التي تتضمن مجموعات بيانات جدولية، يمكنك أيضًا إنشاء ترميز أكثر وضوحًا، استنادًا إلى الأسلوب الأساسي الموضح أعلاه. في الوقت الحالي، نفهم صيغة من CSVW ("ملف CSV على الويب"، انظر W3C)، يتم توفيرها بالتوازي مع المحتوى الجدولي الموجَّه للمستخدِمين على صفحة HTML.

في ما يلي مثال يوضح جدولاً صغيرًا تم ترميزه بالتنسيق CSVW JSON-LD. هناك بعض الأخطاء المعروفة في "أداة اختبار البيانات المنظَّمة".

المساعدة والأدوات

إرسال تعليقات حول...