مجموعة البيانات

يصبح العثور على مجموعات البيانات أسهل عند تقديم معلومات تدعمها في شكل بيانات منظّمة، مثل الاسم والوصف والمنشئ وتنسيقات التوزيع. يتّبع محرك البحث Google أسلوبًا لاكتشاف مجموعات البيانات يتمثل في الاستفادة من schema.org وغيرها من معايير البيانات الوصفية التي يمكن إضافتها إلى الصفحات الواصفة لمجموعات البيانات. ويهدف هذا الترميز إلى تحسين مستوى اكتشاف مجموعات البيانات في المجالات، مثل علوم الحياة والعلوم الاجتماعية وتعلُّم الآلة والبيانات المدنية والحكومية وغيرها المزيد.

في ما يلي بعض الأمثلة على العناصر التي يمكن اعتبارها مجموعة بيانات:

  • جدول أو ملف CSV به بعض البيانات
  • مجموعة جداول منظَّمة
  • ملف بتنسيق يتمتع بملكية خاصة يحتوي على بيانات
  • مجموعة ملفات تشكل معًا مجموعة بيانات ذات معنى
  • كائن منظم به بيانات بتنسيق آخر قد تريد تحميله إلى أداة خاصة لمعالجته
  • صور تتضمن بيانات
  • ملفات ذات صلة بتعلُّم الآلة، مثل المعلَمات المُدرَبة أو تعريفات بنية الشبكة العصبونية
  • أي شيء يبدو لك كمجموعة بيانات

الأسلوب الذي نتبعه لاكتشاف مجموعات البيانات

يمكننا فهم البيانات المنظَّمة التي تمت إضافتها إلى صفحات الويب المتعلقة بمجموعات البيانات باستخدام الترميز Dataset من schema.org أو بُنى مكافئة تم تمثيلها بالتنسيق Data Catalog Vocabulary (DCAT)‎ من W3C. كما ندرس الإتاحة التجريبية لعمل البيانات المنظَّمة استنادًا إلى W3C CSVW ونتوقع تطوير أسلوبنا وتكييفه ليصبح أفضل ممارسات لظهور وصف مجموعات البيانات. للحصول على المزيد من المعلومات عن أسلوبنا في اكتشاف مجموعات البيانات، راجع تسهيل اكتشاف مجموعات البيانات العامة.

أمثلة

في ما يلي مثال لمجموعات بيانات ببنية JSON-LD (مفضّلة) في "أداة اختبار البيانات المنظَّمة". يمكن استخدام المصطلحات نفسها في الترميز RDFa 1.1 أو البيانات الجزئية أو W3C DCAT. يستند المثال التالي إلى وصف مجموعة بيانات من الواقع.

JSON-LD

في ما يلي مثال على مجموعة بيانات بالترميز JSON-LD:

RDFa

في ما يلي مثال على مجموعة بيانات بالترميز RDFa:

الإرشادات

يجب على المواقع الإلكترونية اتّباع إرشادات البيانات المنظَّمة. وبالإضافة إلى هذه الإرشادات، ننصح باتّباع أفضل الممارسات المتعلقة بملفات Sitemap والمصدر والأصل الواردة أدناه.

أفضل الممارسات المتعلقة بملفات Sitemap

استخدِم ملف Sitemap لمساعدة Google في العثور على عناوين URL. ويساعد استخدام ملفات Sitemap والترميز sameAs في توثيق أسلوب نشر أوصاف مجموعات البيانات في موقعك الإلكتروني.

إذا كان لديك مستودع من مجموعات البيانات، لديك على الأرجح نوعان على الأقل من أنواع الصفحات: الصفحات الأساسية ("الصفحة المقصودة") لكل مجموعة بيانات، والصفحات التي تسرد مجموعات بيانات متعددة (مثل نتائج البحث أو بعض مجموعات بيانات فرعية). وننصحك بإضافة البيانات المنظَّمة المتعلقة بمجموعة البيانات إلى الصفحات الأساسية. استخدِم الخاصية sameAs لإنشاء رابط يؤدي إلى الصفحة الأساسية في حال إضافة بيانات منظَّمة إلى عدة نُسخ من مجموعة البيانات، مثل بطاقات البيانات الظاهرة ضمن صفحات نتائج البحث.

أفضل الممارسات المتعلّقة بالمصدر والأصل

يشيع إعادة نشر مجموعات البيانات المفتوحة وتجميعها واستنادها إلى مجموعات بيانات أخرى. في ما يلي مخطط مبدئي لأسلوبنا في تمثيل المواقف التي تكون فيها مجموعة البيانات نسخة من مجموعة أخرى أو مستندة إليها بشكل آخر.

  • استخدِم الخاصية sameAs للإشارة إلى أكثر عناوين URL الأساسية للأصل في الحالات التي تكون فيها مجموعة البيانات أو الوصف عبارة عن إعادة نشر لمواد منشورة في مكان آخر.
  • استخدِم الخاصية isBasedOn في الحالات التي تم فيها إجراء تغييرات كبيرة على مجموعة البيانات المُعاد نشرها (بما فيها البيانات الوصفية).
  • استخدِم الخاصية isBasedOn عندما تكون مجموعة البيانات مشتقة من عدة أصول أو مجمّعة منها.
  • استخدِم الخاصية identifier لإرفاق معرّفات الكائنات الرقمية (DOI) ذات الصلة أو المعرّفات المضغوطة. إذا كانت مجموعة البيانات تحتوي على أكثر من معرّف، يمكنك استخدام الخاصية identifier مجددًا. وعند استخدام JSON-LD، يمكن تمثيل ذلك باستخدام بنية قائمة JSON.

ونأمل في تحسين اقتراحاتنا استنادًا إلى التعليقات الواردة إلينا، لا سيما في ما يخص وصف الأصل ومنح أرقام للإصدارات والتواريخ المرتبطة بنشر السلاسل الزمنية. يرجى الانضمام إلى مناقشات المنتدى.

توصيات الخصائص النصية

ننصح بألا تتجاوز جميع الحقول النصية حد 5000 حرف. يستخدم "بحث مجموعة البيانات من Google" أول 5000 حرف فقط من أي حقل نصي. وعادة ما تكون الأسماء والعناوين مكونة من كلمات قليلة أو جملة قصيرة.

الأخطاء والتحذيرات المعروفة

قد تواجه أخطاءً أو تحذيرات في أداة اختبار البيانات المنظَّمة من Google وأنظمة التحقق الأخرى. قد تقترح أنظمة التحقق أن تكون للمؤسسة معلومات اتصال تتضمن الخاصية contactType. ويُذكر أن من بين القيم المفيدة كلاً من customer service وemergency وjournalist وnewsroom وpublic engagement. يمكنك كذلك تجاهل الأخطاء بأن csvw:Table قيمة غير متوقعة للخاصية mainEntity.

تعريفات أنواع البيانات المنظَّمة

يجب تضمين الخصائص المطلوبة حتى يصبح المحتوى مؤهلاً للعرض على شكل نتيجة منسّقة. ويمكنك أيضًا تضمين الخصائص المقترَحة لإضافة المزيد من المعلومات المتعلقة بالمحتوى، ما يؤدي إلى تحسين التجربة التي تقدمها للمستخدِم.

يمكنك استخدام أداة اختبار البيانات المنظَّمة للتحقق من صحة الترميز.

ينصب التركيز على وصف معلومات عن مجموعة البيانات (بياناتها الوصفية) وتمثيل محتواها. على سبيل المثال، تذكر البيانات الوصفية لمجموعة البيانات الموضوع الذي تتناوله المجموعة والمتغيرات التي تقيسها ومنشئها ومعلومات أخرى. ولا تحتوي مثلاً على قيم معينة للمتغيرات.

مجموعة البيانات

يتوفّر تعريف Dataset الكامل على schema.org/Dataset.

يمكنك وصف معلومات إضافية عن نشر مجموعة البيانات، مثل الترخيص أو وقت نشرها أو معرّف الكائن الرقمي لها أو الخاصية sameAs التي توجِّه إلى نسخة أساسية من مجموعة البيانات في مستودع مختلف. أضِف identifier وlicense وsameAs لمجموعات البيانات التي تقدّم معلومات عن الأصل والترخيص.

الخصائص المطلوبة
description Text

تمثل هذه الخاصية ملخّصًا قصيرًا يصف مجموعة البيانات.

الإرشادات

  • يجب أن يتراوح طول الملخص بين 50 حرفًا و5000 حرف.
  • ويمكن أن يشتمل على بنية Markdown. يجب أن تستخدم الصور المضمّنة عناوين URL لمسارات مطلقة (بدلاً من المسارات النسبية).
  • عند استخدام تنسيق JSON-LD، يمكنك الإشارة إلى الأسطر الجديدة باستخدام \n (حرفان: شرطة مائلة للخلف وحرف n صغير).
name Text

تمثل هذه الخاصية اسمًا وصفيًا لمجموعة البيانات. مثل "عمق الثلج في نصف الكرة الشمالي"

الخصائص المقترَحة
alternateName Text

الأسماء البديلة التي تم استخدامها للإشارة إلى مجموعة البيانات هذه، مثل الأسماء المستعارة أو الاختصارات. مثال (بتنسيق JSON-LD):

"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person أو Organization

تمثل هذه الخاصية منشئ مجموعة البيانات هذه أو مؤلِّفها. لتحديد الأفراد بطريقة فريدة، استخدِم معرّف ORCID باعتباره قيمة الخاصية sameAs من النوع Person. لتحديد المؤسسات والمنظمات بطريقة فريدة، استخدِم معرّف ROR. مثال (بالتنسيق JSON-LD):

"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text أو CreativeWork

للإشارة إلى المقالات الأكاديمية التي يوصي مقدّم البيانات بالإشارة إليها إلى جانب مجموعة البيانات نفسها. يمكنك تقديم معلومات المقالة لمجموعة البيانات نفسها مع حقول أخرى، مثل حقول name وidentifier وcreator وpublisher. على سبيل المثال، يمكن لهذا الحقل تمييز منشور أكاديمي ذي صلة، مثل أداة توصيف بيانات أو ورقة بيانات أو مقالة تمثل مجموعة البيانات هذه مادة أساسية فيها. أمثلة (بتنسيق JSON-LD):

"citation": "https://doi.org/10.1111/111"
"citation": "https://identifiers.org/pubmed:11111111"
"citation": "https://identifiers.org/arxiv:0111.1111v1"
"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

إرشادات إضافية

  • لا تستخدِم هذا الحقل لتقديم معلومات المقالة لمجموعة البيانات نفسها، ذلك أن الهدف منها تحديد المقالات الأكاديمية ذات الصلة، وليست مجموعة البيانات نفسها. لتقديم المعلومات اللازمة للإشارة إلى مجموعة البيانات نفسها، يمكنك استخدام الحقول name وidentifier وcreator وpublisher بدلاً من ذلك.
  • عند تعبئة حقل معلومات المقالة بمقتطف معلومات مقالة، اذكر معرّف المقالة (مثل DOI) متى أمكن ذلك.

    يُوصى بما يلي: "هشام زكي (2014) الأثر البيئي. المجلة العلمية 1(1). https://doi.org/10.1111/111"

    لا يُوصى بما يلي: "هشام زكي (2014) الأثر البيئي. المجلة العلمية 1(1)."

identifier URL أو Text أو PropertyValue

معرّف، مثل DOI أو معرّف مضغوط. إذا كانت مجموعة البيانات تحتوي على أكثر من معرّف، يمكنك استخدام الخاصية identifier مجددًا. وعند استخدام JSON-LD، يمكن تمثيل ذلك باستخدام بنية قائمة JSON.

keywords Text

تمثل هذه الخاصية الكلمات الرئيسية التي تلخص مجموعة البيانات.

license URL، Text

تمثل هذه الخاصية ترخيصًا يتم بموجبه توزيع مجموعة البيانات.

sameAs URL

تمثل هذه الخاصية رابطًا إلى صفحة توفر معلومات إضافية عن مجموعة البيانات نفسها، وتكون عادة في مستودع آخر.

spatialCoverage Text، Place

يمكنك توفير نقطة واحدة تصف الجانب المكاني لمجموعة البيانات. وتُستخدَم هذه الخاصية فقط إذا كان للمجموعة بُعد مكاني. على سبيل المثال، نقطة واحدة يتم فيها تجميع كل القياسات أو إحداثيات مربع الإحاطة بمنطقة.

النقاط

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

الأشكال

استخدِم GeoShape لوصف المناطق ذات الأشكال المختلفة، مثل تحديد مربع الإحاطة.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

يجب التعبير عن النقاط داخل الخصائص box أو circle أو line أو polygon باعتبارها أزواج من القيم تفصل بينها مسافات وتشير إلى خط العرض وخط الطول (بهذا الترتيب).

المواقع الجغرافية التي لها أسماء

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

تغطي البيانات الموجودة في مجموعة البيانات فاصلاً زمنيًا محددًا. وتُستخدَم هذه الخاصية فقط إذا كان للمجموعة بُعد زماني. يستخدم مخطط Schema.org المعيار ISO 8601 لوصف الفواصل الزمنية والنقاط الزمنية. يمكنك وصف التواريخ بشكل مختلف تبعًا للفاصل الزمني لمجموعة البيانات. أشِر إلى الفواصل الزمنية المفتوحة بنقطتين عشريتين (..).

تاريخ واحد

"temporalCoverage" : "2008"

فترة زمنية

"temporalCoverage" : "1950-01-01/2013-12-18"

فترة زمنية مفتوحة

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text، PropertyValue

تمثل هذه الخاصية المتغير الذي تقيسه مجموعة البيانات. مثل، درجة الحرارة أو الضغط

version Text، Number

تمثل هذه الخاصية رقم إصدار مجموعة البيانات.

url URL

تمثل هذه الخاصية مكان صفحة تصف مجموعة البيانات.

DataCatalog

يتوفّر تعريف DataCatalog الكامل على schema.org/DataCatalog.

غالبًا ما يتم نشر مجموعات البيانات في مستودعات تحتوي على الكثير من مجموعات البيانات الأخرى. لذلك يمكن تضمين مجموعة البيانات نفسها في أكثر من مستودع واحد. ويمكن الإشارة إلى كتالوج البيانات الذي تنتمي إليه مجموعة البيانات هذه من خلال الإشارة إليها مباشرة.

الخصائص المقترَحة
includedInDataCatalog DataCatalog

تمثل هذه الخاصية القائمة الذي تنتمي إليها مجموعة البيانات.

DataDownload

يتوفّر تعريف DataDownload الكامل على schema.org/DataDownload. إلى جانب خصائص "مجموعة البيانات"، أضِف الخصائص التالية لمجموعات البيانات التي توفر خيارات للتنزيل.

تصف الخاصية distribution كيفية الحصول على مجموعة البيانات نفسها لأن عنوان URL غالبًا ما يوجّه إلى الصفحة المقصودة التي تصف مجموعة البيانات. تصف الخاصية distribution مكان البيانات وتنسيقها. يمكن أن تكون لهذه الخاصية عدة قيم: مثل نسخة ملف CSV لها عنوان URL واحد ونسخة ملف Excel متاحة على عنوان مختلف.

الخصائص المطلوبة
distribution.contentUrl URL

تمثل هذه الخاصية رابط التنزيل.

المواقع
distribution DataDownload

تمثل هذه الخاصية وصفًا للمكان الذي سيتم فيه تنزيل مجموعة البيانات ونسق الملف المراد تنزيله.

distribution.fileFormat Text

تمثل هذه الخاصية نسق الملف المراد توزيعه.

مجموعة البيانات الجدولية

مجموعة البيانات الجدولية هي مجموعة بيانات يتم تنظيمها أساسًا في شكل شبكة من الصفوف والأعمدة. بالنسبة إلى الصفحات التي تتضمن مجموعات بيانات جدولية، يمكنك أيضًا إنشاء ترميز أكثر وضوحًا، استنادًا إلى الأسلوب الأساسي الموضح أعلاه. في الوقت الحالي، نفهم صيغة من CSVW ("ملف CSV على الويب"، انظر W3C)، يتم توفيرها بالتوازي مع المحتوى الجدولي الموجَّه للمستخدِمين على صفحة HTML.

في ما يلي مثال يوضح جدولاً صغيرًا تم ترميزه بالتنسيق CSVW JSON-LD. هناك بعض الأخطاء المعروفة في "أداة اختبار البيانات المنظَّمة".

المساعدة والأدوات

إرسال تعليقات حول...