الوحدة 2: الفحص

1. اكتساب المعرفة

تظهر المواضيع بشكل طبيعي أثناء استكشاف تصنيف أصحاب المصلحة، وتسجيل احتياجاتهم الفريدة من المعلومات، وتطبيق مستويات تفصيل مختلفة لتحديد أسئلتك. لمساعدتك في ترتيب وتصنيف مجموعة أسئلتك، أنشأنا إطارًا لاكتساب المعرفة يوفّر لك أسلوبًا قويًا ومدروسًا وقابلاً للتكرار لإنشاء مستندات الشفافية.

اكتساب المعرفة هو استخراج المعرفة وتنظيمها وتصنيفها من مصدر واحد، وعادةً ما يكون خبراء بشريين، حتى يمكن استخدامها، على سبيل المثال، في المنتج أو التكنولوجيا التي تعمل عليها.

يُطلق على إطار العمل اسم OFTEn، وهو أداة مفاهيمية تتيح التفكير بشكل منهجي في كيفية انتشار المواضيع في جميع أجزاء "بطاقة البيانات". وقد أنشأناه من خلال تحقيقات تفصيلية استقرائية واستنتاجية بشأن شفافية مجموعات البيانات.

OFTEn

OFTEn هو اختصار للمراحل العامة في دورة حياة مجموعة البيانات: Origins (المصادر)، وFactuals (البيانات الفعلية)، وTransformations (عمليات التحويل)، وExperience (التجربة)، وn = 1 (العينات).

Origins

تتضمّن مرحلة "الأصول" أنشطة التخطيط المختلفة التي تحدّد النتيجة النهائية، مثل تعريف المتطلبات وطرق الجمع أو الحصول على البيانات وقرارات التصميم والسياسات.

تشمل المواضيع التي تظهر من الأسئلة المتعلقة بنوع الأصل ما يلي:

  • المؤلفون والمالكون
  • الدوافع
  • التطبيقات المقصودة
  • طُرق جمع البيانات
  • التراخيص
  • الإصدارات
  • المصادر
  • Errata
  • الجهات المسؤولة

Factuals

تمثّل مرحلة "الحقائق" السمات الإحصائية وغيرها من السمات الواقعية التي تصف مجموعة البيانات، والانحرافات عن الخطة الأصلية، وأي تحليل مسبق لمعالجة البيانات.

تشمل المواضيع التي تظهر من الأسئلة المستندة إلى الحقائق ما يلي:

  • عدد الحالات
  • عدد الميزات
  • عدد التصنيفات
  • مصدر التصنيفات
  • مصدر البيانات
  • تفاصيل المجموعات الفرعية
  • شكل الميزات
  • وصف الميزات
  • البيانات المفقودة أو المكرّرة
  • معيار الإدراج

عمليات التحويل

تتضمّن مرحلة "عمليات التحويل" ملخّصات لمهام التصنيف أو التعليق التوضيحي أو التحقّق من الصحة. استنادًا إلى مجموعة البيانات، قد تنشأ هنا عمليات التحكيم بين المقيمين. بالإضافة إلى ذلك، يتم احتساب هندسة الميزات والتعديلات التي يتم إجراؤها للتعامل مع الخصوصية أو الأمان أو معلومات تحديد الهوية الشخصية (PII) على أنّها عمليات تحويل.

تشمل المواضيع التي تتضمّن أسئلة من النوع التحويلي ما يلي:

  • التقييم أو التعليق التوضيحي
  • الفلترة
  • قيد المعالجة
  • التحقّق من الصحة
  • الخصائص الإحصائية
  • الميزات الاصطناعية
  • التعامل مع معلومات تحديد الهوية الشخصية
  • المتغيرات الحسّاسة
  • التأثير على الإنصاف
  • الانحرافات أو التحيزات

التجربة

تتضمّن مرحلة "التجربة" استخدام البيانات في مهام محدّدة، والخضوع لتدريب على الوصول إلى البيانات، وإجراء تعديلات لتناسب المهمة، والحصول على النتائج ومقارنتها بمجموعات بيانات أخرى مشابهة، وتسجيل أي سلوكيات متوقّعة أو غير متوقّعة.

تشمل المواضيع التي توضّح الأسئلة من النوع التجريبي ما يلي:

  • الأداء المقصود
  • تطبيق غير مقصود
  • أداء غير متوقّع
  • المحاذير
  • الإحصاءات
  • التجارب
  • القصص
  • استخدام
  • تقييم حالة الاستخدام

n = 1 (عينات)

تتضمّن مرحلة n = 1 (العينات) تفاصيل نقاط بيانات التوزيع، وعرض نقاط البيانات الجديرة بالملاحظة مع سمات محدّدة، ونمذجة النتائج عليها عند الاقتضاء.

تشمل المواضيع التي توضّحها الأسئلة من النوع النموذجي ما يلي:

  • أمثلة أو روابط تؤدي إلى أمثلة نموذجية وقيم متطرفة
  • أمثلة تؤدي إلى نتائج موجبة خاطئة أو نتائج سالبة خاطئة
  • أمثلة توضّح كيفية التعامل مع قيم الميزات الفارغة أو الصفرية

مثال

على سبيل المثال، تم ترتيب مجموعة الأسئلة التالية باستخدام OFTEn:

المستفيدون

الأدوات المستخدمة

الوقت

المكان

السبب

الطريقة

المصادر

من ينشر مجموعة البيانات؟ هل يختلفون عن مالكي مجموعات البيانات؟

ما هي الحوافز المقدَّمة لمصنّفي البيانات وموفّريها والخبراء العاملين في مجموعة البيانات هذه؟

متى تم إنشاء مجموعة البيانات هذه؟ هل تم إطلاقها؟

من أين أتى التمويل؟

لماذا تم إنشاء مجموعة البيانات هذه؟ ما هي العملية السابقة؟

كيف تم تحديد الطرق وكم عدد الجهات المعنية؟

Factuals

من هم الأشخاص المعنيون بالبيانات؟ هل يمثّل مصنّفو البيانات الأشخاص في البيانات؟

ما هي المجموعات الفرعية في البيانات التي يمكن أن تؤثر في النتائج في التعلّم الآلي؟

ما هي الفترة الزمنية التي تمثّلها البيانات؟ متى تنتهي صلاحية البيانات أو يتم تشغيلها بشكل غير طبيعي؟

أين يمكن الوصول إلى مجموعة البيانات؟ أين تم جمع البيانات أو إنشاؤها؟

لماذا تم اختيار المقاييس التي تم الإبلاغ عنها؟ لماذا تم اختيار التصنيفات المحدّدة؟

كم عدد التصنيفات الفريدة المتوفّرة في مجموعة البيانات؟ كيف تم إنشاء هذه الصور؟

عمليات التحويل

كيف تم التعامل مع معلومات التعريف الشخصية في مجموعة البيانات هذه؟ هل يمكن استخدام نتائج مجموعة البيانات هذه لتحديد هوية الأفراد؟

ما هي الطرق التي تم استخدامها لتنظيف مجموعة البيانات هذه أو التحقّق منها؟

متى يجب تصميم الميزات وكيف يتم ذلك؟ هل يجب تعديلها؟

هل ترتبط ميزات الموقع الجغرافي بميزات حساسة أخرى؟

لماذا تم تطبيق عمليات التحويل المحدّدة على مجموعة البيانات؟

كيف يتم التعامل مع التحيزات أو معلومات التعريف الشخصية في البيانات؟

تجربة الاستخدام

مَن يمكنه استخدام مجموعة البيانات هذه، وما هي المهام التي يمكنه تنفيذها؟ هل هناك أي تدريبات مطلوبة؟

ما هي الطرق أو النتائج أو الأخطاء التي تم اكتشافها عند استخدام مجموعة البيانات؟

في أي ظروف ومتى يجب عدم استخدام مجموعة البيانات هذه؟

في أي مكان في العالم يمكن الوصول إلى مجموعة البيانات هذه؟ أين تم استخدامه؟

لماذا يختلف التمثيل المتوقّع لمجموعة البيانات عن التمثيل المرصود؟

ما هي تكلفة البيانات في مناطق مختلفة من العالم؟

n = 1 (العيّنات)

هل نقطة البيانات نموذجية أم غير نموذجية؟ كيف تتصرف النماذج هنا؟

ما هو حجم نقطة البيانات؟ ما هي عملية الموافقة والتنقيح والسحب للتدخّل في نقطة بيانات؟

متى تتغيّر النتيجة في نقطة بيانات؟ عرض أمثلة من خلال سيناريوهات افتراضية؟

ما هي العوامل المضمّنة في نقطة البيانات؟ ما هي المخاطر التي قد تحدث إذا لم تكن التوقعات دقيقة؟

لماذا يتم اقتصاص نقطة بيانات الصورة هذه بطريقة معيّنة؟ لماذا لا يتم ملء فئات معيّنة في نقطة البيانات هذه؟

كيف يرتبط عنصر البيانات هذا بمدخل من العالم الواقعي؟ وكيف ترتبط النتيجة بمخرج من العالم الواقعي؟

لقد تبيّن لنا أنّ "بطاقات البيانات" التي تتضمّن بنية OFTEn أساسية واضحة يسهل توسيعها وتعديلها. باستخدام OFTEn، يمكن أن تتوسّع "بطاقات البيانات" بمرور الوقت لتشمل مواضيع يتم استبعادها عادةً من المستندات، مثل الملاحظات الواردة من الجهات المعنية، والاختلافات الملحوظة بين الإصدارات، وعمليات التدقيق أو التحقيقات المخصّصة التي يجريها المنتجون أو الجهات المعنية.

ملخّص

يلخّص الجدول التالي إطار عمل OFTEn ويصف المراحل العامة في دورة حياة مجموعة البيانات:

المسرح

الوصف

المصادر

المراحل المبكرة من دورة حياة مجموعة البيانات التي يتم فيها اتخاذ قرارات بإنشاء مجموعة بيانات

Factuals

عمليات جمع البيانات الفعلية والنتائج الأولية

عمليات التحويل

يتم تحويل البيانات الأولية إلى شكل قابل للاستخدام من خلال عمليات مثل الفلترة والتحقّق من الصحة والتحليل والتنسيق والتنظيف.

تجربة الاستخدام

تم اختبار مجموعة البيانات أو قياس أدائها أو نشرها في الممارسة (تجريبية أو إنتاجية أو بحثية).

n = 1 (العيّنات)

عينات فعلية من مجموعة البيانات، أو مقاطع قصيرة، تمثّل نقاط البيانات العادية والقيم الشاذة

هناك طريقتان يمكنك من خلالهما استخدام OFTEn عند إنشاء "بطاقة بيانات":

  • وبشكل استنتاجي، يتيح OFTEn إجراء أنشطة مع وكلاء لصياغة أسئلة حول مجموعات البيانات والنماذج ذات الصلة التي تُعدّ ضرورية لاتخاذ القرارات. نرى أنّه عندما تجتمع عدة برامج معًا لتبادل الأفكار حول الأسئلة باستخدام بنية OFTEn، فإنّ ذلك يكشف عن معلومات ضرورية لاتخاذ قرارات مستهدفة.
  • استنتاجًا، يمكن استخدام OFTEn لتقييم ما إذا كانت "بطاقة البيانات" تمثّل مجموعة البيانات بدقة، ما يؤدي إلى تأثيرات تكوينية على المستندات ومجموعة البيانات. على سبيل المثال، تكون مجموعات البيانات في المراحل المبكرة أكثر ميلًا نحو "المحتوى الأصلي" و"المحتوى الواقعي"، بينما من المتوقّع أن تكون مجموعات البيانات الناضجة أكثر ميلًا نحو "المحتوى التجريبي".

باستخدام OFTEn، يمكنك تبادل الأفكار والتحقّق من مدى تغطية أسئلتك لدورة حياة مجموعة البيانات، ما يضمن أن يكون المحتوى شاملاً ومبسّطًا في النهاية. لا يساعدك هذا القسم في العثور على التكرار في أنواع الأسئلة التي تنشئها فحسب، بل يعالج أيضًا أي ثغرات قد تجدها أثناء عملية الإنشاء.

2. صياغة الأسئلة باستخدام OFTEn

  1. فكِّر في بعض الأطراف المعنية ومسارات معلومات الوكيل (AIJ) التي صغتها في الوحدة السابقة، ثم استخدِم الطلبات التالية للمساعدة في تنظيم أفكارك.

9bd35227601ae104.png

  1. إذا كانت بعض أسئلتك تندرج بشكل جيد ضمن إحدى فئات OFTEn، يمكنك تصنيفها على هذا النحو.
  2. إذا لم تندرج أسئلتك ضمن إحدى فئات OFTEn، اختَر أحد العملاء من الوحدة السابقة، ثم أنشئ سؤالاً واحدًا على الأقل لكل فئة من فئات OFTEn للعميل.
  3. أنشئ أسئلة إضافية استنادًا إلى الأسئلة الخمسة (من وماذا وأين ومتى ولماذا) وسؤال واحد يبدأ بـ "كيف" لتوسيع نطاق فئة OFTEn.
  4. كرِّر هذه الخطوات للوكيل التالي إذا كان ذلك منطبقًا.

3- الأبعاد

بعد أن فهمت إطار عمل OFTEn وأنشأت أسئلة لتضمينها في "بطاقة البيانات"، أصبحت جاهزًا للكشف عن إحصاءات حول أسئلتك من خلال إجراء عملية فحص أولية لـ "بطاقة البيانات". لتحقيق ذلك، سنطرح سمات، وهي أوصاف عالية المستوى لأنواع الأحكام المختلفة التي يصدرها القرّاء، والتي تقدّم إحصاءات توجيهية حول مدى فائدة "بطاقة البيانات" وسهولة قراءتها. بعبارة أخرى، هل يمكن أن تساعد "بطاقة البيانات" القراء في التوصّل إلى استنتاج مدروس بشأن مجموعة البيانات؟

المسؤول

يتم امتلاك "بطاقة البيانات" المسؤولة والحفاظ عليها من قِبل أشخاص يظهرون ملكية كافية وتفكيرًا وتدقيقًا واستدلالاً واتّخاذًا منهجيًا للقرارات بشأن مجموعة البيانات واستخدامها.

أمثلة على المناطق

أمثلة على الأسئلة

المؤلف، والمسؤولية، والصيانة، والنوايا

بصفتي [perspective]، أريد معرفة...

...ناشري مجموعة البيانات.

...قيود الوصول وسياسات مجموعة البيانات.

...تفسيرات وأسباب إنشاء مجموعة البيانات.

المنفعة أو الاستخدام

تقدّم "بطاقة البيانات" المفيدة تفاصيل تلبي احتياجات القراء من المعلومات، ما يؤدي إلى عملية اتخاذ قرار مسؤولة تحدّد مدى ملاءمة مجموعة البيانات لمهامهم وأهدافهم.

أمثلة على المناطق

أمثلة على الأسئلة

احتياجات المنتجين واحتياجات الوكلاء واحتياجات المستخدمين واحتياجات المجتمع

بصفتي [دورًا]، أريد معرفة...

...تعريفات وتفسيرات للمصطلحات الفنية المستخدَمة في المستندات (المقاييس والنتائج والمصطلحات الخاصة بمجال معيّن والاختصارات).

...توقّعات بشأن استخدام مجموعة البيانات مع مجموعات بيانات أو جداول أخرى (تصميم الميزات والدمج وأخذ العيّنات والتحليل المقارن).

...التطبيقات المقصودة لمجموعة البيانات.

الجودة

تُلخّص "بطاقة البيانات" العالية الجودة مدى دقة مجموعة البيانات وسلامتها واكتمالها، ويتم غالبًا عرضها بطريقة يسهل فهمها على القرّاء من خلفيات مختلفة.

أمثلة على المناطق

أمثلة على الأسئلة

الصلاحية والموثوقية والنزاهة وإمكانية التكرار

بصفتي [perspective]، أريد أن أعرف...

...ما إذا كانت هناك أي أنماط معروفة (ارتباطات أو تحيزات أو انحرافات) ضمن مجموعة البيانات.

...أي عمليات للتحقّق من صحة مجموعة البيانات وتفسيراتها ونتائجها.

...إجراءات الخصوصية والأمان التي تم تطبيقها على مجموعة البيانات.

التأثير أو العواقب المترتبة على الاستخدام

تحدّد "بطاقة البيانات" التي توفّر تفاصيل كافية حول تأثير استخدام مجموعة البيانات التوقّعات بشأن النتائج عند استخدام مجموعة البيانات وإدارتها، كما تقرّ بأي عواقب من الدرجة الأولى أو الثانية يمكن أن تؤثّر سلبًا في أهداف القراء.

أمثلة على المناطق

أمثلة على الأسئلة

الفعالية والأهمية والفائدة الجماعية وتأثيرات الانحرافات

بصفتي [منظورًا]، أريد أن أعرف...

...الاستخدام السابق والأداء المرتبط بمجموعة البيانات (على سبيل المثال، النماذج المدرَّبة)

...السياسات المرتبطة بمجموعة البيانات (على سبيل المثال، الترخيص)

...ما إذا كانت هناك أي أنماط معروفة (ارتباطات أو تحيزات أو انحرافات) في مجموعة البيانات.

المخاطر والاقتراحات

تُعرّف "بطاقة البيانات" التي تقدّم اقتراحات جيدة القراء على المخاطر والقيود المعروفة والمحتملة الناتجة عن مصدر البيانات أو طريقة عرضها أو استخدامها أو سياق استخدامها، وتقدّم معلومات وبدائل كافية لمساعدة القراء على اتخاذ قرارات مسؤولة.

أمثلة على المناطق

أمثلة على الأسئلة

حجم المخاطر وإجراءات الحدّ منها والاقتراحات والأضرار التي تلحق بالمجموعات

بصفتي [perspective]، أريد معرفة ما يلي:

...مدى أمان استخدام مجموعة البيانات (المخاطر والقيود والمفاضلات).

...أي تمثيل اجتماعي ثقافي أو جغرافي أو اقتصادي للأشخاص في مجموعة البيانات.

...ما إذا كانت هناك سمات مفقودة من مجموعة البيانات أو مستنداتها.

ملخّص

باستخدام السمات، يمكنك تقييم مجموعة الأسئلة للتأكّد من أنّها تتوافق مع أهدافك والنتائج المرغوبة. حتى إذا لم تجب عن سؤال في "بطاقة البيانات" بعد، من الأفضل رصد أي أخطاء قبل التوغّل في عملية توثيق مجموعة البيانات.

يلخّص الجدول التالي السمات الخمس:

المسرح

الوصف

المساءلة

عبارات تعبّر عن القرارات المدروسة والمعقولة والمنهجية التي يتخذها أصحاب المصلحة المختلفون بشأن الثقة في مجموعة البيانات

أداة مساعدة

تقدّم تفاصيل تلبي احتياجات القراء في عملية اتّخاذ القرارات المسؤولة وتحدّد مدى ملاءمة حالات الاستخدام لأهدافهم.

الجودة

تلخّص هذه السمة مدى دقة مجموعة البيانات وسلامتها واكتمالها بطريقة يسهل على العديد من القرّاء فهمها.

التأثير والنتائج

معلومات تساعد القراء في تحقيق النتائج المرجوة عند استخدام مجموعة البيانات وإدارتها، وتوضّح العواقب التي قد تؤثر سلبًا في أهدافهم

المخاطر والاقتراحات

تُطلع القراء على المخاطر المعروفة والمحتملة المرتبطة بمجموعة البيانات والناجمة عن طريقة عرض البيانات أو استخدامها أو سياق استخدامها.

باستخدام هذه الأنواع المختلفة من السمات، يمكنك الكشف عن إحصاءات حول جودة المحتوى وسهولة قراءته وفائدته في "بطاقة البيانات" حتى قبل البدء في إكمالها. تساعدك هذه الإرشادات في تحديد بنود العمل التي تساهم في إنشاء نموذج بطاقة بيانات أكثر فعالية ودقة.

4. تقييم أسئلتك باستخدام السمات

  1. ابدأ ببعد واحد، ثم حدِّد مقدار الطلاقة والخبرة اللازمَين للوصول إلى استنتاج مدروس استنادًا إلى مدى تعقيد مجموعة الأسئلة.
  2. قدِّم شرحًا وأسبابًا توضّح مدى توفّر هذه السمة حاليًا في مجموعة الأسئلة.
  3. قدِّم دليلًا يؤيّد الأساس المنطقي من خلال سؤال أو سؤالين كمثال من مجموعة أسئلتك.
  4. إذا بدا مقياسك غير مرغوب فيه، دوِّن الخطوات التي يجب اتّخاذها لتحسينه أو معالجة أوجه القصور فيه. إذا كنت تعمل مع فريق من الجهات المعنية، عليك تحديد المسؤولية إذا كانت بعض الجهات المعنية أكثر استعدادًا للإجابة عن أسئلة معيّنة.
  5. كرِّر هذه الخطوات للسمة التالية.

في ما يلي نموذج يمكنك استخدامه لتسجيل تقييم سماتك:

3f33557b62abe5ce.png

يمكن أن تستغرق عملية التقييم هذه من 15 دقيقة إلى ساعة، وذلك حسب عدد الأسئلة التي تطرحها وتنوّع الجهات المعنية التي يجب مراعاتها في بطاقة البيانات.

5- تهانينا

تهانينا! يمكنك الاطّلاع على الأسئلة التي أنشأتها لبطاقة البيانات. أنت الآن جاهز للإجابة عنها.