ماژول 2: بازرسی

1. کسب دانش

مضامین به طور طبیعی زمانی به وجود می آیند که شما نوع شناسی ذینفعان خود را بررسی می کنید، نیازهای اطلاعاتی منحصر به فرد آنها را جلب می کنید، و جزئیات مختلف را برای قالب بندی سوالات خود اعمال می کنید. برای کمک به شما در مرتب‌سازی و ساختاربندی موضوع سؤالات، چارچوبی برای کسب دانش ایجاد کردیم که رویکردی قوی، عمدی و تکرارپذیر برای تولید اسناد شفافیت در اختیار شما قرار می‌دهد.

اکتساب دانش عبارت است از استخراج، ساختار و سازماندهی دانش از یک منبع - معمولاً متخصصان انسانی - به طوری که بتوان از آن برای مثال در محصول یا فناوری ای که روی آن کار می کنید استفاده کرد.

چارچوب ما OFTEn نامیده می‌شود، ابزاری مفهومی برای بررسی سیستماتیک نحوه انتشار موضوعات در تمام بخش‌های کارت داده. ما آن را از طریق بررسی‌های شفافیت داده‌های استقرایی و قیاسی دقیق ایجاد کردیم.

اغلب

OFTEn مخفف مراحل کلی در چرخه زندگی مجموعه داده است: O rigins، F actuals، T ransformations، Experience ، و n = 1 (نمونه).

ریشه ها

مرحله Origins شامل فعالیت‌های برنامه‌ریزی مختلفی است که نتیجه نهایی را دیکته می‌کنند، مانند تعریف نیازمندی‌ها، روش‌های جمع‌آوری یا منبع‌یابی، و تصمیم‌های طراحی و سیاست.

موضوعاتی که از سؤالات نوع مبدأ به وجود می آیند شامل موارد زیر است:

  • نویسندگان و صاحبان
  • انگیزه ها
  • برنامه های کاربردی مورد نظر
  • روش های جمع آوری
  • مجوزها
  • نسخه ها
  • منابع
  • اشتباه
  • احزاب پاسخگو

واقعیات

مرحله Factuals نشان دهنده ویژگی های آماری و سایر ویژگی های واقعی است که مجموعه داده ها، انحرافات از طرح اصلی و هر گونه تجزیه و تحلیل پیش از بحث را توصیف می کند.

مضامینی که از سوالات واقعی پدید می آیند عبارتند از:

  • تعداد موارد
  • تعداد ویژگی ها
  • تعداد برچسب ها
  • منبع برچسب ها
  • منبع داده ها
  • تفکیک زیر گروه ها
  • شکل ویژگی ها
  • شرح ویژگی ها
  • مفقود یا تکراری
  • معیار ورود

تحولات

مرحله تبدیل شامل خلاصه‌ای از وظایف برچسب‌گذاری، حاشیه‌نویسی یا اعتبارسنجی است. بسته به مجموعه داده، فرآیندهای داوری بین ارزیاب ممکن است در اینجا ایجاد شود. همچنین، مهندسی ویژگی و تغییراتی که برای رسیدگی به حریم خصوصی، امنیت، یا اطلاعات شناسایی شخصی (PII) انجام شده است، به عنوان دگرگونی به حساب می‌آیند.

مضامینی که سؤالات نوع تحول را در بر می گیرند شامل موارد زیر است:

  • رتبه بندی یا حاشیه نویسی
  • فیلتر کردن
  • پردازش
  • اعتبار سنجی
  • ویژگی های آماری
  • ویژگی های مصنوعی
  • مدیریت PII
  • متغیرهای حساس
  • تاثیر بر انصاف
  • کج یا تعصب

تجربه کنید

مرحله تجربه شامل استفاده از داده ها برای وظایف خاص، گذراندن آموزش دسترسی، ایجاد تغییرات متناسب با کار، کسب نتایج و مقایسه با سایر مجموعه داده های مشابه، و یادداشت هر گونه رفتار مورد انتظار یا غیرمنتظره است.

موضوعاتی که سوالاتی از نوع تجربه را نشان می دهند شامل موارد زیر است:

  • عملکرد مورد نظر
  • برنامه ناخواسته
  • عملکرد غیر منتظره
  • هشدارها
  • بینش ها
  • تجربیات
  • داستان ها
  • استفاده کنید
  • ارزیابی مورد استفاده

n = 1 (نمونه)

مرحله n = 1 (نمونه ها) شامل نکات و خروجی نقاط داده توزیع، نشان دادن نقاط داده قابل توجه با ویژگی های خاص و، در صورت لزوم، مدل سازی نتایج بر روی آنها است.

موضوعاتی که نمونه سوالات نشان می دهد شامل موارد زیر است:

  • مثال‌ها یا پیوندهایی به نمونه‌های معمولی و موارد پرت.
  • نمونه هایی که مثبت کاذب یا منفی کاذب به دست می دهند.
  • نمونه هایی که مدیریت مقادیر ویژگی صفر یا صفر را نشان می دهد.

مثال

به عنوان مثال، مجموعه سوالات زیر با OFTEn تنظیم شده است:

سازمان بهداشت جهانی

چی

چه زمانی

کجا

چرا

چگونه

ریشه ها

چه کسی مجموعه داده را منتشر می کند؟ آیا آنها با صاحبان داده متفاوت هستند؟

مشوق‌های برچسب‌گذاران، ارائه‌دهندگان و کارشناسانی که برای این مجموعه داده به کار می‌روند چیست؟

این مجموعه داده چه زمانی ایجاد شد؟ راه اندازی شد؟

بودجه از کجا تامین شد؟

چرا این مجموعه داده ایجاد شد؟ روند قبلی چه بود؟

روش ها چگونه تصمیم گیری شد و چند طرف درگیر بودند؟

واقعیات

داده ها در مورد چه کسانی هستند؟ آیا برچسب‌ها نماینده افراد در داده‌ها هستند؟

چه زیرگروه هایی در داده ها می توانند بر نتایج یادگیری ماشین تأثیر بگذارند؟

داده ها نشان دهنده چه دوره زمانی هستند؟ زمانی که داده ها منقضی می شوند یا به طور غیرعادی اجرا می شوند؟

از کجا می توان به مجموعه داده دسترسی داشت؟ داده ها در کجا جمع آوری یا ایجاد شده اند؟

چرا معیارهای گزارش شده انتخاب شدند؟ چرا برچسب های خاص انتخاب شدند؟

چند برچسب منحصر به فرد در مجموعه داده وجود دارد؟ اینها چگونه تولید شدند؟

تحولات

PII در این مجموعه داده چگونه مدیریت شد؟ آیا می توان از نتایج این مجموعه داده برای شناسایی افراد استفاده کرد؟

چه روش هایی برای پاکسازی یا تأیید این مجموعه داده استفاده شد؟

چه زمانی ویژگی ها باید مهندسی شوند و چگونه؟ آیا اینها نیاز به آپدیت دارند؟

آیا ویژگی های مکان با سایر ویژگی های حساس مرتبط است؟

چرا تبدیل های انتخاب شده در مجموعه داده اعمال شد؟

سوگیری ها یا PII در داده ها چگونه مدیریت می شوند؟

تجربه کنید

چه کسی می تواند از این مجموعه داده استفاده کند، و برای چه وظایفی؟ آیا آموزش هایی لازم است؟

روش ها، نتایج یا خطاهای کشف شده در هنگام استفاده از مجموعه داده چه بود؟

تحت چه شرایطی و چه زمانی نباید از این مجموعه داده استفاده کرد؟

در کجای دنیا این مجموعه داده قابل دسترسی است؟ کجا استفاده شده؟

چرا نمایش مورد انتظار مجموعه داده با نمایش مشاهده شده متفاوت است؟

داده ها در نقاط مختلف جهان چقدر گران هستند؟

n = 1 (نمونه)

آیا نقطه داده معمولی است یا غیر معمول؟ مدل ها در اینجا چگونه رفتار می کنند؟

اندازه نقطه داده چقدر است؟ فرآیند رضایت، ویرایش و انصراف برای مداخله در نقطه داده چیست؟

چه زمانی نتیجه یک نقطه داده تغییر می کند؟ نمونه ها را از طریق خلاف واقع نشان دهید؟

چه عواملی در دیتاپوینت گنجانده شده است؟ اگر با پیش‌بینی‌ها همه چیز اشتباه شود، چه خطراتی وجود دارد؟

چرا این نقطه داده تصویر به روش خاصی برش داده شده است؟ چرا دسته های خاصی در این نقطه داده پر نشده اند؟

چگونه این نقطه داده با یک ورودی دنیای واقعی مرتبط است؟ نتیجه چگونه با یک خروجی دنیای واقعی مرتبط است؟

ما دریافتیم که کارت‌های داده با ساختار زیربنای OFTEn به راحتی قابل گسترش و به‌روزرسانی هستند. با OFTEn، کارت‌های داده می‌توانند در طول زمان رشد کنند و موضوعاتی را که معمولاً از مستندات حذف می‌شوند، شامل شود، مانند بازخورد از عوامل پایین‌دستی، تفاوت‌های قابل‌توجه بین نسخه‌ها، و ممیزی‌ها یا تحقیقات موردی از تولیدکنندگان یا نمایندگان.

خلاصه

جدول زیر چارچوب OFTEn را خلاصه می کند و مراحل کلی در چرخه عمر یک مجموعه داده را شرح می دهد:

مرحله

توضیحات

ریشه ها

مراحل اولیه چرخه زندگی یک مجموعه داده زمانی که تصمیمات برای ایجاد یک مجموعه داده گرفته می شود.

واقعیات

فرآیندهای جمع آوری داده های واقعی و خروجی های خام

تحولات

داده‌های خام از طریق عملیاتی مانند فیلتر کردن، اعتبارسنجی، تجزیه، قالب‌بندی و تمیز کردن به فرم قابل استفاده تبدیل می‌شوند.

تجربه کنید

مجموعه داده در عمل (آزمایشی، تولیدی یا تحقیقاتی) آزمایش، محک‌گذاری یا به کار گرفته می‌شود.

n = 1 (نمونه)

نمونه‌های واقعی از مجموعه داده‌ها - یا خط‌ها - که نشان‌دهنده نقاط داده عادی و نقاط پرت هستند.

هنگام ایجاد کارت داده، دو راه وجود دارد که می توانید از آن استفاده کنید:

  • به طور استقرایی، OFTEn از فعالیت‌هایی با عوامل برای فرمول‌بندی سؤالات درباره مجموعه داده‌ها و مدل‌های مرتبط که برای تصمیم‌گیری حیاتی هستند، پشتیبانی می‌کند. ما متوجه می‌شویم که وقتی بسیاری از عوامل برای طرح پرسش‌هایی با ساختار OFTEn گرد هم می‌آیند، اطلاعاتی را که برای تصمیم‌گیری هدفمند ضروری است آشکار می‌کند.
  • به طور قیاسی، OFTEn را می توان برای ارزیابی اینکه آیا کارت داده به طور دقیق مجموعه داده را نشان می دهد یا خیر، استفاده می شود، که منجر به اثرات سازنده بر اسناد و مجموعه داده می شود. به عنوان مثال، مجموعه داده‌های مرحله اولیه بیشتر به سمت Origins و Factuals گرایش دارند، در حالی که انتظار می‌رود مجموعه داده‌های بالغ به سمت Experience منحرف شوند.

با OFTEn، می توانید طوفان فکری کنید و بررسی کنید که سوالات شما تا چه اندازه چرخه زندگی مجموعه داده شما را پوشش می دهد، که تضمین می کند که محتوای شما در نهایت جامع و کارآمد خواهد بود. این نه تنها به شما کمک می کند تا موارد اضافی را در انواع سؤالاتی که ایجاد می کنید پیدا کنید، بلکه به هر شکافی که ممکن است در طول مسیر پیدا کنید نیز رسیدگی می کند.

2. قاب سوالات با OFTEn

  1. در مورد برخی از ذینفعان و سفرهای اطلاعاتی عامل خود (AIJs) که در ماژول قبلی فرموله کردید فکر کنید و سپس از دستورات زیر برای کمک به ساختار افکار خود استفاده کنید.

9bd35227601ae104.png

  1. اگر برخی از سؤالات شما در حال حاضر به خوبی در یکی از دسته بندی های OFTEn قرار می گیرند، آنها را به عنوان چنین برچسب گذاری کنید.
  2. اگر سوالات شما در یکی از دسته های OFTEn قرار نمی گیرند، یکی از نمایندگان خود را از ماژول قبلی انتخاب کنید و سپس حداقل یک سوال در هر دسته OFTEn برای نماینده ایجاد کنید.
  3. سؤالات اضافی را بر اساس پنج W (چه کسی، چه چیزی، کجا، چه زمانی و چرا) و یک H (چگونه) ایجاد کنید تا عمق دسته OFTEn خود را گسترش دهید.
  4. در صورت امکان، این مراحل را برای نماینده بعدی تکرار کنید.

3. ابعاد

اکنون که غالباً سؤالاتی را می‌دانید که باید در کارت داده خود گنجانده شوند، آماده هستید تا با انجام اولین پاس از کارت داده خود، اطلاعاتی درباره سؤالات خود پیدا کنید. برای انجام این کار، ابعادی را معرفی می‌کنیم که توصیف‌های سطح بالایی از انواع مختلف قضاوت‌هایی است که خوانندگان انجام می‌دهند، که بینش‌های جهت‌گیری را در مورد سودمندی و خوانایی کارت داده ارائه می‌دهد. به عبارت دیگر، آیا کارت داده شما می تواند به خوانندگان کمک کند تا به یک نتیجه گیری آگاهانه در مورد مجموعه داده شما برسند؟

پاسخگو

کارت داده ای که پاسخگو است متعلق به افرادی است که مالکیت کافی، تأمل، استدلال و تصمیم گیری سیستماتیک در مورد مجموعه داده و استفاده از آن را نشان می دهند و نگهداری می شود.

مناطق نمونه

نمونه سوالات

تألیف، مسئولیت، نگهداری، نیات

به عنوان یک [دیدگاه]، من می خواهم بدانم ...

... درباره ناشران مجموعه داده.

... محدودیت های دسترسی و سیاست های مجموعه داده.

... توضیحات و انگیزه های ایجاد مجموعه داده.

مفید یا استفاده

یک کارت داده مفید، جزئیاتی را ارائه می دهد که نیازهای اطلاعاتی خوانندگان را برآورده می کند، که منجر به یک فرآیند تصمیم گیری مسئولانه می شود که مناسب بودن مجموعه داده را برای وظایف و اهداف آنها تعیین می کند.

مناطق نمونه

نمونه سوالات

نیازهای تولیدکننده، نیازهای عامل، نیازهای کاربر، نیازهای اجتماعی

به عنوان یک [دیدگاه]، من می خواهم بدانم ...

... تعاریف و توضیحات برای اصطلاحات فنی مورد استفاده در مستندات (متریک ها، امتیازات، اصطلاحات خاص صنعت، کلمات اختصاری).

... انتظارات در مورد استفاده از مجموعه داده با سایر مجموعه داده ها یا جداول (مهندسی ویژگی، پیوستن، نمونه گیری و تجزیه و تحلیل مقایسه ای).

... کاربردهای مورد نظر مجموعه داده.

کیفیت

یک کارت داده که از کیفیت بالایی برخوردار است، دقت، یکپارچگی و کامل بودن مجموعه داده را خلاصه می کند، که اغلب به شیوه ای قابل دسترسی و قابل درک برای خوانندگان با پیشینه های مختلف ارتباط برقرار می کند.

مناطق نمونه

نمونه سوالات

اعتبار، قابلیت اطمینان، یکپارچگی، تکرارپذیری

به عنوان یک [دیدگاه]، من می خواهم بدانم ...

... در صورت وجود الگوهای شناخته شده (همبستگی، سوگیری یا انحراف) در مجموعه داده.

... هر گونه فرآیند اعتبار سنجی مجموعه داده ها، توضیحات، و نتایج آنها.

... چه اقدامات حریم خصوصی و امنیتی برای مجموعه داده اعمال شده است.

تاثیر یا عواقب استفاده

یک کارت داده که به‌اندازه کافی تأثیر استفاده از مجموعه داده‌ها را شرح می‌دهد، انتظارات را برای نتایج در هنگام استفاده و مدیریت مجموعه داده تعیین می‌کند و هر گونه پیامد درجه اول یا دوم را که می‌تواند بر اهداف خوانندگان تأثیر منفی بگذارد، تصدیق می‌کند.

مناطق نمونه

نمونه سوالات

کارآمد، مرتبط، سود گروهی، پیامدهای انحرافات

به عنوان یک [دیدگاه]، من می خواهم بدانم ...

... استفاده گذشته و عملکرد مرتبط مجموعه داده (به عنوان مثال، مدل های آموزش دیده)

... سیاست های مرتبط با مجموعه داده (به عنوان مثال، مجوز)

...اگر الگوهای شناخته شده ای (همبستگی، سوگیری یا انحراف) در مجموعه داده وجود داشته باشد.

خطرات و توصیه ها

کارت داده ای که توصیه های خوبی ارائه می دهد، خوانندگان را از خطرات و محدودیت های شناخته شده و بالقوه ای که از منشأ، نمایندگی، استفاده یا زمینه استفاده ناشی می شود، آگاه می کند و اطلاعات و گزینه های کافی را برای کمک به خوانندگان برای مبادلات مسئولانه ارائه می دهد.

مناطق نمونه

نمونه سوالات

میزان خطر، کاهش، توصیه ها، آسیب گروهی

به عنوان یک [دیدگاه]، من می خواهم بدانم ...

... ایمنی (خطرات، محدودیت ها و معاوضه) استفاده از مجموعه داده.

... هر گونه بازنمایی اجتماعی فرهنگی، جغرافیایی یا اقتصادی افراد در مجموعه داده.

...اگر ویژگی هایی در مجموعه داده یا مستندات آن وجود نداشته باشد.

خلاصه

با ابعاد، می توانید مجموعه سوالات خود را ارزیابی کنید تا مطمئن شوید که آنها با اهداف و نتایج مطلوب شما مطابقت دارند. اگرچه هنوز به سؤالی در کارت داده خود پاسخ کامل نداده‌اید، بهتر است قبل از اینکه خیلی عمیق به فرآیند مستندسازی داده‌ها وارد شوید، اشتباهات را تشخیص دهید.

جدول زیر به طور خلاصه این پنج بعد را نشان می دهد:

مرحله

توضیحات

مسئولیت پذیری

اظهاراتی که بیانگر تصمیمات انعکاسی، منطقی و سیستماتیک ذینفعان مختلف در رابطه با اعتماد به مجموعه داده است.

سودمند

جزئیاتی را ارائه می دهد که نیازهای فرآیند تصمیم گیری مسئولانه خوانندگان را برآورده می کند و مناسب بودن موارد استفاده را مطابق با اهداف آنها تعیین می کند.

کیفیت

دقت، یکپارچگی و کامل بودن مجموعه داده را خلاصه می کند که به شیوه ای در دسترس بسیاری از خوانندگان است.

تأثیر و پیامدها

اطلاعاتی که به خوانندگان کمک می کند هنگام استفاده و مدیریت مجموعه داده به نتایج مطلوب خود برسند و عواقبی را که می تواند بر اهداف آنها تأثیر منفی بگذارد تأیید می کند.

خطرات و توصیه ها

خوانندگان را از خطرات شناخته شده و بالقوه مرتبط با مجموعه داده که از بازنمایی، استفاده یا زمینه استفاده ناشی می شود آگاه می کند.

با این ابعاد مختلف، می‌توانید بینش‌هایی درباره کیفیت محتوا، خوانایی و کاربرد کارت داده خود حتی قبل از اینکه آن را تکمیل کنید، کشف کنید. آنها به شما کمک می کنند تا موارد اقدامی را شناسایی کنید که به یک الگوی کارت داده قوی تر و دقیق تر کمک می کنند.

4. سوالات خود را با ابعاد ارزیابی کنید

  1. با یک بعد واحد شروع کنید و سپس تعیین کنید که چقدر تسلط و تخصص لازم است تا بر اساس پیچیدگی مجموعه سوالات خود به نتیجه ای آگاهانه برسید.
  2. یک دلیل منطقی و استدلالی برای اینکه این بعد در حال حاضر توسط مجموعه سوالات شما پشتیبانی می شود ارائه دهید.
  3. از طریق یک یا دو سؤال از مجموعه سؤالات خود، شواهدی ارائه دهید که از منطق شما پشتیبانی کند.
  4. اگر بعد شما نامطلوب به نظر می رسد، مراحلی را که باید برای اصلاح یا رفع کاستی ها انجام دهید، یادداشت کنید. اگر با تیمی از ذینفعان کار می کنید، در صورتی که برخی از ذینفعان برای پاسخگویی به سؤالات خاص مجهزتر باشند، مسئولیت را محول کنید.
  5. این مراحل را برای بعد بعدی تکرار کنید.

الگوی زیر نمونه ای است که می توانید برای ارزیابی ابعاد خود از آن استفاده کنید:

3f33557b62abe5ce.png

این فرآیند ارزیابی می‌تواند از 15 دقیقه تا یک ساعت طول بکشد، بسته به تعداد سؤالاتی که ایجاد می‌کنید و تنوع ذینفعانی که باید برای کارت داده خود در نظر بگیرید.

5. تبریک می گویم

تبریک می گویم! شما راهی برای بررسی سوالاتی که برای کارت داده خود ایجاد کرده اید دارید. اکنون شما آماده پاسخگویی به آنها هستید.