ماژول 1: بپرسید

1. گونه شناسی ذینفعان

قبل از شروع تلاش‌های شفاف‌سازی اسناد داده‌ها و ایجاد کارت‌های داده، مهم است که ذینفعان را از سراسر چرخه عمر مجموعه داده شناسایی و دعوت کنید. این کار ایجاد کارت داده را آسان‌تر می‌کند، زیرا شما را با همه چیزهایی که برای ملاحظات قوی‌تر هنگام ایجاد محتوا نیاز دارید، مجهز می‌کند.

برای کمک به شما در کاوش و درک اینکه چگونه ذینفعان متقابل در فرآیند چرخه زندگی مجموعه داده مشارکت می‌کنند، یک نوع شناسی ایجاد کردیم که به شما امکان می‌دهد مفروضاتی را که اغلب در مورد سهامداران فردی مطرح می‌شوند کشف کنید. گونه‌شناسی ما به سه گروه ذینفعی تقسیم می‌شود که در چرخه عمر مجموعه داده درگیر هستند: تولیدکنندگان، نمایندگان و کاربران.

این نوع شناسی نشان دهنده زنجیره ای از نیازها و انتظارات در حال تغییر دائمی از مجموعه داده ها و مستندات آنها است. هیچ راه حلی برای همه وجود ندارد.

تولید کنندگان

تولیدکنندگان مجموعه‌های داده و مستندات را ایجاد می‌کنند و مسئول جمع‌آوری داده‌ها، مالکیت، راه‌اندازی و نگهداری هستند.

در هسته آن، می توانید تولیدکنندگان را به عنوان کسانی که مسئول تولید و انتشار مجموعه داده ها، راه اندازی، پذیرش و/یا موفقیت هستند، در نظر بگیرید.

تولیدکنندگان همچنین می‌توانند افراد یا گروه‌هایی باشند که برای جمع‌آوری یا برچسب‌گذاری داده‌ها و ارائه مشاوره در مورد روش‌ها یا تفسیر در نقاط مختلف در طول چرخه عمر داده‌ها استخدام می‌شوند.

بسته به زمینه، تولیدکنندگان همچنین می توانند اعضای تیم فعلی و آینده شما، شرکا، مشتریان، یا پلتفرم های میزبانی داده شما را نمایندگی کنند – که همگی مسئول نگهداری یا نگهداری مجموعه داده، استقرار و نظارت هستند.

عوامل

نمایندگان ذینفعانی هستند که مستندات مجموعه داده یا کارت داده و سایر مستندات مربوط به مدل یادگیری ماشینی (ML) شما را می خوانند و آژانس را برای استفاده یا تعیین نحوه استفاده آنها یا دیگران از مجموعه داده های توصیف شده یا سیستم های هوش مصنوعی دارند.

بسته به حوزه خود، عوامل می توانند نقش عملیاتی یا بازبینی کننده ای داشته باشند، مانند یک محقق در یک محیط دانشگاهی که می خواهد استفاده مناسب از یک مجموعه داده را بسنجد یا یک دانشمند داده در یک تیم محصول که می خواهد تناسب کلی مجموعه داده را در رابطه با یکپارچه سازی محصول تعیین کند.

این تمایز مهم است زیرا بازبینی کنندگان شامل سهامدارانی هستند که ممکن است هرگز مستقیماً از مجموعه داده استفاده نکنند، اما همچنان با کارت داده درگیر هستند، مانند مشاوران صنعت، روزنامه نگاران تحقیق، نمایندگان جامعه و اشخاص حقوقی. عوامل ممکن است دارای تخصص فنی برای هدایت اطلاعات ارائه شده در اسناد داده معمولی باشند یا نداشته باشند، اما اغلب در صورت لزوم به تخصص دسترسی دارند.

کاربران

کاربران افراد و نمایندگانی هستند که با محصولات متکی به مدل‌های آموزش دیده در مجموعه داده‌ها تعامل دارند.

کاربران ممکن است با ارائه داده‌های خود به عنوان بخشی از تجربه محصول موافقت کنند، اما معمولاً به مجموعه‌ای متفاوت از توضیحات و کنترل‌های مبتنی بر تجربیات محصول، حتی در مورد مجموعه داده‌ها، نیاز دارند.

خلاصه

جدول زیر گروه های ذینفع را با توضیحات، مسئولیت ها، مثال ها و وظایف مشترکشان خلاصه می کند:

گروه ذینفعان

توضیحات

مسئولیت ها

نمونه ها

وظایف مشترک

تولید کنندگان

مجموعه داده ها و/یا اسناد ایجاد کنید.

طراحی، ایجاد، تست کیفیت، مستندسازی، راه‌اندازی، پذیرش، نگهداری و به‌روزرسانی مجموعه داده‌ها.

محققان، دانشمندان و تحلیلگران داده، مهندسان نرم افزار، و مدیران محصول و برنامه

پذیرش مجموعه داده، افشای، اثبات آینده، عدالت و امنیت و بهبودها

عوامل

ارزیابی و استفاده از مجموعه داده برای کار، محصولات، سازمان ها، یا جوامع.

از کارت داده استفاده کنید، اما ممکن است با خود مجموعه داده تعامل نداشته باشد.

مهندسان ML یا محصول، محققان، فروشندگان شخص ثالث، کارشناسان موضوع، صنعت، مشاوران، کارشناسان سیاست، ارائه دهندگان خدمات داده، و رهبری یا مدیریت

پیچیدگی را مدیریت کنید، پاسخگو باشید، معاوضه کنید، در تولید مستقر شوید، بایگانی کنید

کاربران

با محصولات، دستگاه‌ها و برنامه‌های ایجاد شده توسط عواملی که از مجموعه داده‌های تولیدکننده استفاده می‌کنند، تعامل داشته باشید.

احتمالاً داده‌های خود را از طریق محصولات به اشتراک بگذارید و سیگنال‌های مفیدی را برای تولیدکنندگان و نمایندگان ارائه دهید.

مشارکت کنندگان داده، کاربران محصول، و نمایندگان گروه های کاربر

از محصولات استفاده کنید، داده ها و حریم خصوصی را درک کنید، بازخورد ارائه دهید و نگرانی ها را مطرح کنید

2. ذینفعان خود را نقشه برداری کنید

اکنون که با نوع شناسی ما آشنایی دارید، می توانید چرخه عمر مجموعه داده خود را مرور کنید تا ذینفعان خود را از طریق این فعالیت نقشه برداری اولیه شناسایی کنید. در حین انجام فعالیت، توجه داشته باشید که چه کسی ممکن است با مجموعه داده یا مستندات آن تعامل داشته باشد. همچنین، نحوه مشارکت ذینفعان در کارت داده را در نظر بگیرید.

برای ترسیم نقشه سهامداران خود، این مراحل را دنبال کنید:

  1. لیست تولیدکنندگانی که کارت های داده را ایجاد می کنند .

9019cf76931e3ae5.png

  1. عواملی را فهرست کنید که کارت های داده را می خوانند و از آنها استفاده می کنند .

a6c5bfc2fadd8cb5.png

  1. کاربرانی را که از مجموعه داده توصیف شده در کارت داده استفاده می کنند یا تحت تأثیر قرار می گیرند، فهرست کنید.

210d18c6ec533955.png

  1. از الگوی زیر برای ایجاد نقشه ای از ذینفعان خود، نقش آنها در ایجاد کارت داده و هدف کارت داده آنها استفاده کنید. این نقشه به شما شهودی برای نیازهای پایین دستی مستندات مجموعه داده و توانایی تعیین اولویت ها و مسئولیت ها در طول فرآیند مستندسازی مجموعه داده می دهد.

d24cf1a113189a25.png

3. سفرهای اطلاعاتی نماینده (AIJs)

با ترسیم ذینفعان خود، می توانید تعیین کنید که چه چیزی برای انتقال به نمایندگان - ذینفعان اصلی شما - در کارت داده شما ضروری است تا بتوانید آنها را برای موفقیت تنظیم کنید.

به طور معمول، تجربه ای که یک فرد هنگام تعامل با فناوری دارد، سفر کاربر نامیده می شود. با این حال، ما در مورد عاملی صحبت می کنیم که برای تصمیم گیری آگاهانه نیاز به کسب اطلاعات کافی در مورد مجموعه داده دارد، بنابراین ما این تجربیات را سفر اطلاعات عامل (AIJ) می نامیم.

هدف AIJ درک موارد زیر است:

  • وظایفی که ممکن است عامل ها برای آنها یک مجموعه داده بخواهند.
  • اطلاعاتی که نمایندگان برای تکمیل وظایف خود به آن نیاز دارند.
  • فرآیندی که از طریق آن عوامل اطلاعات را استنباط می کنند.

AIJها شامل موارد زیر است:

51ce23c7a9aaa9e4.png

مثال

به عنوان مثال، فرض کنید یکی از عوامل شما یک دانشمند داده است. یک AIJ برای یک دانشمند داده می تواند به شکل زیر باشد:

به عنوان یک دانشمند داده ، من می خواهم ساختار مجموعه داده را بدانم، بنابراین می خواهم ...

... فرمت داده چیست؟

... روش مجموعه داده چیست؟

... چند ویژگی در مجموعه داده وجود دارد؟

... چند ویژگی مهندسی شده است؟

... کدام ویژگی ها به شدت با هم مرتبط هستند؟

... اگر وابستگی هایی در ساختار وجود دارد؟

در اینجا مثال دیگری برای عاملی است که ممکن است در خط مشی محصول کار کند و دستورالعمل های مربوط به تولید و توسعه یک محصول را تنظیم کند:

به عنوان یک دستیار سیاست ، من می خواهم بدانم چگونه ممکن است از داده ها سوء استفاده شود ، بنابراین می خواهم ...

... استفاده مورد نظر از مجموعه داده چه بوده است؟

... چه برنامه ای باعث ایجاد مجموعه داده شد؟

... کاربردهای خطرناک یا خطرناک مجموعه داده چیست؟

... خطر برای گروه های خاص چیست؟

... استفاده های مورد نظر از این مجموعه داده چه تاثیری بر اجزای تشکیل دهنده دارد؟

... چگونه می توان درخواست رجوع کرد؟

4. AIJ های خود را بنویسید

  1. بر اساس دستورات زیر چند AIJ بنویسید:

ab594f2e5ce86029.png

  1. توجه داشته باشید که چگونه نه تنها ذینفعان خود را در ذهن دارید، بلکه برخی از سؤالات اولیه را نیز در نظر دارید که فکر می کنید آنها می خواهند با خواندن کارت داده شما به آنها پاسخ دهند. این بدان معنی است که شما یک قدم به مجموعه نهایی سوالاتی که باید در کارت داده خود بگنجانید نزدیکتر شده اید.

5. اپتیک

ممکن است متوجه استفاده از عبارات پرسپکتیو ، لنز و دامنه برای کادربندی AIJ شده باشید. در حالی که این اصطلاحات قبلاً تعریف شده بودند، آنها در واقع بخشی از یک استعاره راهنما هستند که ما آن را اپتیک می نامیم. ما آنها را ایجاد کردیم تا به شما کمک کنیم در مورد اینکه چگونه عوامل شما ممکن است به درک مجموعه داده شما برسند فکر کنید.

محدوده ها

در اپتیک، اسکوپ ها از عدسی ها و آینه ها برای تشخیص، مشاهده، بزرگنمایی، بازتاب و حتی آزمایش مواد استفاده می کنند. در زمینه مجموعه داده ها، استعاره بسیار خوبی است، زیرا شما روی سؤالات تمرکز می کنید و چارچوب می دهید تا جنبه های آشکار، غیر آشکار، قابل مشاهده و نامرئی را آشکار کنید.

ما از این به عنوان دامنه یاد می کنیم، ابزاری برای پرسیدن یک سری سوالات متوالی برای درک مجموعه داده ها. با انباشتن دامنه‌هایی از جزئیات مختلف، می‌توانید محتوایی ایجاد کنید که به نمایندگان شما کمک می‌کند تا درک منسجمی از مجموعه‌های داده را از طریق گزارش‌های شفافیت ایجاد کنند.

جدول زیر شامل سه نوع دامنه در چارچوب ما به همراه توضیحات، مثال و هدف هر کدام است:

دامنه

توضیحات

مثال

هدف

تلسکوپی

سوالاتی در مورد ویژگی هایی که معمولاً در چندین مجموعه داده یافت می شوند . آنها ویژگی ها را برچسب گذاری می کنند.

آیا این مجموعه داده حاوی اطلاعات شناسایی شخصی (PII) است؟

برای اطلاعات اضافی که به نمایندگان شما کمک می کند تا کارت داده یا مصنوع شفافیت شما را هدایت کنند، زمینه را معرفی و تنظیم کنید.

پریسکوپی

سوالاتی در مورد ویژگی های خاص مجموعه داده تولید کننده. آنها مشاهدات را توصیف می کنند.

چند ویژگی حاوی PII است؟

به طور کلی برای ارائه اطلاعات عملیاتی، مانند شکل و اندازه مجموعه داده، یا اطلاعات عملکردی، مانند منابع یا اهداف، محفوظ است.

میکروسکوپی

سوالاتی در مورد جنبه های غیرقابل مشاهده مجموعه داده ها، مانند تصمیم گیری ها، فرآیندها و تأثیرات. آنها توضیح می خواهند.

چگونه PII در این مجموعه داده ناشناس شد؟

توضیح دقیق تصمیمات را استخراج کنید یا اسناد فرآیند طولانی تری را که بر پاسخ به سؤالات پریسکوپی و تلسکوپی مربوطه حاکم است، خلاصه کنید.

مهم است که این سه نوع دامنه را در طول فرآیند ایجاد کارت داده خود در نظر بگیرید. یک کارت داده فقط با تلسکوپ فقط اطلاعات واضحی را درباره مجموعه داده شما توصیف می کند و هیچ ارزش مشخصی اضافه نمی کند. یک کارت داده فقط با پریسکوپ می‌تواند بدون هیچ جزئیاتی در مورد زمینه، ارتباط یا اهمیت بسیار فنی باشد. یک کارت داده فقط با میکروسکوپ می‌تواند باعث شود که عوامل به راحتی در جزئیات گم شوند و تصویر بزرگ را از دست بدهند.

به همین دلیل است که ما متوجه می‌شویم که تفاسیر یک کارت داده تا حد زیادی تحت تأثیر وجود یا عدم وجود این سطوح از حوزه‌ها است. این سؤالات به عوامل و تولیدکنندگان اجازه می‌دهد ریسک را ارزیابی کنند، اقدامات کاهشی را برنامه‌ریزی کنند و در صورت لزوم، فرصت‌هایی را برای ایجاد داده‌های بهتر شناسایی کنند. تلسکوپ‌ها، پریسکوپ‌ها و میکروسکوپ‌ها با هم جزئیات مفیدی را ارائه می‌کنند تا ذینفعان زیادی بتوانند کارت داده شما را بدون سرگردانی و گم شدن هدایت کنند.

مثال

در بخش Agent Information Travels (AIJs) ، چند نمونه از AIJها را مشاهده کردید، از جمله یکی برای یک دانشمند داده. اگر به آن مثال دقت کنید، ممکن است متوجه شوید که می‌توانید برخی از آن سؤالات را بر اساس دامنه‌ها گروه‌بندی کنید، از جمله سؤالات زیر:

به عنوان یک دانشمند داده ، من می خواهم ساختار مجموعه داده را بدانم، بنابراین می خواهم ...

تلسکوپی

... فرمت داده چیست؟

... روش مجموعه داده چیست؟

پریسکوپی

... چند ویژگی در مجموعه داده وجود دارد؟

... چند ویژگی مهندسی شده است؟

میکروسکوپی

... کدام ویژگی ها به شدت با هم مرتبط هستند؟

... اگر وابستگی هایی در ساختار وجود دارد؟

به احتمال بسیار زیاد ممکن است قبلاً سؤالات تلسکوپی، پریسکوپی و میکروسکوپی را با نمایندگان خود در ذهن داشته باشید.

6. AIJ های خود را با دامنه ها بازسازی کنید

  • برای تغییر ساختار AIJ های خود با محدوده، از نمونه دستور زیر استفاده کنید:

2b6e2a7a041060f4.png

7. تبریک می گویم

تبریک می گویم! شما شروع به ایجاد یک کارت داده کردید. اکنون آماده ارزیابی سوالات خود هستید.