ماژول 3: پاسخ

1. تعریف غذای کلیدی

شما بر روی مجموعه‌ای از سؤالاتی که می‌خواهید در کارت داده خود بگنجانید، تصمیم گرفتید - سؤالاتی که فکر می‌کنید برای خوانندگانتان مهم هستند. با این حال، پاسخ دادن به این سؤالات و نامیدن آن یک کارت داده ساده نیست. برای اطمینان از اینکه کارت داده نهایی شما برای تجربه خواننده شما بهینه شده است، ملاحظات متفکرانه ای لازم است.

وقتی افراد کارت های داده را می خوانند، می خواهند تصمیمات بسیار خاصی بگیرند، مانند موارد زیر:

  • آیا این مجموعه داده برای مورد استفاده من مناسب است؟
  • آیا می توانم به دیگران اجازه دهم از این مجموعه داده استفاده کنند؟
  • چگونه می توانم با خیال راحت از این مجموعه داده بدون اضافه کردن خطر به مدل های خود استفاده کنم؟

اگر خوانندگان بتوانند به طور موثر به اطلاعات مناسب دسترسی داشته باشند، در اتخاذ تصمیمات مربوط به مجموعه داده در زمینه خود بسیار ماهر هستند. اهمیت یا سودمندی اطلاعات به نوع تصمیمی که خواننده باید بگیرد و پیشینه خواننده بستگی دارد. به عنوان مثال، هنگام تصمیم گیری در مورد استفاده از مجموعه داده، یک افسر انطباق ممکن است به مجوزهای مرتبط با آن نگاه کند، اما یک مهندس به پشته فنی نگاه می کند. هر دو خواننده سؤالات یکسانی می پرسند، اما انتظار پاسخ های متفاوتی دارند.

کارت های داده باید مجموعه داده شما را به طور جامع توصیف کنند تا خوانندگان بتوانند با اطمینان تصمیم بگیرند. این توضیحات جامع به شما کمک می‌کند تصمیم بگیرید که می‌خواهید خوانندگان از کارت داده شما چه چیزی دریافت کنند، و نوع اطلاعات دقیق، قوی و سازمان‌یافته را برای مستند کردن در آن تعیین کنید. البته، چالش این است که تعیین تمام تصمیمات احتمالی که خوانندگان کارت داده شما باید بگیرند غیرممکن است.

2. کارت داده خود را برنامه ریزی کنید

  • برای تعیین تصمیماتی که خوانندگان کارت داده شما باید اتخاذ کنند و جزئیاتی که کارت داده شما باید شامل شود، به سؤال هر دسته در جدول زیر پاسخ دهید:

خوانندگان

تصمیمات

اهداف

ارتباط

تفاوت های ظریف

مخاطب اصلی کیست؟

آنها در مورد مجموعه داده چه تصمیمی خواهند گرفت؟

آنها از دیتا کارت چه می خواهند؟

آنها برای رسیدن به اهداف خود به چه محتوای خاصی از Data Card نیاز دارند؟

با توجه به اطلاعاتی که در مورد خواننده دارید، محتوای شما چقدر باید جزئی یا ظریف باشد؟

مثال: مهندسان نرم افزار تولید

مثال: آیا باید از مجموعه داده برای آزمایش یک مدل یادگیری ماشینی (ML) که در حال تولید است استفاده کنم؟

مثال: یک نمای کلی از مجموعه داده به من بدهید. به من بگویید چگونه اجرا می شود.

مثال: استفاده های مورد نظر و نامناسب، استفاده های گذشته و نتایج در مدل های گذشته.

مثال: بسیار ظریف. تاکید بر استفاده فنی و قابلیت استفاده برای اهداف ادغام در سیستم های تولید.

می توانید از جدول خود برای ارزیابی کارت داده خود استفاده کنید و اطمینان حاصل کنید که خوانندگان با اولویت بالا کارت داده شما را مفید می دانند. در حالی که روش‌های زیادی برای ارزیابی کارت داده شما وجود دارد، یکی از آن‌ها شامل رتبه‌بندی شدت قابلیت استفاده است.

در حالی که تعاریف دقیق می‌تواند متفاوت باشد، مقیاس شدت زیر رتبه‌بندی میزان شکسته بودن چیزی و تأثیر آن موضوع را بدون توجه به اولویت‌بندی ارائه می‌دهد. در این زمینه، ما به قابلیت استفاده از کارت داده شما اشاره می کنیم که در صورت عدم توجه به آن، می تواند بر اعتمادی که خواننده به داده کارت و مفید بودن آن داده است تأثیر بگذارد.

  • برای ارزیابی میزان مفید بودن وضعیت کارت داده برای هر گروه مخاطب در جدول قبلی، به سؤالات در مقیاس شدت زیر پاسخ دهید:

تخلف

شدت

رفع کنید

چه پاسخ هایی برای خواننده مفید نیستند؟

چقدر فوری باید این را در مقیاس 1 تا 5 ثابت کرد؟ (چک باکس مربوطه را انتخاب کنید):

  • ☐ 1 = فاجعه بار. قبل از انتشار Data Card این مشکل را برطرف کنید.
  • ☐ 2 = مشکل اصلی. مهم برای تعمیر و با اولویت بالا.
  • ☐ 3 = مشکل جزئی. با اولویت کم
  • ☐ 4 = فقط مشکل زیبایی. اگر زمان اجازه می دهد، رفع کنید.
  • ☐ 5 = این مشکلی نیست.

راه حل چیست؟

3. به اندازه کافی هدف گذاری کنید

اغلب زمانی که اولین کارت داده خود را ایجاد می کنید، یکی از دو مورد زیر رخ می دهد:

  • اطلاعات بیش از حد خوانندگان را تحت تأثیر قرار می دهد.
  • اطلاعات بسیار کم خوانندگان را گیج می کند.

به عنوان سازنده یک کارت داده، باید اطلاعات موجود در آن را مدیریت و اولویت بندی کنید. یک مصنوع شفافیت خوب، زمینه کافی را برای خوانندگان فراهم می کند تا درک روشنی به دست آورند. اگر نه، به آن‌ها می‌گوید بعد کجا بروند.

شما می خواهید اطلاعاتی ارائه دهید که درک و استفاده از مجموعه داده را آسان کند. گاهی اوقات، پیچیدگی مجموعه داده شما افزایش می یابد، که بر تراکم اطلاعات و توضیحاتی که باید در کارت داده خود خلاصه کنید تأثیر می گذارد.

صرف نظر از سطح تخصص خوانندگان شما، هر کسی می تواند بار اطلاعاتی را تجربه کند، بنابراین ارائه اطلاعات صحیح ، که شامل موارد زیر است، مهم است:

  • نوع اطلاعاتی که باید ارائه دهید.
  • چقدر اطلاعاتی که باید ارائه دهید.
  • جزئیات در آن است.

پاسخ های شما باید تمام تلاش خود را برای خلاصه کردن همه چیز بدون جزئیات همه چیز انجام دهند و منعکس کننده زمینه مورد نیاز برای خوانندگان برای به دست آوردن بینش در مورد مجموعه داده شما باشند.

اکتشافی

ما مجموعه‌ای از اکتشافات را ایجاد کردیم که می‌توانید از آنها برای امتیاز دادن به تجربه کلی خواندن کارت داده خود استفاده کنید. ما این اکتشافات را به عنوان اهدافی می‌بینیم که کارت‌های داده باید آن‌ها را برآورده کنند تا در عمل و در مقیاس موفق و مناسب بکار گرفته شوند. جدول زیر شامل این اهداف و توضیحات آنها است:

هدف

توضیحات

سازگار

کارت‌های داده باید بدون در نظر گرفتن روش یا دامنه داده‌ها با یکدیگر قابل مقایسه باشند تا تفسیر و اعتبارسنجی ادعاها در چارچوب استفاده آسان باشد. در حالی که استقرار کارت‌های داده یک‌بار مصرف نسبتاً آسان است، اما متوجه می‌شویم که تیم‌ها و سازمان‌ها باید قابلیت مقایسه را هنگام پذیرش مقیاس حفظ کنند.

جامع

به جای اینکه به عنوان آخرین مرحله در چرخه زندگی مجموعه داده ایجاد شود، ایجاد یک کارت داده همزمان با مجموعه داده باید آسان باشد. علاوه بر این، مسئولیت تکمیل فیلدها در کارت داده باید توزیع و به مناسب ترین فرد واگذار شود. این امر مستلزم روش های استاندارد شده ای است که فراتر از کارت داده گسترش یافته و در گزارش های مختلف تولید شده در چرخه عمر مجموعه داده اعمال می شود.

قابل فهم و مختصر

خوانندگان سطوح مختلفی از مهارت دارند، که بر تفسیر آنها از کارت داده تأثیر می گذارد. در سناریوهایی که مهارت ذینفعان متفاوت است، افرادی که قوی‌ترین مدل ذهنی مجموعه داده‌ها را دارند، عملاً تصمیم‌گیرندگان می‌شوند. در نهایت، کارهایی که فوری تر یا چالش برانگیزتر هستند، می توانند مشارکت سهامداران غیر سنتی را در تصمیم گیری ها کاهش دهند، که به "کارشناس" واگذار می شود. این خطر حذف دیدگاه های انتقادی که منعکس کننده نیازهای موجود در ذینفعان پایین دستی و جانبی است را به همراه دارد. یک کارت داده باید به طور موثر با خواننده با کمترین مهارت ارتباط برقرار کند، و خوانندگان را قادر می سازد تا محتوای مورد نیاز را با مهارت بیشتری پیدا کنند. فرآیند مشورت خواننده بدون تحت فشار قرار دادن آنها، و تشویق مشارکت سهامداران به سمت یک مدل ذهنی مشترک از مجموعه داده برای تصمیم گیری.

4. امتیاز اکتشافی خود را

  • برای بررسی پاسخ های کارت داده خود، از کارت امتیازی زیر که برای امتیاز دهی به هر اکتشافی ایجاد کرده ایم استفاده کنید. در پایان، می توانید امتیاز کلی کارت داده خود را محاسبه کنید، که به شما کمک می کند در مسیر خود بمانید. همچنین می‌توانید نظراتی را برای ثبت موارد اضافی و اقدامات مورد نیاز برای بهبود هر اکتشافی اضافه کنید.

اکتشافی

معیارها

نظرات

امتیاز

کارت داده تکمیل شده خود را در اکتشافی زیر به خود امتیاز دهید.

معیارهای اکتشافی

به مناطقی که کارت داده را می توان بهبود بخشید توجه ویژه داشته باشید.

فقط اعداد، خود امتیازی (0-10)

قابل فهم
طراحی و محتوای مصنوع شفافیت شما برای اکثر نمایندگان متخصص و غیرمتخصص موثر، مرتبط و قابل درک است.

  • مؤثر: اکثر عوامل می توانند به سؤالات معقول در مورد مجموعه داده یا مدل پاسخ های مناسبی دریافت کنند.
  • مرتبط: توضیحات، تجسم‌ها و نتایج تحلیل‌های گنجانده شده برای اکثر عوامل مرتبط و قابل اجرا هستند.
  • قابل درک: اطلاعات را می توان به راحتی توسط عوامل متخصص و غیر متخصص درک کرد.

.

.

جامع
کارت داده به خوانندگان این امکان را می دهد که بفهمند مجموعه داده یا مدل در مورد چیست، چگونه به وجود آمده است و قبل از استفاده از آن چه چیزهایی مهم است.

  • هدفمند: اطلاعاتی که زمینه را برای مجموعه داده ایجاد می کند و برای همه ذینفعان مفید است خوانا است.
  • کامل: اطلاعات منسجم و کامل است و تمام مراحل چرخه عمر مجموعه داده را به طور مناسب توصیف می کند.
  • در عمق: خلاصه ها برای خوانندگان عمومی قابل خواندن توسط انسان هستند و برای خوانندگان پیشرفته به اطلاعات اضافی با عمق یا مشخصات بیشتر پیوند می دهند.

.

.

سازگار
کارت داده از پلتفرم و قراردادهای صنعت پیروی می کند و یکپارچگی را در خود و سایر کارت های شفافیت مشابه حفظ می کند.

  • قابل تشخیص: بخش ها به ترتیب منطقی سازماندهی شده اند به طوری که خوانندگان می توانند تشخیص دهند که کجا اطلاعات را پیدا کنند.
  • استاندارد شده: از اصطلاحات استاندارد صنعتی استفاده می کند و انحرافات یا سفارشی سازی ها را در صورت لزوم توصیف می کند.
  • Clear: هر بار که از آن استفاده می شود، همان اصطلاح به معنای همان مفهوم است.

.

.

مختصر
طراحی و محتوای موجود در کارت، اطلاعات گسترده و پیچیده را به قطعات معنی دار و قابل هضم با اهمیت نسبی تبدیل می کند که نیازهای خوانندگان تازه کار و با تجربه را برطرف می کند.

  • قابل درک: معنی و اهمیت نسبی کلمات کلیدی، جفت های کلید-مقدار و خلاصه های بصری به راحتی قابل درک است.
  • Glanceable: اینکه آیا و چگونه خوانندگان می توانند از مجموعه داده برای رسیدن به اهداف خود استفاده کنند در یک نگاه مشخص است.
  • زمینه‌ای: دانش پس‌زمینه و زمینه برای درک بدون قربانی کردن ماهیت و تفاوت‌های ظریف مجموعه داده تقطیر یا انتزاع می‌شود.

.

.

امتیاز کل = (مجموع امتیاز/120)

.

.

/120

5. تحلیل متفکرانه

ما می‌دانیم که داده‌ها اطلاعاتی درباره افراد، فرهنگ‌ها یا کسب‌وکارها هستند که به روشی ساختاریافته برای یک هدف خاص جمع‌آوری شده‌اند. با این حال، همانطور که مکرراً گفته شد، همه آنها با ابعاد مختلف با درجات مختلف درهم تنیده هستند. بنابراین، تجزیه و تحلیلی که بر روی مجموعه داده خود انجام می دهید، پنجره ای به افکاری که در خود مجموعه داده قرار داده شده است، ارائه می دهد که به درک پیچیدگی های آن کمک می کند.

به عنوان مثال، یک تجزیه و تحلیل متقاطع از افراد می تواند ترکیبات عوامل انسانی را در یک مجموعه داده برای شناسایی نتایج نامتناسب بالقوه بررسی کند، مانند زمانی که یک مدل آموزش داده شده بر روی یک مجموعه داده برای یک زیر گروه بهتر از سایرین عمل می کند. تجزیه و تحلیل تفکیک‌شده مجموعه داده‌ها را بر اساس عوامل مختلف تجزیه می‌کند تا الگوهای مهم برای زیر گروه‌ها یا جمعیت‌های به حاشیه رانده شده را که معمولاً با داده‌های کلان و بزرگ‌تر پوشانده می‌شوند، آشکار کند تا خوانندگان بتوانند نتایج را پیش‌بینی کنند.

با آن، متوجه می‌شویم که تحلیل‌های متقاطع و تفکیک‌شده (IDA) راه‌های مؤثری برای برقراری ارتباط طیفی از نتایج قابل قبول تحت شرایط مختلف در یک کارت داده از طریق ایجاد روابط واضح در یک مجموعه داده هستند. IDA می تواند سرنخ های حیاتی در مورد نمایش در مجموعه داده شما به خوانندگان ارائه دهد، مانند اینکه برچسب ها چگونه با موجودیت های حساس مرتبط هستند. شکاف‌های موجود در مجموعه داده شما، مانند اینکه چگونه مجموعه داده فقط عکس‌هایی در طول روز گرفته است. و رابطه بین متغیرهایی که متعاقباً می تواند باعث شود مدل های هوش مصنوعی همبستگی های جعلی را بیاموزند یا پروکسی ها را انتخاب کنند. این تحلیل‌ها زمانی مفیدتر می‌شوند که در شرایط واقعی قرار بگیرند که منعکس‌کننده تجربه‌ای است که کاربران تأثیرگذار ممکن است با محصول یا خدماتی داشته باشند که از مجموعه داده شما استفاده می‌کند.

به عنوان مثال، ارائه IDA در یک کارت داده به خوانندگان کمک می کند تا به طور پیشگیرانه شهودی در مورد نحوه عملکرد مدل ML آنها بر روی زیرمجموعه ها - همچنین به عنوان برش ها - در مجموعه داده شما ایجاد کنند. در حالی که این امر مستلزم آن است که سازندگان مجموعه داده در تجزیه و تحلیل خود از مجموعه داده و ارائه آن در کارت داده کوشاتر باشند، اما در نهایت می تواند منجر به نتایج بهتر محصول برای ذینفعان شود.

IDA می تواند به خوانندگان کمک کند تا درک بهتری از نحوه استفاده از مجموعه داده شما در مدل های خود داشته باشند. اگر مشکل دارید، با کارشناسان، تیم های محصول، و افراد با تجربه کار کنید تا به تحلیل های خود کمک کنید. IDA اغلب ریشه در زمینه هایی دارد که باید برای خوانندگان توضیح داده شود یا نیاز به پشتیبانی اضافی دارد تا خوانندگان بتوانند این موارد را به درستی تفسیر کنند.

6. داده های خود را تجزیه و تحلیل کنید

برای تجزیه و تحلیل مجموعه داده خود، این مراحل را دنبال کنید:

  1. قبل از شروع تجزیه و تحلیل خود، کاوش کنید. با ابزاری مانند اعتبارسنجی داده‌های TensorFlow (TFDV) یا ابزار تفسیرپذیری یادگیری (LIT) شهودی برای انحرافات و عدم تعادل در مجموعه داده خود ایجاد کنید. از نتایج برای اطلاع رسانی به طراحی تحلیل خود استفاده کنید.
  2. تحلیل خود را با دقت طراحی کنید. نتایج تجزیه و تحلیل به شدت تحت تأثیر اهداف ارزیابی شما، دسترسی به تخصص و منابع برای انجام تجزیه و تحلیل، زمان و مکان انجام تجزیه و تحلیل، و زمینه های مدل های هوش مصنوعی است که در آن تجزیه و تحلیل انجام می شود.
  3. با عوامل مرتبط با استفاده مورد نظر خود شروع کنید. عوامل جمعیت شناختی، اجتماعی-فرهنگی، رفتاری و مورفولوژیکی را که می توانند در موارد استفاده مورد نظر شما در هنگام ایجاد گروه های مورد علاقه و سپس گسترش از آنجا، بیشتر تحت تأثیر قرار دهند.
  4. گزارش؛ نظر نده توجه داشته باشید که عوامل و مفروضاتی که بر تحلیل‌های عادلانه تأثیر می‌گذارند، در ساختارهای اجتماعی خاص از نظر تاریخی و فرهنگی وجود دارند که تعیین کمیت آن‌ها دشوار است. از اضافه کردن نظراتی که ممکن است خواننده را سردرگم کند مراقب باشید. در عوض، راه‌هایی برای بازتولید تحلیل‌هایی ارائه کنید که می‌تواند به خوانندگان کمک کند تا نتایج را در زمینه خود کالیبره کنند.
  5. برای آینده برنامه ریزی کنید. با نگاه کردن به نمایش در مجموعه داده شما، ثابت نگه داشتن مقادیر در سناریوهای مختلف یا ترکیب تجزیه و تحلیل خود با طیف وسیعی از مقادیر عوامل اضافی مرتبط با مجموعه داده، عوامل دیگری را که ممکن است در آینده ظاهر شوند، در نظر بگیرید.
  6. زمینه بیشتری برای نتایج غیر قابل تکرار فراهم کنید. اگر معیارها نمی توانند توسط ذینفعان پایین دستی بازتولید شوند، زمینه کافی را در اطراف تجزیه و تحلیل ارائه دهید. اگر خواننده بتواند از این اطلاعات برای سنجش مزایا و معایب مجموعه داده استفاده کند، می تواند اعتمادی را به مجموعه داده ایجاد کند.

7. تبریک می گویم

تبریک می گویم! شما راه هایی برای ارائه پاسخ های مناسب در کارت داده خود دارید. اکنون شما آماده ممیزی آنها هستید.