1. تعریف غذای کلیدی
شما بر روی مجموعهای از سؤالاتی که میخواهید در کارت داده خود بگنجانید، تصمیم گرفتید - سؤالاتی که فکر میکنید برای خوانندگانتان مهم هستند. با این حال، پاسخ دادن به این سؤالات و نامیدن آن یک کارت داده ساده نیست. برای اطمینان از اینکه کارت داده نهایی شما برای تجربه خواننده شما بهینه شده است، ملاحظات متفکرانه ای لازم است.
وقتی افراد کارت های داده را می خوانند، می خواهند تصمیمات بسیار خاصی بگیرند، مانند موارد زیر:
- آیا این مجموعه داده برای مورد استفاده من مناسب است؟
- آیا می توانم به دیگران اجازه دهم از این مجموعه داده استفاده کنند؟
- چگونه می توانم با خیال راحت از این مجموعه داده بدون اضافه کردن خطر به مدل های خود استفاده کنم؟
اگر خوانندگان بتوانند به طور موثر به اطلاعات مناسب دسترسی داشته باشند، در اتخاذ تصمیمات مربوط به مجموعه داده در زمینه خود بسیار ماهر هستند. اهمیت یا سودمندی اطلاعات به نوع تصمیمی که خواننده باید بگیرد و پیشینه خواننده بستگی دارد. به عنوان مثال، هنگام تصمیم گیری در مورد استفاده از مجموعه داده، یک افسر انطباق ممکن است به مجوزهای مرتبط با آن نگاه کند، اما یک مهندس به پشته فنی نگاه می کند. هر دو خواننده سؤالات یکسانی می پرسند، اما انتظار پاسخ های متفاوتی دارند.
کارت های داده باید مجموعه داده شما را به طور جامع توصیف کنند تا خوانندگان بتوانند با اطمینان تصمیم بگیرند. این توضیحات جامع به شما کمک میکند تصمیم بگیرید که میخواهید خوانندگان از کارت داده شما چه چیزی دریافت کنند، و نوع اطلاعات دقیق، قوی و سازمانیافته را برای مستند کردن در آن تعیین کنید. البته، چالش این است که تعیین تمام تصمیمات احتمالی که خوانندگان کارت داده شما باید بگیرند غیرممکن است.
2. کارت داده خود را برنامه ریزی کنید
- برای تعیین تصمیماتی که خوانندگان کارت داده شما باید اتخاذ کنند و جزئیاتی که کارت داده شما باید شامل شود، به سؤال هر دسته در جدول زیر پاسخ دهید:
خوانندگان | تصمیمات | اهداف | ارتباط | تفاوت های ظریف |
مخاطب اصلی کیست؟ | آنها در مورد مجموعه داده چه تصمیمی خواهند گرفت؟ | آنها از دیتا کارت چه می خواهند؟ | آنها برای رسیدن به اهداف خود به چه محتوای خاصی از Data Card نیاز دارند؟ | با توجه به اطلاعاتی که در مورد خواننده دارید، محتوای شما چقدر باید جزئی یا ظریف باشد؟ |
مثال: مهندسان نرم افزار تولید | مثال: آیا باید از مجموعه داده برای آزمایش یک مدل یادگیری ماشینی (ML) که در حال تولید است استفاده کنم؟ | مثال: یک نمای کلی از مجموعه داده به من بدهید. به من بگویید چگونه اجرا می شود. | مثال: استفاده های مورد نظر و نامناسب، استفاده های گذشته و نتایج در مدل های گذشته. | مثال: بسیار ظریف. تاکید بر استفاده فنی و قابلیت استفاده برای اهداف ادغام در سیستم های تولید. |
می توانید از جدول خود برای ارزیابی کارت داده خود استفاده کنید و اطمینان حاصل کنید که خوانندگان با اولویت بالا کارت داده شما را مفید می دانند. در حالی که روشهای زیادی برای ارزیابی کارت داده شما وجود دارد، یکی از آنها شامل رتبهبندی شدت قابلیت استفاده است.
در حالی که تعاریف دقیق میتواند متفاوت باشد، مقیاس شدت زیر رتبهبندی میزان شکسته بودن چیزی و تأثیر آن موضوع را بدون توجه به اولویتبندی ارائه میدهد. در این زمینه، ما به قابلیت استفاده از کارت داده شما اشاره می کنیم که در صورت عدم توجه به آن، می تواند بر اعتمادی که خواننده به داده کارت و مفید بودن آن داده است تأثیر بگذارد.
- برای ارزیابی میزان مفید بودن وضعیت کارت داده برای هر گروه مخاطب در جدول قبلی، به سؤالات در مقیاس شدت زیر پاسخ دهید:
تخلف | شدت | رفع کنید |
چه پاسخ هایی برای خواننده مفید نیستند؟ | چقدر فوری باید این را در مقیاس 1 تا 5 ثابت کرد؟ (چک باکس مربوطه را انتخاب کنید):
| راه حل چیست؟ |
3. به اندازه کافی هدف گذاری کنید
اغلب زمانی که اولین کارت داده خود را ایجاد می کنید، یکی از دو مورد زیر رخ می دهد:
- اطلاعات بیش از حد خوانندگان را تحت تأثیر قرار می دهد.
- اطلاعات بسیار کم خوانندگان را گیج می کند.
به عنوان سازنده یک کارت داده، باید اطلاعات موجود در آن را مدیریت و اولویت بندی کنید. یک مصنوع شفافیت خوب، زمینه کافی را برای خوانندگان فراهم می کند تا درک روشنی به دست آورند. اگر نه، به آنها میگوید بعد کجا بروند.
شما می خواهید اطلاعاتی ارائه دهید که درک و استفاده از مجموعه داده را آسان کند. گاهی اوقات، پیچیدگی مجموعه داده شما افزایش می یابد، که بر تراکم اطلاعات و توضیحاتی که باید در کارت داده خود خلاصه کنید تأثیر می گذارد.
صرف نظر از سطح تخصص خوانندگان شما، هر کسی می تواند بار اطلاعاتی را تجربه کند، بنابراین ارائه اطلاعات صحیح ، که شامل موارد زیر است، مهم است:
- نوع اطلاعاتی که باید ارائه دهید.
- چقدر اطلاعاتی که باید ارائه دهید.
- جزئیات در آن است.
پاسخ های شما باید تمام تلاش خود را برای خلاصه کردن همه چیز بدون جزئیات همه چیز انجام دهند و منعکس کننده زمینه مورد نیاز برای خوانندگان برای به دست آوردن بینش در مورد مجموعه داده شما باشند.
اکتشافی
ما مجموعهای از اکتشافات را ایجاد کردیم که میتوانید از آنها برای امتیاز دادن به تجربه کلی خواندن کارت داده خود استفاده کنید. ما این اکتشافات را به عنوان اهدافی میبینیم که کارتهای داده باید آنها را برآورده کنند تا در عمل و در مقیاس موفق و مناسب بکار گرفته شوند. جدول زیر شامل این اهداف و توضیحات آنها است:
هدف | توضیحات |
سازگار | کارتهای داده باید بدون در نظر گرفتن روش یا دامنه دادهها با یکدیگر قابل مقایسه باشند تا تفسیر و اعتبارسنجی ادعاها در چارچوب استفاده آسان باشد. در حالی که استقرار کارتهای داده یکبار مصرف نسبتاً آسان است، اما متوجه میشویم که تیمها و سازمانها باید قابلیت مقایسه را هنگام پذیرش مقیاس حفظ کنند. |
جامع | به جای اینکه به عنوان آخرین مرحله در چرخه زندگی مجموعه داده ایجاد شود، ایجاد یک کارت داده همزمان با مجموعه داده باید آسان باشد. علاوه بر این، مسئولیت تکمیل فیلدها در کارت داده باید توزیع و به مناسب ترین فرد واگذار شود. این امر مستلزم روش های استاندارد شده ای است که فراتر از کارت داده گسترش یافته و در گزارش های مختلف تولید شده در چرخه عمر مجموعه داده اعمال می شود. |
قابل فهم و مختصر | خوانندگان سطوح مختلفی از مهارت دارند، که بر تفسیر آنها از کارت داده تأثیر می گذارد. در سناریوهایی که مهارت ذینفعان متفاوت است، افرادی که قویترین مدل ذهنی مجموعه دادهها را دارند، عملاً تصمیمگیرندگان میشوند. در نهایت، کارهایی که فوری تر یا چالش برانگیزتر هستند، می توانند مشارکت سهامداران غیر سنتی را در تصمیم گیری ها کاهش دهند، که به "کارشناس" واگذار می شود. این خطر حذف دیدگاه های انتقادی که منعکس کننده نیازهای موجود در ذینفعان پایین دستی و جانبی است را به همراه دارد. یک کارت داده باید به طور موثر با خواننده با کمترین مهارت ارتباط برقرار کند، و خوانندگان را قادر می سازد تا محتوای مورد نیاز را با مهارت بیشتری پیدا کنند. فرآیند مشورت خواننده بدون تحت فشار قرار دادن آنها، و تشویق مشارکت سهامداران به سمت یک مدل ذهنی مشترک از مجموعه داده برای تصمیم گیری. |
4. امتیاز اکتشافی خود را
- برای بررسی پاسخ های کارت داده خود، از کارت امتیازی زیر که برای امتیاز دهی به هر اکتشافی ایجاد کرده ایم استفاده کنید. در پایان، می توانید امتیاز کلی کارت داده خود را محاسبه کنید، که به شما کمک می کند در مسیر خود بمانید. همچنین میتوانید نظراتی را برای ثبت موارد اضافی و اقدامات مورد نیاز برای بهبود هر اکتشافی اضافه کنید.
اکتشافی | معیارها | نظرات | امتیاز |
کارت داده تکمیل شده خود را در اکتشافی زیر به خود امتیاز دهید. | معیارهای اکتشافی | به مناطقی که کارت داده را می توان بهبود بخشید توجه ویژه داشته باشید. | فقط اعداد، خود امتیازی (0-10) |
قابل فهم |
| . | . |
جامع |
| . | . |
سازگار |
| . | . |
مختصر |
| . | . |
امتیاز کل = (مجموع امتیاز/120) | . | . | /120 |
5. تحلیل متفکرانه
ما میدانیم که دادهها اطلاعاتی درباره افراد، فرهنگها یا کسبوکارها هستند که به روشی ساختاریافته برای یک هدف خاص جمعآوری شدهاند. با این حال، همانطور که مکرراً گفته شد، همه آنها با ابعاد مختلف با درجات مختلف درهم تنیده هستند. بنابراین، تجزیه و تحلیلی که بر روی مجموعه داده خود انجام می دهید، پنجره ای به افکاری که در خود مجموعه داده قرار داده شده است، ارائه می دهد که به درک پیچیدگی های آن کمک می کند.
به عنوان مثال، یک تجزیه و تحلیل متقاطع از افراد می تواند ترکیبات عوامل انسانی را در یک مجموعه داده برای شناسایی نتایج نامتناسب بالقوه بررسی کند، مانند زمانی که یک مدل آموزش داده شده بر روی یک مجموعه داده برای یک زیر گروه بهتر از سایرین عمل می کند. تجزیه و تحلیل تفکیکشده مجموعه دادهها را بر اساس عوامل مختلف تجزیه میکند تا الگوهای مهم برای زیر گروهها یا جمعیتهای به حاشیه رانده شده را که معمولاً با دادههای کلان و بزرگتر پوشانده میشوند، آشکار کند تا خوانندگان بتوانند نتایج را پیشبینی کنند.
با آن، متوجه میشویم که تحلیلهای متقاطع و تفکیکشده (IDA) راههای مؤثری برای برقراری ارتباط طیفی از نتایج قابل قبول تحت شرایط مختلف در یک کارت داده از طریق ایجاد روابط واضح در یک مجموعه داده هستند. IDA می تواند سرنخ های حیاتی در مورد نمایش در مجموعه داده شما به خوانندگان ارائه دهد، مانند اینکه برچسب ها چگونه با موجودیت های حساس مرتبط هستند. شکافهای موجود در مجموعه داده شما، مانند اینکه چگونه مجموعه داده فقط عکسهایی در طول روز گرفته است. و رابطه بین متغیرهایی که متعاقباً می تواند باعث شود مدل های هوش مصنوعی همبستگی های جعلی را بیاموزند یا پروکسی ها را انتخاب کنند. این تحلیلها زمانی مفیدتر میشوند که در شرایط واقعی قرار بگیرند که منعکسکننده تجربهای است که کاربران تأثیرگذار ممکن است با محصول یا خدماتی داشته باشند که از مجموعه داده شما استفاده میکند.
به عنوان مثال، ارائه IDA در یک کارت داده به خوانندگان کمک می کند تا به طور پیشگیرانه شهودی در مورد نحوه عملکرد مدل ML آنها بر روی زیرمجموعه ها - همچنین به عنوان برش ها - در مجموعه داده شما ایجاد کنند. در حالی که این امر مستلزم آن است که سازندگان مجموعه داده در تجزیه و تحلیل خود از مجموعه داده و ارائه آن در کارت داده کوشاتر باشند، اما در نهایت می تواند منجر به نتایج بهتر محصول برای ذینفعان شود.
IDA می تواند به خوانندگان کمک کند تا درک بهتری از نحوه استفاده از مجموعه داده شما در مدل های خود داشته باشند. اگر مشکل دارید، با کارشناسان، تیم های محصول، و افراد با تجربه کار کنید تا به تحلیل های خود کمک کنید. IDA اغلب ریشه در زمینه هایی دارد که باید برای خوانندگان توضیح داده شود یا نیاز به پشتیبانی اضافی دارد تا خوانندگان بتوانند این موارد را به درستی تفسیر کنند.
6. داده های خود را تجزیه و تحلیل کنید
برای تجزیه و تحلیل مجموعه داده خود، این مراحل را دنبال کنید:
- قبل از شروع تجزیه و تحلیل خود، کاوش کنید. با ابزاری مانند اعتبارسنجی دادههای TensorFlow (TFDV) یا ابزار تفسیرپذیری یادگیری (LIT) شهودی برای انحرافات و عدم تعادل در مجموعه داده خود ایجاد کنید. از نتایج برای اطلاع رسانی به طراحی تحلیل خود استفاده کنید.
- تحلیل خود را با دقت طراحی کنید. نتایج تجزیه و تحلیل به شدت تحت تأثیر اهداف ارزیابی شما، دسترسی به تخصص و منابع برای انجام تجزیه و تحلیل، زمان و مکان انجام تجزیه و تحلیل، و زمینه های مدل های هوش مصنوعی است که در آن تجزیه و تحلیل انجام می شود.
- با عوامل مرتبط با استفاده مورد نظر خود شروع کنید. عوامل جمعیت شناختی، اجتماعی-فرهنگی، رفتاری و مورفولوژیکی را که می توانند در موارد استفاده مورد نظر شما در هنگام ایجاد گروه های مورد علاقه و سپس گسترش از آنجا، بیشتر تحت تأثیر قرار دهند.
- گزارش؛ نظر نده توجه داشته باشید که عوامل و مفروضاتی که بر تحلیلهای عادلانه تأثیر میگذارند، در ساختارهای اجتماعی خاص از نظر تاریخی و فرهنگی وجود دارند که تعیین کمیت آنها دشوار است. از اضافه کردن نظراتی که ممکن است خواننده را سردرگم کند مراقب باشید. در عوض، راههایی برای بازتولید تحلیلهایی ارائه کنید که میتواند به خوانندگان کمک کند تا نتایج را در زمینه خود کالیبره کنند.
- برای آینده برنامه ریزی کنید. با نگاه کردن به نمایش در مجموعه داده شما، ثابت نگه داشتن مقادیر در سناریوهای مختلف یا ترکیب تجزیه و تحلیل خود با طیف وسیعی از مقادیر عوامل اضافی مرتبط با مجموعه داده، عوامل دیگری را که ممکن است در آینده ظاهر شوند، در نظر بگیرید.
- زمینه بیشتری برای نتایج غیر قابل تکرار فراهم کنید. اگر معیارها نمی توانند توسط ذینفعان پایین دستی بازتولید شوند، زمینه کافی را در اطراف تجزیه و تحلیل ارائه دهید. اگر خواننده بتواند از این اطلاعات برای سنجش مزایا و معایب مجموعه داده استفاده کند، می تواند اعتمادی را به مجموعه داده ایجاد کند.
7. تبریک می گویم
تبریک می گویم! شما راه هایی برای ارائه پاسخ های مناسب در کارت داده خود دارید. اکنون شما آماده ممیزی آنها هستید.