با مجموعهها، منظم بمانید
ذخیره و طبقهبندی محتوا براساس اولویتهای شما.
اهداف آموزشی
در این ماژول شما یاد خواهید گرفت که:
مسائل بالقوه زیربنای مجموعه داده های خام یا پردازش شده، از جمله مسائل مربوط به مجموعه و کیفیت را بررسی کنید.
سوگیری ها، استنتاج های نامعتبر و منطقی سازی ها را شناسایی کنید.
مسائل متداول را در تجزیه و تحلیل داده ها، از جمله همبستگی، ارتباط و عدم ربط پیدا کنید.
نموداری را برای مشکلات رایج، برداشت های نادرست و انتخاب های نمایش و طراحی گمراه کننده بررسی کنید.
انگیزه ML
در حالی که به اندازه معماری های مدل و سایر کارهای مدل پایین دستی جذاب نیست، کاوش، مستندسازی و پیش پردازش داده ها برای کار ML حیاتی هستند. تمرینکنندگان ML میتوانند با آنچه نیتیا سامباسیوان و همکارانش مواجه شوند. اگر عمیقاً درک نکنند، در مقاله ACM 2021 خود آبشار داده نامیده می شوند:
شرایطی که داده های آنها در آن جمع آوری می شود
کیفیت، ویژگی ها و محدودیت های داده ها
آنچه داده ها می توانند و نمی توانند نشان دهند
آموزش مدلها روی دادههای بد بسیار گران است و فقط در نقطه خروجیهای با کیفیت پایین متوجه میشوید که مشکلاتی در دادهها وجود دارد. به همین ترتیب، عدم درک محدودیتهای دادهها، سوگیریهای انسانی در جمعآوری دادهها، یا اشتباه گرفتن همبستگی برای علیت، میتواند منجر به نتایج بیش از حد امیدوارکننده و کم ارائه شود که میتواند منجر به از دست دادن اعتماد شود.
این دوره از تله های داده رایج اما ظریفی که متخصصان ML و داده ممکن است در کار خود با آنها مواجه شوند، می گذرد.
تاریخ آخرین بهروزرسانی 2024-10-26 بهوقت ساعت هماهنگ جهانی.
[[["درک آسان","easyToUnderstand","thumb-up"],["مشکلم را برطرف کرد","solvedMyProblem","thumb-up"],["غیره","otherUp","thumb-up"]],[["اطلاعاتی که نیاز دارم وجود ندارد","missingTheInformationINeed","thumb-down"],["بیشازحد پیچیده/ مراحل بسیار زیاد","tooComplicatedTooManySteps","thumb-down"],["قدیمی","outOfDate","thumb-down"],["مشکل ترجمه","translationIssue","thumb-down"],["مشکل کد / نمونهها","samplesCodeIssue","thumb-down"],["غیره","otherDown","thumb-down"]],["تاریخ آخرین بهروزرسانی 2024-10-26 بهوقت ساعت هماهنگ جهانی."],[[["This module teaches you to identify potential issues in datasets, including biases and invalid inferences, ultimately helping you build better ML models."],["Understanding data limitations and collection conditions is crucial to avoid \"data cascades\" that lead to poor model performance and wasted resources."],["The module explores common data analysis pitfalls, such as mistaking correlation for causation, and emphasizes the importance of proper data exploration and preprocessing in machine learning workflows."],["By recognizing common problems in charts and data visualizations, you'll be able to avoid misperceptions and ensure accurate data representation."]]],[]]