Оптимизируйте свои подборки
Сохраняйте и классифицируйте контент в соответствии со своими настройками.
Цели обучения
В этом модуле вы научитесь:
Изучите потенциальные проблемы, лежащие в основе необработанных или обработанных наборов данных, включая проблемы со сбором и качеством.
Выявите предубеждения, неверные выводы и рационализации.
Найдите общие проблемы при анализе данных, включая корреляцию, взаимосвязь и нерелевантность.
Изучите таблицу на предмет распространенных проблем, неправильных представлений, а также вводящих в заблуждение вариантов отображения и дизайна.
Мотивация МО
Исследование, документирование и предварительная обработка данных, хотя и не так привлекательны, как архитектура моделей и другие последующие работы с моделями, имеют решающее значение для работы ML. Практики ОД могут попасть в то, что Нитья Самбасиван и др. назвали каскадами данных в своей статье ACM 2021 года, если они не глубоко понимают:
условия, при которых собираются их данные
качество, характеристики и ограничения данных
что данные могут и не могут показать
Очень дорого обучать модели на плохих данных и только при получении некачественных результатов обнаружить проблемы с данными. Аналогичным образом, неспособность осознать ограничения данных, человеческие предубеждения при сборе данных или ошибочное принятие корреляции за причинно-следственную связь могут привести к чрезмерно многообещающим и недостижимым результатам, что может привести к потере доверия.
В этом курсе рассматриваются распространенные, но тонкие ловушки данных, с которыми специалисты по машинному обучению и данным могут столкнуться в своей работе.
[[["Прост для понимания","easyToUnderstand","thumb-up"],["Помог мне решить мою проблему","solvedMyProblem","thumb-up"],["Другое","otherUp","thumb-up"]],[["Отсутствует нужная мне информация","missingTheInformationINeed","thumb-down"],["Слишком сложен/слишком много шагов","tooComplicatedTooManySteps","thumb-down"],["Устарел","outOfDate","thumb-down"],["Проблема с переводом текста","translationIssue","thumb-down"],["Проблемы образцов/кода","samplesCodeIssue","thumb-down"],["Другое","otherDown","thumb-down"]],["Последнее обновление: 2024-10-26 UTC."],[[["This module teaches you to identify potential issues in datasets, including biases and invalid inferences, ultimately helping you build better ML models."],["Understanding data limitations and collection conditions is crucial to avoid \"data cascades\" that lead to poor model performance and wasted resources."],["The module explores common data analysis pitfalls, such as mistaking correlation for causation, and emphasizes the importance of proper data exploration and preprocessing in machine learning workflows."],["By recognizing common problems in charts and data visualizations, you'll be able to avoid misperceptions and ensure accurate data representation."]]],[]]