Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Lernziele
In diesem Modul lernen Sie:
Potenzielle Probleme bei Rohdaten oder verarbeiteten Datasets untersuchen, einschließlich
Probleme mit der Erhebung und Qualität.
Voreingenommenheiten, ungültige Inferenzen und Rationalisierungen identifizieren.
Häufige Probleme in der Datenanalyse, einschließlich Korrelation,
Verbundenheit und Irrelevanz.
ein Diagramm auf häufige Probleme, Missverständnisse
oder irreführende
Darstellungs- und Designentscheidungen.
Motivation für maschinelles Lernen
Zwar nicht so glamourös wie Modellarchitekturen und andere nachgelagerte Modelle,
Datenerkundung, Dokumentation und Vorverarbeitung sind entscheidend,
mit maschinellem Lernen. ML-Anwender können in das fallen, was Nithya Sambasivan et al. angerufen
Datenkaskaden
in ihrem ACM-Publikation 2021
wenn sie nicht genau verstehen:
die Bedingungen, unter denen ihre Daten erhoben werden
der Qualität, Eigenschaften und Einschränkungen der Daten
was die Daten zeigen und was nicht
Es ist sehr teuer, Modelle mit schlechten Daten zu trainieren
nur bei qualitativ minderwertigen Ausgaben feststellen,
mit den Daten. Ebenso verhält es sich, wenn man die Grenzen von Daten nicht wahrnimmt,
Verzerrungen bei der Datenerfassung
oder die Verwechslung von Korrelationen
zu vielversprechenden und unzureichenden Ergebnissen führen,
Vertrauensverlust.
In diesem Kurs geht es um gängige, aber subtile Datenfallen, die ML und Daten
bei der Arbeit begegnen können.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Benötigte Informationen nicht gefunden","missingTheInformationINeed","thumb-down"],["Zu umständlich/zu viele Schritte","tooComplicatedTooManySteps","thumb-down"],["Nicht mehr aktuell","outOfDate","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Problem mit Beispielen/Code","samplesCodeIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2024-07-26 (UTC)."],[[["This module teaches you to identify potential issues in datasets, including biases and invalid inferences, ultimately helping you build better ML models."],["Understanding data limitations and collection conditions is crucial to avoid \"data cascades\" that lead to poor model performance and wasted resources."],["The module explores common data analysis pitfalls, such as mistaking correlation for causation, and emphasizes the importance of proper data exploration and preprocessing in machine learning workflows."],["By recognizing common problems in charts and data visualizations, you'll be able to avoid misperceptions and ensure accurate data representation."]]],[]]