Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Objectifs de la formation
Dans ce module, vous allez apprendre à:
Examiner les problèmes potentiels sous-jacents aux ensembles de données bruts ou traités, y compris
les problèmes de collecte
et de qualité.
Identifier les biais, les inférences non valides et les rationalisations
Trouvez les problèmes courants en
analyse de données, notamment la corrélation,
leur relation et leur non-pertinence.
Examiner un graphique pour détecter les problèmes courants, les idées reçues et
des choix d'affichage et de conception trompeurs.
Motivation du ML
Bien qu'il ne soit pas aussi glamour que les architectures
de modèle et les autres modèles en aval,
l'exploration des données, la documentation
et le prétraitement sont essentiels pour
le travail du ML. Les professionnels du ML peuvent faire partie de l'étude de Nithya Sambasivan et al. appelé
cascade de données
dans son article d'ACM 2021
s'ils ne comprennent pas en profondeur:
les conditions dans lesquelles leurs données sont collectées
la qualité, les caractéristiques et les limites des données
ce que les données peuvent et ne peuvent pas montrer
Entraîner des modèles sur des données de mauvaise qualité est très onéreux,
ne découlent qu'au niveau des résultats de mauvaise qualité qu'il y a eu des problèmes
avec les données. De même, si l'incapacité à saisir les limites des données,
des biais lors de la collecte des données, ou de confondre
la corrélation avec la causalité,
peut entraîner des résultats trop prometteurs et sous-diffusés, ce qui peut entraîner
à la perte de confiance.
Ce cours présente les pièges de données courants, mais subtils, que le ML et les données
que les professionnels peuvent rencontrer dans leur travail.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2024/07/26 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Il n'y a pas l'information dont j'ai besoin","missingTheInformationINeed","thumb-down"],["Trop compliqué/Trop d'étapes","tooComplicatedTooManySteps","thumb-down"],["Obsolète","outOfDate","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Mauvais exemple/Erreur de code","samplesCodeIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2024/07/26 (UTC)."],[[["This module teaches you to identify potential issues in datasets, including biases and invalid inferences, ultimately helping you build better ML models."],["Understanding data limitations and collection conditions is crucial to avoid \"data cascades\" that lead to poor model performance and wasted resources."],["The module explores common data analysis pitfalls, such as mistaking correlation for causation, and emphasizes the importance of proper data exploration and preprocessing in machine learning workflows."],["By recognizing common problems in charts and data visualizations, you'll be able to avoid misperceptions and ensure accurate data representation."]]],[]]