Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Obiettivi di apprendimento
In questo modulo imparerai a:
Analizzare potenziali problemi alla base di set di dati non elaborati o elaborati, tra cui
problemi relativi a raccolta e qualità.
Identificare bias, inferenze non valide e razionalizzazioni.
Individuare i problemi comuni nell'analisi dei dati, tra cui la correlazione,
correlazione e irrilevanza.
Esaminare un grafico dei problemi comuni, delle percezioni errate e
scelte di design e visualizzazione fuorvianti.
Motivazione ML
Sebbene non così glamour come le architetture dei modelli e altri modelli downstream,
l'esplorazione, la documentazione e la pre-elaborazione dei dati sono fondamentali
nell'ambito del machine learning. I professionisti del ML possono rientrare in ciò che Nithya Sambasivan et al. chiamata
cascade di dati
nel loro articolo ACM del 2021
se non comprendono appieno:
le condizioni in cui i loro dati sono raccolti
la qualità, le caratteristiche e i limiti dei dati
cosa possono e non possono mostrare i dati
È molto costoso addestrare modelli con dati errati
Scoprire solo al punto di output di bassa qualità che c'erano problemi
con i dati. Analogamente, un'incapacità di comprendere i limiti dei dati, delle
pregiudizi nella raccolta dei dati o errata correlazione tra le
può portare a risultati troppo promettenti e insufficienti, che possono portare a
perdita di fiducia.
Questo corso illustra le trappole comuni ma sottili che ML e dati
che i professionisti potrebbero incontrare nel loro lavoro.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Mancano le informazioni di cui ho bisogno","missingTheInformationINeed","thumb-down"],["Troppo complicato/troppi passaggi","tooComplicatedTooManySteps","thumb-down"],["Obsoleti","outOfDate","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Problema relativo a esempi/codice","samplesCodeIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2024-07-26 UTC."],[[["This module teaches you to identify potential issues in datasets, including biases and invalid inferences, ultimately helping you build better ML models."],["Understanding data limitations and collection conditions is crucial to avoid \"data cascades\" that lead to poor model performance and wasted resources."],["The module explores common data analysis pitfalls, such as mistaking correlation for causation, and emphasizes the importance of proper data exploration and preprocessing in machine learning workflows."],["By recognizing common problems in charts and data visualizations, you'll be able to avoid misperceptions and ensure accurate data representation."]]],[]]