Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Tujuan pembelajaran
Dalam modul ini, Anda akan belajar:
Menyelidiki potensi masalah yang mendasari set data mentah atau diproses, termasuk
pengumpulan data dan masalah kualitas.
Mengidentifikasi bias, inferensi yang tidak valid, dan rasionalisasi.
Temukan masalah umum dalam analisis data, termasuk korelasi,
keterkaitan, dan tidak relevan.
Periksa bagan untuk masalah umum, mispersepsi, dan
tampilan dan pilihan desain yang menyesatkan.
Motivasi ML
Meskipun tidak secanggih arsitektur model
dan pekerjaan model downstream lainnya,
eksplorasi, dokumentasi, dan pra-pemrosesan data
sangat penting untuk
ML. Praktisi ML dapat termasuk dalam apa yang Nithya Sambasivan et al. disebut
penyusunan data
dalam makalah ACM 2021
jika mereka tidak memahami secara mendalam:
kondisi pengumpulan data
kualitas, karakteristik, dan keterbatasan data
data apa yang bisa dan tidak bisa ditampilkan
Sangat mahal untuk melatih model pada data yang buruk dan
hanya mencari tahu pada titik output berkualitas rendah bahwa ada masalah
dengan data. Demikian juga, kegagalan untuk
memahami batasan data, manusia
bias dalam mengumpulkan data, atau
salah memahami korelasi kausalitas,
dapat mengakibatkan hasil yang menjanjikan
dan kurang tayang, yang dapat menyebabkan
hilangnya kepercayaan.
Kursus ini membahas jebakan data umum, tetapi halus yang tidak diketahui oleh ML dan data
yang mungkin dihadapi praktisi
dalam pekerjaan mereka.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Informasi yang saya butuhkan tidak ada","missingTheInformationINeed","thumb-down"],["Terlalu rumit/langkahnya terlalu banyak","tooComplicatedTooManySteps","thumb-down"],["Sudah usang","outOfDate","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Masalah kode / contoh","samplesCodeIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2024-07-26 UTC."],[[["This module teaches you to identify potential issues in datasets, including biases and invalid inferences, ultimately helping you build better ML models."],["Understanding data limitations and collection conditions is crucial to avoid \"data cascades\" that lead to poor model performance and wasted resources."],["The module explores common data analysis pitfalls, such as mistaking correlation for causation, and emphasizes the importance of proper data exploration and preprocessing in machine learning workflows."],["By recognizing common problems in charts and data visualizations, you'll be able to avoid misperceptions and ensure accurate data representation."]]],[]]