Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Praktisi ML menghabiskan jauh lebih banyak waktu untuk mengevaluasi, membersihkan, dan mentransformasi
data daripada membangun model.
Data sangat penting sehingga kursus ini mendedikasikan tiga unit untuk topiknya:
Unit ini berfokus pada
data numerik,
yang berarti bilangan bulat atau nilai floating point
yang berperilaku seperti angka. Yaitu, mereka adalah tambahan, dapat dihitung, diurutkan,
dan seterusnya. Unit berikutnya berfokus pada
data kategorik, yang dapat
termasuk angka yang berperilaku
seperti kategori. Unit ketiga berfokus pada cara
mempersiapkan data Anda untuk memastikan hasil yang berkualitas tinggi saat melatih dan mengevaluasi
model Anda.
Contoh data numerik meliputi:
Suhu
Berat
Jumlah rusa yang musim dingin di cagar alam
Sebaliknya, kode pos AS, meskipun
angka yang terdiri dari lima digit atau sembilan digit, tidak berperilaku seperti angka atau mewakili
hubungan matematis. Kode pos 40004 (di Nelson County, Kentucky) adalah
tidak dua kali lipat jumlah kode pos 20002 (di Washington, D.C.). Angka ini
merepresentasikan kategori, khususnya area geografis, dan dianggap
data kategorik.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Informasi yang saya butuhkan tidak ada","missingTheInformationINeed","thumb-down"],["Terlalu rumit/langkahnya terlalu banyak","tooComplicatedTooManySteps","thumb-down"],["Sudah usang","outOfDate","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Masalah kode / contoh","samplesCodeIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2024-08-13 UTC."],[[["This module focuses on preparing numerical data, such as temperature or weight, for use in machine learning models."],["Machine learning practitioners spend significant time on data preparation tasks like cleaning and transformation."],["The module covers techniques like feature scaling, outlier detection, and binning to improve data quality for model training."],["Learners should have a basic understanding of machine learning concepts before starting this module."],["Categorical data, like postal codes, will be addressed in a separate module due to its distinct characteristics and handling requirements."]]],[]]