Data numerik benar
dapat dikalikan secara bermakna. Misalnya, pertimbangkan
model yang memprediksi nilai rumah berdasarkan areanya.
Perhatikan bahwa model yang berguna untuk mengevaluasi harga rumah biasanya mengandalkan
ratusan fitur. Dengan demikian, jika semua hal lainnya sama, rumah seluas 200 meter
persegi seharusnya bernilai dua kali lipat dari rumah identik seluas 100 meter
persegi.
Sering kali, Anda harus merepresentasikan fitur yang berisi nilai bilangan bulat sebagai
data kategorikal alih-alih data numerik. Misalnya, pertimbangkan fitur kode pos yang nilainya berupa bilangan bulat. Jika Anda mewakili ini
fitur secara numerik, bukan kategoris, Anda meminta model
untuk menemukan hubungan numerik
di antara kode pos yang berbeda. Artinya, Anda memberi tahu model untuk
memperlakukan kode pos 20004 sebagai sinyal dua kali (atau setengah) lebih besar dari kode pos
10002. Merepresentasikan kode pos sebagai data kategorik memungkinkan model
memberi bobot setiap kode pos secara terpisah.
Encoding
Encoding berarti mengonversi data kategori atau data lainnya menjadi vektor numerik
yang dapat digunakan untuk melatih model. Konversi ini diperlukan karena model hanya dapat
dilatih pada nilai floating point; model tidak dapat dilatih pada string seperti
"dog" atau "maple". Modul ini menjelaskan berbagai
metode encoding untuk data kategorik.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Informasi yang saya butuhkan tidak ada","missingTheInformationINeed","thumb-down"],["Terlalu rumit/langkahnya terlalu banyak","tooComplicatedTooManySteps","thumb-down"],["Sudah usang","outOfDate","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Masalah kode / contoh","samplesCodeIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-07-27 UTC."],[[["This module focuses on differentiating between categorical and numerical data within machine learning."],["You will learn how to represent categorical data using one-hot vectors and address common issues associated with it."],["The module covers encoding techniques for converting categorical data into numerical vectors suitable for model training."],["Feature crosses, a method for combining categorical features to capture interactions, are also discussed."],["It is assumed you have prior knowledge of introductory machine learning and working with numerical data."]]],[]]