Data numerik benar
dapat dikalikan secara bermakna. Misalnya, pertimbangkan
yang memprediksi nilai rumah berdasarkan luasnya.
Perhatikan bahwa model yang berguna untuk mengevaluasi harga rumah biasanya bergantung pada
ratusan fitur. Yang mengatakan, semua yang lain sama, sebuah rumah seluas 200 persegi
meter seharusnya kira-kira dua kali lebih berharga dibandingkan
rumah identik dengan luas 100 meter persegi
meter.
Sering kali, Anda harus merepresentasikan fitur yang berisi nilai bilangan bulat sebagai
data kategorikal alih-alih data numerik. Misalnya, perhatikan alamat pos
fitur kode yang mana nilainya adalah bilangan bulat. Jika Anda mewakili ini
fitur secara numerik, bukan kategoris, Anda meminta model
untuk menemukan hubungan numerik
di antara kode pos yang berbeda. Artinya, Anda memberi tahu model untuk
memperlakukan kode pos 20004 dua kali (atau setengah) lebih besar sinyalnya
10002. Dengan merepresentasikan kode pos sebagai data kategorik, model ini dapat
berat setiap kode pos secara terpisah.
Encoding
Encoding berarti mengonversi data kategori atau data lainnya menjadi vektor numerik
yang dapat digunakan untuk melatih model. Konversi ini diperlukan karena model dapat
hanya melatih nilai floating point; model tidak bisa dilatih dengan {i>string<i} seperti
"dog" atau "maple". Modul ini menjelaskan berbagai
metode encoding untuk data kategorik.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Informasi yang saya butuhkan tidak ada","missingTheInformationINeed","thumb-down"],["Terlalu rumit/langkahnya terlalu banyak","tooComplicatedTooManySteps","thumb-down"],["Sudah usang","outOfDate","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Masalah kode / contoh","samplesCodeIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2024-08-13 UTC."],[[["This module focuses on differentiating between categorical and numerical data within machine learning."],["You will learn how to represent categorical data using one-hot vectors and address common issues associated with it."],["The module covers encoding techniques for converting categorical data into numerical vectors suitable for model training."],["Feature crosses, a method for combining categorical features to capture interactions, are also discussed."],["It is assumed you have prior knowledge of introductory machine learning and working with numerical data."]]],[]]