Data numerik benar
dapat dikalikan secara bermakna. Misalnya, pertimbangkan
yang memprediksi nilai rumah berdasarkan luasnya.
Perhatikan bahwa model yang berguna untuk mengevaluasi harga rumah biasanya bergantung pada
ratusan fitur. Yang mengatakan, semua yang lain sama, sebuah rumah seluas 200 persegi
meter seharusnya kira-kira dua kali lebih berharga dibandingkan
rumah identik dengan luas 100 meter persegi
meter.
Sering kali, Anda harus merepresentasikan fitur yang berisi nilai bilangan bulat sebagai
data kategorikal alih-alih data numerik. Misalnya, perhatikan alamat pos
fitur kode yang mana nilainya adalah bilangan bulat. Jika Anda mewakili ini
fitur secara numerik, bukan kategoris, Anda meminta model
untuk menemukan hubungan numerik
di antara kode pos yang berbeda. Artinya, Anda memberi tahu model untuk
memperlakukan kode pos 20004 dua kali (atau setengah) lebih besar sinyalnya
10002. Dengan merepresentasikan kode pos sebagai data kategorik, model ini dapat
berat setiap kode pos secara terpisah.
Encoding
Encoding berarti mengonversi data kategori atau data lainnya menjadi vektor numerik
yang dapat digunakan untuk melatih model. Konversi ini diperlukan karena model dapat
hanya melatih nilai floating point; model tidak bisa dilatih dengan {i>string<i} seperti
"dog" atau "maple". Modul ini menjelaskan berbagai
metode encoding untuk data kategorik.