Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Model machine learning hanya dapat dilatih dengan nilai floating point.
Namun, banyak fitur set data bukan nilai floating point secara alami.
Oleh karena itu, salah satu bagian penting dari machine learning adalah mengubah
fitur non-floating point menjadi representasi floating point.
Misalnya, anggap street names adalah fitur. Sebagian besar nama jalan
adalah string, seperti "Broadway" atau "Vilakazi".
Model Anda tidak dapat dilatih di "Broadway", jadi Anda harus mengubah "Broadway"
menjadi bilangan floating point. Modul Data Kategoris menjelaskan cara melakukannya.
Selain itu, Anda bahkan harus mengubah sebagian besar fitur floating point.
Proses transformasi ini, yang disebut
normalisasi, mengonversi
angka floating point ke rentang terbatas yang meningkatkan pelatihan model.
Modul Data
Numerik
menjelaskan cara melakukannya.
Mengambil sampel data jika Anda memiliki terlalu banyak data
Beberapa organisasi diberkahi dengan berlimpahnya data.
Jika set data berisi terlalu banyak contoh, Anda harus memilih subkumpulan
contoh untuk pelatihan. Jika memungkinkan, pilih subset yang paling
relevan dengan prediksi model Anda.
Contoh filter yang berisi PII
Set data yang baik menghilangkan contoh yang berisi Informasi Identitas Pribadi
(PII). Kebijakan ini membantu menjaga privasi, tetapi dapat memengaruhi model.
Lihat modul Keamanan dan Privasi nanti dalam kursus untuk mengetahui informasi selengkapnya tentang topik ini.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Informasi yang saya butuhkan tidak ada","missingTheInformationINeed","thumb-down"],["Terlalu rumit/langkahnya terlalu banyak","tooComplicatedTooManySteps","thumb-down"],["Sudah usang","outOfDate","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Masalah kode / contoh","samplesCodeIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-07-27 UTC."],[[["\u003cp\u003eMachine learning models require all data, including features like street names, to be transformed into numerical (floating-point) representations for training.\u003c/p\u003e\n"],["\u003cp\u003eNormalization is crucial for optimizing model training by converting existing floating-point features to a specific range.\u003c/p\u003e\n"],["\u003cp\u003eWhen dealing with large datasets, selecting a relevant subset of data for training is essential for model performance.\u003c/p\u003e\n"],["\u003cp\u003eProtecting user privacy by excluding Personally Identifiable Information (PII) from datasets is a critical consideration.\u003c/p\u003e\n"]]],[],null,[]]