Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Bayangkan Anda sedang mengembangkan aplikasi rekomendasi makanan. Di aplikasi tersebut,
pengguna dapat memasukkan makanan favorit mereka, lalu aplikasi ini akan menyarankan makanan
serupa yang mungkin mereka sukai. Anda ingin mengembangkan model machine learning (ML)
yang dapat memprediksi kemiripan makanan, sehingga aplikasi Anda dapat memberikan
rekomendasi berkualitas tinggi ("Karena Anda suka panekuk, kami merekomendasikan krep").
Untuk melatih model tersebut, Anda menyeleksi sebuah set data berisi 5.000 item makanan populer, termasuk borscht,
hot dog,
salad,
pizza,
dan shawarma.
Gambar 1. Sampel item makanan yang termasuk dalam set data makanan.
Anda membuat fitur meal yang berisi representasi
setiap item makanan yang
dienkode one-hot dalam set data.
Encoding mengacu pada proses
memilih representasi numerik awal dari data untuk melatih model.
Gambar 2. Enkode one-hot pada borscht, hot dog, dan shawarma.
Setiap vektor enkode one-hot memiliki panjang 5.000 entri (satu entri untuk setiap
item menu dalam set data). Elipsis pada diagram merepresentasikan
4.995 entri yang tidak ditampilkan.
Potensi masalah dalam representasi data sparse
Setelah meninjau enkode one-hot ini, Anda menyadari beberapa masalah terkait
representasi data tersebut.
Jumlah bobot. Jika vektor input sangat banyak,
jaringan neural
akan memiliki jumlah bobot yang sangat besar.
Jika M adalah jumlah entri dalam enkode one-hot Anda, dan N
adalah jumlah node pada lapisan pertama jaringan setelah input, artinya model harus melatih
bobot sebesar MxN untuk lapisan tersebut.
Jumlah titik data. Makin besar bobot dalam model Anda, makin banyak data
yang perlu dilatih secara efektif.
Jumlah komputasi. Makin besar bobotnya, makin banyak komputasi yang diperlukan
untuk melatih dan menggunakan model. Tanpa disadari, Anda bisa saja melampaui kemampuan hardware
Anda.
Jumlah memori. Makin besar bobot dalam model Anda, makin banyak memori yang
dibutuhkan pada akselerator yang melatih dan menayangkannya. Dalam hal ini, peningkatan
skala secara efisien sangatlah sulit.
Sulitnya mendukung
machine learning di perangkat (ODML).
Jika Anda berencana menjalankan model ML di perangkat lokal (alih-alih menayangkannya),
Anda harus fokus untuk memperkecil model Anda, dan sebaiknya
kurangi juga jumlah bobotnya.
Dalam modul ini, Anda akan mempelajari cara membuat embedding, yakni representasi
data sparse berdimensi lebih rendah, yang menangani masalah ini.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Informasi yang saya butuhkan tidak ada","missingTheInformationINeed","thumb-down"],["Terlalu rumit/langkahnya terlalu banyak","tooComplicatedTooManySteps","thumb-down"],["Sudah usang","outOfDate","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Masalah kode / contoh","samplesCodeIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-05-20 UTC."],[[["This module explains how to create embeddings, which are lower-dimensional representations of sparse data that address the problems of large input vectors and lack of meaningful relations between vectors in one-hot encoding."],["One-hot encoding creates large input vectors, leading to a huge number of weights in a neural network, requiring more data, computation, and memory."],["One-hot encoding vectors lack meaningful relationships, failing to capture semantic similarities between items, like the example of hot dogs and shawarmas being more similar than hot dogs and salads."],["Embeddings offer a solution by providing dense vector representations that capture semantic relationships and reduce the dimensionality of data, improving efficiency and performance in machine learning models."],["This module assumes familiarity with introductory machine learning concepts like linear regression, categorical data, and neural networks."]]],[]]