Kami akan menghapus Kursus Singkat Machine Learning dari situs ini pada tanggal 30 Juli 2021. Versi bahasa Inggris akan tetap tersedia.

Embeddings: Menerjemahkan ke Ruang Dimensi yang Lebih Rendah

Anda dapat memecahkan masalah inti dari data masukan renggang dengan memetakan data berdimensi tinggi ke ruang dimensi yang lebih rendah.

Seperti yang dapat Anda lihat pada latihan yang dilakukan di kertas, ruang multidimensi memberikan kebebasan untuk mengelompokkan item yang mirip secara semantik dan memisahkan item yang tidak mirip. Posisi (jarak dan arah) dalam ruang vektor dapat mengenkode semantik dalam embedding yang baik. Misalnya, visualisasi embeddings nyata berikut menunjukkan hubungan geometris yang memperlihatkan hubungan semantik seperti hubungan antara suatu negara dengan ibu kotanya:

Tiga contoh embeddings kata yang merepresentasikan hubungan kata secara geometris: jenis kelamin (pria/wanita dan raja/ratu), bentuk kata kerja (walking/walked dan swimming/swam), dan ibu kota negara (Turki/Ankara dan Vietnam/Hanoi)

Gambar 4. Embeddings dapat menghasilkan analogi yang luar biasa.

Ruang yang bermakna ini memberi sistem machine learning Anda peluang untuk mendeteksi pola yang dapat membantu dalam tugas belajar.

Mengecilkan jaringan

Meskipun kita menginginkan dimensi yang cukup untuk mengenkode hubungan semantik yang banyak, namun kita juga menginginkan ruang embeddings yang cukup kecil sehingga memungkinkan untuk melatih sistem dengan lebih cepat. Embeddings yang berguna mungkin berada di tingkat ratusan dimensi. Kemungkinan beberapa tingkat magnitudo lebih kecil dari ukuran kosakata untuk tugas bahasa alami.

Embeddings sebagai tabel pemeta

Embeddings merupakan matriks yang mana setiap kolom adalah vektor yang sesuai dengan item dalam kosakata Anda. Guna mendapatkan vektor padat untuk satu item kosakata, Anda perlu mengambil kolom yang sesuai dengan item tersebut.

Namun, bagaimana cara menerjemahkan vektor kumpulan kata-kata yang renggang? Guna mendapatkan vektor padat untuk vektor jarang yang merepresentasikan beberapa item kosakata (misalnya, semua kata dalam kalimat atau paragraf), Anda dapat mengambil embeddings untuk setiap item lalu menambahkannya secara bersamaan.

Jika vektor renggang berisi jumlah item kosakata, Anda dapat mengalikan setiap embeddings dengan jumlah item yang sesuai sebelum menambahkannye ke dalam jumlah total.

Operasi ini mungkin terlihat familiar.

Pemeta embeddings sebagai perkalian matriks

Prosedur penambahan, pemetaan, dan perkalian yang telah dijelaskan sama dengan perkalian matriks. Jika representasi renggang S berukuran 1 X N dan tabel embeddings E berukuran N X M, perkalian matriks S X E akan memberikan Anda vektor padat 1 X M.

Namun, bagaimana cara mendapatkan E? Kita akan mempelajari cara mendapatkan embeddings di bagian selanjutnya.