Embeddings: Menerjemahkan ke Ruang Dimensi yang Lebih Rendah

Anda dapat menyelesaikan masalah inti dari data input renggang dengan memetakan data dimensi tinggi ke ruang dimensi yang lebih rendah.

Seperti yang Anda lihat dalam latihan film sebelumnya, bahkan ruang multi-dimensi yang kecil menyediakan kebebasan untuk mengelompokkan item yang serupa secara semantik dan memisahkan item yang berbeda. Posisi (jarak dan arah) dalam ruang vektor dapat mengenkode semantik dalam penyematan yang baik. Misalnya, visualisasi embeddings berikut menunjukkan hubungan geometris yang menangkap hubungan semantik seperti hubungan antara suatu negara dan ibu kotanya:

Tiga contoh penyematan kata yang mewakili hubungan kata secara geometris: jenis kelamin (laki-laki/perempuan dan raja/ratu), bentuk kata kerja (berjalan/berjalan dan berenang/berenang), dan ibu kota (Turki/Ankara dan Vietnam/Hanoi)

Gambar 4. Embeddings dapat menghasilkan analogi yang luar biasa.

Ruang yang bermakna ini memberi sistem machine learning Anda peluang untuk mendeteksi pola yang dapat membantu tugas pembelajaran.

Mengecilkan jaringan

Meskipun kami ingin dimensi yang cukup untuk mengenkode hubungan semantik yang beragam, kami juga menginginkan ruang penyematan yang cukup kecil untuk memungkinkan kami melatih sistem dengan lebih cepat. Penyematan yang berguna dapat memiliki urutan ratusan dimensi. Kemungkinan beberapa tingkat magnitudo lebih kecil dari ukuran kosakata untuk tugas bahasa alami.