Incorporamenti: traduzione in uno spazio di dimensioni inferiori

Puoi risolvere i problemi principali dei dati di input sparsi mappando i dati ad alta dimensione in uno spazio di dimensioni inferiori.

Come hai visto negli esercizi cinematografici precedenti, anche un piccolo spazio multidimensionale offre la libertà di raggruppare elementi semanticamente simili e di tenere gli elementi diversi l'uno dall'altro. La posizione (distanza e direzione) nello spazio vettoriale può codificare la semantica in un buon incorporamento. Ad esempio, le seguenti visualizzazioni di incorporamenti reali mostrano relazioni geometriche che acquisiscono relazioni semantiche come la relazione tra un paese e la sua capitale:

Tre esempi di incorporamenti di parole che rappresentano geometricamente le relazioni tra parole: genere (uomo/donna e re/regina), tempo verbo (a piedi/camminato e nuoto/nuoto) e capitali (Turchia/Ankara e Vietnam/Hanoi)

Figura 4. Gli incorporamenti possono produrre analogie straordinarie.

Questo tipo di spazio significativo offre al tuo sistema di machine learning l'opportunità di rilevare pattern che potrebbero esserti utili per l'attività di apprendimento.

Riduzione della rete

Sebbene siano sufficienti dimensioni per codificare relazioni semantiche avanzate, vogliamo anche uno spazio di incorporamento sufficientemente piccolo da consentirci di addestrare il nostro sistema più rapidamente. Un incorporamento utile può essere dell'ordine di centinaia di dimensioni. Si tratta probabilmente di ordini di grandezza più piccoli rispetto alle dimensioni del tuo vocabolario per un'attività di linguaggio naturale.