エンベディング: 低次元空間への変換

高次元データを低次元空間にマッピングすることで、スパースな入力データに関する主な問題を解決できます。

以前の映画の演習で見たように、小さな多次元空間であっても、意味的に類似したアイテムをグループにまとめて、異なるアイテムを遠ざけることができます。ベクトル空間の位置(距離と方向)により、適切なエンベディングでセマンティクスをエンコードできます。たとえば、次のように、実際のエンベディングを可視化すると、国とその首都の関係のようなセマンティックな関係を表現する幾何学的な関係がわかります。

単語関係を幾何学的に表現する 3 つの単語エンベディングの例: 性別(男性/女性と王/女王)、動詞の時制(徒歩/徒歩と水泳/遊泳)、首都(トルコ/アンカラとベトナム/ハノイ)

図 4. エンベディングは卓越した類似性です。

このような意味のある空間は、機械学習システムが学習タスクに役立つパターンを検出する機会となります。

ネットワークの圧縮

リッチ セマンティック リレーションをエンコードするのに十分なディメンションが必要ですが、システムのトレーニングを高速化するのに十分な大きさのエンベディング スペースも必要です。有用なエンベディングは、数百次元のオーダーかもしれません。これは、自然言語タスクの語彙のサイズよりも数桁小さくなる可能性があります。