機械学習の用語集: シーケンス モデル

このページでは、シーケンス モデルの用語集について説明します。すべての用語集の用語については、こちらをクリックしてください。

B

Bigram

#seq
#language

N=2 の N グラム

E

勾配爆発問題

#seq

ディープ ニューラル ネットワーク(特に再帰ニューラル ネットワーク)における勾配が驚くほど急になる(高)傾向。勾配の急激な勾配は、多くの場合、ディープ ニューラル ネットワークの各ノード重みに対して非常に大規模な更新となります。

勾配の急増の問題に悩まされているモデルは、トレーニングが困難または不可能になります。この問題は、グラデーションのクリッピングで軽減できます。

勾配消失の問題と比較します。

F

ゲートを忘れて

#seq

長期短期メモリセルの一部で、セル内を流れる情報を制御します。ゲートを削除するために、セル状態から破棄する情報を決定します。

G

グラデーションのクリッピング

#seq

一般に勾配降下法を使用してモデルをトレーニングする場合に勾配の最大値を人為的に制限(クリッピング)することにより、勾配爆発問題を軽減するためによく使用されるメカニズム。

L

長期短期メモリ(LSTM)

#seq

手書き認識、機械翻訳、画像字幕起こしなどのアプリケーションでデータ シーケンスを処理するために使用される再帰型ニューラル ネットワーク内のセル。LSTM は、RNN 内の以前のセルから新しい入力とコンテキストに基づいて内部メモリ状態で履歴を維持することにより、長いデータ シーケンスのために RNN をトレーニングする際に発生する勾配消失問題に対処します。

LSTM

#seq

Long Term Term Memory の略。

N

N グラム

#seq
#language

N 個の単語の順序付きシーケンス。たとえば、mly madly は 2 グラムです。順序は関連するため、本当に、2 グラムは 2 グラムとは異なります。

N この N グラムのこの名前
2 バイグラムまたは 2 グラム 外食する、昼食、夕食を食べに
3 トライグラムまたは 3 グラム
4 4 グラム 少年はレンズ豆を食べて、

自然言語理解モデルの多くで、ユーザーが次に入力または発話する単語を N グラムで予測します。たとえば、ユーザーが「ブラインド 3 つ」と入力したとします。トライグラムに基づく NLU モデルでは、ユーザーは次に「マウス」を入力すると予測されます。

N グラムは順序付けされていない単語セットであると対比します。

(右)

再帰型ニューラル ネットワーク

#seq

意図的に複数回実行されるニューラル ネットワーク。各実行のフィードが次回の実行に送られます。具体的には、前回の実行の隠しレイヤが、次の実行で同じ隠しレイヤに入力の一部となります。再帰型ニューラル ネットワークは、シーケンスを評価する際に特に有用です。そのため、隠れ層は、シーケンスの前半におけるニューラル ネットワークの過去の実行から学習できます。

たとえば、次の図は、4 回実行される再帰型ニューラル ネットワークを示しています。最初の実行で隠れ層から学習された値は、2 回目の実行でも同じ隠れ層への入力の一部になります。同様に、2 回目の実行で隠しレイヤに学習された値は、3 回目の実行で同じ隠しレイヤへの入力の一部になります。このように、再帰ニューラル ネットワークは、個々の単語の意味だけでなく、シーケンス全体の意味についても、徐々にトレーニングして予測しています。

4 つの入力単語を処理するために 4 回実行される RNN。

RNN

#seq

反復性ニューラル ネットワークの略語。

S

シーケンス モデル

#seq

入力がシーケンシャル依存性を持つモデル。たとえば、以前に視聴された一連の動画から次の動画が予測されます。

タイムステップ

#seq

再帰型ニューラル ネットワーク内の 1 つの「ロールアウトされた」セル。次の図は、3 つのタイムステップを示しています(下付き文字 t-1、t、t+1 のラベルが付いています)。

再帰型ニューラル ネットワークにおける 3 つのタイムステップ。1 つ目のタイムステップの出力が 2 つ目のタイムステップへの入力になります。2 つ目のタイムステップの出力は 3 つ目のタイムステップへの入力になります。

Trigram

#seq
#language

N グラム(N=3)。

V

勾配消失の問題

#seq

一部のディープ ニューラル ネットワークにおける初期の隠れ層の勾配が驚くほど平坦(低)になる傾向。勾配がだんだんと少なくなると、ディープ ニューラル ネットワーク内のノードの重みに対する変更はますます小さくなり、学習はほとんどないか、まったくなくなります。勾配消失問題が起こるモデルは、トレーニングが困難または不可能になります。Long Term Term Memory のセルは、この問題に対処します。

爆発勾配問題と比較します。