Глоссарий по машинному обучению: модели последовательности

Эта страница содержит термины глоссария Sequence Models. Чтобы просмотреть все термины глоссария, щелкните здесь .

Б

биграмма

#последовательность
#язык

N-грамма , в которой N=2.

Е

проблема взрывающегося градиента

#последовательность

Тенденция градиентов в глубоких нейронных сетях (особенно в рекуррентных нейронных сетях ) становиться удивительно крутой (высокой). Крутые градиенты часто вызывают очень большие обновления весов каждого узла в глубокой нейронной сети.

Модели, страдающие от проблемы взрывающегося градиента, становятся трудными или невозможными для обучения. Обрезка градиента может смягчить эту проблему.

Сравните с проблемой исчезающего градиента .

Ф

забыть ворота

#последовательность

Часть ячейки долговременной кратковременной памяти , которая регулирует поток информации через ячейку. Ворота «забыть» поддерживают контекст, решая, какую информацию следует отбросить из состояния ячейки.

г

градиентная обрезка

#последовательность

Широко используемый механизм для смягчения проблемы взрывающегося градиента путем искусственного ограничения (отсечения) максимального значения градиентов при использовании градиентного спуска для обучения модели.

л

Долгая кратковременная память (LSTM)

#последовательность

Тип ячейки в рекуррентной нейронной сети , используемой для обработки последовательностей данных в таких приложениях, как распознавание рукописного ввода, машинный перевод и субтитры к изображениям. LSTM решают проблему исчезающего градиента , которая возникает при обучении RNN из-за длинных последовательностей данных, сохраняя историю во внутренней памяти на основе новых входных данных и контекста из предыдущих ячеек в RNN.

ЛСТМ

#последовательность

Аббревиатура долговременной кратковременной памяти .

Н

N-грамм

#последовательность
#язык

Упорядоченная последовательность из N слов. Например, по-настоящему безумным является 2-грамм. Поскольку порядок имеет значение, «безумно действительно» отличается от «истинно безумно» на 2 грамма.

Н Название (имена) для этого типа N-грамм Примеры
2 биграмм или 2-грамм идти, пойти, пообедать, поужинать
3 триграмма или 3-грамм съел слишком много, три слепые мыши, звонит колокол
4 4 грамма прогулка в парке, пыль на ветру, мальчик ел чечевицу

Многие модели понимания естественного языка полагаются на N-граммы для предсказания следующего слова, которое пользователь наберет или скажет. Например, предположим, что пользователь набрал три слепых . Модель NLU, основанная на триграммах, скорее всего, предскажет, что следующим пользователем будет тип мыши .

Сравните N-граммы с набором слов , которые представляют собой неупорядоченные наборы слов.

р

рекуррентная нейронная сеть

#последовательность

Нейронная сеть , которая намеренно запускается несколько раз, где части каждого запуска передаются в следующий запуск. В частности, скрытые слои из предыдущего запуска предоставляют часть входных данных для того же скрытого слоя при следующем запуске. Рекуррентные нейронные сети особенно полезны для оценки последовательностей, так что скрытые слои могут учиться на предыдущих запусках нейронной сети на более ранних частях последовательности.

Например, на следующем рисунке показана рекуррентная нейронная сеть, которая запускается четыре раза. Обратите внимание, что значения, полученные в скрытых слоях при первом запуске, становятся частью входных данных для тех же скрытых слоев при втором запуске. Точно так же значения, полученные в скрытом слое при втором запуске, становятся частью входных данных для того же скрытого слоя при третьем запуске. Таким образом, рекуррентная нейронная сеть постепенно обучается и предсказывает значение всей последовательности, а не только значение отдельных слов.

RNN, которая запускается четыре раза для обработки четырех входных слов.

РНН

#последовательность

Аббревиатура рекуррентных нейронных сетей .

С

модель последовательности

#последовательность

Модель, входы которой имеют последовательную зависимость. Например, предсказание следующего видео, просмотренного на основе последовательности ранее просмотренных видео.

Т

шаг времени

#последовательность

Одна «развернутая» ячейка в рекуррентной нейронной сети . Например, на следующем рисунке показаны три временных шага (помеченные нижними индексами t-1, t и t+1):

Три временных шага в рекуррентной нейронной сети. Выходные данные первого временного шага становятся входными данными для второго временного шага. Выходные данные второго временного шага становятся входными данными для третьего временного шага.

триграмма

#последовательность
#язык

N-грамма , в которой N=3.

В

проблема с исчезающим градиентом

#последовательность

Тенденция к тому, что градиенты ранних скрытых слоев некоторых глубоких нейронных сетей становятся удивительно плоскими (низкими). Все более низкие градиенты приводят к все меньшим изменениям весов узлов в глубокой нейронной сети, что приводит к небольшому обучению или его отсутствию. Модели, страдающие от проблемы исчезающего градиента, становятся трудными или невозможными для обучения. Ячейки долговременной кратковременной памяти решают эту проблему.

Сравните с проблемой взрывающегося градиента .