Эта страница содержит термины глоссария Sequence Models. Чтобы просмотреть все термины глоссария, щелкните здесь .
Б
биграмма
N-грамма , в которой N=2.
Е
проблема взрывающегося градиента
Тенденция градиентов в глубоких нейронных сетях (особенно в рекуррентных нейронных сетях ) становиться удивительно крутой (высокой). Крутые градиенты часто вызывают очень большие обновления весов каждого узла в глубокой нейронной сети.
Модели, страдающие от проблемы взрывающегося градиента, становятся трудными или невозможными для обучения. Обрезка градиента может смягчить эту проблему.
Сравните с проблемой исчезающего градиента .
Ф
забыть ворота
Часть ячейки долговременной кратковременной памяти , которая регулирует поток информации через ячейку. Ворота «забыть» поддерживают контекст, решая, какую информацию следует отбросить из состояния ячейки.
г
градиентная обрезка
Широко используемый механизм для смягчения проблемы взрывающегося градиента путем искусственного ограничения (отсечения) максимального значения градиентов при использовании градиентного спуска для обучения модели.
л
Долгая кратковременная память (LSTM)
Тип ячейки в рекуррентной нейронной сети , используемой для обработки последовательностей данных в таких приложениях, как распознавание рукописного ввода, машинный перевод и субтитры к изображениям. LSTM решают проблему исчезающего градиента , которая возникает при обучении RNN из-за длинных последовательностей данных, сохраняя историю во внутренней памяти на основе новых входных данных и контекста из предыдущих ячеек в RNN.
ЛСТМ
Аббревиатура долговременной кратковременной памяти .
Н
N-грамм
Упорядоченная последовательность из N слов. Например, по-настоящему безумным является 2-грамм. Поскольку порядок имеет значение, «безумно действительно» отличается от «истинно безумно» на 2 грамма.
Н | Название (имена) для этого типа N-грамм | Примеры |
---|---|---|
2 | биграмм или 2-грамм | идти, пойти, пообедать, поужинать |
3 | триграмма или 3-грамм | съел слишком много, три слепые мыши, звонит колокол |
4 | 4 грамма | прогулка в парке, пыль на ветру, мальчик ел чечевицу |
Многие модели понимания естественного языка полагаются на N-граммы для предсказания следующего слова, которое пользователь наберет или скажет. Например, предположим, что пользователь набрал три слепых . Модель NLU, основанная на триграммах, скорее всего, предскажет, что следующим пользователем будет тип мыши .
Сравните N-граммы с набором слов , которые представляют собой неупорядоченные наборы слов.
р
рекуррентная нейронная сеть
Нейронная сеть , которая намеренно запускается несколько раз, где части каждого запуска передаются в следующий запуск. В частности, скрытые слои из предыдущего запуска предоставляют часть входных данных для того же скрытого слоя при следующем запуске. Рекуррентные нейронные сети особенно полезны для оценки последовательностей, так что скрытые слои могут учиться на предыдущих запусках нейронной сети на более ранних частях последовательности.
Например, на следующем рисунке показана рекуррентная нейронная сеть, которая запускается четыре раза. Обратите внимание, что значения, полученные в скрытых слоях при первом запуске, становятся частью входных данных для тех же скрытых слоев при втором запуске. Точно так же значения, полученные в скрытом слое при втором запуске, становятся частью входных данных для того же скрытого слоя при третьем запуске. Таким образом, рекуррентная нейронная сеть постепенно обучается и предсказывает значение всей последовательности, а не только значение отдельных слов.
РНН
Аббревиатура рекуррентных нейронных сетей .
С
модель последовательности
Модель, входы которой имеют последовательную зависимость. Например, предсказание следующего видео, просмотренного на основе последовательности ранее просмотренных видео.
Т
шаг времени
Одна «развернутая» ячейка рекуррентной нейронной сети . Например, на следующем рисунке показаны три временных шага (помеченные нижними индексами t-1, t и t+1):
триграмма
N-грамма , в которой N=3.
В
проблема с исчезающим градиентом
Тенденция к тому, что градиенты ранних скрытых слоев некоторых глубоких нейронных сетей становятся удивительно плоскими (низкими). Все более низкие градиенты приводят к все меньшим изменениям весов узлов в глубокой нейронной сети, что приводит к небольшому обучению или его отсутствию. Модели, страдающие от проблемы исчезающего градиента, становятся трудными или невозможными для обучения. Ячейки долговременной кратковременной памяти решают эту проблему.
Сравните с проблемой взрывающегося градиента .