Bảng thuật ngữ máy học: Mô hình trình tự

Trang này chứa các thuật ngữ Bảng thuật ngữ về Mô hình chuỗi. Đối với tất cả các thuật ngữ, hãy nhấp vào đây.

B

bigram

#seq
#language

N-gram, trong đó N=2.

E

sự cố chuyển màu

#seq

Xu hướng tô chuyển tiếp trong mạng nơron sâu (đặc biệt là mạng nơron tái diễn) trở nên đáng kinh ngạc (cao). Độ dốc dốc thường gây ra cập nhật rất lớn cho trọng số của từng nút trong mạng nơron sâu.

Các mô hình gặp phải vấn đề về sự cố gradient bùng nổ trở nên khó khăn hoặc không thể huấn luyện được. Cắt xén có thể giảm thiểu vấn đề này.

So sánh với sự cố chuyển màu biến mất.

F

quên cổng

#seq

Một phần của Bộ nhớ ngắn hạn điều chỉnh luồng thông tin qua ô. Quên cổng để duy trì ngữ cảnh bằng cách quyết định loại bỏ thông tin nào khỏi trạng thái ô.

G

cắt chuyển màu

#seq

Một cơ chế thường được dùng để giảm thiểu vấn đề về gradient nổ bằng cách giới hạn giả (bắn) giá trị tối đa của độ dốc khi sử dụng tính năng giảm dần độ dốc để huấn luyện mô hình.

L

Bộ nhớ ngắn hạn (LSTM)

#seq

Một loại ô trong mạng nơron lặp lại được dùng để xử lý trình tự dữ liệu trong các ứng dụng như nhận dạng chữ viết tay, dịch máy và chú thích hình ảnh. LSTM xử lý vấn đề chuyển màu biến mất xảy ra khi huấn luyện các RNN do trình tự dữ liệu dài bằng cách duy trì nhật ký ở trạng thái bộ nhớ trong dựa trên dữ liệu đầu vào và ngữ cảnh mới từ các ô trước trong RNN.

Giải pháp LSTM

#seq

Từ viết tắt của Bộ nhớ ngắn hạn.

N

N-gam

#seq
#language

Một chuỗi N từ được sắp xếp theo thứ tự. Ví dụ: thực sự điên rồ là 2 gram. Vì đơn đặt hàng có liên quan nên đố thực sự là 2 gam khác với thật điên rồ.

N Tên của loại N-gram này Ví dụ
2 bigram hoặc 2 gam đến, đi ăn trưa, ăn tối
3 3 gam hoặc 3 gam ăn quá nhiều, ba con chuột mù, phí cầu đường
4 4 gam đi dạo trong công viên, bụi bay, cậu bé ăn đậu lăng

Nhiều mô hình hiểu ngôn ngữ tự nhiên dựa vào N-gram để dự đoán từ tiếp theo mà người dùng sẽ nhập hoặc nói. Ví dụ: giả sử một người dùng nhập ba mù. Một mô hình NLU dựa trên trigram sẽ có khả năng dự đoán rằng người dùng sẽ nhập chuột tiếp theo.

Tương phản N-gram với bag of word, là các nhóm từ không có thứ tự.

(phải)

mạng nơron tái phát

#seq

Một mạng nơ-ron cố ý chạy nhiều lần, trong đó các phần của mỗi nguồn cấp dữ liệu chạy vào lần chạy tiếp theo. Cụ thể, các lớp ẩn từ lần chạy trước cung cấp một phần dữ liệu đầu vào cho cùng một lớp ẩn trong lần chạy tiếp theo. Mạng nơ-ron lặp lại đặc biệt hữu ích cho việc đánh giá trình tự, để các lớp ẩn có thể tìm hiểu từ các lần chạy trước của mạng nơ-ron trên các phần trước của trình tự.

Ví dụ: hình sau đây cho thấy một mạng nơ-ron lặp lại chạy 4 lần. Lưu ý rằng các giá trị đã học được trong các lớp ẩn từ lần chạy đầu tiên sẽ trở thành một phần của dữ liệu đầu vào cho các lớp ẩn trong lần chạy thứ hai. Tương tự, các giá trị đã tìm hiểu được trong lớp ẩn trong lần chạy thứ hai sẽ trở thành một phần của dữ liệu đầu vào cho cùng một lớp ẩn trong lần chạy thứ ba. Bằng cách này, mạng nơron lặp lại sẽ dần huấn luyện và dự đoán ý nghĩa của toàn bộ trình tự thay vì chỉ ý nghĩa của từng từ.

Một RNN chạy bốn lần để xử lý bốn từ đầu vào.

Hàm RNN

#seq

Từ viết tắt của mạng nơron tái diễn.

CN

mô hình trình tự

#seq

Một mô hình có giá trị đầu vào phụ thuộc tuần tự. Ví dụ: dự đoán video tiếp theo đã xem từ một chuỗi các video đã xem trước đó.

T

bước thời gian

#seq

Một ô "chưa được cuộn" trong mạng nơ-ron lặp lại. Ví dụ: hình sau đây cho thấy 3 bước thời gian (được gắn nhãn bằng các chỉ số phụ t-1, t và t+1):

Ba bước thời gian trong mạng nơ-ron lặp lại. Kết quả của bước đầu tiên sẽ trở thành dữ liệu đầu vào cho bước thời gian thứ hai. Kết quả của bước thứ hai sẽ trở thành dữ liệu đầu vào cho bước thứ ba.

đồ thị

#seq
#language

N-gram, trong đó N=3.

V

sự cố gradient biến mất

#seq

Xu hướng chuyển màu của các lớp ẩn ban đầu của một số mạng nơron sâu sẽ trở nên phẳng một cách đáng kinh ngạc (thấp). Độ dốc ngày càng giảm dẫn đến những thay đổi ngày càng nhỏ đối với trọng số trên các nút trong mạng nơron sâu, dẫn đến việc tìm hiểu ít hoặc không học. Các mô hình gặp phải vấn đề gradient biến mất sẽ trở nên khó khăn hoặc không thể huấn luyện. Các ô Bộ nhớ ngắn hạn sẽ giải quyết vấn đề này.

So sánh với vụ nổ gradient.