Mô hình ngôn ngữ lớn

Mô hình ngôn ngữ là gì?

Mô hình ngôn ngữ ước tính xác suất của một mã thông báo hoặc chuỗi mã thông báo xảy ra trong một chuỗi mã thông báo dài hơn. Mã thông báo có thể là từ, từ phụ (một tập hợp con của từ) hoặc thậm chí là một ký tự đơn.

Hãy xem xét câu sau và (các) mã thông báo có thể hoàn thành câu đó:

When I hear rain on my roof, I _______ in my kitchen.

Mô hình ngôn ngữ xác định xác suất của các mã thông báo hoặc các chuỗi mã thông báo để điền vào chỗ trống đó. Ví dụ: như sau bảng xác suất xác định một số mã thông báo có thể có và xác suất của chúng:

Xác suất (Các) mã thông báo
9,4% nấu súp
5,2% làm ấm ấm đun nước
3,6% máy co rút
2,5% chợp mắt
2,2% thư giãn

Trong một số trường hợp, trình tự mã thông báo có thể là toàn bộ câu, đoạn văn hoặc thậm chí là toàn bộ bài luận.

Ứng dụng có thể sử dụng bảng xác suất để đưa ra dự đoán. Dự đoán có thể là xác suất cao nhất (ví dụ: "nấu súp") hoặc một lựa chọn ngẫu nhiên trong số các mã thông báo có xác suất cao hơn một ngưỡng nhất định.

Việc ước tính xác suất điền vào chỗ trống trong chuỗi văn bản có thể được mở rộng cho các công việc phức tạp hơn, bao gồm:

  • Đang tạo văn bản.
  • Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
  • Tóm tắt tài liệu.

Bằng cách lập mô hình các mẫu thống kê của mã thông báo, các mô hình ngôn ngữ hiện đại phát triển các nội dung đại diện nội bộ cực kỳ mạnh mẽ của ngôn ngữ và có thể tạo ra ngôn ngữ hợp lý.

Mô hình ngôn ngữ Ngram

N-gram là chuỗi từ được sắp xếp theo thứ tự dùng để xây dựng mô hình ngôn ngữ, trong đó N là số từ trong trình tự. Ví dụ: khi N là 2, N-gram được gọi là 2-gram (hoặc bigram); khi N là 5, N-gram được gọi là 5-gram. Giả sử bạn có cụm từ sau trong tài liệu đào tạo:

you are very nice

Các từ 2 âm tiết thu được như sau:

  • bạn đang
  • rất
  • rất tốt

Khi N là 3, N-gram được gọi là 3-gram (hoặc trigram). Với cùng cụm từ đó, thu được 3 gam là:

  • bạn rất
  • rất tốt

Cho sẵn hai từ làm dữ liệu đầu vào, mô hình ngôn ngữ dựa trên 3 gam có thể dự đoán khả năng xuất hiện từ thứ ba. Ví dụ: với hai từ sau:

orange is

Mô hình ngôn ngữ kiểm tra tất cả các chuỗi 3 từ bắt đầu bằng orange is khác nhau bắt nguồn từ tập dữ liệu huấn luyện để xác định từ thứ ba có nhiều khả năng nhất. Hàng trăm 3 gam có thể bắt đầu bằng hai từ orange is, nhưng bạn có thể chỉ tập trung vào hai khả năng sau:

orange is ripe
orange is cheerful

Khả năng đầu tiên (orange is ripe) là về quả cam, còn khả năng thứ hai (orange is cheerful) là về màu cam.

Ngữ cảnh

Con người có thể giữ lại ngữ cảnh tương đối dài. Khi xem Màn 3 của một vở kịch, bạn duy trì kiến thức về các ký tự được giới thiệu trong Đạo luật 1. Tương tự, câu kết của một câu chuyện cười dài khiến bạn cười vì bạn có thể nhớ được bối cảnh từ phần mở đầu của câu chuyện cười.

Trong mô hình ngôn ngữ, ngữ cảnh là thông tin hữu ích trước hoặc sau mã thông báo mục tiêu. Ngữ cảnh có thể giúp mô hình ngôn ngữ xác định xem "cam" là một loại quả có múi hay một màu sắc.

Bối cảnh có thể giúp mô hình ngôn ngữ đưa ra dự đoán chính xác hơn, nhưng liệu một 3-gram có cung cấp đủ bối cảnh không? Rất tiếc, ngữ cảnh duy nhất của cụm từ 3G cung cấp là hai từ đầu tiên. Ví dụ: hai từ orange is không cung cấp đủ ngữ cảnh để mô hình ngôn ngữ dự đoán từ thứ ba. Do thiếu ngữ cảnh, các mô hình ngôn ngữ dựa trên 3-gram mắc nhiều lỗi.

N-gram dài hơn chắc chắn sẽ cung cấp nhiều ngữ cảnh hơn so với N-gram ngắn hơn. Tuy nhiên, khi N tăng lên, tần suất tương đối của mỗi thực thể sẽ giảm. Khi N trở nên rất lớn, mô hình ngôn ngữ thường chỉ có một bản sao duy nhất của mỗi lần xuất hiện mã thông báo N. Điều này không hữu ích lắm trong việc dự đoán mã thông báo mục tiêu.

Mạng nơron tái sinh

Thần kinh tái phát mạng truyền hình cung cấp nhiều ngữ cảnh hơn so với N-gram. Mạng nơron tái sinh là một loại mạng nơron huấn luyện trên một chuỗi mã thông báo. Ví dụ: mạng nơron lặp lại có thể dần dần tìm hiểu (và học cách bỏ qua) ngữ cảnh đã chọn của mỗi từ trong một câu, giống như cách bạn thường làm khi lắng nghe người khác nói. Một mạng nơron tái sinh lớn có thể lấy ngữ cảnh từ một đoạn văn gồm vài câu.

Mặc dù mạng nơron tái phát tìm hiểu nhiều ngữ cảnh hơn so với N-gram, số lượng các mạng nơron lặp lại hữu ích có thể vẫn tương đối bị hạn chế. Mạng nơron tái sinh đánh giá thông tin "theo từng mã thông báo". Ngược lại, mô hình ngôn ngữ lớn (chủ đề của phần tiếp theo) có thể đánh giá toàn bộ ngữ cảnh cùng một lúc.

Xin lưu ý rằng việc huấn luyện mạng nơron tái sinh cho ngữ cảnh dài bị hạn chế bởi vấn đề về độ dốc biến mất.

Bài tập: Kiểm tra kiến thức

Mô hình ngôn ngữ nào đưa ra dự đoán chính xác hơn cho văn bản tiếng Anh?
  • Một mô hình ngôn ngữ dựa trên 6 gam
  • Một mô hình ngôn ngữ dựa trên 5 gam
Câu trả lời phụ thuộc vào quy mô và tính đa dạng của khoá đào tạo thiết lập.
Nếu tập huấn luyện bao gồm hàng triệu tài liệu đa dạng, thì mô hình dựa trên 6-gram có thể sẽ hoạt động hiệu quả hơn mô hình dựa trên 5-gram.
Mô hình ngôn ngữ dựa trên 6 gam.
Mô hình ngôn ngữ này có nhiều ngữ cảnh hơn, nhưng trừ phi mô hình này được huấn luyện trên nhiều tài liệu, thì hầu hết các 6-gram sẽ hiếm khi xuất hiện.
Mô hình ngôn ngữ dựa trên 5-gram.
Mô hình ngôn ngữ này có ít ngữ cảnh hơn, vì vậy, có thể sẽ không tốt hơn mô hình ngôn ngữ dựa trên 6-gram.