Mô hình ngôn ngữ là gì?
Mô hình ngôn ngữ ước tính xác suất của một mã thông báo hoặc chuỗi mã thông báo xuất hiện trong một chuỗi mã thông báo dài hơn. Mã thông báo có thể là một từ, một từ phụ (một tập hợp con của một từ) hoặc thậm chí là một ký tự đơn.
Hãy xem xét câu sau và(các) mã thông báo có thể hoàn thành câu đó:
When I hear rain on my roof, I _______ in my kitchen.
Một mô hình ngôn ngữ xác định xác suất của các mã thông báo hoặc chuỗi mã thông báo khác nhau để hoàn thành chỗ trống đó. Ví dụ: bảng xác suất sau đây xác định một số mã thông báo có thể có và xác suất của chúng:
| Xác suất | Mã thông báo |
|---|---|
| 9,4% | nấu súp |
| 5,2% | đun nước trong ấm |
| 3,6% | co rúm |
| 2,5% | chợp mắt |
| 2,2% | thư giãn |
Trong một số trường hợp, chuỗi mã thông báo có thể là một câu, đoạn văn hoặc thậm chí là toàn bộ bài luận.
Một ứng dụng có thể sử dụng bảng xác suất để đưa ra dự đoán. Dự đoán có thể là xác suất cao nhất (ví dụ: "nấu súp") hoặc một lựa chọn ngẫu nhiên từ các mã thông báo có xác suất lớn hơn một ngưỡng nhất định.
Việc ước tính xác suất của nội dung điền vào chỗ trống trong một chuỗi văn bản có thể được mở rộng sang các tác vụ phức tạp hơn, bao gồm:
- Đang tạo văn bản.
- Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
- Tóm tắt tài liệu.
Bằng cách mô hình hoá các mẫu thống kê của mã thông báo, các mô hình ngôn ngữ hiện đại phát triển các biểu diễn nội bộ cực kỳ mạnh mẽ về ngôn ngữ và có thể tạo ra ngôn ngữ hợp lý.
Mô hình ngôn ngữ N-gram
N-gram là chuỗi từ có thứ tự được dùng để xây dựng mô hình ngôn ngữ, trong đó N là số từ trong chuỗi. Ví dụ: khi N là 2, N-gram được gọi là 2-gram (hoặc bigram); khi N là 5, N-gram được gọi là 5-gram. Giả sử bạn có cụm từ sau trong một tài liệu huấn luyện:
you are very nice
Sau đây là các 2-gram thu được:
- bạn đang
- rất
- rất tốt
Khi N là 3, N-gram được gọi là 3-gram (hoặc trigram). Với cụm từ đó, 3-gram thu được là:
- bạn rất
- rất đẹp
Với hai từ làm dữ liệu đầu vào, mô hình ngôn ngữ dựa trên 3-gram có thể dự đoán khả năng xuất hiện của từ thứ ba. Ví dụ: cho hai từ sau:
orange is
Một mô hình ngôn ngữ sẽ xem xét tất cả các 3-gram khác nhau bắt nguồn từ tập hợp dữ liệu huấn luyện bắt đầu bằng orange is để xác định từ thứ ba có khả năng xuất hiện cao nhất.
Hàng trăm 3-gram có thể bắt đầu bằng hai từ orange is, nhưng bạn chỉ có thể tập trung vào 2 khả năng sau:
orange is ripe orange is cheerful
Khả năng đầu tiên (orange is ripe) là về quả cam, còn khả năng thứ hai (orange is cheerful) là về màu cam.
Ngữ cảnh
Con người có thể lưu giữ ngữ cảnh tương đối dài. Trong khi xem Màn 3 của một vở kịch, bạn vẫn nhớ được những nhân vật xuất hiện trong Màn 1. Tương tự, câu chốt của một câu chuyện cười dài khiến bạn cười vì bạn có thể nhớ được bối cảnh từ phần dẫn của câu chuyện cười đó.
Trong các mô hình ngôn ngữ, ngữ cảnh là thông tin hữu ích trước hoặc sau mã thông báo mục tiêu. Ngữ cảnh có thể giúp mô hình ngôn ngữ xác định xem "cam" đề cập đến một loại trái cây có múi hay một màu sắc.
Ngữ cảnh có thể giúp mô hình ngôn ngữ đưa ra dự đoán chính xác hơn, nhưng liệu 3-gram có cung cấp đủ ngữ cảnh không? Thật không may, ngữ cảnh duy nhất mà 3-gram cung cấp là hai từ đầu tiên. Ví dụ: hai từ orange is không cung cấp đủ ngữ cảnh để mô hình ngôn ngữ dự đoán từ thứ ba.
Do thiếu ngữ cảnh, các mô hình ngôn ngữ dựa trên 3-gram mắc rất nhiều lỗi.
N-gram càng dài thì chắc chắn sẽ cung cấp nhiều bối cảnh hơn so với N-gram ngắn hơn. Tuy nhiên, khi N tăng lên, tần suất tương đối của mỗi phiên bản sẽ giảm. Khi N trở nên rất lớn, mô hình ngôn ngữ thường chỉ có một phiên bản duy nhất của mỗi lần xuất hiện N mã thông báo, điều này không hữu ích lắm trong việc dự đoán mã thông báo mục tiêu.
Mạng nơron hồi quy
Mạng nơ-ron hồi quy cung cấp nhiều ngữ cảnh hơn so với N-gram. Mạng nơ-ron hồi quy là một loại mạng nơ-ron được huấn luyện trên một chuỗi mã thông báo. Ví dụ: mạng nơ-ron hồi quy có thể dần dần học (và học cách bỏ qua) ngữ cảnh đã chọn từ mỗi từ trong một câu, giống như cách bạn làm khi nghe ai đó nói. Một mạng nơ-ron hồi quy lớn có thể thu thập ngữ cảnh từ một đoạn văn gồm nhiều câu.
Mặc dù mạng nơ-ron hồi quy học được nhiều ngữ cảnh hơn N-gram, nhưng lượng ngữ cảnh hữu ích mà mạng nơ-ron hồi quy có thể cảm nhận được vẫn còn tương đối hạn chế. Mạng nơ-ron hồi quy đánh giá thông tin "theo từng mã thông báo". Ngược lại, các mô hình ngôn ngữ lớn (chủ đề của phần tiếp theo) có thể đánh giá toàn bộ ngữ cảnh cùng một lúc.
Xin lưu ý rằng việc huấn luyện mạng nơ-ron hồi quy cho các ngữ cảnh dài bị hạn chế bởi vấn đề về độ dốc biến mất.
Bài tập: Kiểm tra kiến thức
- Một mô hình ngôn ngữ dựa trên 6-gram
- Mô hình ngôn ngữ dựa trên 5-gram