Trang trước đó đã giải thích cách kết hợp một lớp mềm maxmax vào một mạng nơron sâu cho một hệ thống đề xuất. Trang này xem xét kỹ hơn dữ liệu đào tạo cho hệ thống này.
Dữ liệu đào tạo
Dữ liệu huấn luyện mềm maxmax bao gồm các tính năng truy vấn \(x\) và một vectơ các mục mà người dùng đã tương tác (được biểu thị dưới dạng phân phối xác suất \(p\)). Các đánh dấu này được đánh dấu bằng màu xanh dương trong hình sau. Các biến của mô hình là trọng số trong các lớp khác nhau. Những hình này được đánh dấu là màu cam trong hình sau. Mô hình này thường được đào tạo bằng cách sử dụng bất kỳ biến thể nào của độ dốc chuyển màu ngẫu nhiên.
Lấy mẫu âm
Do hàm tổn thất so sánh 2 vectơ xác suất\(p, \hat p(x) \in \mathbb R^n\) (mức trung bình thực tế và kết quả của mô hình tương ứng), nên việc tính toán độ dốc của tổn hao (đối với một truy vấn \(x\)) có thể tốn nhiều chi phí nếu kích thước kho dữ liệu \(n\) quá lớn.
Bạn có thể thiết lập một hệ thống để chỉ tính toán độ dốc trên các mục dương (các mục đang hoạt động trong vectơ chân thực). Tuy nhiên, nếu hệ thống chỉ huấn luyện các cặp dương tính thì mô hình có thể bị gập, như giải thích dưới đây.
Mô hình có thể tìm hiểu cách đặt nội dung nhúng truy vấn/mục có màu tương quan với nhau (nắm bắt chính xác sự tương đồng trong màu đó), nhưng tình cờ việc nhúng từ các màu khác nhau có thể tình cờ trong cùng một khu vực của không gian nhúng. Hiện tượng này (còn gọi là gấp lại) có thể dẫn đến các đề xuất giả mạo: tại thời điểm truy vấn, mô hình có thể dự đoán không chính xác điểm cao cho một mục từ một nhóm khác.
Ví dụ phủ định là các mục có gắn nhãn "không liên quan" đối với một truy vấn nhất định. Việc đưa ra ví dụ phủ định về mô hình trong quá trình đào tạo sẽ hướng dẫn mô hình rằng nội dung nhúng của các nhóm khác nhau phải được đẩy ra xa nhau.
Thay vì sử dụng tất cả các mục để tính toán độ dốc (có thể quá tốn kém) hoặc chỉ sử dụng các mục dương (khiến mô hình dễ bị gập), bạn có thể sử dụng cách lấy mẫu âm. Chính xác hơn, bạn tính toán độ dốc gần đúng bằng cách sử dụng các mục sau:
- Tất cả các mục dương (mục xuất hiện trong nhãn mục tiêu)
- Mẫu về các mục phủ định (\(j\) trong \({1, …, n}\))
Có nhiều chiến lược lấy mẫu âm bản:
- Bạn có thể lấy mẫu đồng đều.
- Bạn có thể đưa ra xác suất cao hơn cho các mục j có điểm số cao hơn \(\psi(x) . V_j\). Theo trực giác, đây là những ví dụ đóng góp nhiều nhất vào độ dốc); những ví dụ này thường được gọi là phủ định cứng.
Trên hệ số ma trận so với Softmax
Mô hình DNN giải quyết nhiều hạn chế của Yếu tố ma trận, nhưng thường thì tốn kém hơn trong việc đào tạo và truy vấn. Bảng dưới đây tóm tắt một số điểm khác biệt quan trọng giữa hai mô hình.
Thừa số ma trận | DNN mềm tối đa | |
---|---|---|
Các tính năng truy vấn | Không dễ đưa vào. | Có thể được đưa vào. |
Khởi động nguội | Không dễ dàng xử lý các cụm từ tìm kiếm hoặc mục từ vựng. Bạn có thể sử dụng một số phương pháp phỏng đoán (ví dụ: đối với một truy vấn mới, tính năng nhúng trung bình đối với các truy vấn tương tự). | Dễ dàng xử lý cụm từ tìm kiếm mới. |
Gấp gọn | Bạn có thể dễ dàng giảm tình trạng bị sụt giảm bằng cách điều chỉnh trọng lượng không được quan sát trong WALS. | Tiến trình gập. Cần sử dụng các kỹ thuật như lấy mẫu âm bản hoặc trọng lực. |
Khả năng mở rộng đào tạo | Dễ dàng mở rộng sang kho dữ liệu rất lớn (có thể là hàng trăm triệu mục trở lên), nhưng chỉ khi ma trận nhập dữ liệu thưa thớt. | Khó mở rộng quy mô thành cộng đồng rất lớn. Có thể sử dụng một số kỹ thuật như băm, lấy mẫu âm bản, v.v. |
Khả năng mở rộng phân phát | Nhúng U, V là một dạng tĩnh và một tập hợp ứng viên có thể được tính toán trước và lưu trữ. | Nhúng mục V là tĩnh và có thể được lưu trữ.
Việc nhúng truy vấn thường cần được tính toán tại thời điểm truy vấn, làm cho mô hình tốn kém hơn khi phân phát. |
Tóm tắt:
- Yếu tố ma trận thường là lựa chọn tốt hơn cho tập sao lục lớn. Dễ dàng mở rộng quy mô, truy vấn rẻ hơn và ít dễ gập lại.
- Mô hình DNN có thể nắm bắt tốt hơn các tùy chọn được cá nhân hóa, nhưng khó đào tạo hơn và tốn kém hơn khi truy vấn. Mô hình DNN ưu tiên sử dụng hệ số ma trận để chấm điểm vì các mô hình DNN có thể sử dụng nhiều tính năng hơn để thu thập mức độ liên quan cao hơn. Ngoài ra, các mô hình DNN cũng thường được chấp nhận khi gập, vì bạn chủ yếu quan tâm đến việc xếp hạng một tập hợp ứng viên được lọc trước được cho là có liên quan.