Đào tạo bóng mềm

Trang trước đó đã giải thích cách kết hợp một lớp mềm maxmax vào một mạng nơron sâu cho một hệ thống đề xuất. Trang này xem xét kỹ hơn dữ liệu đào tạo cho hệ thống này.

Dữ liệu đào tạo

Dữ liệu huấn luyện mềm maxmax bao gồm các tính năng truy vấn \(x\) và một vectơ các mục mà người dùng đã tương tác (được biểu thị dưới dạng phân phối xác suất \(p\)). Các đánh dấu này được đánh dấu bằng màu xanh dương trong hình sau. Các biến của mô hình là trọng số trong các lớp khác nhau. Những hình này được đánh dấu là màu cam trong hình sau. Mô hình này thường được đào tạo bằng cách sử dụng bất kỳ biến thể nào của độ dốc chuyển màu ngẫu nhiên.

Hình ảnh nêu bật hoạt động đào tạo một mạng nơ-ron sâu tối đa

Lấy mẫu âm

Do hàm tổn thất so sánh 2 vectơ xác suất\(p, \hat p(x) \in \mathbb R^n\) (mức trung bình thực tế và kết quả của mô hình tương ứng), nên việc tính toán độ dốc của tổn hao (đối với một truy vấn \(x\)) có thể tốn nhiều chi phí nếu kích thước kho dữ liệu \(n\) quá lớn.

Bạn có thể thiết lập một hệ thống để chỉ tính toán độ dốc trên các mục dương (các mục đang hoạt động trong vectơ chân thực). Tuy nhiên, nếu hệ thống chỉ huấn luyện các cặp dương tính thì mô hình có thể bị gập, như giải thích dưới đây.

Gấp gọn
Hình ảnh một chiếc máy bay được gập lại một nửa hiển thị 3 nhóm hình vuông khác nhau đại diện cho các cụm từ tìm kiếm và các vòng tròn đại diện cho các mục. Mỗi nhóm có một màu khác nhau và các truy vấn chỉ tương tác với các mục thuộc cùng một nhóm. Trong hình sau, giả sử mỗi màu đại diện cho một danh mục truy vấn và mục khác nhau. Mỗi truy vấn (biểu thị bằng một hình vuông) chỉ tương tác với các mục (được biểu thị dưới dạng hình tròn) có cùng màu. Ví dụ: hãy xem mỗi danh mục là một ngôn ngữ khác nhau trong YouTube. Thông thường, người dùng sẽ tương tác với video bằng một ngôn ngữ cụ thể.

Mô hình có thể tìm hiểu cách đặt nội dung nhúng truy vấn/mục có màu tương quan với nhau (nắm bắt chính xác sự tương đồng trong màu đó), nhưng tình cờ việc nhúng từ các màu khác nhau có thể tình cờ trong cùng một khu vực của không gian nhúng. Hiện tượng này (còn gọi là gấp lại) có thể dẫn đến các đề xuất giả mạo: tại thời điểm truy vấn, mô hình có thể dự đoán không chính xác điểm cao cho một mục từ một nhóm khác.

Ví dụ phủ định là các mục có gắn nhãn "không liên quan" đối với một truy vấn nhất định. Việc đưa ra ví dụ phủ định về mô hình trong quá trình đào tạo sẽ hướng dẫn mô hình rằng nội dung nhúng của các nhóm khác nhau phải được đẩy ra xa nhau.

Thay vì sử dụng tất cả các mục để tính toán độ dốc (có thể quá tốn kém) hoặc chỉ sử dụng các mục dương (khiến mô hình dễ bị gập), bạn có thể sử dụng cách lấy mẫu âm. Chính xác hơn, bạn tính toán độ dốc gần đúng bằng cách sử dụng các mục sau:

  • Tất cả các mục dương (mục xuất hiện trong nhãn mục tiêu)
  • Mẫu về các mục phủ định (\(j\) trong \({1, …, n}\))

Có nhiều chiến lược lấy mẫu âm bản:

  • Bạn có thể lấy mẫu đồng đều.
  • Bạn có thể đưa ra xác suất cao hơn cho các mục j có điểm số cao hơn \(\psi(x) . V_j\). Theo trực giác, đây là những ví dụ đóng góp nhiều nhất vào độ dốc); những ví dụ này thường được gọi là phủ định cứng.

Trên hệ số ma trận so với Softmax

Mô hình DNN giải quyết nhiều hạn chế của Yếu tố ma trận, nhưng thường thì tốn kém hơn trong việc đào tạo và truy vấn. Bảng dưới đây tóm tắt một số điểm khác biệt quan trọng giữa hai mô hình.

Thừa số ma trận DNN mềm tối đa
Các tính năng truy vấn Không dễ đưa vào. Có thể được đưa vào.
Khởi động nguội Không dễ dàng xử lý các cụm từ tìm kiếm hoặc mục từ vựng. Bạn có thể sử dụng một số phương pháp phỏng đoán (ví dụ: đối với một truy vấn mới, tính năng nhúng trung bình đối với các truy vấn tương tự). Dễ dàng xử lý cụm từ tìm kiếm mới.
Gấp gọn Bạn có thể dễ dàng giảm tình trạng bị sụt giảm bằng cách điều chỉnh trọng lượng không được quan sát trong WALS. Tiến trình gập. Cần sử dụng các kỹ thuật như lấy mẫu âm bản hoặc trọng lực.
Khả năng mở rộng đào tạo Dễ dàng mở rộng sang kho dữ liệu rất lớn (có thể là hàng trăm triệu mục trở lên), nhưng chỉ khi ma trận nhập dữ liệu thưa thớt. Khó mở rộng quy mô thành cộng đồng rất lớn. Có thể sử dụng một số kỹ thuật như băm, lấy mẫu âm bản, v.v.
Khả năng mở rộng phân phát Nhúng U, V là một dạng tĩnh và một tập hợp ứng viên có thể được tính toán trước và lưu trữ. Nhúng mục V là tĩnh và có thể được lưu trữ.

Việc nhúng truy vấn thường cần được tính toán tại thời điểm truy vấn, làm cho mô hình tốn kém hơn khi phân phát.

Tóm tắt:

  • Yếu tố ma trận thường là lựa chọn tốt hơn cho tập sao lục lớn. Dễ dàng mở rộng quy mô, truy vấn rẻ hơn và ít dễ gập lại.
  • Mô hình DNN có thể nắm bắt tốt hơn các tùy chọn được cá nhân hóa, nhưng khó đào tạo hơn và tốn kém hơn khi truy vấn. Mô hình DNN ưu tiên sử dụng hệ số ma trận để chấm điểm vì các mô hình DNN có thể sử dụng nhiều tính năng hơn để thu thập mức độ liên quan cao hơn. Ngoài ra, các mô hình DNN cũng thường được chấp nhận khi gập, vì bạn chủ yếu quan tâm đến việc xếp hạng một tập hợp ứng viên được lọc trước được cho là có liên quan.