Nhúng: Lấy nội dung nhúng

Có một số cách để nhúng tính năng đó, bao gồm thuật toán tiên tiến được tạo tại Google.

Kỹ thuật giảm kích thước tiêu chuẩn

Hiện có nhiều kỹ thuật toán học để ghi lại cấu trúc quan trọng của không gian chiều cao trong không gian chiều thấp. Về lý thuyết, bất kỳ kỹ thuật nào trong số này đều có thể dùng để tạo nội dung nhúng cho một hệ thống máy học.

Ví dụ: tính năng phân tích thành phần chính (PCA) đã được dùng để tạo các từ nhúng. Với một tập hợp các thực thể như túi vectơ vectơ, PCA cố gắng tìm các phương diện có tương quan cao có thể được thu gọn thành một phương diện duy nhất.

Word2vec

Word2vec là một thuật toán được phát minh tại Google để đào tạo tính năng nhúng từ. Word2vec dựa vào giả thuyết phân phối để ánh xạ các từ tương tự về mặt ngữ nghĩa với vectơ nhúng hình học.

Giả thuyết phân phối cho biết rằng những từ thường có cùng các từ lân cận thường có xu hướng giống nhau về mặt ngữ nghĩa. Cả "dog" và "cat" thường xuyên xuất hiện gần với từ "veterinarian" và điều này phản ánh sự tương đồng về mặt ngữ nghĩa của chúng. Như nhà ngôn ngữ học John Firth đã nói vào năm 1957, "Bạn sẽ biết một từ mà công ty giữ lại từ".

Word2Vec khai thác thông tin theo ngữ cảnh như thế này bằng cách huấn luyện một mạng nơron để phân biệt các nhóm từ thực sự xuất hiện với các từ được nhóm ngẫu nhiên trên thực tế. Lớp nhập dữ liệu có dạng biểu diễn thưa thớt của một từ mục tiêu cùng với một hoặc nhiều từ ngữ cảnh. Dữ liệu đầu vào này kết nối với một lớp ẩn nhỏ hơn.

Trong một phiên bản của thuật toán, hệ thống tạo một ví dụ phủ định bằng cách thay thế từ tiếng ồn ngẫu nhiên cho từ đích. Như ví dụ tích cực về "máy bay bay", hệ thống có thể hoán đổi trong "jogging" để tạo ví dụ phủ định tương phản "chuyến bay chạy bộ"

Phiên bản còn lại của thuật toán sẽ tạo các ví dụ phủ định bằng cách ghép từ đích thực sự với các từ ngữ cảnh được chọn ngẫu nhiên. Vì vậy, bạn có thể lấy các ví dụ tích cực (máy bay, máy bay), máy bay và các ví dụ phủ định (biên dịch, mặt phẳng), (ai, máy bay) và tìm hiểu cách xác định cặp nào thực sự xuất hiện trong văn bản.

Tuy nhiên, thuật toán phân loại không phải là mục tiêu thực tế của một trong hai phiên bản hệ thống. Sau khi đào tạo xong mô hình, bạn sẽ có chế độ nhúng. Bạn có thể sử dụng các tỷ lệ kích thước kết nối lớp đầu vào với lớp ẩn để liên kết các đại diện thưa thớt với các vectơ nhỏ hơn. Tính năng nhúng này có thể được sử dụng lại trong các thuật toán phân loại khác.

Để biết thêm thông tin về word2vec, hãy xem hướng dẫn trên tensorflow.org

Đào tạo cách nhúng trong mô hình lớn hơn

Bạn cũng có thể tìm hiểu cách nhúng như một phần của mạng nơron cho nhiệm vụ mục tiêu. Phương pháp này giúp bạn tuỳ chỉnh nhúng cho phù hợp với hệ thống cụ thể, nhưng có thể lâu hơn so với việc nhúng riêng.

Nhìn chung, khi có dữ liệu thưa thớt (hoặc dữ liệu dày đặc bạn muốn nhúng), bạn có thể tạo một đơn vị nhúng chỉ là một loại đơn vị đặc biệt ẩn có kích thước d. Bạn có thể kết hợp lớp nhúng này với bất kỳ tính năng nào khác và các lớp ẩn. Như trong mọi DNN, lớp cuối cùng sẽ là tổn hao đang được tối ưu hóa. Ví dụ: giả sử chúng tôi thực hiện lọc cộng tác, trong đó mục tiêu là dự đoán mối quan tâm của người dùng từ mối quan tâm của người dùng khác. Chúng tôi có thể xây dựng mô hình này dưới dạng một vấn đề học tập có giám sát bằng cách sắp xếp ngẫu nhiên (hoặc giữ lại) một số ít phim mà người dùng đã xem dưới dạng nhãn tích cực, sau đó tối ưu hoá mức độ giảm nhẹ.

Hình 5. Một cấu trúc DNN mẫu để tìm hiểu cách nhúng phim từ dữ liệu lọc cộng tác.

Một ví dụ khác: nếu bạn muốn tạo lớp nhúng cho các từ trong quảng cáo bất động sản trong lĩnh vực DNN để dự đoán giá nhà ở, thì bạn phải tối ưu hoá L2 thua bằng cách sử dụng giá ưu đãi đã biết của nhà trong dữ liệu đào tạo làm nhãn.

Khi tìm hiểu cách nhúng phương diện d, mỗi mục sẽ được liên kết tới một điểm trong không gian d để các mục tương tự ở gần nhau trong không gian này. Hình 6 giúp minh hoạ mối quan hệ giữa các trọng số đã học trong lớp nhúng và chế độ xem hình học. Trọng số cạnh giữa nút đầu vào và các nút trong lớp nhúng thứ nguyên d tương ứng với giá trị tọa độ cho mỗi trục d.

Hình minh hoạ mối quan hệ giữa các trọng số của lớp nhúng và chế độ xem dạng hình học của nội dung nhúng.

Hình 6. Chế độ xem hình học của trọng số lớp nhúng.