Ví dụ về nhúng video nhúng

Ví dụ này cho biết cách tạo nội dung nhúng được dùng trong một giải pháp đo lường mức độ tương đồng.

Hãy tưởng tượng bạn có cùng một tập dữ liệu nhà ở mà bạn đã sử dụng khi tạo biện pháp tương tự thủ công:

Tính năngLoại
GiáSố nguyên dương
Kích thước Giá trị dấu phẩy động dương tính bằng đơn vị mét vuông
Mã bưu chínhSố nguyên
Số lượng phòng ngủSố nguyên
Loại nhàMột giá trị văn bản từ "single_family", "multi-family", "apartment", "condo"
Nhà để xe0/1 nếu không/có
Màu sắcPhân loại đa biến: một hoặc nhiều giá trị trong các màu tiêu chuẩn là "trắng", "vàng", "xanh lục", v.v.

Dữ liệu xử lý trước

Trước khi sử dụng dữ liệu tính năng làm dữ liệu đầu vào, bạn cần xử lý trước dữ liệu đó. Các bước xử lý trước được đưa ra dựa trên các bước bạn đã thực hiện khi tạo một chỉ số tương tự theo cách thủ công. Sau đây là bản tóm tắt:

Tính năngLoại hoặc phạm vi phân phốiHành động
GiáPhân phối Poisson Định lượng và mở rộng quy mô thành [0,1].
Kích thướcPhân phối Poisson Định lượng và mở rộng quy mô thành [0,1].
Mã bưu chínhThực phẩm Chuyển đổi sang kinh độ và vĩ độ, lượng tử hoá và chia tỷ lệ thành [0,1].
Số lượng phòng ngủSố nguyên Cắt các phần ngoại lệ và mở rộng quy mô thành [0,1].
Loại nhàThực phẩm Hãy chuyển đổi sang phương thức mã hoá một nóng.
Nhà để xe0 hoặc 1 Giữ nguyên.
Màu sắcThực phẩm Chuyển đổi sang các giá trị RGB và xử lý dưới dạng dữ liệu số.

Để biết thêm thông tin về phương thức mã hoá một lần, hãy xem Nhúng: Dữ liệu đầu vào theo danh mục.

Chọn công cụ dự đoán hoặc bộ mã hóa tự động

Để tạo nội dung nhúng, bạn có thể chọn một bộ mã hoá tự động hoặc một trình dự đoán. Xin lưu ý rằng lựa chọn mặc định của bạn là bộ mã hoá tự động. Thay vào đó, bạn sẽ chọn số dự đoán nếu các tính năng cụ thể trong tập dữ liệu của bạn xác định sự tương đồng. Để biết về tính hoàn chỉnh, hãy xem xét cả hai trường hợp.

Đào tạo trình dự đoán

Bạn cần phải chọn các tính năng đó làm nhãn đào tạo cho DNN có vai trò quan trọng trong việc xác định sự tương đồng giữa các ví dụ của bạn. Giả sử giá là quan trọng nhất trong việc xác định sự giống nhau giữa các ngôi nhà.

Chọn giá làm nhãn đào tạo và xóa giá đó khỏi dữ liệu tính năng đầu vào cho DNN. Đào tạo DNN bằng cách sử dụng tất cả các tính năng khác làm dữ liệu đầu vào. Đối với huấn luyện, hàm tổn hao chỉ đơn giản là MSE giữa giá dự đoán và giá thực tế. Để tìm hiểu cách đào tạo một DNN, hãy xem phần Đào tạo mạng nơron.

Đào tạo bộ mã hóa tự động

Đào tạo bộ mã hóa tự động trên tập dữ liệu của chúng tôi bằng cách làm theo các bước sau:

  1. Hãy đảm bảo các lớp ẩn của bộ mã hoá tự động nhỏ hơn các lớp đầu vào và đầu ra.
  2. Tính toán tổn hao cho mỗi đầu ra như mô tả trong Đo lường mức độ tương đồng được giám sát.
  3. Tạo hàm mất bằng cách tính tổng tổn hao cho mỗi đầu ra. Hãy đảm bảo rằng bạn cân bằng tổn thất như nhau cho mọi tính năng. Ví dụ: vì dữ liệu màu được xử lý thành RGB, hãy đặt trọng số cho từng đầu ra RGB là 1/3.
  4. Đào tạo DNN.

Trích xuất nội dung nhúng từ DNN

Sau khi huấn luyện DNN, dù là trình dự đoán hay bộ mã hoá tự động, hãy trích xuất tính năng nhúng để xem ví dụ từ DNN. Trích xuất dữ liệu nhúng bằng cách sử dụng dữ liệu tính năng của ví dụ làm dữ liệu đầu vào và đọc kết quả của lớp ẩn cuối cùng. Các kết quả này tạo thành vectơ nhúng. Hãy nhớ rằng vectơ đối với các ngôi nhà tương tự phải gần nhau hơn với vectơ đối với các ngôi nhà không giống nhau.

Tiếp theo, bạn sẽ xem cách định lượng mức độ tương đồng của các cặp ví dụ bằng cách sử dụng vectơ nhúng.