Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Hãy tưởng tượng bạn đang phát triển một đơn đăng ký đề xuất về thực phẩm, trong đó
người dùng nhập bữa ăn yêu thích của họ, đồng thời ứng dụng đề xuất các bữa ăn tương tự
mà họ có thể thích. Bạn muốn phát triển một mô hình học máy (ML)
có thể dự đoán sự tương đồng về thực phẩm, nhờ đó, ứng dụng của bạn có thể giúp nâng cao chất lượng
đề xuất ("Vì bạn thích bánh kếp, chúng tôi đề xuất bánh kếp").
Để huấn luyện mô hình của mình, bạn chọn một tập dữ liệu gồm 5.000
món ăn chính, bao gồm borscht,
bánh mì kẹp xúc xích,
món rau trộn,
pizza,
và shawarma.
Hình 1. Lấy mẫu các món ăn có trong tập dữ liệu thực phẩm.
Bạn tạo một đối tượng meal chứa
được mã hoá một lần
đại diện cho từng món ăn trong tập dữ liệu.
Hình 2. Mã hóa một lần các món borscht, xúc xích và shawarma.
Mỗi vectơ mã hoá một nóng có độ dài 5.000 (một mục nhập cho mỗi vectơ
mục trong trình đơn trong tập dữ liệu). Dấu ba chấm trong biểu đồ biểu thị
4.995 mục nhập không được hiển thị.
Sự cố biểu diễn dữ liệu thưa thớt
Xem lại các kiểu mã hoá nóng bỏng này, bạn nhận thấy hai vấn đề chính với
biểu diễn dữ liệu.
Số lượng trọng số. Vectơ đầu vào lớn có nghĩa là số lượng lớn
trọng số
cho mạng nơron.
Với các mục nhập M trong chế độ mã hoá một điểm, và N
các nút trong lớp đầu tiên của mạng sau đầu vào, mô hình phải huấn luyện
Trọng số MxN cho lớp đó. Một số lượng lớn trọng số gây ra thêm nhiều vấn đề:
Số điểm dữ liệu. Mô hình của bạn càng có nhiều trọng số, thì bạn càng có nhiều dữ liệu
cần huấn luyện một cách hiệu quả.
Số lượng phép tính. Càng nhiều trọng số, càng cần nhiều phép tính
để huấn luyện và sử dụng mô hình. Bạn có thể dễ dàng vượt quá khả năng của
phần cứng.
Dung lượng bộ nhớ. Mô hình của bạn càng có nhiều trọng số thì càng có nhiều bộ nhớ
là cần thiết cho các trình tăng tốc huấn luyện và phân phát quảng cáo đó. Mở rộng quy mô
hiệu quả là công việc rất khó khăn.
Khó hỗ trợ
công nghệ học máy trên thiết bị (ODML).
Nếu bạn muốn chạy mô hình học máy trên các thiết bị cục bộ (thay vì phân phát
chúng), bạn sẽ cần tập trung vào việc làm cho mô hình của mình nhỏ hơn và sẽ muốn
để giảm số lượng trọng số.
Thiếu mối quan hệ có ý nghĩa giữa các vectơ. Các giá trị vectơ trong
cho thực phẩm không cung cấp bất kỳ thông tin có ý nghĩa nào về
điểm tương đồng của các mặt hàng thực phẩm. Về mặt toán học, chỉ mục 1 ("bánh mì kẹp xúc xích") là
gần với chỉ số 2 ("salad") hơn so với chỉ số 4999 ("shawarma"), mặc dù
món chó giống với món shawarma (cả thịt và bánh mì) hơn là rau trộn.
Trong học phần này, bạn sẽ tìm hiểu cách tạo video nhúng, nội dung có chiều rộng thấp hơn
để biểu diễn dữ liệu thưa thớt nhằm giải quyết cả hai vấn đề này.
[[["Dễ hiểu","easyToUnderstand","thumb-up"],["Giúp tôi giải quyết được vấn đề","solvedMyProblem","thumb-up"],["Khác","otherUp","thumb-up"]],[["Thiếu thông tin tôi cần","missingTheInformationINeed","thumb-down"],["Quá phức tạp/quá nhiều bước","tooComplicatedTooManySteps","thumb-down"],["Đã lỗi thời","outOfDate","thumb-down"],["Vấn đề về bản dịch","translationIssue","thumb-down"],["Vấn đề về mẫu/mã","samplesCodeIssue","thumb-down"],["Khác","otherDown","thumb-down"]],["Cập nhật lần gần đây nhất: 2024-08-13 UTC."],[[["This module explains how to create embeddings, which are lower-dimensional representations of sparse data that address the problems of large input vectors and lack of meaningful relations between vectors in one-hot encoding."],["One-hot encoding creates large input vectors, leading to a huge number of weights in a neural network, requiring more data, computation, and memory."],["One-hot encoding vectors lack meaningful relationships, failing to capture semantic similarities between items, like the example of hot dogs and shawarmas being more similar than hot dogs and salads."],["Embeddings offer a solution by providing dense vector representations that capture semantic relationships and reduce the dimensionality of data, improving efficiency and performance in machine learning models."],["This module assumes familiarity with introductory machine learning concepts like linear regression, categorical data, and neural networks."]]],[]]