Dữ liệu số đúng
có thể được nhân lên đáng kể. Ví dụ: hãy cân nhắc
là mô hình dự đoán giá trị của một ngôi nhà dựa trên diện tích của nó.
Xin lưu ý rằng mô hình hữu ích để đánh giá giá nhà thường dựa vào
hàng trăm tính năng. Điều đó có nghĩa là tất cả những yếu tố khác đều bình đẳng, một ngôi nhà có diện tích 200 mét vuông
mét sẽ có giá trị gần gấp đôi so với một ngôi nhà rộng 100 mét vuông
mét.
Thông thường, bạn nên biểu thị các đối tượng chứa giá trị số nguyên như
dữ liệu phân loại thay vì dữ liệu số. Ví dụ: hãy xem xét mã bưu chính
tính năng mã trong đó giá trị là số nguyên. Nếu bạn đại diện cho điều này
tính năng này bằng số thay vì phân loại, bạn đang yêu cầu mô hình
để tìm mối quan hệ số học
giữa các mã bưu chính khác nhau. Điều này có nghĩa là bạn đang yêu cầu mô hình
coi mã bưu chính 20004 lớn gấp đôi (hoặc một nửa) tín hiệu lớn so với mã bưu chính
10002. Việc biểu thị mã bưu chính dưới dạng dữ liệu phân loại cho phép mô hình này
trọng lượng riêng từng mã bưu chính.
Mã hoá
Mã hoá nghĩa là chuyển đổi dữ liệu phân loại hoặc dữ liệu khác thành vectơ số
mà một mô hình có thể huấn luyện dựa trên đó. Việc chuyển đổi này là cần thiết vì các mô hình có thể
chỉ huấn luyện trên các giá trị dấu phẩy động; các mô hình không thể huấn luyện trên các chuỗi như
"dog" hoặc "maple". Mô-đun này giải thích
cho dữ liệu phân loại.
[[["Dễ hiểu","easyToUnderstand","thumb-up"],["Giúp tôi giải quyết được vấn đề","solvedMyProblem","thumb-up"],["Khác","otherUp","thumb-up"]],[["Thiếu thông tin tôi cần","missingTheInformationINeed","thumb-down"],["Quá phức tạp/quá nhiều bước","tooComplicatedTooManySteps","thumb-down"],["Đã lỗi thời","outOfDate","thumb-down"],["Vấn đề về bản dịch","translationIssue","thumb-down"],["Vấn đề về mẫu/mã","samplesCodeIssue","thumb-down"],["Khác","otherDown","thumb-down"]],["Cập nhật lần gần đây nhất: 2024-08-13 UTC."],[[["This module focuses on differentiating between categorical and numerical data within machine learning."],["You will learn how to represent categorical data using one-hot vectors and address common issues associated with it."],["The module covers encoding techniques for converting categorical data into numerical vectors suitable for model training."],["Feature crosses, a method for combining categorical features to capture interactions, are also discussed."],["It is assumed you have prior knowledge of introductory machine learning and working with numerical data."]]],[]]