Bài này đã khám phá các cách liên kết dữ liệu thô vào vectơ đặc trưng phù hợp. Các tính năng dạng số tốt có những đặc điểm được mô tả trong phần này.
Được đặt tên rõ ràng
Mỗi tính năng phải có ý nghĩa rõ ràng, hợp lý và dễ hiểu đối với mọi người tham gia dự án. Ví dụ: ý nghĩa của giá trị đặc điểm sau đây sẽ gây nhầm lẫn:
Không nên
house_age: 851472000
Ngược lại, tên và giá trị tính năng sau đây rõ ràng hơn nhiều:
Recommended (Nên dùng)
house_age_years: 27
Đã kiểm tra hoặc thử nghiệm trước khi huấn luyện
Mặc dù học phần này đã dành nhiều thời gian cho điểm ngoại lai, nhưng chủ đề này vẫn quan trọng đến mức cần phải đề cập thêm một lần nữa. Trong một số trường hợp, dữ liệu không chính xác (thay vì lựa chọn kỹ thuật không chính xác) sẽ gây ra các giá trị không rõ ràng. Ví dụ: user_age_in_years
sau đây đến từ một nguồn không kiểm tra các giá trị thích hợp:
Không nên
user_age_in_years: 224
Tuy nhiên, người dùng có thể là người 24 tuổi:
Recommended (Nên dùng)
user_age_in_years: 24
Hãy kiểm tra dữ liệu của bạn!
Hợp lý
"Giá trị kỳ diệu" là một giá trị gián đoạn có chủ đích trong một tính năng liên tục. Ví dụ: giả sử một đặc điểm liên tục có tên watch_time_in_seconds
có thể chứa bất kỳ giá trị dấu phẩy động nào từ 0 đến 30 nhưng biểu thị không có giá trị đo lường bằng giá trị kỳ diệu -1:
Không nên
watch_time_in_seconds: -1
watch_time_in_seconds
bằng -1 sẽ buộc mô hình phải cố gắng tìm hiểu ý nghĩa của việc xem phim ngược thời gian. Mô hình thu được có thể sẽ không đưa ra dự đoán chính xác.
Một kỹ thuật tốt hơn là tạo một tính năng Boolean riêng biệt cho biết liệu có cung cấp giá trị watch_time_in_seconds
hay không. Ví dụ:
Recommended (Nên dùng)
watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=Truewatch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False
Đây là cách xử lý tập dữ liệu liên tục có thiếu giá trị. Bây giờ, hãy xem xét một tính năng số riêng biệt, chẳng hạn như product_category
, các giá trị của tính năng này phải thuộc một tập hợp giá trị hữu hạn. Trong trường hợp này, khi thiếu một giá trị, hãy biểu thị giá trị bị thiếu đó bằng cách sử dụng một giá trị mới trong tập hợp hữu hạn. Với một đặc điểm riêng biệt, mô hình sẽ học các trọng số khác nhau cho từng giá trị, bao gồm cả trọng số ban đầu cho các đặc điểm bị thiếu.
Ví dụ: chúng ta có thể tưởng tượng các giá trị có thể phù hợp với tập hợp:
{0: 'electronics', 1: 'books', 2: 'clothing', 3: 'missing_category'}.