Các tính năng Crossing: Crossing One-Vectors

Cho đến nay, chúng tôi đã tập trung vào việc vượt qua hai tính năng dấu phẩy động riêng lẻ. Trong thực tế, các mô hình máy học hầu như không có nhiều tính năng liên tục. Tuy nhiên, các mô hình máy học thường xuyên truyền một vectơ tính năng nóng. Hãy xem kết hợp các tính năng của các vectơ tính năng nóng bỏng là các liên kết logic. Ví dụ: giả sử chúng ta có hai tính năng: quốc gia và ngôn ngữ. Phương thức mã hoá một lần nóng của mỗi vectơ tạo ra các tính năng nhị phân có thể được diễn giải là country=USA, country=France hoặc language=English, language=Spanish. Sau đó, nếu thực hiện chuyển đổi tính năng giữa các mã hoá một lần, bạn sẽ nhận được các tính năng nhị phân có thể được hiểu là liên kết logic, chẳng hạn như:

  country:usa AND language:spanish

Một ví dụ khác, giả sử bạn kết hợp vĩ độ và kinh độ, tạo ra các vectơ tính năng năm phần tử nóng riêng biệt. Ví dụ: một vĩ độ và kinh độ nhất định có thể được biểu thị như sau:

  binned_latitude = [0, 0, 0, 1, 0]
  binned_longitude = [0, 1, 0, 0, 0]

Giả sử bạn tạo một tính năng chéo của hai vectơ tính năng này:

  binned_latitude X binned_longitude

Vạch chéo này là một vectơ gồm 25 phần tử nóng (24 số 0 và 1 phần tử). Một 1 trong chéo sẽ xác định một vĩ độ và kinh độ cụ thể. Sau đó, mô hình của bạn có thể tìm hiểu các mối liên kết cụ thể về sự liên kết đó.

Giả sử chúng ta bin vĩ độ và kinh độ thô hơn nhiều như sau:

binned_latitude(lat) = [
  0  < lat <= 10
  10 < lat <= 20
  20 < lat <= 30
]

binned_longitude(lon) = [
  0  < lon <= 15
  15 < lon <= 30
]

Khi tạo một tính năng chéo cho các thùng rác thô, tính năng tổng hợp sẽ có ý nghĩa như sau:

binned_latitude_X_longitude(lat, lon) = [
  0  < lat <= 10 AND 0  < lon <= 15
  0  < lat <= 10 AND 15 < lon <= 30
  10 < lat <= 20 AND 0  < lon <= 15
  10 < lat <= 20 AND 15 < lon <= 30
  20 < lat <= 30 AND 0  < lon <= 15
  20 < lat <= 30 AND 15 < lon <= 30
]

Bây giờ, giả sử mô hình của chúng tôi cần dự đoán mức độ hài lòng của những người nuôi chó dựa trên hai tính năng:

  • Hành vi
  • Thời điểm trong ngày

Nếu chúng ta xây dựng tính năng chéo từ cả hai tính năng này:

  [behavior type X time of day]

thì chúng tôi sẽ có nhiều khả năng dự đoán hơn so với tính năng riêng biệt. Ví dụ:nếu một con chó khóc (vui vẻ) lúc 5 giờ chiều khi chủ sở hữu quay lại làm việc có thể sẽ là một yếu tố dự đoán tích cực về mức độ hài lòng của chủ sở hữu. Khóc (có lẽ là thất thường) lúc 3 giờ sáng khi chủ sở hữu đang ngủ có vẻ sẽ là một yếu tố dự báo tiêu cực mạnh mẽ về mức độ hài lòng của chủ sở hữu.

Học viên tuyến tính mở rộng quy mô thành dữ liệu khổng lồ. Sử dụng nhiều tính năng trên các tập dữ liệu lớn là một chiến lược hiệu quả để tìm hiểu các mô hình phức tạp. Mạng nơron là một chiến lược khác.