Lấy mẫu và tách dữ liệu

Giới thiệu về tính năng Lấy mẫu

Việc thu thập đủ dữ liệu cho một dự án máy học thường gặp nhiều khó khăn. Tuy nhiên, đôi khi có quá nhiều dữ liệu và bạn phải chọn một số ví dụ để huấn luyện.

Bạn chọn tập hợp con đó bằng cách nào? Ví dụ: xem xét Google Tìm kiếm. Bạn sẽ lấy mẫu dữ liệu khổng lồ ở mức độ chi tiết nào? Bạn có sử dụng truy vấn ngẫu nhiên không? Phiên hoạt động ngẫu nhiên? Người dùng ngẫu nhiên?

Cuối cùng, câu trả lời phụ thuộc vào vấn đề: chúng ta muốn dự đoán điều gì và muốn tính năng nào?

  • Để sử dụng tính năng truy vấn trước đây, bạn cần lấy mẫu ở cấp phiên, vì các phiên chứa chuỗi truy vấn.
  • Để sử dụng tính năng hành vi của người dùng trong những ngày trước đó, bạn cần lấy mẫu ở cấp người dùng.

Lọc PII (Thông tin nhận dạng cá nhân)

Nếu dữ liệu của bạn bao gồm PII (thông tin nhận dạng cá nhân), có thể bạn sẽ cần phải lọc dữ liệu đó khỏi dữ liệu của mình. Ví dụ: Một chính sách có thể yêu cầu bạn xoá các tính năng không thường xuyên.

Bộ lọc này sẽ làm sai lệch phân phối của bạn. Bạn sẽ mất thông tin ở đuôi (phần phân phối có giá trị rất thấp, khác với giá trị trung bình).

Bộ lọc này rất hữu ích vì rất khó tìm hiểu các tính năng không thường xuyên. Nhưng điều quan trọng bạn cần lưu ý là tập dữ liệu của bạn sẽ có định kiến đối với các truy vấn chính. Tại thời điểm phân phát, bạn có thể sẽ thấy các ví dụ về việc phân phát từ phần đuôi trở nên tệ hơn, vì đây là những ví dụ đã được lọc ra từ dữ liệu huấn luyện của bạn. Mặc dù không thể tránh được sai lệch này, nhưng hãy lưu ý điều này trong quá trình phân tích.