Tham gia nhật ký dữ liệu

Khi tập hợp một tập huấn luyện, đôi khi, bạn phải tham gia nhiều nguồn dữ liệu.

Các loại nhật ký

Bạn có thể làm việc với bất kỳ loại dữ liệu đầu vào nào sau đây:

  • nhật ký giao dịch
  • dữ liệu thuộc tính
  • số liệu thống kê tổng hợp

Nhật ký giao dịch ghi lại một sự kiện cụ thể. Ví dụ: nhật ký giao dịch có thể ghi lại địa chỉ IP tạo truy vấn và ngày giờ truy vấn được thực hiện. Sự kiện giao dịch tương ứng với một sự kiện cụ thể.

Dữ liệu thuộc tính chứa thông tin tổng quan nhanh. Ví dụ:

  • thông tin nhân khẩu học của người dùng
  • lịch sử tìm kiếm tại thời điểm truy vấn

Dữ liệu thuộc tính không cụ thể cho một sự kiện hoặc thời điểm, nhưng vẫn có thể hữu ích cho việc dự đoán. Đối với các tác vụ gợi ý không liên kết với một sự kiện cụ thể (ví dụ: dự đoán tỷ lệ người dùng rời bỏ (liên quan đến một khoảng thời gian thay vì một khoảnh khắc riêng lẻ), thì dữ liệu thuộc tính có thể là loại dữ liệu duy nhất.

Dữ liệu thuộc tính và nhật ký giao dịch có liên quan. Ví dụ: bạn có thể tạo một loại dữ liệu thuộc tính bằng cách tổng hợp một số nhật ký giao dịch, tạo số liệu thống kê tổng hợp. Trong trường hợp này, bạn có thể xem xét nhiều nhật ký giao dịch để tạo một thuộc tính duy nhất cho người dùng.

Số liệu thống kê tổng hợp sẽ tạo một thuộc tính từ nhiều nhật ký giao dịch. Ví dụ:

  • tần suất truy vấn của người dùng
  • tỷ lệ nhấp trung bình trên một quảng cáo nhất định

Tham gia nguồn nhật ký

Mỗi loại nhật ký có xu hướng ở một vị trí khác nhau. Khi thu thập dữ liệu cho mô hình máy học, bạn phải kết hợp các nguồn khác nhau để tạo tập dữ liệu. Một số ví dụ:

  • Tận dụng mã nhận dạng và dấu thời gian của người dùng trong nhật ký giao dịch để tra cứu các thuộc tính người dùng tại thời điểm diễn ra sự kiện.
  • Sử dụng dấu thời gian giao dịch để chọn nhật ký tìm kiếm tại thời điểm truy vấn.

Nguồn dữ liệu dự đoán – Trực tuyến so với Ngoại tuyến

Trong Khoá học sự cố máy học mà bạn đã tìm hiểu về việc phân phát trực tuyến và ngoại tuyến. Lựa chọn này ảnh hưởng đến cách hệ thống của bạn thu thập dữ liệu như sau:

  • trực tuyến—Vấn đề về độ trễ khiến hệ thống của bạn phải nhanh chóng tạo đầu vào.
  • ngoại tuyến — Có thể bạn không có hạn chế về điện toán, vì vậy, bạn có thể thực hiện các thao tác phức tạp tương tự như tạo dữ liệu đào tạo.

Ví dụ: dữ liệu thuộc tính thường cần được tra cứu từ một số hệ thống khác, điều này có thể gây ra vấn đề về độ trễ. Tương tự, số liệu thống kê tổng hợp có thể tốn kém khi tính toán nhanh chóng. Nếu độ trễ là một trình chặn, bạn có thể tính toán trước các số liệu thống kê này.