Giới thiệu về việc xây dựng tập dữ liệu

Các bước để xây dựng tập dữ liệu

Để tạo tập dữ liệu (và trước khi chuyển đổi dữ liệu), bạn nên:

  1. Thu thập dữ liệu thô.
  2. Xác định nguồn tính năng và nhãn.
  3. Chọn chiến lược lấy mẫu.
  4. Phân chia dữ liệu.

Các bước này phụ thuộc rất nhiều vào cách bạn định khung hình cho vấn đề máy học. Hãy sử dụng quy trình tự kiểm tra dưới đây để làm mới bộ nhớ về việc hiển thị trong khung và xem các giả định của bạn về việc thu thập dữ liệu.

Tự kiểm tra khái niệm về Khung vấn đề và Thu thập dữ liệu

Đối với các câu hỏi sau, hãy nhấp vào mũi tên mong muốn để kiểm tra câu trả lời:

Bạn đang tham gia một dự án máy học hoàn toàn mới sắp chọn những tính năng đầu tiên. Bạn nên chọn bao nhiêu tính năng?
Chọn 1-3 tính năng có vẻ như có khả năng dự đoán mạnh mẽ.
Tốt nhất là quy trình thu thập dữ liệu của bạn chỉ nên bắt đầu với một hoặc hai tính năng. Việc này sẽ giúp bạn xác nhận rằng mô hình máy học sẽ hoạt động như dự kiến. Ngoài ra, khi xây dựng đường cơ sở từ một vài tính năng, bạn sẽ cảm thấy như mình đang tiến triển!
Chọn 4-6 tính năng có vẻ như có khả năng dự đoán mạnh mẽ.
Cuối cùng, bạn có thể sử dụng nhiều tính năng như vậy, nhưng nên bắt đầu với ít tính năng hơn. Việc có ít tính năng hơn thường có ít chức năng phức tạp hơn.
Chọn càng nhiều tính năng càng tốt để có thể bắt đầu quan sát xem tính năng nào có khả năng dự đoán cao nhất.
Bắt đầu từ những bước nhỏ hơn. Mỗi tính năng mới sẽ thêm một phương diện mới vào tập dữ liệu đào tạo của bạn. Khi kích thước tăng, số lượng không gian tăng nhanh đến mức dữ liệu đào tạo có sẵn trở nên thưa thớt. Dữ liệu của bạn càng hạn chế, thì mô hình càng khó tìm hiểu mối quan hệ giữa các tính năng thực sự quan trọng với nhãn. Hiện tượng này được gọi là "lời nguy hiểm về kích thước."
Bạn của anh Sam rất háo hức về kết quả ban đầu trong việc phân tích thống kê. Anh ấy cho biết dữ liệu cho thấy mối tương quan tích cực giữa số lượt tải ứng dụng xuống và số lượt hiển thị đánh giá ứng dụng. Nhưng anh ấy không chắc liệu họ có tải ứng dụng xuống hay không mà không xem bài đánh giá. Phản hồi nào sẽ hữu ích nhất cho Sam?
Bạn có thể chạy thử nghiệm để so sánh hành vi của những người dùng chưa xem bài đánh giá đó với những người dùng tương tự đã làm như vậy.
Chính xác! Nếu nhận thấy người dùng nhìn thấy bài đánh giá tích cực có nhiều khả năng sẽ tải ứng dụng xuống hơn so với những người dùng thì không, anh ấy có bằng chứng hợp lý để đề xuất rằng bài đánh giá tích cực đang khuyến khích mọi người tải ứng dụng.
Hãy tin tưởng dữ liệu. Rõ ràng là bài đánh giá tuyệt vời là lý do khiến người dùng tải ứng dụng xuống.
Chưa chính xác. Câu trả lời này sẽ không giúp Sam đi đúng hướng. Bạn không thể xác định mối quan hệ nhân quả chỉ từ dữ liệu quan sát. Sam đang nhìn thấy mối tương quan (nghĩa là phần phụ thuộc thống kê giữa các con số) có thể có hoặc không biểu thị mối quan hệ có mối quan hệ. Đừng phân tích các mối tương quan giả mạo.