Khoá học này đã trình bày nhiều cạm bẫy dữ liệu phổ biến, từ chất lượng tập dữ liệu đến tư duy, trực quan hoá và phân tích thống kê.
Các chuyên gia về học máy nên đặt câu hỏi:
- Tôi hiểu rõ đặc điểm của các tập dữ liệu và các điều kiện mà dữ liệu đó được thu thập đến mức nào?
- Dữ liệu của tôi có những vấn đề nào về chất lượng hoặc độ lệch? Có yếu tố gây nhiễu nào không?
- Việc sử dụng những tập dữ liệu cụ thể này có thể gây ra những vấn đề tiềm ẩn nào?
- Khi huấn luyện một mô hình đưa ra dự đoán hoặc phân loại: tập dữ liệu mà mô hình được huấn luyện có chứa tất cả các biến có liên quan không?
Dù kết quả là gì, các chuyên gia về học máy luôn phải tự kiểm tra để xác nhận thiên kiến xác nhận, sau đó kiểm tra kết quả dựa trên trực giác và lẽ thường, đồng thời điều tra bất cứ nơi nào dữ liệu mâu thuẫn với những điều này.
Đọc thêm
Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information (Cách biểu đồ nói dối: Tìm hiểu thông tin trực quan một cách thông minh hơn). NY: W.W. Norton, 2019.
Huff, Darrell. Cách nói dối bằng số liệu thống kê. NY: W.W. Norton, 1954.
Monmonier, Mark. How to Lie with Maps (Cách nói dối bằng bản đồ), ấn bản lần thứ 3. Chicago: U of Chicago P, 2018.
Jones, Ben. Tránh những cạm bẫy về dữ liệu. Hoboken, NJ: Wiley, 2020.
Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data (Thống kê trần trụi: Loại bỏ nỗi sợ hãi khỏi dữ liệu). NY: W.W. Norton, 2013