Lấy mẫu và tách: Kiểm tra mức độ hiểu biết của bạn

Đối với các câu hỏi sau, hãy nhấp vào mũi tên mong muốn để kiểm tra câu trả lời:

Hãy tưởng tượng rằng bạn có một tập dữ liệu có tỷ lệ âm dương 1:1000. Thật không may, mô hình của bạn luôn dự đoán lớp đa số. Kỹ thuật nào sẽ giúp bạn xử lý vấn đề này tốt nhất? Lưu ý rằng bạn muốn mô hình báo cáo một xác suất đã hiệu chỉnh.
Chỉ cần giảm tần số lấy ví dụ phủ định.
Đây là một khởi đầu tốt, nhưng bạn sẽ thay đổi mức giá cơ bản để mô hình không còn được hiệu chỉnh.
Giảm tần số lấy mẫu ví dụ phủ định (lớp chính). Sau đó, tăng trọng số của lớp giảm tần số lấy mẫu theo cùng một hệ số.
Đây là một cách hiệu quả để xử lý dữ liệu không cân bằng mà vẫn nhận được nhãn phân phối thực. Xin lưu ý rằng việc bạn có quan tâm hay không nếu mô hình được báo cáo là một xác suất đã hiệu chỉnh. Nếu không cần hiệu chỉnh, thì bạn không cần phải lo lắng về việc thay đổi giá cơ sở.
Những kỹ thuật nào bị mất dữ liệu ở đuôi tập dữ liệu? Chọn tất cả tùy chọn phù hợp
Lọc PII
Việc lọc thông tin nhận dạng cá nhân khỏi dữ liệu của bạn có thể xóa thông tin ở phần đuôi, làm sai lệch phạm vi phân phối của bạn.
Trọng số
Việc tính trọng số mẫu sẽ thay đổi tầm quan trọng của các ví dụ khác nhau, nhưng không làm mất thông tin. Trên thực tế, việc thêm trọng số vào ví dụ về đuôi có thể giúp mô hình của bạn tìm hiểu hành vi về đuôi.
Giảm tần số lấy mẫu
Các đuôi của hàm phân phối tính năng sẽ mất thông tin trong việc giảm tần số lấy mẫu. Tuy nhiên, vì chúng ta thường giảm tần suất lấy mẫu của lớp chính, nên tình trạng mất dữ liệu này thường không phải là vấn đề lớn.
Chuẩn hoá
Việc chuẩn hoá hoạt động theo từng ví dụ riêng lẻ nên không gây ra độ chệch mẫu.
Bạn đang giải quyết một vấn đề về phân loại và bạn chia ngẫu nhiên dữ liệu thành các nhóm đào tạo, đánh giá và thử nghiệm. thuật toán phân loại của bạn hoạt động rất tốt! Nhưng trong quá trình sản xuất, thuật toán phân loại là lỗi hoàn toàn không thành công. Sau đó, bạn phát hiện ra rằng sự cố này là do việc phân tách ngẫu nhiên. Những loại dữ liệu nào dễ bị ảnh hưởng bởi vấn đề này?
Dữ liệu chuỗi thời gian
Tính năng phân tách ngẫu nhiên sẽ phân chia từng cụm trên phần tách thử nghiệm/xe lửa, để cung cấp "bản xem trước lén" cho mô hình sẽ không có sẵn trong phiên bản chính thức.
Dữ liệu không thay đổi nhiều theo thời gian
Nếu dữ liệu của bạn không thay đổi nhiều theo thời gian, thì bạn sẽ có nhiều cơ hội hơn để phân tách ngẫu nhiên. Ví dụ: bạn có thể muốn xác định giống chó trong ảnh hoặc dự đoán bệnh nhân có nguy cơ bị khuyết tật tim dựa trên dữ liệu sinh trắc học trước đây. Trong cả hai trường hợp, dữ liệu thường không thay đổi theo thời gian. Vì vậy, việc phân tách ngẫu nhiên sẽ không gây ra vấn đề.
Các nhóm dữ liệu
Tập hợp thử nghiệm sẽ luôn quá giống với tập hợp đã được đào tạo vì các cụm dữ liệu tương tự nhau đều nằm trong cả hai tập hợp. Mô hình có vẻ như có khả năng dự đoán chính xác hơn so với thực tế.
Dữ liệu có sự bùng nổ (dữ liệu xuất hiện trong các gói gián đoạn so với luồng liên tục)
Các cụm dữ liệu tương tự (các gói dữ liệu) sẽ xuất hiện trong cả quá trình đào tạo và kiểm thử. Mô hình này sẽ đưa ra cụm từ gợi ý phù hợp hơn trong quá trình thử nghiệm so với dữ liệu mới.