Kích thước và chất lượng của tập dữ liệu

"Đổ rác, đổ rác"

Câu tục tĩu trước đó áp dụng cho công nghệ máy học. Kết quả là mô hình của bạn chỉ có chất lượng tốt như dữ liệu của bạn. Nhưng làm cách nào để đo lường chất lượng của tập dữ liệu và cải thiện dữ liệu đó? Và bạn cần bao nhiêu dữ liệu để nhận được kết quả hữu ích? Câu trả lời phụ thuộc vào loại vấn đề mà bạn đang giải quyết.

Kích thước của Tập dữ liệu

Theo quy tắc chung, mô hình của bạn nên huấn luyện ít nhất là theo thứ tự cường độ cao hơn so với các tham số có thể huấn luyện. Mô hình đơn giản trên các tập dữ liệu lớn thường thắng mô hình tốt hơn trên các tập dữ liệu nhỏ. Google đã thành công trong việc đào tạo thành công các mô hình hồi quy tuyến tính đơn giản trên các tập dữ liệu lớn.

Điều gì được tính là "rất nhiều" dữ liệu? Tuỳ thuộc vào dự án. Cân nhắc kích thước tương đối của các tập dữ liệu này:

Tập dữ liệu Kích thước (số ví dụ)
Tập dữ liệu hoa diên vĩ 150 (tổng số đã đặt)
PhimLens (tập dữ liệu 20 triệu) 20.000.263 (tổng số đã đặt)
Trả lời thông minh của Google trong Gmail 238.000.000 (bộ đào tạo)
Ngram Google Sách 468.000.000.000 (tổng số đã đặt)
Google Dịch nghìn tỷ

Như bạn có thể thấy, tập dữ liệu có nhiều kích thước khác nhau.

Chất lượng của Tập dữ liệu

Việc sử dụng nhiều dữ liệu nếu dữ liệu không hợp lệ sẽ không ảnh hưởng đến chất lượng. Nhưng nội dung nào được tính là "quality"? Đây là một thuật ngữ không rõ ràng. Hãy cân nhắc thực hiện phương pháp theo thực nghiệm và chọn phương án tạo ra kết quả tốt nhất. Với lối tư duy đó, tập dữ liệu chất lượng là một tập hợp cho phép bạn thành công với vấn đề kinh doanh mà bạn quan tâm. Nói cách khác, dữ liệu sẽ tốt nếu hoàn thành được nhiệm vụ mong muốn.

Tuy nhiên, trong khi thu thập dữ liệu, bạn nên có một định nghĩa cụ thể hơn về chất lượng. Một số khía cạnh về chất lượng có xu hướng tương ứng với các mô hình hoạt động tốt hơn:

  • độ tin cậy
  • bản trình bày tính năng
  • giảm thiểu độ lệch

Độ tin cậy

Độ tin cậy đề cập đến mức độ bạn có thể tin tưởng dữ liệu của mình. Một mô hình được huấn luyện dựa trên một tập dữ liệu đáng tin cậy có nhiều khả năng mang lại những dự đoán hữu ích hơn so với một mô hình được huấn luyện dựa trên dữ liệu không đáng tin cậy. Để đo lường độ tin cậy, bạn phải xác định:

  • Lỗi nhãn thường gặp như thế nào? Ví dụ: nếu dữ liệu của bạn được gắn nhãn theo cách của con người, thì đôi khi con người có thể nhầm lẫn.
  • Tính năng của bạn có ồn không? Ví dụ: các số đo GPS sẽ dao động. Không có tiếng ồn. Bạn sẽ không bao giờ xóa tập hợp tiếng ồn. Bạn cũng có thể thu thập thêm ví dụ.
  • Dữ liệu có được lọc đúng cách cho vấn đề của bạn không? Ví dụ: tập dữ liệu của bạn có nên bao gồm các cụm từ tìm kiếm từ bot không? Nếu bạn đang xây dựng một hệ thống phát hiện nội dung vi phạm, thì câu trả lời có thể là có, nhưng nếu bạn đang cố gắng cải thiện kết quả tìm kiếm cho con người thì không.

Điều gì khiến dữ liệu không đáng tin cậy? Hãy nhớ lại Khóa học sự cố máy học rằng nhiều ví dụ trong các tập dữ liệu không đáng tin cậy do một hoặc nhiều yếu tố sau:

  • Giá trị bị bỏ qua. Ví dụ: một người quên nhập giá trị cho độ tuổi của ngôi nhà.
  • Ví dụ trùng lặp. Ví dụ: một máy chủ đã tải lên cùng một nhật ký hai lần.
  • Nhãn không hợp lệ. Ví dụ: một người đã gắn nhãn sai hình ảnh cây sồi là cây phong.
  • Giá trị tính năng không hợp lệ. Ví dụ: ai đó đã nhập thêm một chữ số hoặc máy đo nhiệt độ bị bỏ sót dưới ánh nắng mặt trời.

Google Dịch tập trung vào độ tin cậy để chọn "tập hợp con con tốt nhất" dữ liệu của mình; nghĩa là một số dữ liệu có nhãn chất lượng cao hơn các phần khác.

Bản trình bày tính năng

Hãy nhớ lại Khóa học về sự cố máy học biểu thị đó là việc liên kết dữ liệu với các tính năng hữu ích. Bạn sẽ cần cân nhắc những câu hỏi sau:

  • Dữ liệu được hiển thị đối với mô hình như thế nào?
  • Bạn có nên chuẩn hoá giá trị số không?
  • Bạn nên xử lý các điểm ngoại lai như thế nào?

Phần Biến đổi dữ liệu của khoá học này sẽ tập trung vào việc trình bày các tính năng.

Đào tạo so với Dự đoán

Giả sử bạn nhận được kết quả ngoại tuyến tuyệt vời. Sau đó, trong các thử nghiệm trực tiếp, các kết quả đó không cần giữ lại. Điều gì có thể đang xảy ra?

Vấn đề này cho thấy độ lệch/đào tạo — nghĩa là kết quả khác nhau được tính toán cho chỉ số của bạn tại thời điểm đào tạo so với thời gian phân phát. Nguyên nhân độ lệch có thể rất nhỏ, nhưng gây ảnh hưởng nghiêm trọng đến kết quả của bạn. Luôn xem xét những dữ liệu có sẵn cho mô hình của bạn tại thời điểm dự đoán. Trong quá trình đào tạo, hãy chỉ sử dụng các tính năng mà bạn có sẵn trong quá trình phân phát và đảm bảo rằng nội dung đào tạo đó đại diện cho lưu lượng phân phát của bạn.