Phần này tập trung vào nhãn.
Nhãn trực tiếp so với nhãn đại diện
Hãy cân nhắc 2 loại nhãn:
- Nhãn trực tiếp là những nhãn giống hệt với dự đoán mà mô hình của bạn đang cố gắng đưa ra. Tức là dự đoán mà mô hình của bạn đang cố gắng đưa ra sẽ xuất hiện chính xác dưới dạng một cột trong tập dữ liệu.
Ví dụ: cột có tên
bicycle owner
sẽ là nhãn trực tiếp cho mô hình phân loại nhị phân dự đoán xem một người có sở hữu xe đạp hay không. - Nhãn proxy là những nhãn tương tự (nhưng không giống hệt) với dự đoán mà mô hình của bạn đang cố gắng đưa ra. Ví dụ: một người đăng ký tạp chí Bicycle Bizarre có thể (nhưng không chắc chắn) sở hữu một chiếc xe đạp.
Nhãn trực tiếp thường tốt hơn nhãn proxy. Nếu tập dữ liệu của bạn cung cấp một nhãn trực tiếp có thể có, thì bạn nên sử dụng nhãn đó. Tuy nhiên, thường thì nhãn trực tiếp không có sẵn.
Nhãn proxy luôn là một giải pháp thoả hiệp – một bản xấp xỉ không hoàn hảo của nhãn trực tiếp. Tuy nhiên, một số nhãn đại diện có thể là những giá trị gần đúng đủ để sử dụng. Các mô hình sử dụng nhãn proxy chỉ hữu ích khi có mối liên hệ giữa nhãn proxy và thông tin dự đoán.
Hãy nhớ rằng mọi nhãn đều phải được biểu thị dưới dạng số thực dấu phẩy động trong vectơ đặc trưng (vì về cơ bản, học máy chỉ là một sự kết hợp khổng lồ của các phép toán). Đôi khi, nhãn trực tiếp tồn tại nhưng không thể dễ dàng biểu thị dưới dạng số thực trong vectơ đặc trưng. Trong trường hợp này, hãy sử dụng nhãn proxy.
Bài tập: Kiểm tra mức độ hiểu biết của bạn
Công ty của bạn muốn thực hiện những việc sau:
Gửi phiếu giảm giá ("Giảm 15% khi mua mũ bảo hiểm xe đạp mới") qua đường bưu điện cho chủ sở hữu xe đạp.
Vì vậy, mô hình của bạn phải làm như sau:
Dự đoán những người sở hữu xe đạp.
Rất tiếc, tập dữ liệu này không chứa cột có tên bike owner
.
Tuy nhiên, tập dữ liệu này có chứa một cột có tên là recently bought a bicycle
.
recently bought a bicycle
có phải là nhãn proxy tốt hay nhãn proxy kém cho mô hình này?recently bought a bicycle
là một nhãn proxy tương đối tốt. Sau tất cả, hầu hết những người mua xe đạp hiện đều đã có xe đạp. Tuy nhiên, giống như tất cả các nhãn đại diện khác (ngay cả những nhãn rất tốt), recently bought a
bicycle
cũng không hoàn hảo. Sau tất cả, người mua một mặt hàng không phải lúc nào cũng là người sử dụng (hoặc sở hữu) mặt hàng đó.
Ví dụ: đôi khi người dùng mua xe đạp làm quà tặng.recently bought a bicycle
không hoàn hảo (một số xe đạp được mua làm quà tặng và tặng cho người khác). Tuy nhiên, recently bought a bicycle
vẫn là một chỉ báo tương đối tốt cho thấy một người sở hữu xe đạp.Dữ liệu do con người tạo
Một số dữ liệu là do con người tạo; tức là một hoặc nhiều người kiểm tra một số thông tin và cung cấp giá trị, thường là cho nhãn. Ví dụ: một hoặc nhiều nhà khí tượng học có thể xem xét hình ảnh bầu trời và xác định các loại mây.
Ngoài ra, một số dữ liệu được tạo tự động. Tức là phần mềm (có thể là một mô hình học máy khác) sẽ xác định giá trị. Ví dụ: một mô hình học máy có thể xem xét hình ảnh bầu trời và tự động xác định các loại mây.
Phần này khám phá những ưu điểm và nhược điểm của dữ liệu do con người tạo.
Ưu điểm
- Nhân viên đánh giá có thể thực hiện nhiều nhiệm vụ mà ngay cả những mô hình học máy tinh vi cũng có thể gặp khó khăn.
- Quy trình này buộc chủ sở hữu tập dữ liệu phải xây dựng các tiêu chí rõ ràng và nhất quán.
Nhược điểm
- Bạn thường phải trả tiền cho người đánh giá, vì vậy, dữ liệu do con người tạo ra có thể tốn kém.
- Lỗi là không tránh khỏi. Do đó, nhiều nhân viên đánh giá có thể phải đánh giá cùng một dữ liệu.
Hãy suy nghĩ kỹ về những câu hỏi này để xác định nhu cầu của bạn:
- Người đánh giá cần có kỹ năng như thế nào? (Ví dụ: người đánh giá có cần biết một ngôn ngữ cụ thể không? Bạn có cần chuyên gia ngôn ngữ cho các ứng dụng đối thoại hoặc NLP không?)
- Bạn cần bao nhiêu ví dụ được gắn nhãn? Khi nào bạn cần những mặt hàng này?
- Ngân sách của bạn là bao nhiêu?
Luôn kiểm tra kỹ người đánh giá. Ví dụ: tự gắn nhãn 1.000 ví dụ và xem kết quả của bạn có khớp với kết quả của những người đánh giá khác hay không. Nếu có sự khác biệt, đừng cho rằng mức phân loại của bạn là chính xác, đặc biệt là nếu có phán đoán về giá trị. Nếu người đánh giá thủ công đã gây ra lỗi, hãy cân nhắc việc thêm hướng dẫn để giúp họ và thử lại.