Xác định nhãn và nguồn

Nhãn trực tiếp và nhãn có nguồn gốc

Máy học sẽ dễ dàng hơn khi nhãn của bạn được xác định rõ. Nhãn tốt nhất là nhãn trực tiếp chứa nội dung bạn muốn dự đoán. Ví dụ: nếu bạn muốn dự đoán liệu người dùng có phải là người hâm mộ Taylor Swift hay không, một nhãn trực tiếp sẽ là "User là người hâm mộ Taylor Swift;"

Một thử nghiệm đơn giản về tính người hâm mộ có thể là liệu người dùng đã xem video của Taylor Swift trên YouTube. Nhãn "người dùng đã xem một video của Taylor Swift trên YouTube" là một nhãn bắt nguồn vì nó không đo lường trực tiếp những gì bạn muốn dự đoán. Nhãn bắt nguồn này có phải là một chỉ báo đáng tin cậy cho biết người dùng thích Taylor Swift không? Mô hình của bạn sẽ chỉ có hiệu quả khi kết nối giữa nhãn được dẫn xuất và dự đoán mong muốn.

Ví dụ:

Nguồn nhãn

Kết quả của mô hình có thể là Sự kiện hoặc Thuộc tính. Điều này dẫn đến hai loại nhãn sau:

  • Nhãn trực tiếp cho Sự kiện, chẳng hạn như "Người dùng có nhấp vào kết quả tìm kiếm hàng đầu không?"
  • Nhãn trực tiếp cho các Thuộc tính, chẳng hạn như “Nhà quảng cáo có chi tiêu hơn $X trong tuần tới không?”

Nhãn trực tiếp cho các Sự kiện

Đối với các sự kiện, các nhãn trực tiếp thường rất đơn giản, vì bạn có thể ghi lại hành vi của người dùng trong sự kiện để sử dụng làm nhãn. Khi gắn nhãn các sự kiện, hãy tự hỏi những câu hỏi sau:

  • Nhật ký của bạn được cấu trúc như thế nào?
  • Sự kiện nào được coi là “sự kiện” trong nhật ký của bạn?

Ví dụ: hệ thống có ghi lại nhật ký của người dùng khi họ nhấp vào một kết quả tìm kiếm hoặc khi người dùng tìm kiếm không? Nếu bạn có nhật ký nhấp chuột, hãy nhận ra rằng bạn sẽ không bao giờ thấy hiển thị nếu không có nhấp chuột. Bạn sẽ cần nhật ký mà sự kiện là lượt hiển thị để bạn có thể xem tất cả các trường hợp mà người dùng nhìn thấy kết quả tìm kiếm hàng đầu.

Nhãn trực tiếp cho các thuộc tính

Giả sử nhãn của bạn là "Nhà quảng cáo sẽ chi tiêu hơn $X trong tuần tới". Thông thường, bạn sẽ sử dụng dữ liệu của những ngày trước đó để dự đoán điều gì sẽ xảy ra trong những ngày tiếp theo. Ví dụ: hình minh hoạ sau đây cho thấy mười ngày dữ liệu huấn luyện để dự đoán 7 ngày tiếp theo:

Lịch làm nổi bật khối 10 ngày, ngay sau đó là khối 7 ngày.
Mô hình này sử dụng dữ liệu từ khối 10 ngày để đưa ra dự đoán về khối 7 ngày.

Hãy nhớ cân nhắc các tác động theo thời vụ hoặc chu kỳ; ví dụ: nhà quảng cáo có thể chi tiêu nhiều hơn vào cuối tuần. Do đó, bạn nên sử dụng thời lượng 14 ngày hoặc sử dụng ngày tháng làm tính năng để mô hình có thể tìm hiểu hiệu ứng hằng năm.

Nhãn trực tiếp cần nhật ký hành vi trước đây

Trong các trường hợp trước, hãy lưu ý rằng chúng tôi cần dữ liệu về kết quả thực. Cho dù đó là mức chi tiêu của nhà quảng cáo hay người dùng nào đã xem Taylor Swift, chúng tôi đều cần dữ liệu trong quá khứ để sử dụng công nghệ máy học có giám sát. Công nghệ máy học đưa ra dự đoán dựa trên những gì đã xảy ra trong quá khứ, vì vậy nếu bạn không có nhật ký trước đây, bạn cần lấy nhật ký.

Nếu bạn không có dữ liệu để ghi nhật ký thì sao?

Có thể sản phẩm của bạn chưa tồn tại, vì vậy, bạn không có bất kỳ dữ liệu nào để ghi nhật ký. Trong trường hợp đó, bạn có thể thực hiện một hoặc nhiều thao tác sau:

  • Sử dụng phương pháp phỏng đoán cho lần khởi chạy đầu tiên, sau đó huấn luyện hệ thống dựa trên dữ liệu đã ghi.
  • Sử dụng nhật ký từ một sự cố tương tự để tự khởi động hệ thống của bạn.
  • Sử dụng người đánh giá để tạo dữ liệu bằng cách hoàn thành tác vụ.

Tại sao nên sử dụng Dữ liệu do con người gắn nhãn?

Có những ưu và nhược điểm khi sử dụng dữ liệu có gắn nhãn con người.

Ưu điểm

  • Người đánh giá có thể thực hiện nhiều nhiệm vụ.
  • Dữ liệu buộc bạn phải đưa ra định nghĩa rõ ràng về vấn đề.

Nhược điểm

  • Dữ liệu này tốn kém cho một số miền nhất định.
  • Dữ liệu tốt thường yêu cầu nhiều lần lặp lại.

Cải thiện chất lượng

Luôn kiểm tra công việc của nhân viên đánh giá của bạn. Ví dụ: tự gắn nhãn 1000 ví dụ và xem kết quả của bạn khớp với người đánh giá như thế nào. (Việc tự gắn nhãn dữ liệu cũng là một bài tập hữu ích để làm quen với dữ liệu của bạn.) Nếu sự khác biệt xuất hiện, đừng cho rằng điểm xếp hạng của bạn là chính xác, đặc biệt là khi có liên quan đến việc đánh giá giá trị. Nếu người đánh giá đã đưa ra lỗi, hãy cân nhắc thêm hướng dẫn để giúp họ và thử lại.

Bạn có thể xem xét dữ liệu theo cách thủ công, bất kể bạn đã nhận được dữ liệu như thế nào. Andrej Karpathy đã làm việc này trên ImageNet và viết về trải nghiệm.