Hệ thống máy học trong thế giới thực: Văn học

Trong bài học này, bạn sẽ gỡ lỗi một bài toán máy học trong thế giới thực* có liên quan đến văn học thế kỷ 18.

Ví dụ về thế giới thực: Văn học thế kỷ 18

  • Giáo sư Văn học thế kỷ 18 muốn dự đoán mối liên kết chính trị của các tác giả chỉ dựa trên &nấc ẩn ý" tác giả đã sử dụng.
Sách cũ
  • Giáo sư Văn học thế kỷ 18 muốn dự đoán mối liên kết chính trị của các tác giả chỉ dựa trên &nấc ẩn ý" tác giả đã sử dụng.
  • Nhóm các nhà nghiên cứu đã tạo một tập dữ liệu lớn có gắn nhãn với nhiều tác giả' tác phẩm, theo từng câu và chia thành các tập tàu/xác thực/kiểm thử.
Sách cũ
  • Giáo sư Văn học thế kỷ 18 muốn dự đoán mối liên kết chính trị của các tác giả chỉ dựa trên &nấc ẩn ý" tác giả đã sử dụng.
  • Nhóm các nhà nghiên cứu đã tạo một tập dữ liệu lớn có gắn nhãn với nhiều tác giả' tác phẩm, theo từng câu và chia thành các tập tàu/xác thực/kiểm thử.
  • Mô hình đã qua đào tạo gần như hoàn hảo về dữ liệu thử nghiệm, nhưng các nhà nghiên cứu cảm thấy các kết quả đáng tin cậy. Đã xảy ra sự cố gì?
Sách cũ

Tại sao bạn cho rằng độ chính xác của thử nghiệm lại ở mức cao đáng ngờ? Hãy xem bạn có tìm ra vấn đề không rồi nhấp vào nút Phát ▶ bên dưới để tìm hiểu xem bạn có đúng không.

  • Phân tách dữ liệu A: Các nhà nghiên cứu đưa một số ví dụ về từng tác giả vào tập huấn đào tạo, một số ví dụ trong tập hợp xác thực, một số ví dụ trong tập hợp thử nghiệm.
Tất cả các ví dụ của Richardson có thể nằm trong tập huấn luyện, trong khi tất cả các ví dụ của Swift có thể nằm trong tập hợp xác thực.
Sơ đồ thể hiện chi tiết các ví dụ về tác giả trong các bộ đào tạo, xác thực và kiểm thử. Ví dụ về từng tác giả trong số ba tác giả được trình bày trong từng tập hợp.
  • Phân tách dữ liệu B: Các nhà nghiên cứu đưa tất cả ví dụ về từng tác giả vào một tập hợp duy nhất.
Sơ đồ thể hiện chi tiết các ví dụ về tác giả trong các bộ đào tạo, xác thực và kiểm thử. Tập huấn luyện chỉ chứa các ví dụ từ Swift, tập hợp xác thực chỉ chứa các ví dụ từ Blake và tập kiểm thử chỉ chứa các ví dụ từ Defoe.
  • Phân tách dữ liệu A: Các nhà nghiên cứu đưa một số ví dụ về từng tác giả vào tập huấn đào tạo, một số ví dụ trong tập hợp xác thực, một số ví dụ trong tập hợp thử nghiệm.
  • Phân tách dữ liệu B: Các nhà nghiên cứu đưa tất cả ví dụ về từng tác giả vào một tập hợp duy nhất.
  • Kết quả: Mô hình được đào tạo về Phân tách dữ liệu A có độ chính xác cao hơn nhiều so với mô hình được đào tạo về Phân tách dữ liệu B.

Nguyên tắc: hãy cân nhắc kỹ cách phân chia các ví dụ.

Biết nội dung của dữ liệu.

* Chúng tôi dựa trên học phần này rất rời rạc (thực hiện một số sửa đổi trong quá trình thực hiện) trên "Ý nghĩa và khai thác: Tác động của các giả định ngầm ẩn trong việc khai thác dữ liệu cho nhân khẩu học" của Sculley và Pasanek.