Bước 1: Thu thập dữ liệu

Việc thu thập dữ liệu là bước quan trọng nhất để giải quyết mọi vấn đề liên quan đến máy học có giám sát. Công cụ phân loại văn bản của bạn chỉ có thể có chất lượng tốt như tập dữ liệu xây dựng.

Nếu không có vấn đề cụ thể muốn giải quyết và chỉ muốn khám phá cách phân loại văn bản nói chung, thì bạn sẽ có rất nhiều tập dữ liệu nguồn mở. Bạn có thể tìm thấy các đường liên kết đến một số tệp trong kho lưu trữ GitHub của chúng tôi. Mặt khác, nếu đang giải quyết một vấn đề cụ thể, bạn sẽ cần thu thập dữ liệu cần thiết. Nhiều tổ chức cung cấp các API công khai để truy cập dữ liệu của họ, ví dụ: API Twitter hoặc API Thời gian NY. Bạn có thể tận dụng những giải pháp này cho vấn đề mà mình đang cố gắng giải quyết.

Sau đây là một số điều quan trọng bạn cần nhớ khi thu thập dữ liệu:

  • Nếu bạn đang sử dụng API công khai, hãy tìm hiểu các giới hạn của API trước khi sử dụng. Ví dụ: một số API đặt giới hạn về tốc độ truy vấn.
  • Bạn càng có nhiều ví dụ đào tạo (được gọi là mẫu trong phần còn lại của hướng dẫn này), thì càng tốt. Điều này sẽ giúp mô hình của bạn khái quát hơn.
  • Đảm bảo số lượng mẫu cho mọi lớp hoặc chủ đề không cân bằng quá mức. Tức là bạn phải có số lượng mẫu có thể so sánh trong mỗi lớp.
  • Hãy đảm bảo rằng các mẫu của bạn bao gồm đầy đủ không gian đầu vào có thể, chứ không chỉ những trường hợp phổ biến.

Trong suốt hướng dẫn này, chúng tôi sẽ sử dụng tập dữ liệu đánh giá phim (IMDb) về cơ sở dữ liệu Internet (IMDb) để minh hoạ quy trình làm việc. Tập dữ liệu này chứa các bài đánh giá phim do những người đăng trên trang web IMDb đăng tải, cũng như các nhãn tương ứng (“tích cực” hoặc “phủ định”) cho biết người đánh giá có thích bộ phim đó hay không. Đây là một ví dụ điển hình về vấn đề phân tích cảm xúc.