Quy trình phân nhóm

Để phân nhóm dữ liệu, bạn sẽ làm theo các bước sau:

  1. Chuẩn bị dữ liệu.
  2. Tạo chỉ số tương tự.
  3. Chạy thuật toán phân nhóm.
  4. Diễn giải kết quả và điều chỉnh việc phân nhóm.

Trang này trình bày ngắn gọn các bước. Chúng ta sẽ đi sâu vào các phần tiếp theo.

Bốn bước của quy trình phân nhóm

Chuẩn bị dữ liệu

Như với mọi vấn đề máy học, bạn phải chuẩn hoá, mở rộng và biến đổi dữ liệu của tính năng. Tuy nhiên, khi phân nhóm, bạn phải đảm bảo thêm rằng dữ liệu đã chuẩn bị cho phép bạn tính toán chính xác sự tương đồng giữa các ví dụ. Các phần tiếp theo sẽ thảo luận về việc xem xét này.

Tạo chỉ số về độ tương đồng

Trước khi một thuật toán phân nhóm có thể nhóm dữ liệu, thuật toán đó cần biết các cặp ví dụ tương tự nhau. Bạn có thể xác định mức độ tương đồng giữa các ví dụ bằng cách tạo một chỉ số tương tự. Việc tạo chỉ số tương tự đòi hỏi bạn phải hiểu rõ dữ liệu của mình và cách tìm ra điểm tương đồng từ các tính năng.

Thuật toán phân cụm

Thuật toán phân nhóm sử dụng chỉ số tương tự để nhóm dữ liệu. Khoá học này tập trung vào các k-mean.

Diễn giải kết quả và điều chỉnh

Kiểm tra chất lượng đầu ra phân nhóm của bạn là lặp lại và thăm dò vì việc phân nhóm thiếu "thật" có thể xác minh đầu ra. Bạn xác minh kết quả so với kỳ vọng ở cấp cụm và cấp ví dụ. Để cải thiện kết quả, bạn cần phải thử nghiệm nhiều lần với các bước trước đó để xem chúng ảnh hưởng như thế nào đến việc phân nhóm.