Diễn giải kết quả và điều chỉnh phân nhóm

Vì việc nhóm không được giám sát nên sẽ không có "sự thật" để xác minh kết quả. Khi không có thông tin thực tế, việc đánh giá chất lượng sẽ phức tạp hơn. Ngoài ra, tập dữ liệu thực tế thường không rơi vào các cụm ví dụ rõ ràng như tập dữ liệu hiển thị trong Hình 1.

Một biểu đồ cho thấy ba nhóm điểm dữ liệu rõ ràng
Hình 1: Biểu đồ dữ liệu lý tưởng; dữ liệu trong thế giới thực hiếm khi như thế này.

Đáng buồn là dữ liệu thực tế trông giống như Hình 2, khiến việc đánh giá chất lượng phân nhóm trở nên khó khăn.

Một biểu đồ có các điểm dữ liệu ngẫu nhiên
Hình 2: Biểu đồ dữ liệu thực tế

Sơ đồ quy trình bên dưới tóm tắt cách kiểm tra chất lượng việc phân nhóm. Chúng tôi sẽ mở rộng nội dung tóm tắt trong các mục sau.

Sơ đồ quy trình xác minh quy trình xác minh
Nhấp vào đây để xem phiên bản lớn hơn của biểu đồ này.

Bước 1: Chất lượng phân nhóm

Việc kiểm tra chất lượng của việc phân nhóm không phải là một quá trình nghiêm ngặt vì việc phân nhóm sẽ không có "sự thật". Đây là những nguyên tắc mà bạn có thể áp dụng nhiều lần để cải thiện chất lượng của hoạt động phân nhóm.

Trước tiên, hãy kiểm tra trực quan để đảm bảo các cụm giống như dự kiến và các ví dụ mà bạn cho là tương tự xuất hiện trong cùng một cụm. Sau đó, hãy kiểm tra các chỉ số thường dùng như mô tả trong các phần sau:

  • Lượng số theo cụm
  • Cường độ cụm
  • Hiệu suất của hệ thống xuôi dòng
Biểu đồ thanh cho thấy lượng số của một số cụm. Một số cụm có sự khác biệt lớn.
Hình 2: Lượng số của một số cụm.

Số lượng cụm

Lượng số của cụm là số lượng ví dụ cho mỗi cụm. Đánh dấu lượng số cụm cho tất cả các cụm và điều tra các cụm là ngoại lệ chính. Ví dụ: trong Hình 2, hãy điều tra nhóm số 5.

Một biểu đồ thanh cho biết cường độ của nhiều cụm. Một cụm có cường độ cao hơn đáng kể so với các cụm khác.
Hình 3: Cường độ của một số cụm.

Cường độ cụm

Độ lớn của cụm là tổng khoảng cách từ tất cả các ví dụ đến tâm của cụm. Tương tự như lượng số, hãy kiểm tra sự khác biệt về độ lớn giữa các cụm và điều tra các điểm bất thường. Ví dụ: trong Hình 3, hãy điều tra cụm số 0.

Một biểu đồ tán xạ cho thấy lượng số so với lượng tử cho một số cụm. Một cụm là một ngoại lệ trên biểu đồ.
Hình 4: Lượng số so với độ lớn của một số cụm.

Cường độ và lượng số

Xin lưu ý rằng lượng số cụm cao hơn có xu hướng dẫn đến độ lớn cụm cụm từ, nghĩa là trực quan. Các cụm bất thường khi lượng số không tương quan với độ lớn so với các cụm khác. Tìm các cụm bất thường bằng cách vẽ độ lớn dựa vào lượng số. Ví dụ: trong Hình 4, việc điều chỉnh một dòng tới các chỉ số của cụm cho thấy rằng số cụm 0 là bất thường.

Hiệu suất của hệ thống xuôi dòng

Vì kết quả phân nhóm thường được sử dụng trong các hệ thống máy học xuôi dòng, hãy kiểm tra xem hiệu suất của hệ thống xuôi dòng có cải thiện khi quá trình phân nhóm thay đổi hay không. Ảnh hưởng đối với hiệu suất về sau của bạn cung cấp thử nghiệm trong thực tế về chất lượng phân nhóm. Nhược điểm là thao tác kiểm tra này phức tạp khi thực hiện.

Các câu hỏi cần tìm hiểu nếu phát hiện thấy vấn đề

Nếu bạn phát hiện thấy vấn đề, hãy kiểm tra dữ liệu chuẩn bị và mức độ tương tự của dữ liệu, đặt câu hỏi sau:

  • Dữ liệu của bạn có được tính tỷ lệ không?
  • Số liệu về độ tương đồng của bạn có chính xác không?
  • Thuật toán của bạn có thực hiện các thao tác có ý nghĩa về mặt ngữ nghĩa đối với dữ liệu không?
  • Các giả định của thuật toán có khớp với dữ liệu không?

Bước 2: Hiệu suất của biện pháp tương tự

Thuật toán phân nhóm chỉ có chất lượng tốt như thước đo mức độ tương đồng. Hãy đảm bảo rằng số liệu đo độ tương đồng của bạn trả về kết quả hợp lý. Cách kiểm tra đơn giản nhất là xác định các cặp ví dụ được biết là tương tự hoặc ít hơn so với các cặp khác. Sau đó, hãy tính toán độ tương đồng cho từng cặp ví dụ. Đảm bảo rằng mức độ tương đồng cho các ví dụ tương tự cao hơn số liệu đo lường mức độ tương tự cho các ví dụ ít tương tự hơn.

Các ví dụ mà bạn sử dụng để xác định phép đo tương tự phải đại diện cho tập dữ liệu. Đảm bảo rằng tính tương đồng của bạn được giữ lại cho tất cả các ví dụ của bạn. Quy trình xác minh cẩn thận đảm bảo rằng chỉ số tương tự của bạn, dù là thủ công hay có giám sát, đều nhất quán trên tập dữ liệu của bạn. Nếu số liệu đo lường độ tương đồng của bạn không nhất quán trong một số ví dụ, thì những ví dụ đó sẽ không được nhóm với các ví dụ tương tự.

Nếu bạn tìm thấy các ví dụ có các điểm tương đồng không chính xác, thì khả năng đo lường độ tương đồng đó có thể sẽ không thu thập dữ liệu tính năng giúp phân biệt các ví dụ đó. Thử nghiệm bằng chỉ số tương tự để xác định xem bạn có nhận được điểm giống nhau chính xác hơn không.

Bước 3: Số lượng cụm tối ưu

k-mean yêu cầu bạn phải quyết định số lượng cụm \(k\) trước đó. Làm cách nào để xác định giá trị tối ưu của \(k\)? Hãy thử chạy thuật toán để tăng \(k\) và lưu ý tổng độ lớn của cụm. Khi \(k\) tăng lên, các cụm sẽ nhỏ hơn và tổng khoảng cách sẽ giảm. Hãy vẽ khoảng cách này so với số lượng cụm.

Như minh hoạ trong Hình 4, tại một \(k\)nhất định, mức giảm tổn thất sẽ trở nên biên sau khi tăng \(k\). Về mặt toán học, đó là khoảng \(k\) trong đó độ dốc vượt quá -1 (\(\theta > 135^{\circ}\)). Nguyên tắc này không xác định chính xác giá trị tối ưu \(k\) mà chỉ là giá trị gần đúng. Đối với biểu đồ hiển thị, mức tối ưu \(k\) là khoảng 11. Nếu ưu tiên các cụm chi tiết hơn, bạn có thể chọn \(k\) cao hơn bằng cách sử dụng biểu đồ này.

Biểu đồ thể hiện các cụm từ mất dữ liệu được sử dụng. Tỷ lệ giảm
Hình 4: Tỷ lệ mất so với số cụm