Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Quy trình phân cụm

Để tạo cụm dữ liệu, bạn sẽ làm theo các bước sau:

Chuẩn bị dữ liệu.
Tạo chỉ số tương đồng.
Chạy thuật toán phân cụm.
Diễn giải kết quả và điều chỉnh hoạt động tạo cụm.

Trang này giới thiệu ngắn gọn các bước. Chúng ta sẽ tìm hiểu sâu hơn trong các phần tiếp theo.

Chuẩn bị dữ liệu

Giống như mọi vấn đề về máy học, bạn phải chuẩn hoá, điều chỉnh theo tỷ lệ và biến đổi dữ liệu đặc điểm trước khi huấn luyện hoặc tinh chỉnh mô hình trên dữ liệu đó. Ngoài ra, trước khi tạo cụm, hãy kiểm tra để đảm bảo rằng dữ liệu đã chuẩn bị cho phép bạn tính toán chính xác mức độ tương đồng giữa các ví dụ.

Tạo chỉ số tương đồng

Trước khi có thể nhóm dữ liệu, thuật toán phân cụm cần biết các cặp ví dụ có mức độ tương đồng như thế nào. Bạn có thể định lượng mức độ tương đồng giữa các ví dụ bằng cách tạo một chỉ số tương đồng. Để làm được điều này, bạn cần hiểu rõ dữ liệu của mình.

Chạy thuật toán phân cụm

Thuật toán phân cụm sử dụng chỉ số tương đồng để phân cụm dữ liệu. Khoá học này sử dụng thuật toán k-means.

Diễn giải kết quả và điều chỉnh

Vì quá trình phân cụm không tạo ra hoặc đưa vào "sự thật" cơ bản để bạn có thể xác minh kết quả, nên điều quan trọng là phải kiểm tra kết quả dựa trên kỳ vọng của bạn ở cả cấp cụm và cấp ví dụ. Nếu kết quả trông lạ hoặc có chất lượng thấp, hãy thử nghiệm với 3 bước trước đó. Tiếp tục lặp lại cho đến khi chất lượng đầu ra đáp ứng nhu cầu của bạn.

Các thuật toán phân cụm

Tiếp

Chuẩn bị dữ liệu

Quy trình phân cụm Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Chuẩn bị dữ liệu

Tạo chỉ số tương đồng

Chạy thuật toán phân cụm

Diễn giải kết quả và điều chỉnh

Quy trình phân cụm