Mặc dù khoá học Chuẩn bị dữ liệu và kỹ thuật tính năng cho máy học bao gồm các bước chuẩn bị dữ liệu chung, nhưng khoá học này sẽ giúp bạn tìm hiểu việc chuẩn bị dành riêng cho việc phân nhóm.
Trong việc phân nhóm, bạn tính toán sự tương đồng giữa hai ví dụ bằng cách kết hợp tất cả dữ liệu tính năng cho các ví dụ đó thành một giá trị số. Việc kết hợp dữ liệu tính năng sẽ yêu cầu dữ liệu phải có cùng tỷ lệ. Phần này sẽ xem xét quá trình chuẩn hoá, biến đổi và tạo số lượng tử cũng như thảo luận về lý do các thành phần quan trọng là lựa chọn mặc định tốt nhất để biến đổi mọi lượt phân phối dữ liệu. Việc có lựa chọn mặc định cho phép bạn biến đổi dữ liệu mà không cần kiểm tra quá trình phân phối dữ liệu.
Chuẩn hoá dữ liệu
Bạn có thể chuyển đổi dữ liệu cho nhiều tính năng thành cùng một tỷ lệ bằng cách chuẩn hoá dữ liệu. Cụ thể, việc chuẩn hoá rất phù hợp để xử lý việc phân phối dữ liệu phổ biến nhất là phân phối Gaussian. So với các thành phần lượng tử, quá trình chuẩn hoá cần ít dữ liệu hơn đáng kể. Chuẩn hoá dữ liệu bằng cách tính điểm số z như sau:
\[x'=(x-\mu)/\sigma\\ \begin{align*} \text{where:}\quad \mu &= \text{mean}\\ \sigma &= \text{standard deviation}\\ \end{align*} \]
Hãy xem sự tương đồng giữa các ví dụ có và không có quy trình chuẩn hoá. Trong Hình 1, bạn thấy màu đỏ có vẻ giống với màu xanh dương hơn màu vàng. Tuy nhiên, các tính năng trên trục x và y không có cùng tỷ lệ. Do đó, điểm tương đồng quan sát được có thể là cấu phần phần mềm của dữ liệu không được tính tỷ lệ. Sau khi chuẩn hoá bằng cách sử dụng chỉ số z, tất cả các tính năng đều có cùng tỷ lệ. Bây giờ, bạn sẽ thấy màu đỏ thực sự tương tự như màu vàng. Do đó, sau khi chuẩn hoá dữ liệu, bạn có thể tính toán mức độ tương đồng chính xác hơn.
Tóm lại, hãy áp dụng chuẩn hoá khi một trong hai trường hợp sau đều đúng:
- Dữ liệu của bạn có phân phối Gaussian.
- Tập dữ liệu của bạn thiếu dữ liệu để tạo số lượng.
Sử dụng phép biến đổi nhật ký
Đôi khi, một tập dữ liệu tuân theo quy trình phân phối luật nguồn lực giúp phân bổ dữ liệu ở cấp thấp. Trong Hình 2, màu đỏ gần với màu vàng hơn màu xanh dương.
Xử lý hoạt động phân phối luật pháp bằng cách sử dụng phép biến đổi nhật ký. Trong Hình 3, phép biến đổi nhật ký sẽ giúp phân phối mượt mà hơn và màu đỏ gần với màu xanh dương hơn màu vàng.
Sử dụng định lượng
Chuẩn hoá và biến đổi nhật ký giải quyết các phân phối dữ liệu cụ thể. Nếu dữ liệu không tuân thủ quy trình phân phối của Gaussian hoặc dưới quyền hạn quyền lực thì sao? Có phương pháp chung áp dụng cho mọi hoạt động phân phối dữ liệu không?
Hãy thử xử lý trước sự phân phối này.
Theo trực giác, nếu hai ví dụ chỉ có một vài ví dụ thì hai ví dụ này tương tự nhau, bất kể giá trị của chúng là gì. Ngược lại, nếu hai ví dụ này có nhiều ví dụ trong số đó thì hai ví dụ này ít giống nhau hơn. Do đó, sự tương đồng giữa hai ví dụ giảm đi khi số lượng ví dụ giữa các ví dụ tăng lên.
Quá trình chuẩn hoá dữ liệu chỉ đơn giản là tái tạo hoạt động phân phối dữ liệu vì hoạt động chuẩn hoá là một phép biến đổi tuyến tính. Việc áp dụng phép biến đổi nhật ký không phản ánh trực giác của bạn về cách hoạt động của tính tương đồng, như được minh hoạ trong Hình 5 bên dưới.
Thay vào đó, hãy chia dữ liệu thành các khoảng thời gian mà mỗi khoảng chứa số lượng ví dụ bằng nhau. Các ranh giới này được gọi là lượng tử.
Hãy chuyển đổi dữ liệu thành các hằng số bằng cách thực hiện các bước sau:
- Quyết định số lượng khoảng thời gian.
- Xác định các khoảng thời gian sao cho mỗi khoảng có số lượng ví dụ bằng nhau.
- Thay thế từng ví dụ theo chỉ mục của khoảng thời gian chứa chỉ số đó.
- Đưa các chỉ mục vào cùng phạm vi với dữ liệu tính năng khác bằng cách chia tỷ lệ giá trị chỉ mục thành [0,1].
Sau khi chuyển đổi dữ liệu thành lượng tử, độ tương đồng giữa 2 ví dụ tỷ lệ nghịch với số ví dụ giữa 2 ví dụ đó. Về mặt toán học, trong đó “x” là ví dụ bất kỳ trong tập dữ liệu:
- \(sim(A,B) \approx 1 − | \text{prob}[x > A] − \text{prob}[x > B] |\)
- \(sim(A,B) \approx 1 − | \text{quantile}(A) − \text{quantile}(B) |\)
Lượng tử là lựa chọn mặc định tốt nhất để chuyển đổi dữ liệu. Tuy nhiên, để tạo các thực thể là các chỉ báo đáng tin cậy cho việc phân phối dữ liệu cơ bản, bạn cần nhiều dữ liệu. Theo quy tắc chung, để tạo \(n\) các đối tượng lượng tử, bạn nên có ít nhất \(10n\) ví dụ. Nếu bạn không có đủ dữ liệu, hãy duy trì quá trình chuẩn hoá.
Kiểm tra kiến thức
Đối với những câu hỏi sau, giả sử bạn có đủ dữ liệu để tạo số lượng.
Câu hỏi một
- Phân phối dữ liệu là Gaussian.
- Bạn có thông tin chi tiết về dữ liệu đại diện cho bạn biết rằng dữ liệu không nên được chuyển đổi phi tuyến tính. Do đó, bạn nên tránh định lượng và chọn độ chuẩn hoá.
Câu hỏi 2
Thiếu dữ liệu
Nếu tập dữ liệu của bạn có các ví dụ bị thiếu giá trị cho một tính năng nhất định nhưng các ví dụ này hiếm khi xảy ra, bạn có thể xoá các ví dụ này. Nếu những ví dụ như vậy xảy ra thường xuyên, chúng tôi có thể chọn xoá hoàn toàn tính năng này hoặc dự đoán các giá trị còn thiếu khỏi các ví dụ khác bằng cách sử dụng mô hình máy học. Ví dụ: bạn có thể dự đoán dữ liệu dạng số bị thiếu bằng cách sử dụng mô hình hồi quy được huấn luyện dựa trên dữ liệu tính năng hiện có.