Chuẩn bị dữ liệu

Mặc dù khoá học Chuẩn bị dữ liệu và kỹ thuật tính năng cho máy học bao gồm các bước chuẩn bị dữ liệu chung, nhưng khoá học này sẽ giúp bạn tìm hiểu việc chuẩn bị dành riêng cho việc phân nhóm.

Trong việc phân nhóm, bạn tính toán sự tương đồng giữa hai ví dụ bằng cách kết hợp tất cả dữ liệu tính năng cho các ví dụ đó thành một giá trị số. Việc kết hợp dữ liệu tính năng sẽ yêu cầu dữ liệu phải có cùng tỷ lệ. Phần này sẽ xem xét quá trình chuẩn hoá, biến đổi và tạo số lượng tử cũng như thảo luận về lý do các thành phần quan trọng là lựa chọn mặc định tốt nhất để biến đổi mọi lượt phân phối dữ liệu. Việc có lựa chọn mặc định cho phép bạn biến đổi dữ liệu mà không cần kiểm tra quá trình phân phối dữ liệu.

Chuẩn hoá dữ liệu

Bạn có thể chuyển đổi dữ liệu cho nhiều tính năng thành cùng một tỷ lệ bằng cách chuẩn hoá dữ liệu. Cụ thể, việc chuẩn hoá rất phù hợp để xử lý việc phân phối dữ liệu phổ biến nhất là phân phối Gaussian. So với các thành phần lượng tử, quá trình chuẩn hoá cần ít dữ liệu hơn đáng kể. Chuẩn hoá dữ liệu bằng cách tính điểm số z như sau:

\[x'=(x-\mu)/\sigma\\ \begin{align*} \text{where:}\quad \mu &= \text{mean}\\ \sigma &= \text{standard deviation}\\ \end{align*} \]

Hãy xem sự tương đồng giữa các ví dụ có và không có quy trình chuẩn hoá. Trong Hình 1, bạn thấy màu đỏ có vẻ giống với màu xanh dương hơn màu vàng. Tuy nhiên, các tính năng trên trục x và y không có cùng tỷ lệ. Do đó, điểm tương đồng quan sát được có thể là cấu phần phần mềm của dữ liệu không được tính tỷ lệ. Sau khi chuẩn hoá bằng cách sử dụng chỉ số z, tất cả các tính năng đều có cùng tỷ lệ. Bây giờ, bạn sẽ thấy màu đỏ thực sự tương tự như màu vàng. Do đó, sau khi chuẩn hoá dữ liệu, bạn có thể tính toán mức độ tương đồng chính xác hơn.

Hai biểu đồ so sánh dữ liệu của tính năng trước và sau khi chuẩn hoá
Hình 1: So sánh dữ liệu tính năng trước và sau khi chuẩn hoá.

Tóm lại, hãy áp dụng chuẩn hoá khi một trong hai trường hợp sau đều đúng:

  • Dữ liệu của bạn có phân phối Gaussian.
  • Tập dữ liệu của bạn thiếu dữ liệu để tạo số lượng.

Sử dụng phép biến đổi nhật ký

Đôi khi, một tập dữ liệu tuân theo quy trình phân phối luật nguồn lực giúp phân bổ dữ liệu ở cấp thấp. Trong Hình 2, màu đỏ gần với màu vàng hơn màu xanh dương.

Biểu đồ thanh có phần lớn dữ liệu ở cấp thấp
Hình 2: Phân phối luật nguồn.

Xử lý hoạt động phân phối luật pháp bằng cách sử dụng phép biến đổi nhật ký. Trong Hình 3, phép biến đổi nhật ký sẽ giúp phân phối mượt mà hơn và màu đỏ gần với màu xanh dương hơn màu vàng.

Một biểu đồ cho thấy mô hình phân phối thông thường (Gaussian)
Hình 3: Cách phân phối thông thường (Gaussian).

Sử dụng định lượng

Chuẩn hoá và biến đổi nhật ký giải quyết các phân phối dữ liệu cụ thể. Nếu dữ liệu không tuân thủ quy trình phân phối của Gaussian hoặc dưới quyền hạn quyền lực thì sao? Có phương pháp chung áp dụng cho mọi hoạt động phân phối dữ liệu không?

Hãy thử xử lý trước sự phân phối này.

Biểu đồ thể hiện tình trạng phân phối dữ liệu trước khi xử lý trước
Hình 4: Nội dung phân phối không thể phân loại trước khi xử lý trước.

Theo trực giác, nếu hai ví dụ chỉ có một vài ví dụ thì hai ví dụ này tương tự nhau, bất kể giá trị của chúng là gì. Ngược lại, nếu hai ví dụ này có nhiều ví dụ trong số đó thì hai ví dụ này ít giống nhau hơn. Do đó, sự tương đồng giữa hai ví dụ giảm đi khi số lượng ví dụ giữa các ví dụ tăng lên.

Quá trình chuẩn hoá dữ liệu chỉ đơn giản là tái tạo hoạt động phân phối dữ liệu vì hoạt động chuẩn hoá là một phép biến đổi tuyến tính. Việc áp dụng phép biến đổi nhật ký không phản ánh trực giác của bạn về cách hoạt động của tính tương đồng, như được minh hoạ trong Hình 5 bên dưới.

Biểu đồ thể hiện việc phân phối dữ liệu sau khi biến đổi nhật ký
Hình 5: Cách phân phối sau khi biến đổi nhật ký.

Thay vào đó, hãy chia dữ liệu thành các khoảng thời gian mà mỗi khoảng chứa số lượng ví dụ bằng nhau. Các ranh giới này được gọi là lượng tử.

Hãy chuyển đổi dữ liệu thành các hằng số bằng cách thực hiện các bước sau:

  1. Quyết định số lượng khoảng thời gian.
  2. Xác định các khoảng thời gian sao cho mỗi khoảng có số lượng ví dụ bằng nhau.
  3. Thay thế từng ví dụ theo chỉ mục của khoảng thời gian chứa chỉ số đó.
  4. Đưa các chỉ mục vào cùng phạm vi với dữ liệu tính năng khác bằng cách chia tỷ lệ giá trị chỉ mục thành [0,1].
Một biểu đồ cho thấy dữ liệu sau khi chuyển đổi thành các hằng số. Dòng này đại diện cho 20 khoảng thời gian.]
Hình 6: Cơ cấu phân bố sau khi chuyển đổi thành số lượng.

Sau khi chuyển đổi dữ liệu thành lượng tử, độ tương đồng giữa 2 ví dụ tỷ lệ nghịch với số ví dụ giữa 2 ví dụ đó. Về mặt toán học, trong đó “x” là ví dụ bất kỳ trong tập dữ liệu:

  • \(sim(A,B) \approx 1 − | \text{prob}[x > A] − \text{prob}[x > B] |\)
  • \(sim(A,B) \approx 1 − | \text{quantile}(A) − \text{quantile}(B) |\)

Lượng tử là lựa chọn mặc định tốt nhất để chuyển đổi dữ liệu. Tuy nhiên, để tạo các thực thể là các chỉ báo đáng tin cậy cho việc phân phối dữ liệu cơ bản, bạn cần nhiều dữ liệu. Theo quy tắc chung, để tạo \(n\) các đối tượng lượng tử, bạn nên có ít nhất \(10n\) ví dụ. Nếu bạn không có đủ dữ liệu, hãy duy trì quá trình chuẩn hoá.

Kiểm tra kiến thức

Đối với những câu hỏi sau, giả sử bạn có đủ dữ liệu để tạo số lượng.

Câu hỏi một

Một biểu đồ hiển thị 3 mức phân phối dữ liệu
Bạn sẽ xử lý hoạt động phân phối dữ liệu này như thế nào?
Tạo số lượng.
Chính xác. Do việc phân phối không khớp với cơ cấu phân phối dữ liệu chuẩn, bạn nên quay lại tạo phương thức định lượng.
Chuẩn hoá.
Bạn thường chuẩn hoá dữ liệu nếu:
  • Phân phối dữ liệu là Gaussian.
  • Bạn có thông tin chi tiết về dữ liệu đại diện cho bạn biết rằng dữ liệu không nên được chuyển đổi phi tuyến tính. Do đó, bạn nên tránh định lượng và chọn độ chuẩn hoá.
Không có trường hợp nào áp dụng được ở đây. Cách phân phối dữ liệu không phải là Gaussian vì không phải là đối xứng. Ngoài ra, bạn không có thông tin chi tiết về những giá trị này trong thực tế.
Biến đổi nhật ký.
Đây không phải là lựa chọn tốt nhất vì đây không phải là một hệ thống phân phối nguồn điện hoàn hảo.

Câu hỏi 2

Một biểu đồ hiển thị 3 mức phân phối dữ liệu
Bạn sẽ xử lý hoạt động phân phối dữ liệu này như thế nào?
Chuẩn hoá.
Chính xác. Đây là cách phân phối Gaussian.
Tạo số lượng.
Chưa chính xác. Vì đây là cách phân phối Gaussian, nên phép biến đổi ưu tiên là chuẩn hoá.
Biến đổi nhật ký.
Chưa chính xác. Chỉ áp dụng phép biến đổi nhật ký cho phân phối luật pháp.

Thiếu dữ liệu

Nếu tập dữ liệu của bạn có các ví dụ bị thiếu giá trị cho một tính năng nhất định nhưng các ví dụ này hiếm khi xảy ra, bạn có thể xoá các ví dụ này. Nếu những ví dụ như vậy xảy ra thường xuyên, chúng tôi có thể chọn xoá hoàn toàn tính năng này hoặc dự đoán các giá trị còn thiếu khỏi các ví dụ khác bằng cách sử dụng mô hình máy học. Ví dụ: bạn có thể dự đoán dữ liệu dạng số bị thiếu bằng cách sử dụng mô hình hồi quy được huấn luyện dựa trên dữ liệu tính năng hiện có.