Tạo Số liệu đo tương tự theo cách thủ công

Để tính toán sự tương đồng giữa hai ví dụ, bạn cần kết hợp tất cả dữ liệu tính năng cho hai ví dụ đó thành một giá trị số duy nhất.

Ví dụ: hãy xem xét tập dữ liệu giày chỉ có một tính năng: kích thước giày. Bạn có thể xác định mức độ tương tự của hai đôi giày bằng cách tính toán sự khác biệt giữa kích thước. Mức chênh lệch kích thước càng nhỏ, thì mức độ tương đồng giữa các đôi giày càng lớn. Biện pháp tương tự thủ công được gọi là phương pháp đo tương tự theo cách thủ công.

Nếu bạn muốn tìm sự tương đồng giữa các đôi giày bằng cách sử dụng cả kích thước và màu sắc thì sao? Màu sắc là dữ liệu danh mục và khó kết hợp với dữ liệu kích thước dạng số. Chúng ta sẽ thấy rằng khi dữ liệu trở nên phức tạp hơn, việc tạo biện pháp tương tự thủ công sẽ trở nên khó khăn hơn. Khi dữ liệu của bạn đủ phức tạp, bạn sẽ không thể tạo biện pháp thủ công. Đó là khi bạn chuyển sang một đo lường mức độ tương đồng được giám sát, trong đó mô hình máy học có giám sát sẽ tính toán độ tương đồng.

Chúng tôi sẽ để nguyên biện pháp tương tự để giám sát sau và tập trung vào biện pháp thủ công ở đây. Hiện tại, hãy nhớ rằng bạn sẽ chuyển sang một biện pháp tương tự được giám sát khi gặp vấn đề khi tạo chỉ số tương tự theo cách thủ công.

Hãy xem ví dụ về giày của chúng tôi để hiểu cách hoạt động của chỉ số đo lường mức độ tương đồng theo cách thủ công. Giả sử mẫu có hai tính năng: kích thước giày và dữ liệu giá giày. Vì cả hai tính năng đều ở dạng số, nên bạn có thể kết hợp cả hai thành một số tương tự nhau để thể hiện tính tương đồng như sau.

  • Kích thước: (Kích thước giày) có thể tạo ra sự phân bố của Gauss. Xác nhận việc này. Sau đó, chuẩn hóa dữ liệu.
  • Giá (p): Dữ liệu có thể là phân phối Poisson. Xác nhận việc này. Nếu bạn có đủ dữ liệu, hãy chuyển đổi dữ liệu thành các hằng số và chia tỷ lệ thành \([0,1]\).
  • Kết hợp dữ liệu bằng cách sử dụng lỗi bình phương trung bình gốc (RMSE). Ở đây, điểm tương đồng là \(\sqrt{\frac{s^2+p^2}{2}}\).

Ví dụ đơn giản: hãy tính điểm tương tự cho hai đôi giày có kích thước 8 và 11 của Hoa Kỳ, giá 120 và 150. Do không có đủ dữ liệu để hiểu rõ cách phân phối, nên chúng tôi sẽ chỉ mở rộng dữ liệu mà không cần chuẩn hóa hoặc sử dụng số lượng.

Hành độngPhương thức
Điều chỉnh kích thước. Giả sử kích thước giày tối đa là 20. Chia 8 và 11 cho kích thước tối đa 20 để được 0,4 và 0,55.
Điều chỉnh giá. Chia 120 và 150 cho giá tối đa 150 để được 0,8 và 1.
Hãy tìm sự khác biệt về kích thước. \(0.55 - 0.4 = 0.15\)
Tìm mức chênh lệch về giá. \(1 - 0.8 = 0.2\)
Tìm RMSE. \(\sqrt{\frac{0.2^2+0.15^2}{2}} = 0.17\)

Theo trực giác, độ tương đồng được đo lường của bạn sẽ tăng khi dữ liệu tính năng trở nên tương tự. Thay vào đó, mức độ tương đồng được đo lường của bạn thực sự giảm. Hãy làm cho sự tương đồng được đo lường tuân theo trực giác của bạn bằng cách trừ nó khỏi 1.

\[\text{Similarity} = 1 - 0.17 = 0.83\]

Nhìn chung, bạn có thể chuẩn bị dữ liệu dạng số như mô tả trong phần Chuẩn bị dữ liệu, sau đó kết hợp dữ liệu bằng cách dùng khoảng cách Euclidean.

Nếu bạn có dữ liệu phân loại thì sao? Dữ liệu bổ sung có thể là:

  • Có một giá trị (giá trị 1, chẳng hạn như màu của ô tô ("trắng" hoặc "xanh dương" nhưng không bao giờ cả hai)
  • Nhiều giá trị (nhiều giá trị), chẳng hạn như thể loại phim (có thể là "hành động" và "hỏa hài" cùng lúc hoặc chỉ "hành động")

Nếu dữ liệu tương đương khớp, thì độ tương đồng là 1; nếu không, là 0. Khó xử lý dữ liệu đa hoá. Ví dụ: các thể loại phim có thể là một thách thức khi làm việc cùng. Để xử lý vấn đề này, giả sử các bộ phim được chỉ định thể loại từ một tập hợp thể loại cố định. Tính toán mức độ tương đồng bằng cách sử dụng tỷ lệ giá trị chung, được gọi là Mức độ tương đồng của thẻ.

Ví dụ:

  • [“comedy”,”action”] và [“comedy”,”action”] = 1
  • [“comedy”,”action”] và [“action”] = 1⁄2
  • [“comedy”,”action”] và [“action”, "drama"] = 1⁄3
  • [“comedy”, “action”] và [“non-TRUY tưởng”,” tiểu sử”] = 0

Bảng sau đây cung cấp thêm một số ví dụ về cách xử lý dữ liệu theo danh mục.

Ví dụ
Mã bưu chính Mã bưu chính đại diện cho những khu vực gần nhau sẽ có độ tương đồng cao hơn. Để mã hoá thông tin cần thiết nhằm tính toán mức độ tương đồng này một cách chính xác, bạn có thể chuyển đổi mã bưu chính thành vĩ độ và kinh độ. Đối với một cặp mã bưu chính, hãy tính riêng sự khác biệt giữa vĩ độ và kinh độ. Sau đó, hãy thêm các điểm khác biệt để nhận một giá trị số duy nhất.
Màu Giả sử bạn có dữ liệu màu dưới dạng văn bản. Chuyển đổi các giá trị văn bản thành các giá trị RGB số. Giờ đây, bạn có thể tìm thấy sự khác biệt giữa các giá trị màu đỏ, xanh lục và xanh dương cho hai màu, đồng thời kết hợp các điểm khác biệt thành một giá trị số bằng cách sử dụng khoảng cách Euclidean.

Nhìn chung, phép đo độ tương đồng phải tương ứng trực tiếp với độ tương đồng thực tế. Nếu không đo lường, thì chỉ số đó sẽ không mã hoá thông tin cần thiết. Ví dụ trước chuyển đổi các mã bưu chính thành vĩ độ và kinh độ vì bản thân mã bưu chính không mã hoá thông tin cần thiết.

Trước khi tạo chỉ số tương tự, hãy xử lý dữ liệu một cách cẩn thận. Mặc dù các ví dụ trên trang này dựa vào một tập dữ liệu nhỏ, đơn giản, nhưng hầu hết tập dữ liệu trong thế giới thực đều lớn hơn và phức tạp hơn nhiều. Hãy nhớ rằng số lượng là lựa chọn mặc định tốt để xử lý dữ liệu số.