Dữ liệu không cân bằng

Tập dữ liệu phân loại có tỷ lệ lớp bị lệch được gọi là không cân bằng. Các lớp tạo nên phần lớn tập dữ liệu được gọi là lớp đa số. Các lớp tạo nên tỷ lệ nhỏ hơn là các lớp thiểu số.

Điều gì được tính là không cân bằng? Câu trả lời có thể dao động từ nhẹ đến cực đoan, như trong bảng dưới đây.

Mức độ mất cân bằng Tỷ lệ của dân tộc thiểu số
Nhẹ 20-40% tập dữ liệu
Vừa phải 1-20% của tập dữ liệu
Cực cao <1% tập dữ liệu

Tại sao phải chú ý đến dữ liệu không cân bằng? Bạn có thể cần áp dụng một kỹ thuật lấy mẫu cụ thể nếu có nhiệm vụ phân loại với tập dữ liệu không cân bằng.

Hãy xem xét ví dụ sau về một mô hình phát hiện hành vi gian lận. Các trường hợp gian lận xảy ra một lần cho mỗi 200 giao dịch trong tập dữ liệu này, vì vậy trong phân phối thực, khoảng 0,5% dữ liệu là dương tính.

Biểu đồ thanh có hai thanh. Một thanh hiển thị khoảng 200 giao dịch âm, trong khi
thanh còn lại hiển thị 1 giao dịch dương.

Tại sao điều này có vấn đề? Với rất ít mặt tích cực so với mặt tiêu cực, mô hình đào tạo sẽ dành phần lớn thời gian cho các ví dụ tiêu cực và không học đủ từ các trường hợp tích cực. Ví dụ: nếu kích thước lô của bạn là 128, thì nhiều lô sẽ không có ví dụ khẳng định, vì vậy các độ dốc sẽ ít thông tin hơn.

Nếu bạn có tập dữ liệu không cân bằng, trước tiên hãy thử đào tạo về phân phối thực sự. Nếu mô hình này hoạt động hiệu quả và khái quát, bạn đã hoàn tất! Nếu không, hãy thử kỹ thuật giảm tần số lấy mẫu và trọng số sau.

Giảm tần số lấy mẫu và tăng trọng số

Một cách hiệu quả để xử lý dữ liệu không cân bằng là hạ cấp và tăng trọng số cho lớp đa số. Hãy bắt đầu bằng cách định nghĩa hai thuật ngữ mới đó:

  • Giảm tần suất lấy mẫu (trong ngữ cảnh này) có nghĩa là huấn luyện trên một tập hợp con không cân xứng các ví dụ về loại chủ yếu.
  • Tăng trọng số có nghĩa là thêm trọng số mẫu vào lớp được giảm tần số lấy mẫu bằng với hệ số mà bạn đã giảm tần số lấy mẫu.

Bước 1: Giảm tần số lấy mẫu cho lớp đa số. Hãy xem xét lại ví dụ của chúng tôi về tập dữ liệu gian lận, với 1 số dương tính đến 200 âm. Việc giảm tần số lấy mẫu theo hệ số 10 sẽ cải thiện số dư từ 1 dương tính đến 20 âm (5%). Mặc dù tập huấn luyện thu được vẫn không cân bằng ở mức độ vừa phải, nhưng tỷ lệ dương tính với âm tính tốt hơn nhiều so với tỷ lệ cực kỳ mất cân bằng (0,5%).

Biểu đồ thanh có hai thanh. Một thanh hiển thị 20 giao dịch âm, trong khi thanh còn lại hiển thị 1 giao dịch dương.

Bước 2: Tăng trọng số cho lớp giảm tần số lấy mẫu: Bước cuối cùng là thêm trọng số mẫu vào lớp giảm tần số lấy mẫu. Vì chúng tôi đã giảm tần số lấy mẫu theo hệ số 10, nên trọng số mẫu sẽ là 10.

Sơ đồ khái niệm về việc giảm tần số lấy mẫu và tăng trọng số. Bước 1, giảm tần số lấy mẫu, lấy một ví dụ được chọn ngẫu nhiên từ một khối đại diện cho tập dữ liệu của lớp đa số. Bước 2, tăng trọng số, sẽ thêm trọng số vào mỗi ví dụ được chọn ngẫu nhiên.

Bạn có thể đã quen với thuật ngữ trọng số khi đề cập đến các thông số mô hình, chẳng hạn như các kết nối trong mạng nơ-ron. Chúng ta đang nói về trọng số mẫu, nghĩa là tính một ví dụ riêng lẻ quan trọng hơn trong quá trình đào tạo. Trọng số ví dụ là 10 có nghĩa là mô hình này coi ví dụ này là quan trọng gấp 10 lần (khi mất điện toán) so với ví dụ về trọng số 1.

Trọng số phải bằng với hệ số bạn đã sử dụng để giảm mẫu:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

Tại sao giảm mẫu và tăng trọng?

Việc thêm các trọng số mẫu sau khi giảm tần suất lấy mẫu có vẻ là điều bất thường. Chúng tôi đã cố gắng làm cho mô hình của mình trở nên tốt hơn trên tầng lớp dân tộc thiểu số -- tại sao chúng tôi lại ưu tiên phần lớn nhóm đa số? Đây là những thay đổi kết quả:

  • Hội tụ nhanh hơn: Trong quá trình đào tạo, chúng tôi thấy lớp thiểu số thường xuyên hơn, điều này sẽ giúp mô hình hội tụ nhanh hơn.
  • Dung lượng ổ đĩa: Bằng cách hợp nhất lớp đa số thành ít ví dụ hơn với dung lượng ổ đĩa lớn hơn, chúng tôi tốn ít dung lượng ổ đĩa hơn để lưu trữ. Việc tiết kiệm này mang lại thêm dung lượng ổ đĩa cho các nhóm thiểu số, vì vậy chúng ta có thể thu thập nhiều số lượng hơn và nhiều ví dụ hơn từ lớp đó.
  • Hiệu chỉnh: Trọng số đảm bảo mô hình của chúng tôi vẫn được hiệu chỉnh; kết quả vẫn có thể được hiểu là xác suất.