Hồi quy logistic: Mất mát và hành vi thường xuyên

Hàm suy hao cho hồi quy logistic

Hàm suy hao cho hồi quy tuyến tính là tổn thất bình phương. Hàm suy hao cho các phiên hồi quy logistic là Log Lost (Mất nhật ký) được định nghĩa như sau:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

nơi:

  • \((x,y)\in D\) là tập dữ liệu chứa nhiều ví dụ có nhãn là các cặp \((x,y)\) .
  • \(y\) là nhãn trong một ví dụ đã gắn nhãn. Vì đây là hồi quy logistic nên mọi giá trị của \(y\) phải là 0 hoặc 1.
  • \(y'\) là giá trị dự đoán (trong khoảng từ 0 đến 1), dựa trên tập hợp các tính năng trong \(x\).

Chuẩn hoá trong hồi quy logistic

Việc chuẩn hoá là vô cùng quan trọng trong quy trình lập mô hình hồi quy logistic. Nếu không thường xuyên, bản chất không triệu chứng của việc hồi quy logistic sẽ tiếp tục làm giảm độ trễ về 0 ở các chiều cao. Do đó, hầu hết các mô hình hồi quy logistic đều sử dụng một trong hai chiến lược sau để giảm bớt độ phức tạp của mô hình:

  • Chỉnh sửa L2.
  • Việc này sẽ sớm hạn chế số bước đào tạo hoặc tốc độ học tập.

(Chúng ta sẽ thảo luận về chiến lược thứ ba – quy trình l Thay đổi thứ nhất trong mô-đun sau.)

Hãy tưởng tượng bạn chỉ định một mã nhận dạng duy nhất cho mỗi ví dụ và ánh xạ từng mã nhận dạng với tính năng riêng. Nếu bạn không chỉ định hàm thông thường, mô hình sẽ trở nên quá hoàn toàn. Điều đó là vì mô hình sẽ cố gắng làm giảm tổn hao bằng 0 trên tất cả các ví dụ và không bao giờ đến đó, thúc đẩy trọng số cho từng tính năng chỉ báo cho +finity hoặc -finity. Điều này có thể xảy ra trong dữ liệu kích thước cao với dấu gạch ngang tính năng, khi có một số lượng lớn các chữ thập hiếm chỉ xảy ra trên một ví dụ.

Rất may là việc sử dụng L2 hoặc ngừng sớm sẽ ngăn được sự cố này.