Mạng nơ-ron nhiều lớp: Softmax

Hãy nhớ rằng hồi quy hồi tố tạo ra một số thập phân trong khoảng từ 0 đến 1.0. Ví dụ: kết quả hồi quy logistic 0, 8 từ một thuật toán phân loại email cho thấy 80% khả năng email là thư rác và 20% khả năng là không phải là thư rác. Rõ ràng, tổng xác suất của một email là thư rác hoặc không phải là thư rác.

Softmax mở rộng ý tưởng này thành một thế giới đa lớp. Điều này nghĩa là Softmax chỉ định xác suất thập phân cho mỗi lớp trong một bài toán về nhiều lớp. Các xác suất thập phân đó phải bằng 1.0. Hạn chế bổ sung này giúp quá trình đào tạo hội tụ nhanh hơn bình thường.

Ví dụ: khi quay lại phân tích hình ảnh mà chúng ta thấy trong Hình 1, Softmax có thể tạo ra các khả năng sau đây của một hình ảnh thuộc một lớp cụ thể:

Lớp Xác suất
quả táo 0,001
gấu 0,04
kẹo 0,008
chó 0,95
trứng 0,001

Softmax được triển khai thông qua lớp mạng nơron ngay trước lớp đầu ra. Lớp Softmax phải có cùng số nút với lớp đầu ra.

Mạng nơron sâu có lớp đầu vào, hai lớp ẩn không mô tả, sau đó là lớp Softmax và cuối cùng là lớp đầu ra có cùng số nút với lớp Softmax.

Hình 2. Lớp Softmax trong mạng nơron.

Tùy chọn Softmax

Hãy xem xét các biến thể sau của Softmax:

  • Full Softmax là Softmax mà chúng ta đang thảo luận; nghĩa là, Softmax tính xác suất cho mọi lớp có thể xảy ra.

  • Phương pháp lấy mẫu đề xuất có nghĩa là Softmax tính toán xác suất cho tất cả các nhãn dương nhưng chỉ dành cho một mẫu nhãn âm. Ví dụ: Nếu muốn xác định xem một hình ảnh đầu vào có phải là hạt thỏ hay hình ảnh chó săn hay không, chúng tôi không phải cung cấp xác suất cho mọi ví dụ không phải doggy.

Softmax đầy đủ khá rẻ khi số lượng lớp nhỏ, nhưng trở nên đắt đỏ khi số lượng lớp tăng lên. Việc lấy mẫu ứng viên có thể cải thiện hiệu quả cho các vấn đề có nhiều lớp.

Một nhãn so với nhiều nhãn

Softmax giả định rằng mỗi ví dụ là thành viên của một lớp duy nhất. Tuy nhiên, một số ví dụ có thể cùng lúc là thành viên của nhiều lớp. Ví dụ:

  • Bạn không được sử dụng Softmax.
  • Bạn phải dựa vào sự hồi quy của nhiều log.

Ví dụ: giả sử ví dụ của bạn là hình ảnh chứa chính xác một mặt hàng trái cây. Softmax có thể xác định khả năng một mục là quả chanh, cam, táo, v.v. Nếu ví dụ của bạn là hình ảnh chứa tất cả các loại hoa quả — các loại trái cây khác nhau — thì bạn sẽ phải sử dụng nhiều hồi quy logistic.