เครือข่ายระบบประสาทมัลติคลาส: Softmax

อย่าลืมว่าการถดถอยแบบโลจิสติกส์จะสร้างทศนิยมระหว่าง 0 ถึง 1.0 ตัวอย่างเช่น เอาต์พุตของการถดถอยแบบโลจิสติกส์ 0.8 จากตัวแยกประเภทอีเมลแนะนําว่ามีโอกาส 80% ที่อีเมลจะเป็นสแปมและ 20% จะไม่ใช่จดหมายขยะ เห็นได้ชัดว่าผลรวมของความน่าจะเป็นของอีเมลว่าเป็นจดหมายขยะไม่ใช่สแปม 1.0

Softmax ขยายความคิดนี้ไปสู่โลกที่หลากหลาย กล่าวคือ Softmax จะกําหนดความน่าจะเป็นแบบทศนิยมให้กับแต่ละชั้นเรียนในโจทย์หลายชั้นเรียน ความน่าจะเป็นทศนิยมต้องรวมกันได้ 1.0 ข้อจํากัดเพิ่มเติมนี้ช่วยให้การฝึกมีความสะดวกรวดเร็วกว่าที่เคย

ตัวอย่างเช่น การกลับไปที่การวิเคราะห์รูปภาพที่คุณเห็นในรูปที่ 1 Softmax อาจให้ความเป็นไปได้ต่อไปนี้ของรูปภาพที่เป็นคลาสที่เจาะจง

ระดับ ความน่าจะเป็น
apple 0.001
หมี 0.04
ลูกกวาด 0.008
หมา 0.95
ไข่ 0.001

ใช้ Softmax ผ่านเลเยอร์เครือข่ายระบบประสาทก่อนชั้นเอาต์พุต เลเยอร์ Softmax ต้องมีจํานวนโหนดเท่ากับเลเยอร์เอาต์พุต

โครงข่ายประสาทแบบลึกที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่แบบไม่การบรรยาย 2 ชั้น ตามด้วยเลเยอร์ Softmax และสุดท้ายคือเลเยอร์เอาต์พุตที่มีจํานวนโหนดเท่ากับเลเยอร์ Softmax

รูปที่ 2 เลเยอร์ Softmax ภายในโครงข่ายประสาท

ตัวเลือก Softmax

พิจารณา Softmax เวอร์ชันต่อไปนี้

  • Full Softmax คือ Softmax ที่เราได้พูดคุยกันมา นั่นคือ Softmax จะคํานวณความน่าจะเป็นสําหรับชั้นเรียนทุกชั้นที่เป็นไปได้

  • การสุ่มตัวอย่างผู้สมัครหมายความว่า Softmax จะคํานวณความน่าจะเป็นของป้ายกํากับเชิงบวกทั้งหมด แต่ใช้ตัวอย่างแบบสุ่มของป้ายกํากับเชิงลบเท่านั้น เช่น หากเราต้องพิจารณาว่าภาพอินพุตเป็นสุนัขบีเกิลหรือเลือดสุนัขหรือไม่ เราไม่ต้องระบุความน่าจะเป็นของตัวอย่างทั้งหมดที่ไม่ใช่สุนัข

Softmax แบบเต็มตัวมีราคาค่อนข้างถูกเมื่อจํานวนชั้นเรียนมีน้อยแต่แพงขึ้นอย่างมากเมื่อจํานวนชั้นเรียนเพิ่มขึ้น การสุ่มตัวอย่างผู้สมัครจะช่วยปรับปรุงประสิทธิภาพในการมีชั้นเรียนจํานวนมากได้

ป้ายกํากับเดียวเทียบกับหลายป้ายกํากับ

Softmax จะถือว่าแต่ละตัวอย่างเป็นสมาชิกในชั้นเรียนเพียงชั้นเดียว แต่ตัวอย่างบางส่วนอาจเป็นสมาชิกในหลายชั้นเรียนพร้อมกันได้ ตัวอย่างเช่น

  • คุณไม่สามารถใช้ Softmax ได้
  • คุณต้องใช้การเกิดปัญหาซ้ําหลายครั้ง

ตัวอย่างเช่น สมมติว่าตัวอย่างของคุณเป็นรูปภาพที่มีสินค้า 1 รายการ ซึ่งได้แก่ ผลไม้ Softmax สามารถระบุความเป็นไปได้ที่สิ่งนั้นๆ จะเป็นลูกแพร์ ส้ม แอปเปิล และอื่นๆ หากตัวอย่างของคุณเป็นรูปภาพ ที่มีสิ่งของหลากหลายประเภท เช่น ผลไม้หลากหลาย ต้องใช้การถดถอยแบบโลจิสติกส์หลายครั้งแทน