การจัดประเภท

โมดูลนี้จะแสดงการใช้การถดถอยแบบโลจิสติกส์สําหรับงานการจัดประเภท และดูวิธีประเมินประสิทธิภาพของโมเดลการแยกประเภท

การจำแนกประเภท

  • บางครั้งเราใช้การถดถอยแบบโลจิสติกสําหรับเอาต์พุตของความน่าจะเป็น ซึ่งเป็นการถดถอยใน (0, 1)
  • แต่บางครั้ง เราจะใส่เกณฑ์ค่าสําหรับการแยกประเภทไบนารีแบบแยกจากกัน
  • ตัวเลือกด้านเกณฑ์เป็นตัวเลือกที่สําคัญ และสามารถปรับแต่งได้
  • เราประเมินโมเดลการจัดประเภทอย่างไร
  • เราประเมินโมเดลการจัดประเภทอย่างไร
  • การวัดผลที่เป็นไปได้อย่างหนึ่งคือ ความแม่นยํา
    • เศษส่วนของการคาดการณ์ที่เราได้ถูกต้อง
  • ในหลายๆ กรณี ความแม่นยําอาจเป็นเมตริกที่แย่หรือทําให้เข้าใจผิด
    • โดยส่วนใหญ่แล้วเมื่อข้อผิดพลาดแต่ละประเภทมีค่าใช้จ่ายแตกต่างกัน
    • กรณีทั่วไปรวมถึงความไม่สมดุลของชั้นเรียน เมื่อค่าบวกหรือค่าลบน้อยมาก
  • สําหรับปัญหาที่ไม่สมดุลกับชั้นเรียน ให้แยกข้อผิดพลาดประเภทต่างๆ
True Positives
เราเรียกมนุษย์ว่าหมาป่าอย่างถูกต้อง
เรากอบกู้เมืองนี้

False Positives
ข้อผิดพลาด: เราเรียก Wolfsfalse อย่างไม่ถูกต้อง
ทุกคนหงุดหงิดกับเรา

False negatives
มีหมาตัวหนึ่ง แต่เราไม่พบ มันกินไก่ของเราหมดแล้ว
คีย์เวิร์ดเชิงลบจริง
ไม่มีหมาป่า ไม่ตั้งปลุก
ทุกคนปลอดภัย

  • ความแม่นยํา: (ผลบวกจริง) / (การคาดการณ์ค่าบวกทั้งหมด)
    • เมื่อโมเดลบอกว่ามีคลาสที่เป็น "เชิงบวก" ใช่ไหม
    • สัญชาติ: โมเดลร้องไห้ว่า "หมาป่า" บ่อยเกินไปใช่ไหม
  • ความแม่นยํา: (ผลบวกจริง) / (การคาดการณ์ค่าบวกทั้งหมด)
    • เมื่อโมเดลบอกว่ามีคลาสที่เป็น "เชิงบวก" ใช่ไหม
    • สัญชาติ: โมเดลร้องไห้ว่า "หมาป่า" บ่อยเกินไปใช่ไหม
  • การจําได้: (ผลบวกจริง) / (ค่าบวกจริงทั้งหมด)
    • จากค่าบวกที่เป็นไปได้ทั้งหมด โมเดลระบุได้ถูกต้องกี่รายการ
    • สรีระ: พลาดหมาป่าบ้างไหม

ดูตัวเลือกด้านล่าง

ลองใช้โมเดลการแยกประเภทอีเมลที่แยกอีเมลเป็น 2 หมวดหมู่ ได้แก่ "จดหมายขยะ" หรือ "ไม่ใช่จดหมายขยะ" หากคุณเพิ่มเกณฑ์การจัดประเภท จะเกิดอะไรขึ้นกับความแม่นยํา
เพิ่มขึ้นอย่างแน่นอน
โดยทั่วไป การเพิ่มเกณฑ์การแยกประเภทจะเพิ่มความแม่นยํา แต่ไม่รับประกันว่าจะเพิ่มความแม่นยําแบบเดี่ยวๆ เมื่อเราเพิ่มเกณฑ์
อาจเพิ่มขึ้น
โดยทั่วไป การเพิ่มเกณฑ์การแยกประเภทจะช่วยลดความผิดพลาดที่เป็นเท็จ และเพิ่มความแม่นยํา
อาจลดลง
โดยทั่วไป การเพิ่มเกณฑ์การแยกประเภทจะช่วยลดความผิดพลาดที่เป็นเท็จ และเพิ่มความแม่นยํา
ลดลงแน่นอน
โดยทั่วไป การเพิ่มเกณฑ์การแยกประเภทจะช่วยลดความผิดพลาดที่เป็นเท็จ และเพิ่มความแม่นยํา

แต่ละจุดคืออัตรา TP และ FP โดยมีเกณฑ์การตัดสินใจหนึ่ง

เส้นโค้ง ROC ที่แสดงอัตรา TP เทียบกับอัตรา FP ที่มีเกณฑ์การจัดประเภทแตกต่างกัน
  • AUC: "พื้นที่ใต้เส้นโค้ง ROC"
  • AUC: "พื้นที่ใต้เส้นโค้ง ROC"
  • การตีความ:
    • หากเราเลือกค่าบวกแบบสุ่ม และผลลบแบบสุ่ม ความน่าจะเป็นที่โมเดลของฉันจะจัดอันดับตามลําดับที่ถูกต้องคืออะไร
  • AUC: "พื้นที่ใต้เส้นโค้ง ROC"
  • การตีความ:
    • หากเราเลือกค่าบวกแบบสุ่ม และผลลบแบบสุ่ม ความน่าจะเป็นที่โมเดลของฉันจะจัดอันดับตามลําดับที่ถูกต้องคืออะไร
  • สิ่งที่ควรทราบ: วัดประสิทธิภาพแบบรวมตามเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมด
  • การคาดการณ์การถดถอยแบบโลจิสติกส์ไม่ควรเป็นกลาง
    • ค่าเฉลี่ยของการคาดการณ์ == ค่าเฉลี่ยของการสังเกตการณ์
  • การคาดการณ์การถดถอยแบบโลจิสติกส์ไม่ควรเป็นกลาง
    • ค่าเฉลี่ยของการคาดการณ์ == ค่าเฉลี่ยของการสังเกตการณ์
  • เสียว
    • การให้น้ําหนักพิเศษเพียงอย่างเดียวไม่ถือว่าทุกอย่างในระบบของคุณสมบูรณ์แบบ
    • แต่การตรวจสอบความเรียบร้อยเป็นไปด้วยดี
  • หากคุณมีอคติ คุณก็มีปัญหา
    • หากชุดฟีเจอร์ไม่สมบูรณ์
    • มีไปป์ไลน์ไหม
    • ตัวอย่างการฝึกที่มีการให้น้ําหนักหรือไม่
  • อย่าแก้ไขการให้น้ําหนักพิเศษกับเลเยอร์ของการปรับเทียบ แก้ไขในโมเดล
  • ค้นหาอคติในชิ้นส่วนข้อมูล ซึ่งเป็นแนวทางในการปรับปรุง
พล็อตการปรับเทียบ