หน้านี้ได้รับการแปลโดย Cloud Translation API

การจัดประเภท

โมดูลนี้จะแสดงการใช้การถดถอยแบบโลจิสติกส์สําหรับงานการจัดประเภท และดูวิธีประเมินประสิทธิภาพของโมเดลการแยกประเภท

การจำแนกประเภท

การจัดประเภทเทียบกับการเกิดปัญหาซ้ํา

บางครั้งเราใช้การถดถอยแบบโลจิสติกสําหรับเอาต์พุตของความน่าจะเป็น ซึ่งเป็นการถดถอยใน (0, 1)
แต่บางครั้ง เราจะใส่เกณฑ์ค่าสําหรับการแยกประเภทไบนารีแบบแยกจากกัน
ตัวเลือกด้านเกณฑ์เป็นตัวเลือกที่สําคัญ และสามารถปรับแต่งได้

เมตริกการประเมิน: ความถูกต้อง

เราประเมินโมเดลการจัดประเภทอย่างไร

เมตริกการประเมิน: ความถูกต้อง

เราประเมินโมเดลการจัดประเภทอย่างไร
การวัดผลที่เป็นไปได้อย่างหนึ่งคือ ความแม่นยํา
- เศษส่วนของการคาดการณ์ที่เราได้ถูกต้อง

ความถูกต้องอาจทําให้เข้าใจผิด

ในหลายๆ กรณี ความแม่นยําอาจเป็นเมตริกที่แย่หรือทําให้เข้าใจผิด
- โดยส่วนใหญ่แล้วเมื่อข้อผิดพลาดแต่ละประเภทมีค่าใช้จ่ายแตกต่างกัน
- กรณีทั่วไปรวมถึงความไม่สมดุลของชั้นเรียน เมื่อค่าบวกหรือค่าลบน้อยมาก

เชิงบวกที่เป็นความจริงและผลบวกลวง

สําหรับปัญหาที่ไม่สมดุลกับชั้นเรียน ให้แยกข้อผิดพลาดประเภทต่างๆ

True Positives เราเรียกมนุษย์ว่าหมาป่าอย่างถูกต้อง เรากอบกู้เมืองนี้	False Positives ข้อผิดพลาด: เราเรียก Wolfsfalse อย่างไม่ถูกต้อง ทุกคนหงุดหงิดกับเรา
False negatives มีหมาตัวหนึ่ง แต่เราไม่พบ มันกินไก่ของเราหมดแล้ว	คีย์เวิร์ดเชิงลบจริง ไม่มีหมาป่า ไม่ตั้งปลุก ทุกคนปลอดภัย

เมตริกการประเมิน: ความแม่นยําและความอ่อนไหว

ความแม่นยํา: (ผลบวกจริง) / (การคาดการณ์ค่าบวกทั้งหมด)

เมื่อโมเดลบอกว่ามีคลาสที่เป็น "เชิงบวก" ใช่ไหม
สัญชาติ: โมเดลร้องไห้ว่า "หมาป่า" บ่อยเกินไปใช่ไหม

เมตริกการประเมิน: ความแม่นยําและความอ่อนไหว

ความแม่นยํา: (ผลบวกจริง) / (การคาดการณ์ค่าบวกทั้งหมด)

เมื่อโมเดลบอกว่ามีคลาสที่เป็น "เชิงบวก" ใช่ไหม
สัญชาติ: โมเดลร้องไห้ว่า "หมาป่า" บ่อยเกินไปใช่ไหม

การจําได้: (ผลบวกจริง) / (ค่าบวกจริงทั้งหมด)

จากค่าบวกที่เป็นไปได้ทั้งหมด โมเดลระบุได้ถูกต้องกี่รายการ
สรีระ: พลาดหมาป่าบ้างไหม

เมื่อทําเสร็จแล้ว ให้กดเล่น &#x25b6 เพื่อดําเนินการต่อ

ดูตัวเลือกด้านล่าง

ลองใช้โมเดลการแยกประเภทอีเมลที่แยกอีเมลเป็น 2 หมวดหมู่ ได้แก่ "จดหมายขยะ" หรือ "ไม่ใช่จดหมายขยะ" หากคุณเพิ่มเกณฑ์การจัดประเภท จะเกิดอะไรขึ้นกับความแม่นยํา

เพิ่มขึ้นอย่างแน่นอน

โดยทั่วไป การเพิ่มเกณฑ์การแยกประเภทจะเพิ่มความแม่นยํา แต่ไม่รับประกันว่าจะเพิ่มความแม่นยําแบบเดี่ยวๆ เมื่อเราเพิ่มเกณฑ์

อาจเพิ่มขึ้น

โดยทั่วไป การเพิ่มเกณฑ์การแยกประเภทจะช่วยลดความผิดพลาดที่เป็นเท็จ และเพิ่มความแม่นยํา

อาจลดลง

ลดลงแน่นอน

เส้นโค้ง ROC

แต่ละจุดคืออัตรา TP และ FP โดยมีเกณฑ์การตัดสินใจหนึ่ง

เมตริกการประเมิน: AUC

AUC: "พื้นที่ใต้เส้นโค้ง ROC"

เมตริกการประเมิน: AUC

AUC: "พื้นที่ใต้เส้นโค้ง ROC"
การตีความ:

หากเราเลือกค่าบวกแบบสุ่ม และผลลบแบบสุ่ม ความน่าจะเป็นที่โมเดลของฉันจะจัดอันดับตามลําดับที่ถูกต้องคืออะไร

เมตริกการประเมิน: AUC

AUC: "พื้นที่ใต้เส้นโค้ง ROC"
การตีความ:

หากเราเลือกค่าบวกแบบสุ่ม และผลลบแบบสุ่ม ความน่าจะเป็นที่โมเดลของฉันจะจัดอันดับตามลําดับที่ถูกต้องคืออะไร

สิ่งที่ควรทราบ: วัดประสิทธิภาพแบบรวมตามเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมด

การให้น้ําหนักการคาดการณ์

การคาดการณ์การถดถอยแบบโลจิสติกส์ไม่ควรเป็นกลาง

ค่าเฉลี่ยของการคาดการณ์ == ค่าเฉลี่ยของการสังเกตการณ์

การให้น้ําหนักการคาดการณ์

การคาดการณ์การถดถอยแบบโลจิสติกส์ไม่ควรเป็นกลาง

ค่าเฉลี่ยของการคาดการณ์ == ค่าเฉลี่ยของการสังเกตการณ์

เสียว

การให้น้ําหนักพิเศษเพียงอย่างเดียวไม่ถือว่าทุกอย่างในระบบของคุณสมบูรณ์แบบ
แต่การตรวจสอบความเรียบร้อยเป็นไปด้วยดี

การให้น้ําหนักการคาดการณ์ (ต่อ)

หากคุณมีอคติ คุณก็มีปัญหา

หากชุดฟีเจอร์ไม่สมบูรณ์
มีไปป์ไลน์ไหม
ตัวอย่างการฝึกที่มีการให้น้ําหนักหรือไม่

อย่าแก้ไขการให้น้ําหนักพิเศษกับเลเยอร์ของการปรับเทียบ แก้ไขในโมเดล
ค้นหาอคติในชิ้นส่วนข้อมูล ซึ่งเป็นแนวทางในการปรับปรุง

แผนภูมิการปรับเทียบแสดงการให้น้ําหนักพิเศษ

ศูนย์ช่วยเหลือ

การสูญเสียและแบบทั่วไป

การกำหนดเกณฑ์ขั้นต่ำ