ML Practicum: ความเป็นธรรมใน Perspective API

ตรวจสอบความเข้าใจของคุณ: การระบุและการชดเชยอคติ

การระบุการให้น้ำหนักพิเศษ

ในแบบฝึกหัดที่ 1: สำรวจโมเดล คุณได้ยืนยันว่าโมเดลดังกล่าวแยกประเภทความคิดเห็นด้วยคำที่เป็นเอกลักษณ์ในสัดส่วนที่ไม่เหมาะสม เมตริกใดช่วยอธิบายสาเหตุของความเอนเอียงนี้ได้ สำรวจตัวเลือกด้านล่าง
ความแม่นยำ

ความแม่นยำวัดเปอร์เซ็นต์ของการคาดการณ์ทั้งหมดที่ถูกต้อง ซึ่งเป็นเปอร์เซ็นต์ของการคาดการณ์ที่เป็นผลบวกจริงหรือผลลบจริง การเปรียบเทียบความแม่นยำสำหรับกลุ่มย่อยที่แตกต่างกัน (เช่น ข้อมูลประชากรตามเพศที่แตกต่างกัน) ช่วยให้เราประเมินประสิทธิภาพเชิงสัมพัทธ์ของโมเดลสำหรับแต่ละกลุ่มและใช้เป็นตัวบ่งชี้ถึงผลกระทบของอคติที่มีต่อโมเดลได้

อย่างไรก็ตาม เนื่องจากความแม่นยำจะพิจารณาการคาดการณ์ที่ถูกต้องและไม่ถูกต้องโดยรวม การคาดการณ์จึงไม่แยกแยะระหว่างการคาดการณ์ที่ถูกต้อง 2 ประเภทกับการคาดการณ์ที่ไม่ถูกต้อง 2 ประเภท เมื่อพิจารณาความแม่นยำเพียงอย่างเดียว เราไม่สามารถแจกแจงรายละเอียดที่อยู่เบื้องหลังของผลบวกจริง ผลลบจริง ผลบวกลวง และผลลบลวง ซึ่งจะให้ข้อมูลเชิงลึกเกี่ยวกับแหล่งที่มาของการให้น้ำหนักพิเศษได้ชัดเจนยิ่งขึ้น

อัตราผลบวกลวง

อัตราผลบวกลวง (FPR) คือเปอร์เซ็นต์ของตัวอย่างที่เป็นลบจริง (ความคิดเห็นที่ไม่เป็นพิษ) ซึ่งได้รับการจัดประเภทอย่างไม่ถูกต้องว่าเป็นเชิงบวก (ความคิดเห็นที่เป็นพิษ) FPR คือตัวบ่งชี้ผลกระทบของการให้น้ำหนักกับโมเดล เมื่อเราเปรียบเทียบ FPR สำหรับกลุ่มย่อยต่างๆ (เช่น ข้อมูลประชากรตามเพศต่างๆ) เราทราบว่าความคิดเห็นแบบข้อความที่มีคำอัตลักษณ์ที่เกี่ยวข้องกับเพศมักจะได้รับการจัดประเภทอย่างไม่ถูกต้องว่าเป็นข้อความที่เป็นพิษ (ผลบวกลวง) มากกว่าความคิดเห็นที่ไม่มีคำเหล่านี้

อย่างไรก็ตาม เราไม่ได้มุ่งหวังที่จะวัดผลลัพธ์ของการให้น้ำหนักพิเศษ แต่เราต้องการค้นหาสาเหตุของการลำพัง ในการดำเนินการดังกล่าว เราต้องตรวจสอบอินพุตของสูตร FPR อย่างละเอียด

ผลลบจริงและผลบวกจริง
ในชุดข้อมูลการฝึกและการทดสอบของโมเดลนี้ ผลบวกจริงคือตัวอย่างความคิดเห็นทั้งหมดที่เป็นเนื้อหา และ เชิงลบจริงตัวอย่างทั้งหมดที่เป็นผลบวก เนื่องจากคำสำหรับข้อมูลประจำตัวนั้นเฉยๆ เราจึงคาดหวังว่าจำนวนความคิดเห็นที่เป็นลบจริงและที่เป็นผลจริงในเชิงบวกที่มีข้อกำหนดอัตลักษณ์หนึ่งๆ ในจำนวนที่สมดุลกัน หากเราเห็นจำนวนลบจริงที่ต่ำอย่างไม่สมส่วน จะบอกให้ทราบว่าโมเดลไม่ได้เห็นตัวอย่างคำศัพท์อัตลักษณ์ที่ใช้ในบริบทเชิงบวกหรือเป็นกลาง ในกรณีดังกล่าว โมเดลอาจเรียนรู้ความสัมพันธ์ระหว่างคำศัพท์เฉพาะและความเป็นพิษ
การจดจำ
ความอ่อนไหวคือเปอร์เซ็นต์ของการคาดการณ์ที่เป็นผลบวกจริงซึ่งจัดประเภทว่าเป็นผลบวกอย่างถูกต้อง บอกให้เรารู้ถึงเปอร์เซ็นต์ของความคิดเห็นที่ไม่สุภาพที่โมเดลตรวจจับได้สำเร็จ ในที่นี้ เรากังวลเกี่ยวกับความลำเอียงที่เกี่ยวข้องกับผลบวกลวง (ความคิดเห็นที่ไม่เป็นพิษแต่จัดว่าเป็นความคิดเห็นที่เป็นพิษ) และจำไม่ได้ว่าได้ให้ข้อมูลเชิงลึกใดๆ เกี่ยวกับปัญหานี้

การให้น้ำหนักพิเศษ

การดำเนินการในข้อใดต่อไปนี้อาจเป็นวิธีการลดอคติที่มีประสิทธิภาพในข้อมูลการฝึกอบรมที่ใช้ในแบบฝึกหัดที่ 1 และแบบฝึกหัดที่ 2 สำรวจตัวเลือกด้านล่าง
เพิ่มตัวอย่างเชิงลบ (ที่ไม่เป็นพิษ) ที่มีคำศัพท์เฉพาะลงในชุดการฝึก
การเพิ่มตัวอย่างเชิงลบ (ความคิดเห็นที่จริงๆ แล้วไม่มีพิษ) ซึ่งมีคำที่เป็นอัตลักษณ์จะช่วยให้ชุดการฝึกมีความสมดุลยิ่งขึ้น จากนั้นโมเดลจะเห็นความสมดุลยิ่งขึ้นของคำศัพท์เฉพาะที่ใช้ในบริบทที่เป็นพิษและไร้พิษ เพื่อให้รู้ว่าคำเหล่านั้นเป็นคำกลางๆ
เพิ่มตัวอย่างที่เป็นบวก (ใช้ไม่ได้) ที่มีคำศัพท์เฉพาะลงในชุดการฝึก
ตัวอย่างที่ไม่เป็นมิตรมีการนำเสนอมากเกินไปแล้วในบางส่วนของตัวอย่างที่มีคำศัพท์เกี่ยวกับอัตลักษณ์ หากเราเพิ่มตัวอย่างเหล่านี้ลงในชุดการฝึกอีก เราจะทำให้การให้น้ำหนักพิเศษที่มีอยู่เลวร้ายลงมากกว่าที่จะแก้ไข
เพิ่มตัวอย่างเชิงลบ (ที่ไม่เป็นพิษ) โดยไม่มีคำระบุอัตลักษณ์ลงในชุดการฝึก
ในตัวอย่างเชิงลบมีคำที่ใช้ระบุอัตลักษณ์น้อยเกินไป การเพิ่มตัวอย่างเชิงลบโดยไม่มีคําที่เป็นเอกลักษณ์จะช่วยเพิ่มความไม่สมดุลดังกล่าว และไม่ช่วยแก้ไขการให้น้ำหนักพิเศษดังกล่าว
เพิ่มตัวอย่างที่เป็นบวก (หยาบคาย) ที่ไม่มีคำศัพท์เฉพาะลงในชุดการฝึก

อาจเป็นไปได้ว่าการเพิ่มตัวอย่างเชิงบวกที่ไม่มีคำศัพท์เฉพาะ อาจช่วยแยกการเชื่อมโยงระหว่างคำศัพท์เกี่ยวกับอัตลักษณ์และความเป็นพิษที่ โมเดลเรียนรู้ไว้ก่อนหน้านี้ได้

การประเมินการให้น้ำหนักพิเศษ

คุณได้ฝึกตัวแยกประเภทแบบ "เป็นพิษต่อข้อความ" ของตัวเองใหม่ตั้งแต่ต้น ซึ่งทีมวิศวกรวางแผนจะใช้เพื่อยับยั้งการแสดงความคิดเห็นที่จัดว่าเป็นเนื้อหาขยะโดยอัตโนมัติ คุณกังวลว่าอคติใดๆ ที่มีต่อพิษในความคิดเห็นที่เกี่ยวข้องกับเพศอาจส่งผลให้เกิดการระงับการสนทนาที่ไม่เป็นพิษเกี่ยวกับเพศ และต้องการประเมินอคติเกี่ยวกับเพศในการคาดคะเนของตัวแยกประเภท คุณควรใช้เมตริกใดต่อไปนี้ในการประเมินโมเดล สำรวจตัวเลือกด้านล่าง
อัตราผลบวกลวง (FPR)
ในเวอร์ชันที่ใช้งานจริง โมเดลจะใช้เพื่อระงับการคาดการณ์ที่เป็นบวก (เป็นอันตราย) โดยอัตโนมัติ เป้าหมายของคุณคือเพื่อให้มั่นใจว่าโมเดลจะไม่ยับยั้งผลบวกลวง (ความคิดเห็นที่ไม่เป็นพิษ ซึ่งโมเดลจัดประเภทไม่ถูกต้อง) สำหรับความคิดเห็นที่เกี่ยวข้องกับเพศในอัตราที่สูงกว่าความคิดเห็นโดยรวม การเปรียบเทียบ FPR สำหรับกลุ่มย่อยเพศกับ FPR โดยรวมเป็นวิธีที่ยอดเยี่ยมในการประเมินการแก้ไขอคติสำหรับกรณีการใช้งานของคุณ
อัตราผลลบลวง (FNR)
FNR จะวัดอัตราที่โมเดลจัดประเภทคลาสเชิงบวกที่ไม่ถูกต้อง (ในที่นี้ "toxic") ว่าเป็นคลาสเชิงลบ ("ไม่ใช่พิษ") สำหรับกรณีการใช้งานนี้ เครื่องมือนี้จะบอกให้ทราบอัตราที่ความคิดเห็นหยาบคายจริงๆ จะหลุดผ่านตัวกรองและแสดงต่อผู้ใช้ ในที่นี้ ข้อกังวลหลักของคุณคือการแสดงอคติในแง่ของการยับยั้งการอภิปรายที่ไม่เป็นพิษ FNR ไม่ได้ให้ข้อมูลเชิงลึกใดๆ เกี่ยวกับมิติข้อมูลนี้ของประสิทธิภาพของโมเดล
ความแม่นยำ
ความแม่นยำวัดเปอร์เซ็นต์ของการคาดการณ์โมเดลที่ถูกต้อง และในทางกลับกัน เปอร์เซ็นต์การคาดการณ์ที่ผิดพลาด สำหรับกรณีการใช้งานนี้ ความแม่นยำจะบอกคุณว่ามีโอกาสมากน้อยเพียงใดที่ตัวกรองจะไม่แสดงวาทกรรมที่ไม่เป็นพิษหรือแสดงวาทกรรมที่เป็นพิษ ข้อกังวลหลักของคุณคือปัญหาแรก ไม่ใช่ปัญหาหลัง เนื่องจากความแม่นยำมีความขัดแย้งกันทั้ง 2 อย่าง จึงไม่เหมาะที่จะใช้สำหรับการประเมินนี้
AUC
AUC มอบการวัดผลสัมบูรณ์ของความสามารถในการคาดการณ์ของโมเดล เนื่องจากเป็นเมตริกที่ดีในการประเมินประสิทธิภาพโดยรวม อย่างไรก็ตาม จากข้อมูลที่คุณมีข้อกังวลเกี่ยวกับอัตราการยับยั้งความคิดเห็นโดยเฉพาะ และ AUC ไม่ได้ให้ข้อมูลเชิงลึกเกี่ยวกับปัญหานี้โดยตรง
ระบบได้เพิ่มผู้กลั่นกรองเนื้อหาในทีมของคุณ และผู้จัดการผลิตภัณฑ์ได้ตัดสินใจเปลี่ยนวิธีทำให้ตัวแยกประเภทใช้งานได้ ซอฟต์แวร์การกรองจะแจ้งว่าความคิดเห็นเหล่านี้ไม่เหมาะสมเพื่อให้ผู้กลั่นกรองเนื้อหาตรวจสอบ แทนที่จะระงับความคิดเห็นที่จัดว่าเป็นความคิดเห็นขยะโดยอัตโนมัติ เนื่องจากมนุษย์จะตรวจสอบความคิดเห็นที่ติดป้ายกำกับว่าเป็นเนื้อหาขยะ ความลำเอียงจะไม่แสดงขึ้นในรูปแบบการยับยั้งเนื้อหาอีกต่อไป เมตริกใดต่อไปนี้ที่คุณควรใช้ในการวัดการให้น้ำหนักพิเศษและผลกระทบของการแก้ไขการให้น้ำหนักพิเศษ สำรวจตัวเลือกด้านล่าง
อัตราผลบวกลวง (FPR)
อัตราผลบวกลวงจะบอกเปอร์เซ็นต์ของความคิดเห็นที่ไม่เป็นพิษ ซึ่งจัดอย่างไม่ถูกต้องว่าเป็นข้อความที่เป็นพิษ เนื่องจากตอนนี้ผู้ดูแลที่เป็นมนุษย์จะตรวจสอบความคิดเห็นทั้งหมดที่โมเดลติดป้ายกำกับว่า "เป็นพิษ" และน่าจะตรวจพบ FPR ส่วนใหญ่แล้ว FPR จึงไม่ใช่ข้อกังวลหลักอีกต่อไป
อัตราผลลบลวง (FNR)
แม้ว่าผู้ดูแลที่เป็นมนุษย์จะตรวจสอบความคิดเห็นทั้งหมดที่มีป้ายกำกับว่า "ไม่เป็นพิษ" และเพื่อให้แน่ใจว่าจะไม่ระงับการตรวจสอบที่ผิดพลาด แต่จะไม่มีการตรวจสอบความคิดเห็นที่มีป้ายกำกับว่า "ไม่เป็นพิษ" ส่งผลให้มีโอกาสเกิดอคติที่เกี่ยวข้องกับผลลบลวง คุณสามารถใช้ FNR (เปอร์เซ็นต์ของผลบวกจริงที่จัดว่าเป็นเชิงลบ) เพื่อประเมินอย่างเป็นระบบว่าความคิดเห็นที่เป็นพิษในกลุ่มย่อยของเพศมีแนวโน้มที่จะติดป้ายกำกับว่าไม่เป็นพิษมากกว่าความคิดเห็นโดยรวมหรือไม่
ความแม่นยำ
ความแม่นยำ จะบอกเปอร์เซ็นต์ของการคาดการณ์ที่เป็นบวก ซึ่งเป็นค่าบวกจริงๆ ในกรณีนี้คือเปอร์เซ็นต์ของการคาดการณ์ที่ "เป็นพิษ" ที่ถูกต้อง เนื่องจากผู้ดูแลที่เป็นมนุษย์จะตรวจสอบการคาดการณ์ที่ "เป็นพิษ" ทั้งหมด คุณจึงไม่จำเป็นต้องทำให้หนึ่งในเมตริกการประเมินหลักมีความแม่นยำ
การจดจำ
ความอ่อนไหว จะบอกเปอร์เซ็นต์ของผลบวกจริงที่ได้รับการจัดประเภทอย่างถูกต้อง จากค่านี้ คุณจะเห็นเปอร์เซ็นต์ของผลบวกจริงที่ได้รับการจัดประเภทไม่ถูกต้อง (1 – การจำได้) ซึ่งเป็นเมตริกที่มีประโยชน์ในการวัดผลว่าความคิดเห็นที่เป็นพิษเกี่ยวกับเพศดังกล่าวได้รับการจัดประเภทผิดเป็น "ไม่มีพิษ" อย่างไม่เป็นสัดส่วนเมื่อเทียบกับความคิดเห็นโดยรวม