ความเป็นธรรม: ทดสอบความเข้าใจ

ประเภทของการให้น้ําหนักพิเศษ

ดูตัวเลือกด้านล่าง

การคาดการณ์ในข้อใดต่อไปนี้ได้รับผลกระทบจากอคติการเลือก
แอปสมาร์ทโฟนจดจําลายมือของเยอรมนีใช้โมเดลที่มักจะจําแนกอักขระ MTA (Eszett) อย่างไม่ถูกต้องเป็นอักขระ B เนื่องจากเป็นการฝึกบนคลังข้อมูลการเขียนด้วยลายมือของชาวอเมริกันซึ่งส่วนใหญ่เขียนเป็นภาษาอังกฤษ
รูปแบบนี้ได้รับผลกระทบจากประเภทของการให้น้ําหนักพิเศษที่เรียกว่าการให้น้ําหนักพิเศษ: ข้อมูลการฝึก (การเขียนด้วยลายมือภาษาอังกฤษแบบอเมริกัน) ไม่ได้แสดงถึงประเภทข้อมูลที่กลุ่มเป้าหมายกําหนด (การเขียนด้วยลายมือของเยอรมนี)
วิศวกรได้สร้างแบบจําลองเพื่อคาดการณ์แนวโน้มของผู้ป่วยโรคเบาหวานตามปริมาณอาหารที่บริโภคในแต่ละวัน โมเดลได้รับการฝึกจาก 10,000 "ไดอารี่อาหาร" ที่รวบรวมจากกลุ่มผู้ใช้ต่างๆ ที่คัดสรรมาแบบสุ่มจากทั่วโลก ด้วยกลุ่มอายุ ภูมิหลัง ชาติพันธุ์ และเพศที่หลากหลาย แต่เมื่อทําให้โมเดลใช้งานได้แล้ว ก็จะมีความแม่นยําต่ํามาก ในภายหลังวิศวกรพบว่าผู้เข้าร่วมไดอารีอาหารไม่พึงพอใจที่จะยอมรับปริมาณอาหารที่ดีต่อสุขภาพอย่างแท้จริงที่ตนกิน และมีแนวโน้มที่จะบันทึกการบริโภคอาหารที่มีคุณค่าทางโภชนาการมากกว่าอาหารว่างเพื่อสุขภาพน้อยกว่า
ไม่มีการเลือกการให้น้ําหนักกับโมเดลนี้ ผู้เข้าร่วมที่ให้ข้อมูลการฝึกอบรมเป็นตัวอย่างที่สุ่มเลือกของผู้ใช้และได้รับการสุ่มเลือก แต่โมเดลนี้ได้รับผลกระทบจากการให้น้ําหนักการรายงานแทน ระบบรายงานปริมาณอาหารที่มีผลกระทบต่อสุขภาพที่ไม่ดีถี่กว่าจํานวนครั้งที่เกิดขึ้นจริง
วิศวกรในบริษัทพัฒนาโมเดลเพื่อคาดการณ์อัตราการหมุนเวียนของพนักงาน (เปอร์เซ็นต์ของพนักงานที่ลาออกจากงานในแต่ละปี) โดยอิงตามข้อมูลที่รวบรวมจากแบบสํารวจที่ส่งไปยังพนักงานทั้งหมด หลังจากใช้งานมาหลายปี วิศวกรชี้ให้เห็นว่าโมเดลนี้ประมาณค่าการหมุนเวียนน้อยกว่า 20% เมื่อดําเนินการสัมภาษณ์พนักงานที่ลาออกจากบริษัท พบว่ามีคนมากกว่า 80% ที่ไม่พอใจงานของตนเองเลือกที่จะไม่ทําแบบสํารวจ เมื่อเทียบกับอัตราการเลือกไม่ใช้งานทั่วทั้งบริษัท 15%
รูปแบบนี้ได้รับผลกระทบจากอคติการเลือกประเภทหนึ่งที่เรียกว่าการให้น้ําหนักพิเศษที่ไม่ตอบกลับ คนที่ไม่พอใจเกี่ยวกับงานกลับมีแทนที่ชุดข้อมูลชุดข้อมูลการฝึกอบรมเพราะไม่ได้รับแบบสํารวจทั่วทั้งองค์กรในอัตราที่สูงกว่าประชากรพนักงานทั้งหมด
วิศวกรที่พัฒนาระบบการแนะนําภาพยนตร์ตั้งสมมติฐานว่า ผู้ที่ชอบภาพยนตร์สยองขวัญจะชอบภาพยนตร์แนวนิยายวิทยาศาสตร์ด้วย ตอนที่พวกเขาฝึกโมเดลกับผู้ใช้ 50,000 คนและรายการที่อยากดู แต่กลับไม่แสดงความสัมพันธ์ระหว่างความสยองขวัญกับเรื่องไซไฟ แต่กลับแสดงให้เห็นถึงความสัมพันธ์ที่แน่นแฟ้นระหว่างความสยองขวัญกับสารคดี ซึ่งดูแปลกๆ เหมือนกัน ดังนั้นจึงฝึกโมเดลอีกครั้ง 5 ครั้งโดยใช้ไฮเปอร์พารามิเตอร์ที่ต่างกัน แบบจําลองที่ผ่านการฝึกแล้วของผู้เล่นเหล่านั้นแสดงความสัมพันธ์ระหว่างความสยองขวัญกับแนวไซไฟ 70% จึงเผยแพร่เกมเวอร์ชันที่ใช้งานจริงได้อย่างมั่นใจ
ไม่พบหลักฐานว่าการให้น้ําหนักพิเศษในการเลือก แต่โมเดลนี้อาจได้รับผลกระทบจากการให้น้ําหนักพิเศษของผู้ทดสอบแทน เนื่องจากวิศวกรยังคงปรับปรุงรูปแบบของตนอยู่จนกว่าการยืนยันสมมติฐานที่มีอยู่ก่อนหน้านี้

การประเมินการให้น้ําหนักพิเศษ

โมเดลการตรวจจับการเสียดสีได้รับการฝึกจากข้อความ 80,000 ข้อความ ได้แก่ 40,000 ข้อความที่ส่งโดยผู้ใหญ่ (อายุ 18 ปีขึ้นไป) และ 40,000 ข้อความที่ส่งโดยผู้เยาว์ (อายุต่ํากว่า 18 ปี) จากนั้นโมเดลจะได้รับการประเมินในชุดทดสอบที่มีข้อความ 20,000 ข้อความ: 10,000 ครั้งจากผู้ใหญ่ และ 10,000 ครั้งจากผู้เยาว์ เมทริกซ์ความสับสนต่อไปนี้แสดงผลลัพธ์สําหรับแต่ละกลุ่ม (การคาดการณ์เชิงบวกหมายถึงการแยกประเภท "sarcastic"; การคาดคะเนเชิงลบหมายถึงลําดับชั้นของ "ไม่ใช่การเสียดสี)

ผู้ใหญ่

ผลบวกจริง (TP): 512 False Positives (FPS): 51
คีย์เวิร์ดเชิงลบปลอม (FN): 36 คีย์เวิร์ดเชิงลบจริง (TN): 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

ผู้เยาว์

ผลบวกจริง (TP): 2147 False Positives (FPS): 96
ผลลบลวง (FN): 2177 Trueที่ไม่ต้องการ (TN): 5,580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

ดูตัวเลือกด้านล่าง

ข้อความเกี่ยวกับประสิทธิภาพชุดทดสอบของโมเดลข้อใดต่อไปนี้เป็นจริง
โดยรวมแล้ว รูปแบบนี้มีประสิทธิภาพมากกว่าในตัวอย่างจากผู้ใหญ่มากกว่าตัวอย่างจากผู้เยาว์

รูปแบบนี้จะได้รับทั้งความแม่นยําและอัตราการเรียกคืนที่สูงกว่า 90% เมื่อตรวจพบการเสียดสีในข้อความสําหรับผู้ใหญ่

แม้ว่าโมเดลจะมีอัตราความแม่นยําสําหรับผู้เยาว์สูงกว่าผู้ใหญ่เล็กน้อย แต่อัตราการเรียกคืนสําหรับผู้เยาว์จะต่ํากว่าอย่างมาก และทําให้มีการคาดการณ์สําหรับกลุ่มนี้น้อยลง

โมเดลนี้จําแนกประเภทผู้เยาว์ไม่ได้ประมาณ 50%' ข้อความเสียดสีเป็น "sarcastic."
อัตราการเรียกคืน 0.497 สําหรับผู้เยาว์บ่งชี้ว่าโมเดลคาดการณ์ " ไม่ใช่การเสียดสีและประมาณ 50% ของผู้เยาว์' ข้อความเสียดสี
ประมาณ 50% ของข้อความที่ส่งมาจากผู้เยาว์จะได้รับการจัดประเภทเป็น "sarcastic" ไม่ถูกต้อง
อัตราความแม่นยํา 0.957 หมายความว่า 95% ของผู้เยาว์&#39 มีการจัดประเภทข้อความเป็น "การเสียดสี" เป็นการทําให้เสียดสี
ข้อความ 10,000 ฉบับที่ผู้ใหญ่ส่งเป็นชุดข้อมูล ที่ไม่สมดุล
หากเราเปรียบเทียบจํานวนข้อความจากผู้ใหญ่ที่เสียดสี (TP+FN = 548) กับจํานวนข้อความที่ไม่ใช่การเสียดสี (TN + FP = 9452) เราจะพบว่า " ไม่ใช่ การเสียดสีป้ายกํากับ จํานวนที่มากกว่า "sarcastic" ป้ายกํากับตามอัตราส่วน 1
ข้อความ 10,000 รายการที่ส่งโดยผู้เยาว์คือชุดข้อมูลที่ไม่สมดุล
หากเราเปรียบเทียบจํานวนข้อความจากผู้เยาว์ที่เป็นการเสียดสี (TP+FN = 4324) กับจํานวนข้อความที่ไม่ใช่การเสียดสี (TN + FP = 5676) เราพบว่ามีอัตราส่วน 1.3:1 เป็นป้ายกํากับ "ไม่ใช่การประชดประชัน " ป้ายกํากับต่อ "s. เนื่องจากการกระจายป้ายกํากับระหว่าง 2 คลาสนี้ใกล้เคียงกันกับ 50/50 แล้ว จึงไม่ใช่ชุดข้อมูลที่ไม่สมดุลกัน

ดูตัวเลือกด้านล่าง

วิศวกรกําลังพยายามฝึกโมเดลนี้ซ้ําเพื่อแก้ไขความถูกต้องแม่นยําของการตรวจหาการเสียดสีในข้อมูลประชากรตามอายุ แต่ได้มีการเปิดตัวโมเดลนี้เป็นเวอร์ชันที่ใช้งานจริงแล้ว กลยุทธ์การลดหย่อนสัญญาณใดต่อไปนี้จะช่วยบรรเทาข้อผิดพลาดในการคาดการณ์ของโมเดล
จํากัดการใช้งานโมเดลสําหรับข้อความที่ส่งโดยผู้ใหญ่เท่านั้น

โมเดลนี้จะทํางานได้ดีสําหรับ SMS จากผู้ใหญ่ (ด้วยความแม่นยําและอัตราการเรียกคืนที่สูงกว่า 90%) ดังนั้นการจํากัดการใช้งานในกลุ่มนี้จึงจะช่วยหลีกเลี่ยงข้อผิดพลาดทางระบบในการจัดประเภทผู้เยาว์&#39, ข้อความ SMS

เมื่อโมเดลคาดการณ์ " เสียดสี&; สําหรับข้อความที่ส่งโดยผู้เยาว์ ให้ปรับเอาต์พุตเพื่อให้โมเดลแสดงค่า "unsure" แทน

อัตราความแม่นยําสําหรับข้อความที่ส่งมาจากผู้เยาว์นั้นสูง ซึ่งหมายความว่าเมื่อโมเดลคาดการณ์ "sarcastic" สําหรับกลุ่มนี้ ค่ามักจะถูกต้องเสมอ

ปัญหาคือการจดจําได้น้อยมากสําหรับผู้เยาว์ โมเดลระบุการเสียดสีไม่ได้ในตัวอย่างประมาณ 50% เนื่องจากการคาดการณ์เชิงลบสําหรับผู้เยาว์จะไม่ดีกว่าการคาดเดาแบบสุ่ม เราจึงหลีกเลี่ยงข้อผิดพลาดเหล่านี้ได้ด้วยการไม่ส่งการคาดคะเนในกรณีเหล่านี้

จํากัดการใช้งานโมเดลสําหรับข้อความที่ส่งโดยผู้เยาว์

ข้อผิดพลาดอย่างเป็นระบบในโมเดลนี้จะเจาะจงเฉพาะข้อความที่ส่งจากผู้เยาว์เท่านั้น การจํากัดโมเดลและใช้โมเดลที่มีโอกาสมีข้อผิดพลาดมากกว่าจะไม่ช่วยแก้ปัญหา

ปรับเอาต์พุตของโมเดลเพื่อให้แอปแสดงผล "การเสียดสี" สําหรับข้อความทั้งหมดที่ผู้เยาว์ส่ง โดยไม่คํานึงถึงรูปแบบที่คาดคะเนไว้ในตอนแรก

คาดการณ์ "sarcastic" สําหรับผู้เยาว์&#39 เสมอ ข้อความจะเพิ่มอัตราการเรียกคืนจาก 0.497 เป็น 1.0 เนื่องจากรูปแบบจะไม่อาจระบุข้อความว่าเป็นการเสียดสีได้อีกต่อไป อย่างไรก็ตาม ความอ่อนไหวที่เพิ่มขึ้นนี้จะเพิ่มความแม่นยํา ผลลบจริงทั้งหมดจะเปลี่ยนเป็นค่าบวกปลอม:

ผลบวกจริง (TP): 4324 False Positives (FPS): 5676
คีย์เวิร์ดเชิงลบปลอม (FN): 0 ผลลบจริง (TN): 0

ซึ่งจะลดอัตราความแม่นยําจาก 0.957 เป็น 0.432 ดังนั้น การเพิ่มการปรับเทียบนี้จะเปลี่ยนประเภทข้อผิดพลาด แต่ไม่ได้ลดขนาดของข้อผิดพลาด