ความเป็นธรรม: การระบุการให้น้ําหนัก

เมื่อสํารวจข้อมูลเพื่อพิจารณาว่าควรนําเสนอข้อมูลใดในโมเดลได้ดีที่สุด คุณควรคํานึงถึงประเด็นด้านความเป็นธรรมและการตรวจสอบแหล่งที่มาของอคติที่อาจเกิดขึ้นในเชิงรุก

ที่ซึ่งอาจทําให้อคติเกิดขึ้นได้ที่ไหน นี่คือธงสีแดง 3 ชุดที่ต้องระวังในชุดข้อมูล

ไม่มีค่าของฟีเจอร์

หากชุดข้อมูลมีฟีเจอร์อย่างน้อย 1 รายการที่ค่าตัวอย่างจํานวนมากขาดหายไป อาจเป็นตัวบ่งชี้ว่ามีคุณลักษณะหลักบางอย่างในชุดข้อมูลนั้นต่ํากว่าความเป็นจริง

ตัวอย่างเช่น ตารางด้านล่างแสดงสรุปสถิติที่สําคัญสําหรับชุดย่อยของฟีเจอร์ในชุดข้อมูลที่พักอาศัยในแคลิฟอร์เนีย ซึ่งจัดเก็บไว้ในแพนด้า DataFrame และสร้างผ่าน DataFrame.describe โปรดทราบว่าฟีเจอร์ทั้งหมดมี count เท่ากับ 17, 000 ซึ่งหมายความว่าไม่มีค่าที่ขาดหายไป

longitude latitude ห้องแชททั้งหมด ประชากร ครอบครัว ค่ามัธยฐานของรายได้ ค่ามัธยฐานของค่าบ้าน
จำนวน 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0
ค่าเฉลี่ย -119.6 35.6 ปี 2643.7 1,429.6 501.2 3.9 207.3 ครั้ง
Sttd 2.0 2.1 2179.9 1147.9 384.5 ปี 1.9 1160.00 THB
นาที -124.3 32.5 ปี 2.0 3.0 1.0 0.5 15.0
25% -121.8 33.9 1,462.0 790.0 2820.00 2.6 119.4
50% -118.5 34.2 ครั้ง 2127.00 1167.0 4090.00 3.5 180.4
75% -118.0 37.7 ครั้ง 3151.2 1,721.0 605.2 ครั้ง 4.8 2650.00
สูงสุด -114.3 420.00 THB 37937.0 35682.0 6082.0 15.0 5000.00 THB

แต่สมมติว่าฟีเจอร์ 3 อย่าง (population, households และ median_income) มีแค่ 3000 เท่านั้น กล่าวคือแต่ละค่ามีค่าขาดหายไป 14,000 รายการ

longitude latitude ห้องแชททั้งหมด ประชากร ครอบครัว ค่ามัธยฐานของรายได้ ค่ามัธยฐานของค่าบ้าน
จำนวน 17,000.0 17,000.0 17,000.0 3,000.0 3,000.0 3,000.0 17,000.0
ค่าเฉลี่ย -119.6 35.6 ปี 2643.7 1,429.6 501.2 3.9 207.3 ครั้ง
Sttd 2.0 2.1 2179.9 1147.9 384.5 ปี 1.9 1160.00 THB
นาที -124.3 32.5 ปี 2.0 3.0 1.0 0.5 15.0
25% -121.8 33.9 1,462.0 790.0 2820.00 2.6 119.4
50% -118.5 34.2 ครั้ง 2127.00 1167.0 4090.00 3.5 180.4
75% -118.0 37.7 ครั้ง 3151.2 1,721.0 605.2 ครั้ง 4.8 2650.00
สูงสุด -114.3 420.00 THB 37937.0 35682.0 6082.0 15.0 5000.00 THB

ค่าที่หายไป 14,000 อย่างนี้อาจทําให้ยากต่อการเชื่อมโยงรายได้ครัวเรือนกับราคามัธยฐานของบ้านได้อย่างถูกต้อง ก่อนที่จะฝึกโมเดลให้ข้อมูลนี้ คุณควรตรวจดูสาเหตุของค่าที่หายไปเหล่านี้เพื่อให้แน่ใจว่าไม่มีอคติที่มีความรับผิดชอบซึ่งส่งผลให้สูญเสียข้อมูลรายได้และประชากร

ค่าฟีเจอร์ที่ไม่คาดคิด

เมื่อสํารวจข้อมูล คุณควรมองหาตัวอย่างที่มีค่าฟีเจอร์ที่โดดเด่นกว่าปกติหรือผิดปกติด้วย ค่าฟีเจอร์ที่ไม่คาดคิดเหล่านี้อาจบ่งชี้ถึงปัญหาที่เกิดขึ้นระหว่างการเก็บรวบรวมข้อมูลหรือความไม่ถูกต้องอื่นๆ ที่อาจทําให้มีอคติ

เช่น ดูตัวอย่างข้อความที่ตัดตอนมาจากชุดข้อมูลของรัฐแคลิฟอร์เนีย

longitude latitude ห้องแชททั้งหมด ประชากร ครอบครัว ค่ามัธยฐานของรายได้ ค่ามัธยฐานของค่าบ้าน
1 -121.7 380.00 7105.0 3,523.0 1088.0 5.0 0.2
2 -122.4 37.8 คะแนน 2,479.0 1816.0 4960.00 THB 3.1 0.3
3 -122.0 370.00 2813.0 1337.0 4770.00 3.7 0.3
4 -103.5 43.8 2212.00 803.0 1440.00 5.3 0.2
5 -117.1 32.8 ปี 2963.0 1.162 แสน 5560.00 3.6 0.2
6 -118.0 33.7 ครั้ง 3,396.0 1.542.0 4720.00 THB 7.4 0.4

คุณสามารถระบุค่าฟีเจอร์ที่ไม่คาดคิดได้ไหม

เอียง

ข้อมูลประเภทนี้อาจมีความบิดเบือนข้อมูลได้หากกลุ่มหรือลักษณะบางอย่างอาจมีความไม่เท่าเทียมหรือเป็นตัวแทนที่มากเกินไป เมื่อเทียบกับความแพร่หลายของโลกแห่งความจริง อาจทําให้โมเดลของคุณมีการให้น้ําหนักพิเศษกับโมเดลของคุณ

หากคุณทําตามแบบฝึกหัดการตรวจสอบความถูกต้องเรียบร้อยแล้ว คุณอาจจําได้ว่าสุ่มสร้างชุดข้อมูลของรัฐแคลิฟอร์เนียก่อนแยกส่วนไปยังชุดการฝึกและการตรวจสอบซึ่งจะส่งผลให้ข้อมูลบิดเบือนชัดเจน รูปที่ 1 แสดงข้อมูลชุดย่อยจากชุดข้อมูลทั้งหมดที่แสดงถึงภูมิภาคทางตะวันตกเฉียงเหนือของรัฐแคลิฟอร์เนียโดยเฉพาะ

แผนที่รัฐแคลิฟอร์เนีย วางซ้อนด้วยชุดข้อมูลของรัฐแคลิฟอร์เนีย
          แต่ละจุดแสดงถึงบล็อกอาคาร จุดทั้งหมดกระจุกตัวอยู่ในแคลิฟอร์เนียตะวันตกเฉียงเหนือโดยไม่มีจุดใดในตอนใต้ของแคลิฟอร์เนีย ซึ่งเป็นภาพเอียงของข้อมูล

รูปที่ 1 แผนที่รัฐแคลิฟอร์เนีย วางซ้อนด้วยชุดข้อมูลของรัฐแคลิฟอร์เนีย แต่ละจุดแสดงองค์ประกอบต่างๆ ของอาคาร ซึ่งแบ่งออกเป็นสีต่างๆ ตั้งแต่สีน้ําเงินไปจนถึงสีแดง และมีค่ามัธยฐานของราคาบ้านจากต่ําไปสูง ตามลําดับ

หากมีการนําตัวอย่างที่ไม่เป็นตัวแทนนี้ไปใช้เพื่อฝึกโมเดลเพื่อคาดการณ์ราคาที่พักอาศัยในรัฐแคลิฟอร์เนีย การขาดข้อมูลที่พักอาศัยจากภาคใต้ของแคลิฟอร์เนียจะทําให้เกิดปัญหาได้ อคติทางภูมิศาสตร์ที่เข้ารหัสในโมเดลอาจส่งผลกระทบเชิงลบต่อผู้ซื้อบ้านในชุมชนที่ไม่เป็นตัวแทน