ความยุติธรรม: การระบุอคติ
จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน
บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ
เมื่อเตรียมข้อมูลสําหรับการฝึกและประเมินโมเดล คุณต้องคํานึงถึงประเด็นด้านความยุติธรรมและตรวจสอบแหล่งที่มาของอคติที่อาจเกิดขึ้น เพื่อให้คุณลดผลกระทบเชิงรุกก่อนนําโมเดลเข้าสู่เวอร์ชันที่ใช้งานจริง
อคติอาจเกิดขึ้นได้ที่ไหน สัญญาณอันตรายที่ควรระวังในชุดข้อมูลมีดังนี้
ไม่มีค่าฟีเจอร์
หากชุดข้อมูลของคุณมีฟีเจอร์อย่างน้อย 1 รายการที่ไม่มีค่าสำหรับตัวอย่างจํานวนมาก อาจเป็นตัวบ่งชี้ว่าลักษณะเฉพาะที่สําคัญบางอย่างของชุดข้อมูลมีการแสดงไม่เพียงพอ
แบบฝึกหัด: ทดสอบความเข้าใจ
คุณกำลังฝึกโมเดลให้คาดการณ์การนำไปเลี้ยงดูสุนัขที่รับมาเลี้ยงได้ โดยอิงตามลักษณะต่างๆ เช่น สายพันธุ์ อายุ น้ำหนัก นิสัย และปริมาณขนที่หลุดในแต่ละวัน เป้าหมายของคุณคือตรวจสอบว่าโมเดลทำงานได้ดีเท่าๆ กันกับสุนัขทุกประเภท โดยไม่คำนึงถึงลักษณะทางกายภาพหรือพฤติกรรม
คุณพบว่าตัวอย่าง 1,500 รายการจาก 5,000 รายการในชุดการฝึกไม่มีค่าอารมณ์ ข้อใดต่อไปนี้คือที่มาของอคติ
ที่คุณควรตรวจสอบ
ข้อมูลลักษณะนิสัยมีแนวโน้มที่จะขาดหายไปสำหรับสุนัขบางสายพันธุ์
หากความพร้อมใช้งานของข้อมูลลักษณะนิสัยสัมพันธ์กับสายพันธุ์สุนัข ก็อาจส่งผลให้การคาดคะเนความสามารถในการรับเลี้ยงสุนัขบางสายพันธุ์มีความแม่นยำน้อยลง
ข้อมูลลักษณะนิสัยมีแนวโน้มที่จะหายไปสำหรับสุนัขอายุต่ำกว่า 12 เดือน
หากความพร้อมของข้อมูลเกี่ยวกับลักษณะนิสัยมีความสัมพันธ์กับอายุ ข้อมูลนี้อาจส่งผลให้การคาดการณ์การนำไปเลี้ยงดูของสุนัขพันธุ์นั้นๆ แม่นยำน้อยลงสำหรับลูกสุนัขเมื่อเทียบกับสุนัขโต
ไม่มีข้อมูลลักษณะนิสัยสำหรับสุนัขทั้งหมดที่ได้รับการช่วยเหลือจากเมืองใหญ่
เมื่อมองแวบแรก ข้อมูลนี้อาจไม่ได้ดูเป็นแหล่งที่มาของอคติ เนื่องจากข้อมูลที่ขาดหายไปจะส่งผลต่อสุนัขทุกตัวจากเมืองใหญ่ๆ เท่าๆ กัน โดยไม่คำนึงถึงสายพันธุ์ อายุ น้ำหนัก ฯลฯ อย่างไรก็ตาม เรายังคงต้องพิจารณาว่าสถานที่เกิดของสุนัขอาจทำหน้าที่เป็นพร็อกซีสำหรับลักษณะทางกายภาพเหล่านี้ได้อย่างมีประสิทธิภาพ ตัวอย่างเช่น หากสุนัขจากเมืองใหญ่มีแนวโน้มที่จะตัวเล็กกว่าสุนัขจากพื้นที่ชนบทมากกว่า ผลการคาดการณ์การนำไปรับเลี้ยงสุนัขที่มีน้ำหนักน้อยหรือสุนัขพันธุ์เล็กบางสายพันธุ์อาจมีความแม่นยำลดลง
ไม่มีข้อมูลลักษณะนิสัยจากชุดข้อมูลแบบสุ่ม
หากข้อมูลลักษณะนิสัยขาดหายไปอย่างสุ่มจริง ข้อมูลดังกล่าวก็ไม่น่าเป็นแหล่งที่มาของอคติ อย่างไรก็ตาม ลักษณะของข้อมูลที่อาจขาดหายไปก็อาจเกิดขึ้นได้ แต่การตรวจสอบเพิ่มเติมอาจเผยให้เห็นคำอธิบายของความคลาดเคลื่อนได้ ดังนั้น คุณจึงต้องตรวจสอบอย่างละเอียดเพื่อตัดความเป็นไปได้อื่นๆ ออก แทนที่จะคิดว่าช่องว่างของข้อมูลเกิดขึ้นแบบสุ่ม
ค่าฟีเจอร์ที่ไม่คาดคิด
เมื่อสํารวจข้อมูล คุณควรมองหาตัวอย่างที่มีค่าองค์ประกอบที่โดดเด่นเนื่องจากมีลักษณะไม่เป็นไปตามปกติหรือผิดปกติ ค่าของฟีเจอร์ที่ไม่คาดคิดเหล่านี้อาจบ่งบอกถึงปัญหาที่เกิดขึ้นระหว่างการเก็บรวบรวมข้อมูลหรือความไม่ถูกต้องอื่นๆ ที่อาจทำให้เกิดการให้น้ำหนักพิเศษได้
แบบฝึกหัด: ทดสอบความเข้าใจ
ดูชุดตัวอย่างสมมติต่อไปนี้สำหรับการฝึกโมเดลการยอมรับการเลี้ยงดูสุนัขจรจัด
| สายพันธุ์ |
อายุ (ปี) |
น้ำหนัก (ปอนด์) |
อุปนิสัย |
shedding_level |
| พุดเดิ้ลพันธุ์เล็ก |
2 |
12 |
ตื่นเต้น |
ต่ำ |
| โกลเด้นรีทรีฟเวอร์ |
7 |
65 |
สงบ |
สูง |
| ลาบราดอร์รีทรีฟเวอร์ |
35 |
73 |
สงบ |
สูง |
| เฟรนช์บูลด็อก |
0.5 |
11 |
สงบ |
ปานกลาง |
| สายพันธุ์ผสมที่ไม่รู้จัก |
4 |
45 |
ตื่นเต้น |
สูง |
| สุนัขบาสเซ็ตฮาวด์ |
9 |
48 |
สงบ |
ปานกลาง |
คุณระบุปัญหาเกี่ยวกับข้อมูลฟีเจอร์ได้ไหม
คลิกที่นี่เพื่อดูคำตอบ
| สายพันธุ์ |
อายุ (ปี) |
น้ำหนัก (ปอนด์) |
อุปนิสัย |
shedding_level |
| พุดเดิ้ลพันธุ์เล็ก |
2 |
12 |
ตื่นเต้น |
ต่ำ |
| โกลเด้นรีทรีฟเวอร์ |
7 |
65 |
สงบ |
สูง |
| ลาบราดอร์รีทรีฟเวอร์ |
35 |
73 |
สงบ |
สูง |
| เฟรนช์บูลด็อก |
0.5 |
11 |
สงบ |
ปานกลาง |
| สายพันธุ์ผสมที่ไม่รู้จัก |
4 |
45 |
ตื่นเต้น |
สูง |
| สุนัขบาสเซ็ตฮาวด์ |
9 |
48 |
สงบ |
ปานกลาง |
สุนัขที่อายุมากที่สุดที่ Guinness World Records ยืนยันอายุคือ Bluey
สุนัขพันธุ์ออสเตรเลียน Cattle Dog อายุ 29 ปี 5 เดือน เมื่อพิจารณาจากข้อมูลดังกล่าวแล้ว ดูเหมือนว่าสุนัขพันธุ์ลาบราดอร์รีทรีฟเวอร์จะมีอายุ 35 ปีนั้นไม่น่าเป็นไปได้ และมีความเป็นไปได้มากกว่าว่าอายุของสุนัขจะคํานวณหรือบันทึกอย่างไม่ถูกต้อง (สุนัขอาจมีอายุ 3.5 ปีจริงๆ) ข้อผิดพลาดนี้อาจบ่งบอกถึงปัญหาความแม่นยำที่กว้างขึ้นเกี่ยวกับข้อมูลอายุในชุดข้อมูลที่ควรตรวจสอบเพิ่มเติม
ข้อมูลบิดเบือน
ความเอนเอียงของข้อมูลไม่ว่าประเภทใดก็ตาม ซึ่งกลุ่มหรือลักษณะบางอย่างอาจได้รับการนำเสนอมากหรือน้อยเกินไปเมื่อเทียบกับความแพร่หลายในชีวิตจริง อาจทําให้โมเดลมีอคติ
เมื่อตรวจสอบประสิทธิภาพของโมเดล สิ่งสำคัญไม่เพียงต้องดูที่ผลลัพธ์แบบรวมเท่านั้น แต่ยังต้องแยกผลลัพธ์ตามกลุ่มย่อยด้วย ตัวอย่างเช่น ในกรณีของโมเดลการนำไปรับเลี้ยงสุนัขจรจัดของเรา การพิจารณาความแม่นยำโดยรวมเพียงอย่างเดียวนั้นไม่เพียงพอต่อการสร้างความเป็นธรรม นอกจากนี้ เราควรตรวจสอบประสิทธิภาพตามกลุ่มย่อยเพื่อให้แน่ใจว่าโมเดลทำงานได้ดีเท่าๆ กันสำหรับสุนัขแต่ละสายพันธุ์ กลุ่มอายุ และกลุ่มขนาด
ในส่วนการประเมินการให้น้ำหนักพิเศษในช่วงท้ายของโมดูลนี้ เราจะเจาะลึกวิธีต่างๆ ในการประเมินโมเดลตามกลุ่มย่อย
เนื้อหาของหน้าเว็บนี้ได้รับอนุญาตภายใต้ใบอนุญาตที่ต้องระบุที่มาของครีเอทีฟคอมมอนส์ 4.0 และตัวอย่างโค้ดได้รับอนุญาตภายใต้ใบอนุญาต Apache 2.0 เว้นแต่จะระบุไว้เป็นอย่างอื่น โปรดดูรายละเอียดที่นโยบายเว็บไซต์ Google Developers Java เป็นเครื่องหมายการค้าจดทะเบียนของ Oracle และ/หรือบริษัทในเครือ
อัปเดตล่าสุด 2024-11-10 UTC
[[["เข้าใจง่าย","easyToUnderstand","thumb-up"],["แก้ปัญหาของฉันได้","solvedMyProblem","thumb-up"],["อื่นๆ","otherUp","thumb-up"]],[["ไม่มีข้อมูลที่ฉันต้องการ","missingTheInformationINeed","thumb-down"],["ซับซ้อนเกินไป/มีหลายขั้นตอนมากเกินไป","tooComplicatedTooManySteps","thumb-down"],["ล้าสมัย","outOfDate","thumb-down"],["ปัญหาเกี่ยวกับการแปล","translationIssue","thumb-down"],["ตัวอย่าง/ปัญหาเกี่ยวกับโค้ด","samplesCodeIssue","thumb-down"],["อื่นๆ","otherDown","thumb-down"]],["อัปเดตล่าสุด 2024-11-10 UTC"],[],[]]