การจัดกรอบ: ทดสอบความเข้าใจ

การเรียนรู้ภายใต้การควบคุมดูแล

ดูตัวเลือกด้านล่าง

สมมติว่าคุณต้องการพัฒนาโมเดลแมชชีนเลิร์นนิงที่มีการควบคุมดูแลเพื่อคาดคะเนว่าอีเมลหนึ่งๆ เป็น "จดหมายขยะ" หรือ "ไม่ใช่สแปม" ข้อความใดต่อไปนี้เป็นจริง
อีเมลที่ไม่มีการทําเครื่องหมายว่าเป็น "สแปม" หรือ "ไม่ใช่สแปม" เป็นตัวอย่างที่ไม่มีป้ายกํากับ
เนื่องจากตัวอย่างป้ายกํากับของเราประกอบด้วยค่า "spam" และ "notที่เป็นสแปม" อีเมลใดๆ ก็ตามที่ไม่ได้ทําเครื่องหมายว่าเป็นจดหมายขยะหรือไม่ใช่สแปมเป็นตัวอย่างที่ไม่มีป้ายกํากับ
คําในส่วนหัวของหัวข้อจะสร้างป้ายกํากับที่ดี
คําในส่วนหัวของหัวข้ออาจมีฟีเจอร์ที่ยอดเยี่ยม แต่คําเหล่านี้จะไม่สร้างป้ายกํากับที่ดี
เราจะใช้ตัวอย่างที่ไม่มีป้ายกํากับเพื่อฝึกโมเดล
เราจะใช้ตัวอย่างที่ติดป้ายกํากับเพื่อฝึกโมเดล จากนั้นเราจะสามารถ ฝึกโมเดลจากตัวอย่างที่ไม่มีป้ายกํากับ เพื่ออนุมานว่าข้อความอีเมลที่ไม่มีป้ายกํากับเป็นสแปมหรือไม่
ป้ายกํากับที่ใช้กับตัวอย่างบางรายการอาจไม่น่าเชื่อถือ
แน่นอน คุณควรตรวจสอบว่าข้อมูลมีความน่าเชื่อถือมากน้อยเพียงใด ป้ายกํากับสําหรับชุดข้อมูลนี้อาจมาจากผู้ใช้อีเมลที่ทําเครื่องหมายอีเมลว่าเป็นจดหมายขยะ เนื่องจากผู้ใช้ส่วนใหญ่ไม่ได้ทําเครื่องหมายข้อความอีเมลที่น่าสงสัยทั้งหมดว่าเป็นจดหมายขยะ เราอาจมีปัญหาในการทราบว่าอีเมลเป็นจดหมายขยะหรือไม่ นอกจากนี้ นักส่งสแปมอาจจงใจทําให้โมเดลของคุณเป็นพิษด้วยการระบุป้ายกํากับที่ไม่ถูกต้อง

ฟีเจอร์และป้ายกํากับ

ดูตัวเลือกด้านล่าง

สมมติว่าร้านขายรองเท้าออนไลน์ต้องการสร้างโมเดล ML ที่มีการควบคุมดูแลซึ่งจะแนะนํารองเท้าที่ปรับตามโปรไฟล์ของผู้ใช้ กล่าวคือ รูปแบบจะแนะนํารองเท้าคู่หนึ่งให้กับ Marty และรองเท้าคู่อื่นไปยัง Janet ระบบจะใช้ข้อมูลพฤติกรรมของผู้ใช้ในอดีตในการสร้างข้อมูลการฝึก ข้อความใดต่อไปนี้เป็นจริง
"Shoe size" เป็นฟีเจอร์ที่มีประโยชน์
"Shoe size" เป็นการวัดเชิงปริมาณที่ จะส่งผลอย่างมากว่าผู้ใช้จะชอบรองเท้า ที่แนะนําหรือไม่ เช่น หากมณียาสวมขนาด 9 รุ่นไม่ควรแนะนํารองเท้าขนาด 7
"Shoe Beauty" เป็นฟีเจอร์ที่มีประโยชน์
คุณสมบัติที่ดีเป็นรูปธรรมและวัดผลได้ ความงามเป็นเรื่องที่คลุมเครือมากเกินกว่าจะแสดงในลักษณะที่เป็นประโยชน์ได้ ส่วนความงามนั้นควรมีลักษณะที่ชัดเจนรวมกัน เช่น สไตล์และสี แต่ละสไตล์และสีสันจะเป็นฟีเจอร์ที่ดีกว่าความงาม
"ผู้ใช้คลิกรองเท้า'คําอธิบาย" เป็นป้ายกํากับที่มีประโยชน์
ผู้ใช้อาจต้องการอ่านเพิ่มเติมเกี่ยวกับรองเท้าที่ชอบเท่านั้น จํานวนคลิกตามผู้ใช้จึงเป็นเมตริกที่สังเกตได้และวัดผลได้ซึ่งใช้เป็นป้ายกํากับการฝึกอบรมที่ดี เนื่องจากข้อมูลการฝึกของเรามาจากพฤติกรรมของผู้ใช้ในอดีต ป้ายกํากับของเราต้องดึงมาจากพฤติกรรมตามวัตถุประสงค์ เช่น การคลิกที่สัมพันธ์กับค่ากําหนดของผู้ใช้อย่างมาก
"รองเท้าที่ผู้ใช้ชื่นชอบ&" เป็นป้ายกํากับที่มีประโยชน์
ค่าเมตริกไม่ใช่เมตริกแบบสังเกตได้และปริมาณ สิ่งที่ดีที่สุดที่เราทําได้คือการค้นหาเมตริกพร็อกซีที่สังเกตได้สําหรับการแสดงความชื่นชอบ