งานของการเรียนรู้ภายใต้การควบคุมดูแลมีการกำหนดไว้เป็นอย่างดีและนำไปใช้ได้ในหลายสถานการณ์ เช่น การระบุสแปมหรือการคาดการณ์ปริมาณฝน
แนวคิดการเรียนรู้พื้นฐานภายใต้การควบคุมดูแล
แมชชีนเลิร์นนิงที่มีการควบคุมดูแลอิงตามแนวคิดหลักต่อไปนี้
- ข้อมูล
- โมเดล
- การฝึกอบรม
- กำลังประเมินผล
- การอนุมาน
ข้อมูล
ข้อมูลคือพลังขับเคลื่อนของ ML ข้อมูลมาในรูปแบบของคำและตัวเลขที่จัดเก็บไว้ในตาราง หรือเป็นค่าของพิกเซลและรูปคลื่นที่บันทึกไว้ในรูปภาพและไฟล์เสียง เราจัดเก็บข้อมูลที่เกี่ยวข้องไว้ในชุดข้อมูล เช่น เราอาจมีชุดข้อมูลดังต่อไปนี้
- ภาพของแมว
- ราคาที่พักอาศัย
- ข้อมูลสภาพอากาศ
ชุดข้อมูลประกอบด้วยตัวอย่างแต่ละรายการที่มีฟีเจอร์และป้ายกำกับ คุณอาจลองดูตัวอย่าง เหมือนแถวเดียวในสเปรดชีต ฟีเจอร์คือค่าที่โมเดลที่มีการควบคุมดูแลใช้คาดการณ์ป้ายกำกับ ป้ายกำกับคือ "คำตอบ" หรือค่าที่เราต้องการให้โมเดลคาดการณ์ ในโมเดลสภาพอากาศที่คาดการณ์ปริมาณฝน ฟีเจอร์อาจเป็นละติจูด ลองจิจูด อุณหภูมิ ความชื้น การครอบคลุมของเมฆ ทิศทางลม และความกดอากาศ ป้ายกำกับจะเป็นปริมาณฝน
ตัวอย่างที่มีทั้งฟีเจอร์และป้ายกำกับจะเรียกว่าตัวอย่างที่ติดป้ายกำกับ
ตัวอย่างที่มีป้ายกำกับ 2 รายการ
ในทางตรงกันข้าม ตัวอย่างที่ไม่มีป้ายกำกับจะมีฟีเจอร์ แต่ไม่มีป้ายกำกับ หลังจากที่สร้างโมเดลแล้ว โมเดลจะคาดการณ์ป้ายกำกับจากฟีเจอร์ต่างๆ
ตัวอย่าง 2 รายการที่ไม่มีป้ายกำกับ
ลักษณะของชุดข้อมูล
ชุดข้อมูลมีลักษณะที่มีขนาดและความหลากหลาย ขนาดจะระบุจำนวนตัวอย่าง ความหลากหลาย แสดงถึงช่วงที่ครอบคลุมตัวอย่างเหล่านั้น ชุดข้อมูลที่ดีต้องมีทั้งขนาดใหญ่และหลากหลาย
ชุดข้อมูลบางชุดมีทั้งขนาดใหญ่และหลากหลาย อย่างไรก็ตาม บางชุดข้อมูลมีขนาดใหญ่แต่มีความหลากหลายต่ำ และบางส่วนก็มีขนาดเล็กแต่มีความหลากหลายสูง กล่าวคือ ชุดข้อมูลขนาดใหญ่ไม่ได้รับประกันว่าจะมีความหลากหลายเพียงพอ และชุดข้อมูลที่มีความหลากหลายสูงไม่ได้รับประกันว่าจะมีตัวอย่างที่เพียงพอ
ตัวอย่างเช่น ชุดข้อมูลหนึ่งอาจมีข้อมูลเป็น 100 ปี แต่มีเฉพาะเดือนกรกฎาคมเท่านั้น การใช้ชุดข้อมูลนี้เพื่อคาดการณ์ปริมาณฝนในเดือนมกราคมจะทำให้การคาดการณ์แย่ ในทางกลับกัน ชุดข้อมูลอาจครอบคลุมเพียงไม่กี่ปี แต่มีทุกเดือน ชุดข้อมูลนี้อาจทำให้การคาดการณ์ไม่ดีเนื่องจากมีจำนวนปีไม่เพียงพอที่จะรองรับความแปรปรวน
ทำความเข้าใจ
นอกจากนี้ ชุดข้อมูลยังกำหนดได้ด้วยจำนวนของฟีเจอร์ ตัวอย่างเช่น ชุดข้อมูลสภาพอากาศบางอย่างอาจมีจุดสนใจหลายร้อยรายการ ตั้งแต่ภาพถ่ายดาวเทียมไปจนถึงค่าพื้นที่ครอบคลุมของเมฆ ชุดข้อมูลอื่นๆ อาจมีคุณลักษณะเพียง 3 หรือ 4 อย่าง เช่น ความชื้น ความดันบรรยากาศ และอุณหภูมิ ชุดข้อมูลที่มีฟีเจอร์มากขึ้นจะช่วยให้โมเดลค้นพบรูปแบบเพิ่มเติมและคาดการณ์ได้ดียิ่งขึ้น อย่างไรก็ตาม ชุดข้อมูลที่มีฟีเจอร์อื่นๆ จะไม่ได้สร้างโมเดลที่คาดคะเนได้ดีกว่าเสมอ เนื่องจากฟีเจอร์บางอย่างอาจไม่มีความสัมพันธ์เชิงเหตุผลกับป้ายกำกับ
โมเดล
ในการเรียนรู้ภายใต้การควบคุมดูแล โมเดลคือชุดตัวเลขเชิงซ้อนที่ระบุความสัมพันธ์ทางคณิตศาสตร์ ตั้งแต่รูปแบบฟีเจอร์อินพุตที่เจาะจงไปจนถึงค่าป้ายกำกับเอาต์พุตที่เฉพาะเจาะจง โมเดลจะค้นพบรูปแบบเหล่านี้ผ่านการฝึก
การฝึกอบรม
โมเดลภายใต้การควบคุมดูแลจะต้องฝึกโมเดลก่อน จึงจะคาดการณ์ได้ ในการฝึกโมเดล เราจะให้ชุดข้อมูลที่มีตัวอย่างที่มีป้ายกำกับ เป้าหมายของโมเดลคือการหาวิธีแก้ปัญหาที่ดีที่สุดสำหรับการคาดการณ์ป้ายกำกับจากฟีเจอร์ต่างๆ โมเดลจะค้นหาคำตอบที่ดีที่สุดโดยเปรียบเทียบค่าที่คาดการณ์ไว้กับค่าจริงของป้ายกำกับ โมเดลจะค่อยๆ อัปเดตโซลูชันตามความแตกต่างระหว่างค่าที่คาดการณ์และค่าจริงที่กำหนดเป็นการสูญเสีย กล่าวคือ โมเดลจะเรียนรู้ความสัมพันธ์ทางคณิตศาสตร์ระหว่างจุดสนใจและป้ายกำกับเพื่อให้สามารถคาดการณ์ข้อมูลที่ไม่เคยเห็นได้ดีที่สุด
ตัวอย่างเช่น หากโมเดลคาดการณ์ปริมาณฝนที่ 1.15 inches
แต่ค่าจริงคือ .75 inches
โมเดลจะแก้ไขโซลูชันเพื่อให้การคาดการณ์ใกล้เคียงกับ .75 inches
หลังจากได้ดูที่แต่ละตัวอย่างในชุดข้อมูล ในบางกรณี หลายครั้ง โมเดลก็จะได้คำตอบที่ทำให้แต่ละตัวอย่างสามารถคาดการณ์ได้ดีที่สุดโดยเฉลี่ย
รายการต่อไปนี้แสดงการฝึกโมเดล
โมเดลจะใช้ตัวอย่างที่มีป้ายกำกับเดียวและระบุการคาดการณ์
รูปที่ 1 โมเดล ML ที่สร้างการคาดการณ์จากตัวอย่างที่ติดป้ายกำกับ
โมเดลจะเปรียบเทียบค่าที่คาดการณ์ไว้กับค่าจริงและอัปเดตโซลูชัน
รูปที่ 2 โมเดล ML กำลังอัปเดตค่าที่คาดการณ์ไว้
โมเดลจะทำขั้นตอนนี้ซ้ำสำหรับตัวอย่างที่ติดป้ายกำกับแต่ละรายการในชุดข้อมูล
รูปที่ 3 โมเดล ML ที่อัปเดตการคาดการณ์สำหรับตัวอย่างที่ติดป้ายกำกับแต่ละรายการในชุดข้อมูลการฝึก
ด้วยวิธีนี้ โมเดลจะค่อยๆ เรียนรู้ความสัมพันธ์ที่ถูกต้องระหว่างฟีเจอร์และป้ายกำกับ ความเข้าใจอย่างค่อยเป็นค่อยไปนี้ยังเป็นเหตุผลที่ชุดข้อมูลขนาดใหญ่และหลากหลาย ทำให้เกิดโมเดลที่ดีขึ้นด้วย โมเดลนี้เห็นข้อมูลมากขึ้นซึ่งมีช่วงของค่าที่กว้างขึ้น และได้ปรับปรุงความเข้าใจเกี่ยวกับความสัมพันธ์ระหว่างฟีเจอร์และป้ายกำกับ
ในระหว่างการฝึก ผู้ปฏิบัติงาน ML สามารถปรับแต่งการกำหนดค่าและฟีเจอร์ที่โมเดลใช้ในการคาดการณ์อย่างละเอียดได้ ตัวอย่างเช่น คุณลักษณะบางอย่าง
มีอำนาจในการคาดเดามากกว่าคุณลักษณะอื่นๆ ดังนั้น ผู้ปฏิบัติงาน ML จะเลือกฟีเจอร์ที่โมเดลจะใช้ระหว่างการฝึกได้ ตัวอย่างเช่น สมมติว่าชุดข้อมูลสภาพอากาศมี time_of_day
เป็นฟีเจอร์ ในกรณีนี้ ผู้ปฏิบัติงาน ML สามารถเพิ่มหรือนำ time_of_day
ออกระหว่างการฝึกเพื่อดูว่าโมเดลทำการคาดการณ์ได้ดีกว่าหากมีหรือไม่มี
กำลังประเมินผล
เราจะประเมินโมเดลที่ฝึกแล้วเพื่อระบุว่ามีการเรียนรู้มากน้อยเพียงใด เมื่อประเมินโมเดล เราจะใช้ชุดข้อมูลที่มีป้ายกำกับ แต่เราจะให้ฟีเจอร์ของชุดข้อมูลแก่โมเดลเท่านั้น จากนั้นเราจะเปรียบเทียบการคาดการณ์ของโมเดลกับค่าจริงของป้ายกำกับ
รูปที่ 4 การประเมินโมเดล ML โดยเปรียบเทียบการคาดการณ์กับค่าจริง
เราอาจฝึกและประเมินเพิ่มเติมก่อนที่จะนำโมเดลไปใช้จริงในแอปพลิเคชันจริง ทั้งนี้ขึ้นอยู่กับการคาดการณ์ของโมเดล
ทำความเข้าใจ
การอนุมาน
เมื่อเราพอใจกับผลลัพธ์จากการประเมินโมเดลแล้ว เราจะใช้โมเดลเพื่อทำการคาดการณ์ที่เรียกว่าการอนุมานในตัวอย่างที่ไม่มีป้ายกำกับได้ ในตัวอย่างของแอปสภาพอากาศ เราจะให้โมเดลสภาพอากาศปัจจุบัน เช่น อุณหภูมิ ความกดอากาศ และความชื้นสัมพัทธ์ และคาดการณ์ปริมาณฝน