แมชชีนเลิร์นนิง (มีการควบคุมดูแล) คืออะไร สรุปสั้นๆ ก็คือ
- ระบบ ML จะเรียนรู้วิธีรวมอินพุตเพื่อสร้างการคาดการณ์ที่เป็นประโยชน์เกี่ยวกับข้อมูลที่ไม่เคยเห็นมาก่อน
มาสํารวจคําศัพท์ของแมชชีนเลิร์นนิงขั้นพื้นฐานกัน
ป้ายกำกับ
ป้ายกํากับคือสิ่งที่เรากําลังคาดการณ์ ซึ่งเป็นตัวแปร y
ในการถดถอยเชิงเส้นแบบง่ายๆ ฉลากอาจเป็นราคาข้าวสาลีในอนาคต ชนิดของสัตว์ที่แสดงในรูปภาพ ความหมายของคลิปเสียง หรืออะไรก็ตามก็ได้
ฟีเจอร์
ฟีเจอร์คือตัวแปรอินพุต ซึ่งเป็นตัวแปร x
ในการถดถอยเชิงเส้นแบบง่าย โปรเจ็กต์แมชชีนเลิร์นนิงที่ใช้งานง่ายอาจใช้ฟีเจอร์เดียว ขณะที่โปรเจ็กต์แมชชีนเลิร์นนิงที่ซับซ้อนกว่าอาจใช้ฟีเจอร์ได้นับล้านรายการ ซึ่งระบุเป็น
\[\\{x_1, x_2, ... x_N\\}\]
ในตัวอย่างตัวตรวจจับสแปม ฟีเจอร์ดังกล่าวอาจรวมถึงสิ่งต่อไปนี้
- คําในข้อความอีเมล
- ที่อยู่'ผู้ส่ง
- เวลาที่มีการส่งอีเมล
- email มีวลี "เคล็ดลับแปลกๆ หนึ่งรายการ"
ตัวอย่าง
ตัวอย่างคืออินสแตนซ์ของข้อมูล x (ใส่ x เป็นตัวหนาเพื่อบ่งบอกว่าเป็นเวกเตอร์) เราแบ่งตัวอย่าง ออกเป็น 2 หมวดหมู่ ดังนี้
- ตัวอย่างที่มีป้ายกํากับ
- ตัวอย่างที่ไม่มีป้ายกํากับ
ตัวอย่างที่มีป้ายกํากับมีทั้งฟีเจอร์และป้ายกํากับ โดยการ
labeled examples: {features, label}: (x, y)
ใช้ตัวอย่างที่มีป้ายกํากับเพื่อฝึกโมเดล ในตัวอย่างตัวตรวจจับสแปม ตัวอย่างป้ายกํากับจะเป็นอีเมลแต่ละรายการที่ผู้ใช้ทําเครื่องหมายอย่างชัดแจ้งว่าเป็น "spam" &"ไม่ใช่สแปม"
ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่าง 5 รายการที่ติดป้ายกํากับจากชุดข้อมูลที่มีข้อมูลเกี่ยวกับที่พักในแคลิฟอร์เนีย
HousMedianAge (ฟีเจอร์) |
totalRooms (ฟีเจอร์) |
totalBedrooms (ฟีเจอร์) |
ค่ามัธยฐานเฮาส์แอ็ด (ป้ายกํากับ) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
ตัวอย่างที่ไม่มีป้ายกํากับมีฟีเจอร์แต่ไม่มีป้ายกํากับ โดยการ
unlabeled examples: {features, ?}: (x, ?)
ต่อไปนี้คือตัวอย่าง 3 รายการที่ไม่มีป้ายกํากับจากชุดข้อมูลที่อยู่อาศัยเดียวกัน ซึ่งยกเว้น medianHouseValue
HousMedianAge (ฟีเจอร์) |
totalRooms (ฟีเจอร์) |
totalBedrooms (ฟีเจอร์) |
---|---|---|
42 | 1686 | 361 |
34 | 1226 | 180 |
33 | 1077 | 271 |
เมื่อเราฝึกโมเดลด้วยตัวอย่างที่มีป้ายกํากับแล้ว เราจะใช้โมเดลนั้นเพื่อคาดการณ์ป้ายกํากับในตัวอย่างที่ไม่มีป้ายกํากับ ในตัวตรวจจับสแปม ตัวอย่างที่ไม่มีป้ายกํากับ คืออีเมลใหม่ที่มนุษย์ยังไม่ได้ติดป้ายกํากับ
รูปแบบ
โมเดลจะกําหนดความสัมพันธ์ระหว่างฟีเจอร์และป้ายกํากับ เช่น โมเดลการตรวจจับสแปมอาจเชื่อมโยงฟีเจอร์บางอย่างกับ{0}quot;spam" อย่างชัดเจน มาไฮไลต์ 2 ช่วงของชีวิตกัน':
การฝึกอบรมหมายถึงการสร้างหรือเรียนรู้รูปแบบ กล่าวคือ คุณจะแสดงตัวอย่างโมเดลที่มีป้ายกํากับ และอนุญาตให้โมเดลค่อยๆ เรียนรู้ความสัมพันธ์ระหว่างฟีเจอร์และป้ายกํากับได้
การอนุมานหมายถึงการใช้โมเดลที่ฝึกแล้วกับตัวอย่างที่ไม่มีป้ายกํากับ กล่าวคือ คุณใช้โมเดลที่ฝึกแล้วเพื่อทําการคาดการณ์ที่เป็นประโยชน์ (
y'
) เช่น ระหว่างการอนุมาน คุณจะคาดคะเนmedianHouseValue
สําหรับตัวอย่างใหม่ที่ไม่มีป้ายกํากับได้
การเกิดปัญหาซ้ําและการแยกประเภท
โมเดลการถดถอยจะคาดการณ์ค่าต่อเนื่อง ตัวอย่างเช่น โมเดลการเกิดปัญหาซ้ําจะคาดการณ์และตอบคําถามต่อไปนี้
บ้านในเชียงใหม่มีมูลค่าเท่าไร
ความน่าจะเป็นที่ผู้ใช้จะคลิกโฆษณานี้คืออะไร
โมเดลการจัดประเภทจะคาดการณ์ค่าที่ไม่ต่อเนื่อง เช่น โมเดลการจัดประเภทจะคาดการณ์เพื่อตอบคําถามต่อไปนี้
ข้อความอีเมลที่ระบุเป็นสแปมหรือไม่
รูปภาพนี้เป็นรูปสุนัข แมว หรือหนูแฮมสเตอร์ใช่ไหม