การจัดกรอบ: คําศัพท์หลักสําหรับแมชชีนเลิร์นนิง

แมชชีนเลิร์นนิง (มีการควบคุมดูแล) คืออะไร สรุปสั้นๆ ก็คือ

  • ระบบ ML จะเรียนรู้วิธีรวมอินพุตเพื่อสร้างการคาดการณ์ที่เป็นประโยชน์เกี่ยวกับข้อมูลที่ไม่เคยเห็นมาก่อน

มาสํารวจคําศัพท์ของแมชชีนเลิร์นนิงขั้นพื้นฐานกัน

ป้ายกำกับ

ป้ายกํากับคือสิ่งที่เรากําลังคาดการณ์ ซึ่งเป็นตัวแปร y ในการถดถอยเชิงเส้นแบบง่ายๆ ฉลากอาจเป็นราคาข้าวสาลีในอนาคต ชนิดของสัตว์ที่แสดงในรูปภาพ ความหมายของคลิปเสียง หรืออะไรก็ตามก็ได้

ฟีเจอร์

ฟีเจอร์คือตัวแปรอินพุต ซึ่งเป็นตัวแปร x ในการถดถอยเชิงเส้นแบบง่าย โปรเจ็กต์แมชชีนเลิร์นนิงที่ใช้งานง่ายอาจใช้ฟีเจอร์เดียว ขณะที่โปรเจ็กต์แมชชีนเลิร์นนิงที่ซับซ้อนกว่าอาจใช้ฟีเจอร์ได้นับล้านรายการ ซึ่งระบุเป็น

\[\\{x_1, x_2, ... x_N\\}\]

ในตัวอย่างตัวตรวจจับสแปม ฟีเจอร์ดังกล่าวอาจรวมถึงสิ่งต่อไปนี้

  • คําในข้อความอีเมล
  • ที่อยู่'ผู้ส่ง
  • เวลาที่มีการส่งอีเมล
  • email มีวลี "เคล็ดลับแปลกๆ หนึ่งรายการ"

ตัวอย่าง

ตัวอย่างคืออินสแตนซ์ของข้อมูล x (ใส่ x เป็นตัวหนาเพื่อบ่งบอกว่าเป็นเวกเตอร์) เราแบ่งตัวอย่าง ออกเป็น 2 หมวดหมู่ ดังนี้

  • ตัวอย่างที่มีป้ายกํากับ
  • ตัวอย่างที่ไม่มีป้ายกํากับ

ตัวอย่างที่มีป้ายกํากับมีทั้งฟีเจอร์และป้ายกํากับ โดยการ

  labeled examples: {features, label}: (x, y)

ใช้ตัวอย่างที่มีป้ายกํากับเพื่อฝึกโมเดล ในตัวอย่างตัวตรวจจับสแปม ตัวอย่างป้ายกํากับจะเป็นอีเมลแต่ละรายการที่ผู้ใช้ทําเครื่องหมายอย่างชัดแจ้งว่าเป็น "spam" &"ไม่ใช่สแปม"

ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่าง 5 รายการที่ติดป้ายกํากับจากชุดข้อมูลที่มีข้อมูลเกี่ยวกับที่พักในแคลิฟอร์เนีย

HousMedianAge
(ฟีเจอร์)
totalRooms
(ฟีเจอร์)
totalBedrooms
(ฟีเจอร์)
ค่ามัธยฐานเฮาส์แอ็ด
(ป้ายกํากับ)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

ตัวอย่างที่ไม่มีป้ายกํากับมีฟีเจอร์แต่ไม่มีป้ายกํากับ โดยการ

  unlabeled examples: {features, ?}: (x, ?)

ต่อไปนี้คือตัวอย่าง 3 รายการที่ไม่มีป้ายกํากับจากชุดข้อมูลที่อยู่อาศัยเดียวกัน ซึ่งยกเว้น medianHouseValue

HousMedianAge
(ฟีเจอร์)
totalRooms
(ฟีเจอร์)
totalBedrooms
(ฟีเจอร์)
42 1686 361
34 1226 180
33 1077 271

เมื่อเราฝึกโมเดลด้วยตัวอย่างที่มีป้ายกํากับแล้ว เราจะใช้โมเดลนั้นเพื่อคาดการณ์ป้ายกํากับในตัวอย่างที่ไม่มีป้ายกํากับ ในตัวตรวจจับสแปม ตัวอย่างที่ไม่มีป้ายกํากับ คืออีเมลใหม่ที่มนุษย์ยังไม่ได้ติดป้ายกํากับ

รูปแบบ

โมเดลจะกําหนดความสัมพันธ์ระหว่างฟีเจอร์และป้ายกํากับ เช่น โมเดลการตรวจจับสแปมอาจเชื่อมโยงฟีเจอร์บางอย่างกับ{0}quot;spam" อย่างชัดเจน มาไฮไลต์ 2 ช่วงของชีวิตกัน&#39:

  • การฝึกอบรมหมายถึงการสร้างหรือเรียนรู้รูปแบบ กล่าวคือ คุณจะแสดงตัวอย่างโมเดลที่มีป้ายกํากับ และอนุญาตให้โมเดลค่อยๆ เรียนรู้ความสัมพันธ์ระหว่างฟีเจอร์และป้ายกํากับได้

  • การอนุมานหมายถึงการใช้โมเดลที่ฝึกแล้วกับตัวอย่างที่ไม่มีป้ายกํากับ กล่าวคือ คุณใช้โมเดลที่ฝึกแล้วเพื่อทําการคาดการณ์ที่เป็นประโยชน์ (y') เช่น ระหว่างการอนุมาน คุณจะคาดคะเน medianHouseValue สําหรับตัวอย่างใหม่ที่ไม่มีป้ายกํากับได้

การเกิดปัญหาซ้ําและการแยกประเภท

โมเดลการถดถอยจะคาดการณ์ค่าต่อเนื่อง ตัวอย่างเช่น โมเดลการเกิดปัญหาซ้ําจะคาดการณ์และตอบคําถามต่อไปนี้

  • บ้านในเชียงใหม่มีมูลค่าเท่าไร

  • ความน่าจะเป็นที่ผู้ใช้จะคลิกโฆษณานี้คืออะไร

โมเดลการจัดประเภทจะคาดการณ์ค่าที่ไม่ต่อเนื่อง เช่น โมเดลการจัดประเภทจะคาดการณ์เพื่อตอบคําถามต่อไปนี้

  • ข้อความอีเมลที่ระบุเป็นสแปมหรือไม่

  • รูปภาพนี้เป็นรูปสุนัข แมว หรือหนูแฮมสเตอร์ใช่ไหม