หน้านี้ได้รับการแปลโดย Cloud Translation API

อภิธานศัพท์ของแมชชีนเลิร์นนิง: พื้นฐาน ML

หน้านี้มีคำศัพท์ในอภิธานศัพท์พื้นฐาน ML ดูคำศัพท์ทั้งหมดในอภิธานศัพท์ คลิกที่นี่

A

ความแม่นยำ

#fundamentals

จำนวนการคาดการณ์การจัดประเภทที่ถูกต้องหารด้วยจำนวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

ตัวอย่างเช่น โมเดลที่ทำการคาดการณ์ได้ถูกต้อง 40 รายการและการคาดการณ์ที่ไม่ถูกต้อง 10 รายการจะมีความแม่นยำดังนี้

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การแยกประเภทแบบไบนารีระบุชื่อที่เจาะจงสำหรับการคาดการณ์ที่ถูกต้องและการคาดคะเนที่ไม่ถูกต้องในหมวดหมู่ต่างๆ ดังนั้นสูตรความถูกต้องแม่นยำสำหรับการแยกประเภทแบบไบนารีมีดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

โดยมี

TP คือจำนวนผลบวกจริง (การคาดคะเนที่ถูกต้อง)
TN คือจำนวนผลลบจริง (การคาดคะเนที่ถูกต้อง)
FP คือจํานวนผลบวกลวง (การคาดการณ์ที่ไม่ถูกต้อง)
FN คือจำนวนผลลบลวง (การคาดการณ์ไม่ถูกต้อง)

เปรียบเทียบและเปรียบเทียบความแม่นยำกับความแม่นยำและความอ่อนไหว

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

แม้ว่าเมตริกจะมีประโยชน์ในบางสถานการณ์ แต่ความแม่นยำก็ทำให้ผู้อื่นเข้าใจผิดได้มาก ที่สำคัญคือความแม่นยำมักเป็นเมตริกที่ไม่ดีในการประเมินโมเดลการแยกประเภทที่ประมวลผลชุดข้อมูลที่ไม่สมดุลระดับ

ตัวอย่างเช่น สมมติว่าหิมะตกเพียง 25 วันต่อเดือนในเมืองกึ่งเขตร้อน เนื่องจากวันที่ไม่มีหิมะ (คลาสเชิงลบ) มีจำนวนมากกว่าวันที่มีหิมะ (คลาสเชิงบวก) อย่างมาก ชุดข้อมูลหิมะของเมืองนี้จึงไม่สมดุล สมมติว่ามีโมเดลการจัดประเภทแบบไบนารีที่ควรคาดการณ์ว่าหิมะจะมีหรือไม่มีหิมะในแต่ละวัน แต่ทำนายว่า "ไม่มีหิมะ" ทุกวัน โมเดลนี้มีความแม่นยำสูงแต่ไม่มีความสามารถในการคาดการณ์ ตารางต่อไปนี้สรุปผลลัพธ์ของการคาดการณ์สำหรับศตวรรษ

หมวดหมู่	ตัวเลข
เทปเปอร์	0
TN	36500
FP	25
FN	0

ดังนั้น ความถูกต้องของโมเดลนี้จึงมีลักษณะดังนี้

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

แม้ว่าความแม่นยำ 99.93% จะดูเป็นเปอร์เซ็นต์ที่น่าประทับใจมาก แต่จริงๆ แล้วโมเดลนี้ไม่สามารถคาดการณ์ได้

ความแม่นยำและการจดจำมักจะมีประโยชน์มากกว่าเมตริกความแม่นยำสำหรับการประเมินโมเดลที่ฝึกเกี่ยวกับชุดข้อมูลที่ไม่สมดุลระดับ

ฟังก์ชันการเปิดใช้งาน

#fundamentals

ฟังก์ชันที่ช่วยให้โครงข่ายประสาทเรียนรู้ความสัมพันธ์แบบไม่ใช่เชิงเส้น (ที่ซับซ้อน) ระหว่างฟีเจอร์และป้ายกำกับ

ฟังก์ชันการเปิดใช้งานที่นิยมใช้กัน ได้แก่

ReLU
ซิกมอยด์

พล็อตของฟังก์ชันการเปิดใช้งานไม่ใช่เส้นตรงเดี่ยว เช่น พล็อตของฟังก์ชันการเปิดใช้งาน ReLU ประกอบด้วยเส้นตรง 2 เส้น

โครงเรื่องแบบคาร์ทีเซียน 2 เส้น บรรทัดแรกมีค่า y คงที่เป็น 0 แสดงตามแกน x ตั้งแต่ -อนันต์, 0 ถึง 0,-0
บรรทัดที่ 2 จะเริ่มที่ 0,0 บรรทัดนี้มีความชันของ +1 ดังนั้นจึงเริ่มต้นตั้งแต่ 0,0 ถึง +อนันต์, + อนันต์

พล็อตของฟังก์ชันการเปิดใช้งานซิกมอยด์มีลักษณะดังต่อไปนี้

พล็อตแบบโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมน - อนันต์เป็น + บวก ส่วนค่า y ช่วงเกือบ 0 ถึงเกือบ 1 เมื่อ x คือ 0 y จะเท่ากับ 0.5 ความชันของเส้นโค้งจะเป็นบวกเสมอ โดยมีความชันสูงสุดที่ 0,0.5 และค่อยๆ ลดความลาดลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

คลิกที่ไอคอนเพื่อดูตัวอย่าง

ในเครือข่ายระบบประสาท ฟังก์ชันการเปิดใช้งานจะควบคุมผลรวมถ่วงน้ำหนักของอินพุตทั้งหมดไปยังเซลล์ประสาท ในการคำนวณผลรวมแบบถ่วงน้ำหนัก เซลล์ประสาทจะรวมผลคูณของค่าและน้ำหนักที่เกี่ยวข้อง ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้องไปยังเซลล์ประสาทประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต	น้ำหนักอินพุต
2	-1.3
-1	0.6
3	0.4

ดังนั้นผลรวมถ่วงน้ำหนักจะเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

สมมติว่าผู้ออกแบบโครงข่ายระบบประสาทนี้เลือกฟังก์ชันซิกมอยด์เป็นฟังก์ชันเปิดใช้งาน ในกรณีนั้น เซลล์ประสาทจะคำนวณซิกมอยด์ของ -2.0 ซึ่งเท่ากับประมาณ 0.12 ดังนั้น เซลล์ประสาทจะส่งผ่าน 0.12 (แทนที่จะเป็น -2.0) ไปยังชั้นถัดไปในโครงข่ายประสาท รูปภาพต่อไปนี้แสดงส่วนที่เกี่ยวข้องของกระบวนการ

ปัญญาประดิษฐ์ (AI)

#fundamentals

โปรแกรมหรือmodelที่ไม่ใช่มนุษย์ซึ่งแก้ปัญหางานที่ซับซ้อนได้ เช่น โปรแกรมหรือโมเดลที่แปลข้อความหรือโปรแกรมหรือโมเดลที่ระบุโรคจากภาพรังสีวิทยาแสดงปัญญาประดิษฐ์ (AI)

อย่างเป็นทางการ แมชชีนเลิร์นนิงเป็นสาขาย่อยของปัญญาประดิษฐ์ (AI) อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา บางองค์กรได้เริ่มใช้คำว่าปัญญาประดิษฐ์และแมชชีนเลิร์นนิงสลับกัน

AUC (พื้นที่ใต้เส้นโค้ง ROC)

#fundamentals

ตัวเลขระหว่าง 0.0 และ 1.0 ที่แทนความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสบวกออกจากคลาสเชิงลบ ยิ่ง AUC ใกล้เคียงกับ 1.0 มากเท่าไร โมเดลจะสามารถแยกคลาสออกจากกันได้ดีขึ้นเท่านั้น

ตัวอย่างเช่น ภาพประกอบต่อไปนี้แสดงโมเดลตัวแยกประเภทที่แยกคลาสบวก (วงรีสีเขียว) ออกจากคลาสเชิงลบ (สี่เหลี่ยมผืนผ้าสีม่วง) ได้อย่างสมบูรณ์แบบ โมเดลที่ไม่สมจริงนี้มี AUC 1.0:

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 8 ด้านด้านหนึ่งและตัวอย่างเชิงลบ 9 ด้านอยู่อีกด้าน

ในทางกลับกัน ภาพต่อไปนี้จะแสดงผลลัพธ์ของโมเดลตัวแยกประเภทที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มี AUC 0.5:

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
ลำดับของตัวอย่างที่มีค่าเป็นบวก ด้านลบ ด้านบวก ด้านลบ ด้านบวก ด้านลบ ด้านลบ ด้านลบ ด้านลบ ด้านลบ

ใช่ โมเดลก่อนหน้านี้มี AUC ที่ 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่จะอยู่ระหว่างปลายทั้ง 2 ด้าน ตัวอย่างเช่น รูปแบบต่อไปนี้แยกผลบวกออกจากผลลบค่อนข้างมาก ดังนั้นจึงมี AUC ระหว่าง 0.5 และ 1.0

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
ลำดับของตัวอย่างที่มีค่าเป็นลบ, ลบ, ลบ, ลบ, บวก, ลบ, บวก, บวก, ลบ, บวก, บวก

AUC จะไม่สนใจค่าที่คุณตั้งไว้สำหรับเกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมดแทน

คลิกที่ไอคอนเพื่อดูข้อมูลเกี่ยวกับความสัมพันธ์ระหว่างเส้นโค้ง AUC และ ROC

AUC แสดงพื้นที่ภายใต้เส้นโค้ง ROC ตัวอย่างเช่น เส้นโค้ง ROC สำหรับโมเดลที่แยกผลบวกออกจาก ผลลบอย่างสมบูรณ์แบบมีลักษณะดังต่อไปนี้

AUC คือพื้นที่ของบริเวณสีเทาในภาพประกอบก่อนหน้านี้ ในกรณีนี้ พื้นที่ดังกล่าวจะเท่ากับความยาวของพื้นที่สีเทา (1.0) คูณด้วยความกว้างของพื้นที่สีเทา (1.0) ดังนั้นผลคูณของ 1.0 และ 1.0 จะให้ AUC ที่ 1.0 พอดี ซึ่งเป็นคะแนน AUC สูงสุดที่เป็นไปได้

ในทางกลับกัน เส้นโค้ง ROC สำหรับตัวแยกประเภทที่ไม่สามารถแยกคลาสได้เลยจะมีลักษณะดังนี้ พื้นที่สีเทานี้คือ 0.5

พล็อตคาร์ทีเซียน แกน x คืออัตราผลบวกลวง แกน y คืออัตราบวกจริง กราฟเริ่มต้นที่ 0,0 และในแนวทแยงมุมเป็น 1,1

เส้นโค้ง ROC ทั่วไปจะมีลักษณะดังนี้

พล็อตคาร์ทีเซียน แกน x คืออัตราผลบวกลวง แกน y คืออัตราบวกจริง กราฟเริ่มต้นที่ 0,0 และเส้นโค้งผิดปกติจะถึง 1,0

การคำนวณพื้นที่ใต้เส้นโค้งนี้ด้วยตนเองเป็นเรื่องยุ่งยากมาก จึงเป็นเหตุผลที่โปรแกรมมักคำนวณค่า AUC ส่วนใหญ่

คลิกไอคอนเพื่อดูคำจำกัดความที่เป็นทางการของ AUC

AUC เป็นความน่าจะเป็นที่ตัวแยกประเภทจะมั่นใจมากขึ้นว่าตัวอย่างเชิงบวกที่สุ่มเลือกนั้นเป็นบวก มากกว่าตัวอย่างเชิงลบที่สุ่มเลือกขึ้นมาเป็นบวก

B

การแพร่พันธุ์ของด้านหลัง

#fundamentals

อัลกอริทึมที่ใช้การลดระดับการไล่ระดับสีในโครงข่ายระบบประสาทเทียม

การฝึกโครงข่ายระบบประสาทเทียมเกี่ยวข้องกับการทำซ้ำหลายครั้งของวงจรแบบ 2-Pass ดังต่อไปนี้

ระหว่างการส่งต่อ ระบบจะประมวลผลกลุ่มของตัวอย่างเพื่อสร้างการคาดการณ์ ระบบจะเปรียบเทียบการคาดการณ์แต่ละรายการกับค่า label แต่ละค่า ความแตกต่างระหว่างการคาดการณ์และค่าป้ายกำกับคือค่า loss ของตัวอย่างดังกล่าว ระบบจะรวมการสูญเสียของตัวอย่างทั้งหมดเพื่อคำนวณการสูญเสียทั้งหมดสำหรับแบทช์ปัจจุบัน
ระหว่างการย้อนกลับทางเก่า (backเผยแพร่) ระบบจะลดการสูญเสียโดยการปรับน้ำหนักของเซลล์ทั้งหมดในเลเยอร์ที่ซ่อนอยู่

โครงข่ายระบบประสาทเทียมมักมีเซลล์ประสาทจำนวนมากข้ามชั้นที่ซ่อนเร้นอยู่มากมาย เซลล์ประสาทเหล่านี้แต่ละเซลล์มีส่วนทำให้เกิดการสูญเสียโดยรวมแตกต่างกันไป การแพร่พันธุ์กลับเป็นตัวกำหนดว่าจะเพิ่มหรือลดน้ำหนักที่ใช้กับเซลล์ประสาทหนึ่งๆ

อัตราการเรียนรู้คือตัวคูณที่ควบคุมระดับของการย้อนหลังแต่ละรายการเพิ่มหรือลดน้ำหนัก อัตราการเรียนรู้สูงจะเพิ่มหรือลดน้ำหนักลงมากกว่าอัตราการเรียนรู้ที่น้อยลง

ในเชิงแคลคูลัส การแพร่กระจายของกลับไปสู่การใช้งานจะใช้กฎเชนของแคลคูลัส กล่าวคือ การปรับใช้ย้อนกลับจะคำนวณอนุพันธ์บางส่วนของข้อผิดพลาดโดยคำนึงถึงพารามิเตอร์แต่ละรายการ ดูรายละเอียดเพิ่มเติมได้ที่บทแนะนำในหลักสูตรข้อขัดข้องของแมชชีนเลิร์นนิงนี้

หลายปีที่ผ่านมา ผู้ปฏิบัติงาน ML ต้องเขียนโค้ดเพื่อปรับใช้การนำไปใช้งานแบ็คเอนด์ ตอนนี้ ML API สมัยใหม่อย่าง TensorFlow ได้นำการทดแทนข้อมูลไปใช้แล้ว ในที่สุด

กลุ่ม

#fundamentals

ชุดตัวอย่างที่ใช้ในการทำซ้ำการฝึก 1 รายการ ขนาดกลุ่มจะกำหนดจำนวนตัวอย่างในกลุ่ม

ดูคำอธิบายว่ากลุ่มเกี่ยวข้องกับ Epoch อย่างไรใน epoch

ขนาดกลุ่ม

#fundamentals

จำนวนตัวอย่างในกลุ่ม เช่น หากขนาดกลุ่มคือ 100 โมเดลจะประมวลผลตัวอย่าง 100 รายการต่อการทำซ้ำ

กลยุทธ์แบบกลุ่มที่ได้รับความนิยมมีดังนี้

Stochastic Gradient Descent (SGD) ซึ่งมีขนาดกลุ่มเท่ากับ 1
ทั้งกลุ่ม โดยขนาดกลุ่มคือจำนวนตัวอย่างในชุดการฝึกทั้งชุด เช่น ถ้าชุดการฝึกมีตัวอย่างเป็นล้านตัวอย่าง ขนาดกลุ่มก็จะเป็นล้านตัวอย่าง เนื้อหาทั้งหมดมักเป็นกลยุทธ์ที่ไม่มีประสิทธิภาพ
มินิแบทช์ ซึ่งขนาดกลุ่มมักจะอยู่ระหว่าง 10 ถึง 1,000 โดยทั่วไปแล้วการทำกลุ่มเล็กๆ จะเป็นกลยุทธ์ที่มีประสิทธิภาพมากที่สุด

อคติ (จริยธรรม/ความยุติธรรม)

#fairness

#fundamentals

1. การเหมารวม อคติ หรือความลำเอียงต่อบางสิ่ง ผู้คน หรือกลุ่มบุคคลบางกลุ่ม การให้น้ำหนักพิเศษเหล่านี้อาจส่งผลต่อการรวบรวมและการตีความข้อมูล การออกแบบระบบ และวิธีที่ผู้ใช้โต้ตอบกับระบบ รูปแบบของการให้น้ำหนักพิเศษประเภทนี้ ได้แก่

2. ข้อผิดพลาดอย่างเป็นระบบซึ่งเกิดจากขั้นตอนการสุ่มตัวอย่างหรือการรายงาน รูปแบบของการให้น้ำหนักพิเศษประเภทนี้ ได้แก่

อย่าสับสนกับคำอคติในโมเดลแมชชีนเลิร์นนิงหรืออคติของการคาดการณ์

การให้น้ำหนักพิเศษ (ทางคณิตศาสตร์) หรือคำที่ให้น้ำหนักพิเศษ

#fundamentals

จุดตัดหรือออฟเซ็ตจากต้นทาง การให้น้ำหนักพิเศษคือพารามิเตอร์ในโมเดลแมชชีนเลิร์นนิง ซึ่งระบุด้วยสัญลักษณ์อย่างใดอย่างหนึ่งต่อไปนี้

ตัวอย่างเช่น การให้น้ำหนักพิเศษคือ b ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

สำหรับเส้น 2 มิติแบบง่าย การให้น้ำหนักพิเศษหมายถึง "จุดตัดแกน y" ตัวอย่างเช่น การให้น้ำหนักพิเศษของเส้นในภาพประกอบต่อไปนี้คือ 2

พล็อตของเส้นที่มีความลาดชัน 0.5 และความเอนเอียง (จุดตัด y) ของ 2

การให้น้ำหนักพิเศษมีอยู่เนื่องจากโมเดลบางส่วนไม่ได้เริ่มต้นจากต้นทาง (0,0) ตัวอย่างเช่น สมมติว่าสวนสนุกมีค่าใช้จ่าย 2 ยูโรสำหรับการเข้าสวนสนุก และอีก 0.5 ยูโรสำหรับทุกชั่วโมงที่ลูกค้าจะเข้าพัก ดังนั้นโมเดลการแมปต้นทุนทั้งหมดจึงมีการให้น้ำหนักพิเศษเป็น 2 เนื่องจากต้นทุนต่ำสุดคือ 2 ยูโร

อย่าสับสนกับอคติด้านจริยธรรมและความเป็นธรรมหรืออคติในการคาดคะเน

การจำแนกประเภทเลขฐานสอง

#fundamentals

ประเภทของงานการแยกประเภทที่คาดการณ์ว่าหนึ่งใน 2 คลาสที่ใช้พร้อมกันไม่ได้มีดังนี้

คลาสเชิงบวก
คลาสเชิงลบ

ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิง 2 รายการต่อไปนี้แต่ละโมเดลทำการแยกประเภทแบบไบนารี

โมเดลที่กำหนดว่าข้อความอีเมลเป็นสแปม (คลาสเชิงบวก) หรือไม่ใช่สแปม (คลาสเชิงลบ)
โมเดลที่ประเมินอาการทางการแพทย์เพื่อระบุว่าบุคคลหนึ่งเป็นโรคอย่างใดอย่างหนึ่ง (คลาสที่เป็นบวก) หรือไม่เป็นโรคนั้น (คลาสเชิงลบ)

คอนทราสต์กับการจัดประเภทแบบหลายคลาส

ดูข้อมูลเพิ่มเติมได้ในการถดถอยแบบโลจิสติกและเกณฑ์การจัดประเภท

การฝากข้อมูล

#fundamentals

การแปลงฟีเจอร์เดียวเป็นฟีเจอร์ไบนารีหลายรายการที่เรียกว่าที่เก็บข้อมูลหรือ bins โดยทั่วไปจะขึ้นอยู่กับช่วงค่า ฟีเจอร์ที่ตัดแล้วมักเป็นฟีเจอร์แบบต่อเนื่อง

เช่น แทนที่จะแสดงอุณหภูมิเป็นฟีเจอร์จุดลอยตัวต่อเนื่องจุดเดียว คุณอาจตัดช่วงของอุณหภูมิลงในที่เก็บข้อมูลที่แยกจากกันได้ เช่น

<= 10 องศาเซลเซียสคือถังเก็บความเย็น
11-24 องศาเซลเซียสคืออุณหภูมิที่ "อากาศอบอุ่น"
>= 25 องศาเซลเซียส เท่ากับถัง "อุ่น"

โมเดลนี้จะดำเนินการกับทุกค่าในที่เก็บข้อมูลเดียวกันเหมือนกัน ตัวอย่างเช่น ค่า 13 และ 22 ทั้งคู่อยู่ในที่เก็บข้อมูลชั่วคราว ดังนั้นโมเดลจะถือว่าทั้ง 2 ค่าเหมือนกัน

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

หากคุณแสดงอุณหภูมิเป็นฟีเจอร์ต่อเนื่อง โมเดลจะถือว่าอุณหภูมิเป็นฟีเจอร์เดียว หากคุณแสดงอุณหภูมิเป็น 3 ที่เก็บข้อมูล โมเดลจะถือว่าที่เก็บข้อมูลแต่ละชุดเป็นฟีเจอร์แยกต่างหาก กล่าวคือ โมเดลจะเรียนรู้ความสัมพันธ์ที่แยกจากกันของที่เก็บข้อมูลแต่ละชุดกับป้ายกำกับได้ ตัวอย่างเช่น โมเดลการถดถอยเชิงเส้นจะดูข้อมูลน้ำหนักแยกกันสำหรับที่เก็บข้อมูลแต่ละชุดได้

การเพิ่มจำนวนที่เก็บข้อมูลทำให้โมเดลซับซ้อนขึ้นด้วยการเพิ่มจำนวนความสัมพันธ์ที่โมเดลต้องเรียนรู้ ตัวอย่างเช่น ถังอากาศเย็น อบอุ่นค่อนข้างเย็น และอบอุ่นเป็นองค์ประกอบ 3 อย่างที่แยกจากกันสำหรับโมเดลของคุณเพื่อให้ฝึกใช้งาน หากคุณตัดสินใจที่จะเพิ่มที่เก็บข้อมูลอีก 2 ชุด เช่น แบบตรึงไว้และร้อน โมเดลของคุณจะต้องฝึกฝนกับคุณลักษณะ 5 อย่างแยกกัน

คุณจะทราบจำนวนที่เก็บข้อมูลที่จะสร้าง หรือช่วงสำหรับแต่ละที่เก็บข้อมูลควรมีขนาดเท่าใด คำตอบมักต้องได้รับการทดลอง มากพอสมควร

C

ข้อมูลเชิงหมวดหมู่

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ที่เฉพาะเจาะจง ตัวอย่างเช่น ลองพิจารณาฟีเจอร์เชิงหมวดหมู่ชื่อ traffic-light-state ซึ่งมีค่าที่เป็นไปได้ 1 ใน 3 ค่าต่อไปนี้

red
yellow
green

การนําเสนอ traffic-light-state เป็นฟีเจอร์เชิงหมวดหมู่ช่วยให้โมเดลเรียนรู้ผลกระทบที่ red, green และ yellow มีต่อพฤติกรรมของผู้ขับขี่ได้

บางครั้งฟีเจอร์ตามหมวดหมู่เรียกว่าฟีเจอร์ที่ไม่ต่อเนื่อง

คอนทราสต์กับข้อมูลตัวเลข

คลาส

#fundamentals

หมวดหมู่ที่มีป้ายกำกับอยู่ได้ เช่น

ในรูปแบบการจัดประเภทไบนารีที่ตรวจหาสแปม คลาส 2 คลาสอาจเป็นสแปมและไม่ใช่สแปม
ในรูปแบบการจัดประเภทแบบหลายคลาสที่ระบุสายพันธุ์สุนัข คลาสอาจเป็นพุดเดิ้ล บีเกิล ปั๊ก และอื่นๆ

โมเดลการจัดประเภทจะคาดการณ์คลาส ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์ตัวเลขไม่ใช่คลาส

โมเดลการจัดประเภท

#fundamentals

model ที่มีการคาดการณ์เป็นคลาส ตัวอย่างต่อไปนี้คือโมเดลการจัดประเภททั้งหมด

โมเดลที่คาดคะเนภาษาของประโยคอินพุต (ภาษาฝรั่งเศส ภาษาสเปน ภาษาอิตาลี)
โมเดลที่คาดการณ์ชนิดของต้นไม้ (Maple? Oak? เบาบับ)
โมเดลที่คาดการณ์คลาสเชิงบวกหรือเชิงลบสำหรับภาวะทางการแพทย์หนึ่งๆ

ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์ตัวเลขแทนคลาส

รูปแบบการจัดประเภทที่ใช้กันทั่วไปมี 2 ประเภท ได้แก่

การจัดประเภทไบนารี
การจัดประเภทแบบหลายคลาส

เกณฑ์การจัดประเภท

#fundamentals

ในการจัดประเภทแบบไบนารี จำนวนระหว่าง 0 ถึง 1 ที่แปลงเอาต์พุตดิบของโมเดลการถดถอยแบบโลจิสติกเป็นการคาดการณ์คลาสบวกหรือคลาสเชิงลบ โปรดทราบว่าเกณฑ์การจัดประเภทเป็นค่าที่มนุษย์เลือก ไม่ใช่ค่าที่การฝึกโมเดลเลือก

โมเดลการถดถอยแบบโลจิสติกจะแสดงค่าข้อมูลดิบระหว่าง 0 ถึง 1 จากนั้นให้ทำดังนี้

หากค่าดิบนี้มากกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสที่เป็นบวก
หากค่าดิบนี้น้อยกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสที่เป็นลบ

เช่น สมมติว่าเกณฑ์การจัดประเภทคือ 0.8 หากค่าดิบคือ 0.9 โมเดลจะคาดการณ์คลาสที่เป็นบวก หากค่าดิบคือ 0.7 โมเดลจะคาดการณ์คลาสที่เป็นลบ

ตัวเลือกเกณฑ์การจัดประเภทจะส่งผลต่อจำนวนผลบวกลวงและผลลบลวงอย่างมาก

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เมื่อโมเดลหรือชุดข้อมูลพัฒนา บางครั้งวิศวกรก็เปลี่ยนเกณฑ์การจัดประเภทด้วย เมื่อมีการเปลี่ยนแปลงเกณฑ์การจัดประเภท การคาดการณ์คลาสที่เป็นบวกอาจกลายเป็นคลาสเชิงลบและกลับกันในทันที

เช่น ลองพิจารณาโมเดลการทำนายโรคจากการจำแนกประเภทแบบไบนารี สมมติว่าเมื่อระบบทำงานในปีแรก

ค่าดิบของผู้ป่วยแต่ละรายคือ 0.95
เกณฑ์การจัดประเภทคือ 0.94

ดังนั้นระบบจะวินิจฉัยคลาสเชิงบวก (คนไข้อ้าปากค้าง "ไม่นะ! ฉันไม่สบาย")

อีก 1 ปีต่อมา ค่าอาจมีลักษณะดังนี้

ค่าดิบของผู้ป่วยคนเดิมยังคงอยู่ที่ 0.95
เกณฑ์การจัดประเภทจะเปลี่ยนเป็น 0.97

ดังนั้น ระบบจะจัดประเภทผู้ป่วยรายนั้นใหม่เป็นคลาสเชิงลบ ("สุขสันต์วัน! ฉันไม่ได้ป่วย") คนไข้คนเดิม การวินิจฉัยที่แตกต่างกัน

ชุดข้อมูลที่ไม่สมดุลระดับ

#fundamentals

ชุดข้อมูลสำหรับปัญหาการแยกประเภทซึ่งจำนวนป้ายกำกับทั้งหมดของแต่ละคลาสแตกต่างกันอย่างมีนัยสำคัญ เช่น ลองพิจารณาชุดข้อมูลการจัดประเภทแบบไบนารีซึ่งมีป้ายกำกับ 2 ป้ายที่แบ่งได้ดังนี้

ป้ายกำกับเชิงลบ 1,000,000 รายการ
ป้ายกำกับเชิงบวก 10 รายการ

อัตราส่วนของป้ายกำกับเชิงลบต่อป้ายกำกับบวกคือ 100,000 ต่อ 1 ชุดข้อมูลนี้จึงไม่สมดุล

ในทางตรงกันข้าม ชุดข้อมูลต่อไปนี้ไม่ไม่สมดุลกันเนื่องจากอัตราส่วนของป้ายกำกับเชิงลบต่อป้ายกำกับเชิงบวกค่อนข้างใกล้เคียงกับ 1

ป้ายกำกับเชิงลบ 517 รายการ
ป้ายกำกับเชิงบวก 483 รายการ

นอกจากนี้ ชุดข้อมูลแบบหลายคลาสอาจทำให้คลาสไม่สมดุลด้วย เช่น ชุดข้อมูลการจัดประเภทแบบหลายคลาสต่อไปนี้ไม่สมดุลด้วย เนื่องจากป้ายกำกับหนึ่งมีตัวอย่างมากกว่าอีก 2 ป้าย

ป้ายกำกับ 1,000,000 ป้ายที่มีคลาส "สีเขียว"
ป้ายกำกับ 200 ป้ายที่มีคลาส "สีม่วง"
ป้ายกำกับ 350 รายการที่มีคลาส "สีส้ม"

โปรดดูเอนโทรปี คลาสส่วนใหญ่ และคลาสของชนกลุ่มน้อย

การคลิป

#fundamentals

เทคนิคในการจัดการค่าที่ผิดปกติโดยทำอย่างใดอย่างหนึ่งหรือทั้ง 2 อย่างต่อไปนี้

ลดค่า feature ที่มากกว่าเกณฑ์สูงสุดลงไปจนถึงเกณฑ์สูงสุดนั้น
การเพิ่มค่าฟีเจอร์ที่น้อยกว่าเกณฑ์ขั้นต่ำจนถึงเกณฑ์ขั้นต่ำนั้น

ตัวอย่างเช่น สมมติว่าค่า <0.5% สำหรับคุณลักษณะหนึ่งอยู่นอกช่วง 40–60 ในกรณีนี้ คุณสามารถดำเนินการต่อไปนี้

ตัดค่าทั้งหมดที่เกิน 60 (เกณฑ์ขั้นต่ำ) ให้เป็น 60 พอดี
ตัดทุกค่าที่ต่ำกว่า 40 (เกณฑ์ขั้นต่ำ) ให้เป็น 40 พอดี

ค่าที่ผิดปกติอาจทำให้โมเดลเสียหาย ซึ่งบางครั้งอาจทำให้มีน้ำหนักล้นระหว่างการฝึก ค่าที่ผิดปกติบางอย่างอาจทำให้เมตริกต่างๆ เสียไปอย่างมาก เช่น ความแม่นยำ การตัดคลิปเป็นเทคนิคทั่วไปในการจำกัดความเสียหาย

การไล่ระดับสีจะบังคับค่าการไล่ระดับสีภายในช่วงที่กำหนดในระหว่างการฝึก

เมทริกซ์ความสับสน

#fundamentals

ตาราง NxN ที่สรุปจำนวนการคาดการณ์ที่ถูกต้องและไม่ถูกต้องซึ่งโมเดลการจัดประเภททำขึ้น ลองพิจารณาเมทริกซ์ความสับสนต่อไปนี้สำหรับโมเดลการจัดประเภทแบบไบนารี

	เนื้องอก (ที่คาดการณ์)	ไม่ใช่เนื้องอก (คาดการณ์)
เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง)	18 (TP)	1 (FN)
ไม่ใช่เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง)	6 (FP)	452 (เทนเนสซี)

เมทริกซ์ความสับสนก่อนหน้าจะแสดงข้อมูลต่อไปนี้

จากการคาดการณ์ 19 รายการที่ข้อมูลจากการสังเกตการณ์โดยตรงคือเนื้องอก โมเดลมีการจัดประเภทอย่างถูกต้อง 18 รายการและจัดประเภทเป็น 1 อย่างไม่ถูกต้อง
จากการคาดการณ์ 458 รายการ ที่ความจริงเสมือนเป็นไม่ใช่เนื้องอก โมเดลได้รับการจัดประเภทอย่างถูกต้อง 452 รายการและจัดประเภทอย่างไม่ถูกต้อง 6 รายการ

เมทริกซ์ความสับสนของปัญหาการจัดประเภทแบบหลายคลาสช่วยให้คุณระบุรูปแบบของข้อผิดพลาดได้ เช่น ลองพิจารณาเมทริกซ์ความสับสนต่อไปนี้สำหรับโมเดลการจัดประเภทแบบหลายคลาส 3 คลาสที่จัดหมวดหมู่ไอริส 3 ประเภทที่แตกต่างกัน (Virginica, Versicolor และ Setosa) เมื่อข้อเท็จจริงบนพื้นดินคือ Virginica เมทริกซ์ความสับสนแสดงให้เห็นว่าโมเดลมีแนวโน้มที่จะคาดการณ์ Versicolor ผิดพลาดมากกว่า Setosa:

	Setosa (ตามการคาดการณ์)	Versicolor (ตามการคาดการณ์)	เวอร์จิเนีย (ตามการคาดการณ์)
เซโตซา (ข้อมูลจากการสังเกตการณ์โดยตรง)	88	12	0
Versicolor (ข้อมูลจากการสังเกตการณ์โดยตรง)	6	141	7
เวอร์จิกา (ข้อมูลจากการสังเกตการณ์โดยตรง)	2	27	109

อีกตัวอย่างหนึ่งคือ เมทริกซ์ความสับสนอาจเปิดเผยว่าโมเดลที่ฝึกให้จดจำตัวเลขที่เขียนด้วยลายมือมีแนวโน้มที่จะคาดการณ์ผิดพลาดเป็น 9 ไม่ใช่ 4 หรืออาจคาดคะเน 1 แทนที่จะเป็น 7 ผิดพลาด

เมทริกซ์ความสับสนมีข้อมูลที่เพียงพอสำหรับการคำนวณเมตริกประสิทธิภาพแบบต่างๆ ซึ่งรวมถึงความแม่นยำและการจดจำ

ฟีเจอร์ต่อเนื่อง

#fundamentals

ฟีเจอร์จุดลอยตัวที่มีช่วงของค่าที่เป็นไปได้อย่างไม่จำกัด เช่น อุณหภูมิหรือน้ำหนัก

คอนทราสต์กับฟีเจอร์ไม่ต่อเนื่อง

ผสานรวม

#fundamentals

สถานะที่มาถึงเมื่อค่า loss เปลี่ยนแปลงน้อยมากหรือไม่เปลี่ยนเลยในแต่ละการทำซ้ำ ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้แสดงถึงการบรรจบกันที่การทำซ้ำประมาณ 700 ครั้ง

พล็อตคาร์ทีเซียน แกน X ขาดหาย แกน Y คือจำนวนการฝึกซ้ำ การสูญเสียสูงมากในช่วงการทำซ้ำช่วง 2-3 ครั้งแรก แต่ลดลงอย่างมาก หลังจากการทำซ้ำประมาณ 100 ครั้ง การสูญเสียจะคงอยู่
มากไปน้อย แต่จะค่อยๆ เพิ่มขึ้นมาก หลังจากการทำซ้ำประมาณ 700 ครั้ง การสูญเสียจะคงที่

โมเดลจะสื่อสารเมื่อการฝึกเพิ่มเติมไม่ช่วยพัฒนาโมเดล

ในการเรียนรู้เชิงลึก บางครั้งค่าการสูญเสียอาจคงที่หรือเกือบตลอดเวลาในการทำซ้ำหลายครั้งก่อนที่จะจากมากไปน้อย ในช่วงเวลาที่ค่าสูญเสียคงที่เป็นระยะเวลานาน อาจทำให้คุณรู้สึกว่ามีการมาบรรจบกันที่ผิดพลาดชั่วคราว

โปรดดูการหยุดก่อนกำหนด

D

DataFrame

#fundamentals

ประเภทข้อมูล pandas ยอดนิยมสำหรับการแสดงชุดข้อมูลในหน่วยความจำ

DataFrame คล้ายกับตารางหรือสเปรดชีต แต่ละคอลัมน์ของ DataFrame จะมีชื่อ (ส่วนหัว) และแต่ละแถวจะระบุด้วยหมายเลขที่ไม่ซ้ำกัน

แต่ละคอลัมน์ใน DataFrame มีโครงสร้างเหมือนอาร์เรย์ 2D เว้นแต่ว่าคอลัมน์แต่ละคอลัมน์จะกำหนดประเภทข้อมูลของตัวเองได้

โปรดดูหน้าข้อมูลอ้างอิงของ pandas.DataFrame อย่างเป็นทางการ

ชุดข้อมูลหรือชุดข้อมูล

#fundamentals

การเก็บรวบรวมข้อมูลดิบ ซึ่งโดยปกติ (แต่ไม่เกิดขึ้นเพียงอย่างเดียว) จะจัดระเบียบในรูปแบบใดรูปแบบหนึ่งต่อไปนี้

สเปรดชีต
ไฟล์ในรูปแบบ CSV (ค่าที่คั่นด้วยคอมมา)

โมเดลเชิงลึก

#fundamentals

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 รายการ

โมเดลเชิงลึกเรียกอีกอย่างว่าโครงข่ายประสาทแบบลึก

คอนทราสต์กับโมเดลแบบกว้าง

จุดสนใจที่หนาแน่น

#fundamentals

ฟีเจอร์ที่ค่าส่วนใหญ่หรือทั้งหมดไม่ใช่ 0 ซึ่งมักจะเป็น Tensor ของค่าจุดลอยตัว ตัวอย่างเช่น Tensor 10 องค์ประกอบต่อไปนี้มีความหนาแน่นเนื่องจากค่า 9 ค่าขององค์ประกอบไม่ใช่ 0

คอนทราสต์กับฟีเจอร์แบบกระจัดกระจาย

ความลึก

#fundamentals

ผลรวมของสิ่งต่อไปนี้ในโครงข่ายระบบประสาทเทียม:

จำนวนเลเยอร์ที่ซ่อนอยู่
จํานวนเลเยอร์เอาต์พุต ซึ่งปกติคือ 1
จำนวนเลเยอร์การฝังใดๆ

ตัวอย่างเช่น โครงข่ายระบบประสาทเทียมที่มีเลเยอร์ซ่อนอยู่ 5 เลเยอร์ และเลเยอร์เอาต์พุตหนึ่งมีความลึก 6 ชั้น

โปรดสังเกตว่าเลเยอร์อินพุตไม่มีอิทธิพลต่อความลึก

ฟีเจอร์แยกกัน

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้อย่างจำกัด ตัวอย่างเช่น ฟีเจอร์ที่มีค่าต้องเป็นสัตว์ ผัก หรือแร่ธาตุเท่านั้น เป็นฟีเจอร์ที่มีการแยกส่วน (หรือตามหมวดหมู่)

คอนทราสต์กับฟีเจอร์ต่อเนื่อง

ไดนามิก

#fundamentals

บางสิ่งที่ทำบ่อยหรือต่อเนื่อง คำว่าไดนามิกและออนไลน์เป็นคำที่มีความหมายเหมือนกันในแมชชีนเลิร์นนิง การใช้งานแบบไดนามิกและออนไลน์โดยทั่วไปในแมชชีนเลิร์นนิงมีดังนี้

โมเดลแบบไดนามิก (หรือโมเดลออนไลน์) คือโมเดลที่มีการฝึกซ้ำบ่อยๆ หรือต่อเนื่อง
การฝึกอบรมแบบไดนามิก (หรือการฝึกอบรมออนไลน์) เป็นกระบวนการฝึกบ่อยๆ หรืออย่างต่อเนื่อง
การอนุมานแบบไดนามิก (หรือการอนุมานออนไลน์) เป็นกระบวนการสร้างการคาดการณ์ตามคำขอ

โมเดลแบบไดนามิก

#fundamentals

modelที่ฝึกซ้ำบ่อย (หรืออย่างต่อเนื่อง) โมเดลแบบไดนามิกคือ "ผู้เรียนรู้ตลอดชีวิต" ซึ่งปรับตัวเข้ากับข้อมูลที่มีการเปลี่ยนแปลงอยู่ตลอดเวลา โมเดลแบบไดนามิกเรียกอีกอย่างว่าโมเดลออนไลน์

คอนทราสต์กับโมเดลภาพนิ่ง

E

การหยุดก่อนกำหนด

#fundamentals

เมธอดสำหรับ regularization ที่เกี่ยวข้องกับการสิ้นสุดการฝึก ก่อนที่การสูญเสียการฝึกจะเสร็จสิ้นลดลง ในการหยุดก่อนกำหนด จะเป็นการหยุดฝึกโมเดลโดยตั้งใจเมื่อการสูญเสียชุดข้อมูลการตรวจสอบเริ่มเพิ่มขึ้น กล่าวคือเมื่อประสิทธิภาพของการทำให้เป็นทั่วไปแย่ลง

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

การหยุดก่อนกำหนดอาจดูขัดกัน เพราะการบอกให้โมเดลหยุดการฝึกในขณะที่การสูญเสียยังคงลดลงนั้นอาจดูเหมือนเป็นการบอกให้เชฟหยุดทำอาหารก่อนที่ของหวานจะอบจนเสร็จ อย่างไรก็ตาม การฝึกโมเดลนานเกินไปอาจทำให้มีการกำหนดค่ามากเกินไป กล่าวคือ หากฝึกโมเดลยาวเกินไป โมเดลอาจพอดีกับข้อมูลการฝึกมากจนทำให้โมเดลคาดการณ์ตัวอย่างใหม่ได้ไม่ดี

เลเยอร์ที่ฝัง

#language

#fundamentals

เลเยอร์ที่ซ่อนอยู่พิเศษที่ฝึกบนฟีเจอร์เชิงหมวดหมู่มิติสูงเพื่อค่อยๆ เรียนรู้เวกเตอร์ที่ฝังอยู่ที่มีขนาดต่ำกว่า เลเยอร์ที่ฝังอยู่ทำให้โครงข่ายประสาทฝึกได้อย่างมีประสิทธิภาพมากกว่าการฝึกเฉพาะฟีเจอร์เชิงหมวดหมู่ในมิติระดับสูง

ตัวอย่างเช่น ปัจจุบัน Earth รองรับต้นไม้ประมาณ 73,000 ชนิด สมมติว่าสปีชีส์ของต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ เลเยอร์อินพุตของโมเดลจึงมีเวกเตอร์ครั้งเดียว องค์ประกอบยาว 73,000 รายการ ตัวอย่างเช่น baobab อาจแสดงขึ้นประมาณนี้

อาร์เรย์ขององค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 รายการแรกมีค่าเป็น 0 องค์ประกอบถัดไปมีค่า 1 องค์ประกอบ 66,767 สุดท้ายมีค่าเป็น 0

อาร์เรย์ 73,000 องค์ประกอบยาวมาก หากไม่เพิ่มเลเยอร์ที่ฝังลงในโมเดล การฝึกจะใช้เวลานานมากเนื่องจากมีการคูณ 0 ถึง 72,999 ตัว คุณอาจเลือกเลเยอร์การฝังให้ประกอบด้วย ขนาด 12 ขนาด เลเยอร์ที่ฝังจะค่อยๆ เรียนรู้ เวกเตอร์การฝังใหม่สำหรับต้นไม้แต่ละชนิด

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลแทนการฝังเลเยอร์

Epoch

#fundamentals

การฝึกอบรมเต็มรูปแบบผ่านชุดการฝึกทั้งหมดเพื่อให้ตัวอย่างแต่ละรายการได้รับการประมวลผลเพียงครั้งเดียว

Epoch แสดง N/ขนาดกลุ่ม การทำซ้ำ โดย N คือจำนวนตัวอย่างทั้งหมด

ตัวอย่างเช่น สมมติว่า

ชุดข้อมูลประกอบด้วยตัวอย่าง 1,000 รายการ
ขนาดกลุ่มคือ 50 ตัวอย่าง

ดังนั้น Epoch 1 รายการต้องมีการทำซ้ำ 20 ครั้ง ดังนี้

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

example (ตัวอย่าง)

#fundamentals

ค่าของฟีเจอร์ 1 แถวและอาจจะเป็นป้ายกำกับ ตัวอย่างการเรียนรู้ที่มีการควบคุมดูแลจะแบ่งออกเป็น 2 หมวดหมู่ทั่วไปดังนี้

ตัวอย่างที่ติดป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างที่ติดป้ายกำกับจะใช้ในระหว่างการฝึก
ตัวอย่างที่ไม่มีป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ แต่ไม่มีป้ายกำกับ ตัวอย่างที่ไม่มีป้ายกำกับจะใช้ในระหว่างการอนุมาน

ตัวอย่างเช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อกำหนดอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ต่อไปนี้เป็นตัวอย่างที่มีป้ายกำกับ 3 รายการ

ฟีเจอร์			ป้ายกำกับ
อุณหภูมิ	ความชื้น	ความกดอากาศ	คะแนนสอบ
15	47	998	เร็ว
19	34	1020	ดีมาก
18	92	1012	แย่

ต่อไปนี้เป็นตัวอย่างที่ไม่มีป้ายกำกับ 3 ตัวอย่าง

อุณหภูมิ	ความชื้น	ความกดอากาศ
12	62	1014
21	47	1017
19	41	1021

แถวของชุดข้อมูลมักจะเป็นแหล่งข้อมูลดิบสำหรับตัวอย่าง กล่าวคือ ตัวอย่างโดยทั่วไปจะประกอบด้วยชุดย่อยของคอลัมน์ในชุดข้อมูล นอกจากนี้ ฟีเจอร์ต่างๆ ในตัวอย่างอาจรวมถึงฟีเจอร์สังเคราะห์ เช่น ฟีเจอร์ครอสของฟีเจอร์

F

ผลลบลวง (FN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบอย่างไม่ถูกต้อง ตัวอย่างเช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม (คลาสเชิงลบ) แต่ข้อความอีเมลนั้นที่จริงแล้วเป็นสแปม

ผลบวกลวง (FP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงบวกอย่างไม่ถูกต้อง ตัวอย่างเช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ คือสแปม (คลาสเชิงบวก) แต่ข้อความอีเมลนั้นที่จริงแล้วไม่ใช่สแปม

อัตราผลบวกลวง (FPR)

#fundamentals

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสเชิงบวกโดยไม่ตั้งใจ สูตรต่อไปนี้จะคำนวณอัตราผลบวกลวง

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในเส้นโค้ง ROC

ฟีเจอร์

#fundamentals

ตัวแปรอินพุตให้กับโมเดลแมชชีนเลิร์นนิง ตัวอย่าง ประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ ตัวอย่างเช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อกำหนดอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตารางต่อไปนี้แสดงตัวอย่าง 3 ตัวอย่าง แต่ละรายการประกอบด้วย 3 ฟีเจอร์ และ 1 ป้ายกำกับ ดังนี้

ฟีเจอร์			ป้ายกำกับ
อุณหภูมิ	ความชื้น	ความกดอากาศ	คะแนนสอบ
15	47	998	92
19	34	1020	84
18	92	1012	87

คอนทราสต์กับป้ายกำกับ

กากบาทฟีเจอร์

#fundamentals

ฟีเจอร์สังเคราะห์ที่เกิดจากฟีเจอร์ "การข้าม" เชิงหมวดหมู่หรือที่เก็บข้อมูล

ตัวอย่างเช่น ลองใช้โมเดล "การคาดการณ์อารมณ์" ที่แสดงถึงอุณหภูมิใน 1 ใน 4 ด้านต่อไปนี้

freezing
chilly
temperate
warm

และแสดงความเร็วลมในที่เก็บข้อมูล 3 รายการต่อไปนี้

still
light
windy

เมื่อไม่มีข้ามฟีเจอร์ โมเดลเชิงเส้นจะฝึกแยกกันในที่เก็บข้อมูลต่างๆ 7 ที่เก็บข้อมูลที่อยู่ก่อนหน้า ดังนั้นโมเดลจะฝึกใน freezing โดยไม่ขึ้นอยู่กับการฝึก เช่น windy

หรือจะสร้างความแตกต่างระหว่างอุณหภูมิและความเร็วลม ฟีเจอร์สังเคราะห์นี้จะมีค่าที่เป็นไปได้ 12 ค่าดังต่อไปนี้

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

ฟีเจอร์กากบาทฟีเจอร์ทำให้โมเดลเรียนรู้ความแตกต่างของอารมณ์ได้ในช่วง freezing-windy วันถึง freezing-still วัน

หากคุณสร้างฟีเจอร์สังเคราะห์จาก 2 ฟีเจอร์โดยที่แต่ละฟีเจอร์มีที่เก็บข้อมูลจำนวนมาก ค่าที่ได้ของฟีเจอร์ข้ามจะมีชุดค่าผสมที่เป็นไปได้จำนวนมากมาย ตัวอย่างเช่น หากฟีเจอร์หนึ่งมีที่เก็บข้อมูล 1,000 รายการ และอีกฟีเจอร์หนึ่งมีที่เก็บข้อมูล 2,000 รายการ ฟีเจอร์ข้ามได้จะมีที่เก็บข้อมูล 2,000,000 รายการ

รูปกากบาทอย่างเป็นทางการคือ ผลคูณของคาร์ทีเซียน

เครื่องหมายกากบาทฟีเจอร์ส่วนใหญ่ใช้กับโมเดลเชิงเส้นและไม่ค่อยใช้กับโครงข่ายระบบประสาทเทียม

Feature Engineering

#fundamentals

#TensorFlow

กระบวนการที่มีขั้นตอนดังต่อไปนี้

การกำหนดฟีเจอร์ที่อาจมีประโยชน์ในการฝึกโมเดล
การแปลงข้อมูลดิบจากชุดข้อมูลให้เป็นเวอร์ชันที่มีประสิทธิภาพของฟีเจอร์เหล่านี้

ตัวอย่างเช่น คุณอาจพิจารณาได้ว่า temperature อาจเป็นฟีเจอร์ที่มีประโยชน์ จากนั้นคุณอาจทดสอบที่เก็บข้อมูลเพื่อเพิ่มประสิทธิภาพสิ่งที่โมเดลสามารถเรียนรู้จากช่วง temperature ต่างๆ

บางครั้งเราเรียกวิศวกรรมฟีเจอร์ว่าการดึงข้อมูลฟีเจอร์

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติมเกี่ยวกับ TensorFlow

ใน TensorFlow วิศวกรรมฟีเจอร์มักจะหมายถึงการแปลงรายการไฟล์บันทึกดิบเป็นบัฟเฟอร์โปรโตคอล tf.Example ดู tf.Transform เพิ่มเติม

ชุดฟีเจอร์

#fundamentals

กลุ่มฟีเจอร์ของโมเดลแมชชีนเลิร์นนิงที่ฝึกใช้งาน ตัวอย่างเช่น รหัสไปรษณีย์ ขนาดอสังหาริมทรัพย์ และสภาพอสังหาริมทรัพย์อาจประกอบด้วยชุดฟีเจอร์แบบง่ายๆ สำหรับโมเดลที่คาดการณ์ราคาที่พักอาศัย

เวกเตอร์จุดสนใจ

#fundamentals

อาร์เรย์ของค่า feature ที่ประกอบด้วยตัวอย่าง เวกเตอร์ของฟีเจอร์คืออินพุตระหว่างการฝึกและระหว่างการอนุมาน ตัวอย่างเช่น เวกเตอร์จุดสนใจสำหรับโมเดลที่มีจุดสนใจที่แยกกันสองอย่างอาจเป็นดังนี้

[0.92, 0.56]

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต 2 เลเยอร์ที่ซ่อนอยู่ และเลเยอร์เอาต์พุต 1 เลเยอร์
เลเยอร์อินพุตมี 2 โหนด โดยโหนดหนึ่งมีค่า 0.92 และอีกโหนดหนึ่งมีค่า 0.56

แต่ละตัวอย่างให้ค่าที่ต่างกันสำหรับเวกเตอร์ของจุดสนใจ ดังนั้นเวกเตอร์ของจุดสนใจสำหรับตัวอย่างถัดไปอาจมีลักษณะดังนี้

[0.73, 0.49]

วิศวกรรมคุณลักษณะกำหนดวิธีแสดงจุดสนใจในเวกเตอร์จุดสนใจ เช่น ฟีเจอร์เชิงหมวดหมู่ไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าอาจแสดงด้วยการเข้ารหัสแบบ One-Hot ในกรณีนี้ ส่วนของเวกเตอร์จุดสนใจของตัวอย่างหนึ่งๆ จะประกอบด้วยเลขศูนย์ 4 ตัว และเลข 1.0 ตัวเดียวในตำแหน่งที่ 3 ดังนี้

[0.0, 0.0, 1.0, 0.0, 0.0]

อีกตัวอย่างหนึ่ง สมมติว่าโมเดลของคุณประกอบด้วยคุณลักษณะสามอย่าง:

ฟีเจอร์เชิงหมวดหมู่ไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าซึ่งแสดงด้วยการเข้ารหัสแบบ 1-Hot เช่น [0.0, 1.0, 0.0, 0.0, 0.0]
อีกฟีเจอร์หมวดหมู่ไบนารีที่มีค่าที่เป็นไปได้ 3 ค่าซึ่งแสดงด้วยการเข้ารหัสแบบ 1-Hot เช่น [0.0, 0.0, 1.0]
ฟีเจอร์จุดลอยตัว เช่น 8.3

ในกรณีนี้ เวกเตอร์ของฟีเจอร์สำหรับแต่ละตัวอย่างจะแสดงด้วยค่า 9 ค่า จากค่าตัวอย่างในรายการก่อนหน้า เวกเตอร์ของจุดสนใจจะเป็นดังนี้

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

ลูปความคิดเห็น

#fundamentals

ในแมชชีนเลิร์นนิง สถานการณ์ที่การคาดการณ์ของโมเดลมีอิทธิพลต่อข้อมูลการฝึกสำหรับโมเดลเดียวกันหรือโมเดลอื่น เช่น โมเดลที่แนะนำภาพยนตร์จะมีอิทธิพลต่อภาพยนตร์ที่ผู้ใช้ดู ซึ่งจะมีผลต่อโมเดลการแนะนำภาพยนตร์ต่อๆ ไป

G

ข้อมูลทั่วไป

#fundamentals

ความสามารถของโมเดลในการคาดการณ์ที่ถูกต้องเกี่ยวกับข้อมูลใหม่ที่ไม่เคยเห็นมาก่อน โมเดลที่สร้างข้อมูลทั่วไปได้คือรูปแบบตรงกันข้ามกับโมเดลที่นำมาใส่ไว้มากเกินไป

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คุณฝึกโมเดลกับตัวอย่างในชุดการฝึก จากนั้นโมเดลจะเรียนรู้ลักษณะเฉพาะของข้อมูลในชุดการฝึก หลักการทั่วไปจะถามว่าโมเดลของคุณคาดการณ์ได้ดีจากตัวอย่างที่ไม่อยู่ในชุดการฝึกหรือไม่

ในการส่งเสริมการสรุปทั่วไป การกำหนดรูปแบบที่สอดคล้องกันช่วยให้โมเดลฝึกกับความพิเศษของข้อมูลในชุดการฝึกได้น้อยลง

เส้นโค้งภาพรวม

#fundamentals

แผนผังของทั้ง การสูญเสียการฝึกและการสูญเสียการตรวจสอบ เป็นฟังก์ชันของจำนวนการทำซ้ำ

เส้นโค้งทั่วไปช่วยให้คุณตรวจหาการซ้อนทับที่เป็นไปได้ ตัวอย่างเช่น เส้นโค้งทั่วไปต่อไปนี้แนะนำให้ติดแท็กมากเกินไปเนื่องจากการสูญเสียการตรวจสอบจะสูงกว่าการสูญเสียการฝึกมากในท้ายที่สุด

กราฟคาร์ทีเซียนที่แกน y มีป้ายกำกับว่า "สูญเสีย" และแกน x จะมีป้ายกำกับว่า "ซ้ำ" แปลงมีสองแปลง พล็อตหนึ่งจะแสดงการสูญเสียการฝึก และอีกแผนภูมิหนึ่งแสดงการสูญเสียการตรวจสอบ
ทั้ง 2 แผนเริ่มต้นเหมือนกัน แต่สุดท้ายแล้วความสูญเสียขณะฝึกลดลงต่ำกว่าการสูญเสียการตรวจสอบมากทีเดียว

การไล่ระดับสีลง

#fundamentals

เทคนิคทางคณิตศาสตร์ที่จะช่วยลดการสูญเสีย การไล่ระดับสีแบบค่อยเป็นค่อยไปจะปรับน้ำหนักและอคติซ้ำๆ โดยจะค่อยๆ หาชุดค่าผสมที่ดีที่สุดเพื่อลดการสูญเสีย

การไล่ระดับสี (ไล่ระดับสี) เก่ากว่าแมชชีนเลิร์นนิงมาก

ข้อมูลจากการสังเกตการณ์โดยตรง

#fundamentals

เรียลลิตี้

สิ่งที่เกิดขึ้นจริง

ตัวอย่างเช่น ลองใช้โมเดลการแยกประเภทแบบไบนารีที่คาดการณ์ว่านักศึกษาปีแรกในมหาวิทยาลัยจะสำเร็จการศึกษาภายใน 6 ปีหรือไม่ ข้อมูลจากการสังเกตการณ์โดยตรงสำหรับโมเดลนี้คือ นักเรียนคนนั้นจบการศึกษาภายใน 6 ปีหรือไม่

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เราจะประเมินคุณภาพของโมเดลเทียบกับข้อมูลจากการสังเกตการณ์โดยตรง อย่างไรก็ตาม ข้อมูลที่ได้จากพื้นดิน ก็ไม่ได้ถูกต้องสมบูรณ์แบบเสมอไป ลองพิจารณาตัวอย่าง ความไม่สมบูรณ์แบบที่เป็นไปได้ต่อไปนี้จากข้อมูลจากการสังเกตการณ์โดยตรง

ในตัวอย่างการสำเร็จการศึกษา เราแน่ใจว่าประวัติการสำเร็จการศึกษาของนักเรียนแต่ละคนถูกต้องทุกครั้งหรือไม่ การเก็บรักษาบันทึกของมหาวิทยาลัยสมบูรณ์แบบไหม
สมมติว่าป้ายกำกับเป็นค่าจุดลอยตัวที่วัดโดยเครื่องมือ (เช่น บารอมิเตอร์) เราจะแน่ใจได้อย่างไรว่าเครื่องมือแต่ละชนิดมีการปรับเทียบเหมือนกัน หรืออ่านค่าแต่ละรายการภายใต้สถานการณ์เดียวกัน
หากป้ายกำกับเป็นเรื่องของความคิดเห็นของมนุษย์ เราจะแน่ใจได้อย่างไรว่าผู้ให้คะแนนที่เป็นมนุษย์ประเมินเหตุการณ์ในลักษณะเดียวกัน บางครั้งผู้ตรวจสอบที่เป็นเจ้าหน้าที่ผู้เชี่ยวชาญจะเข้ามามีส่วนร่วมเพื่อปรับปรุงความสอดคล้อง

ฮิต

เลเยอร์ที่ซ่อนอยู่

#fundamentals

เลเยอร์ในโครงข่ายระบบประสาทเทียมระหว่างเลเยอร์อินพุต (ฟีเจอร์ต่างๆ) และเลเยอร์เอาต์พุต (การคาดการณ์) เลเยอร์ที่ซ่อนอยู่แต่ละเลเยอร์ประกอบด้วยเซลล์ประสาทอย่างน้อย 1 เซลล์ ตัวอย่างเช่น โครงข่ายระบบประสาทเทียมต่อไปนี้มีเลเยอร์ซ่อนอยู่ 2 ชั้น ชั้นแรกมีเซลล์ประสาท 3 เซลล์ ชั้นแรกมีเซลล์ประสาท 2 ชั้น

โครงข่ายประสาทแบบลึกมีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 ชั้น ตัวอย่างเช่น ภาพก่อนหน้าคือโครงข่ายประสาทแบบลึกเนื่องจากโมเดลมีเลเยอร์ที่ซ่อนอยู่ 2 ชั้น

ไฮเปอร์พารามิเตอร์

#fundamentals

ตัวแปรที่คุณหรือบริการปรับแต่งไฮเปอร์พารามิเตอร์ จะปรับระหว่างการฝึกโมเดลอย่างต่อเนื่อง ตัวอย่างเช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์ คุณสามารถตั้งค่าอัตราการเรียนรู้เป็น 0.01 ก่อนเซสชันการฝึกอบรม 1 เซสชัน หากคุณเห็นว่า 0.01 สูงเกินไป คุณอาจกำหนดอัตราการเรียนรู้เป็น 0.003 สำหรับเซสชันการฝึกอบรมครั้งถัดไป

ในทางตรงกันข้าม พารามิเตอร์คือน้ำหนักและอคติต่างๆ ที่โมเดลเรียนรู้ระหว่างการฝึก

I

เผยแพร่อย่างอิสระและเหมือนกัน (เช่น)

#fundamentals

ข้อมูลที่ถูกดึงมาจากการแจกแจงที่ไม่มีการเปลี่ยนแปลง และที่ที่แต่ละค่าดึงมาไม่ได้ขึ้นอยู่กับค่าที่ดึงออกมาก่อนหน้านี้ ไอดี คือก๊าซในอุดมคติของแมชชีนเลิร์นนิง โครงสร้างทางคณิตศาสตร์ที่มีประโยชน์แต่แทบจะไม่เคยพบเลยในชีวิตจริง ตัวอย่างเช่น การกระจายของผู้เข้าชมหน้าเว็บอาจเป็น i.i.d. ในช่วงเวลาสั้นๆ กล่าวคือ การกระจายจะไม่เปลี่ยนแปลง ในช่วงเวลาสั้นๆ นั้น และโดยทั่วกันโดยทั่วไป การเข้าชมของบุคคลหนึ่งขึ้นอยู่กับการเข้าชมของอีกคนหนึ่ง อย่างไรก็ตาม หากคุณขยายกรอบเวลานั้น ความแตกต่างตามฤดูกาลในผู้เข้าชมหน้าเว็บอาจปรากฏ

ดูข้อมูลเพิ่มเติมที่ไม่คงที่

การอนุมาน

#fundamentals

ในแมชชีนเลิร์นนิง กระบวนการสร้างการคาดการณ์โดยใช้โมเดลที่ฝึกแล้วกับตัวอย่างที่ไม่มีป้ายกำกับ

การอนุมานจะมีความหมายแตกต่างกันไปในสถิติ ดูรายละเอียดได้ที่ บทความ Wikipedia เกี่ยวกับการอนุมานทางสถิติ

เลเยอร์อินพุต

#fundamentals

เลเยอร์ของโครงข่ายระบบประสาทเทียมที่มีเวกเตอร์ฟีเจอร์ กล่าวคือ เลเยอร์อินพุตจะแสดงตัวอย่างสำหรับการฝึกหรือการอนุมาน ตัวอย่างเช่น เลเยอร์อินพุตในโครงข่ายประสาทต่อไปนี้ประกอบด้วย 2 ฟีเจอร์

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

ความสามารถในการตีความ

#fundamentals

ความสามารถในการอธิบายหรือนำเสนอโมเดลของ ML ให้มนุษย์เข้าใจได้

ตัวอย่างเช่น โมเดลการถดถอยเชิงเส้นส่วนใหญ่จะตีความได้สูง (คุณเพียงต้องดูน้ำหนักที่ฝึกของแต่ละฟีเจอร์เท่านั้น) ป่าตัดสินใจมีการตีความอย่างสูงด้วย อย่างไรก็ตาม บางโมเดลต้องใช้การแสดงผลที่ซับซ้อนเพื่อให้ตีความได้

คุณสามารถใช้เครื่องมือตีความการเรียนรู้ (LIT) เพื่อตีความโมเดล ML

การทำซ้ำ

#fundamentals

การอัปเดตพารามิเตอร์ของโมเดล 1 ครั้ง ซึ่งก็คือน้ำหนักและอคติของโมเดล ระหว่างการฝึก ขนาดกลุ่มจะกำหนดจำนวนตัวอย่างที่โมเดลประมวลผลในการทำซ้ำแต่ละครั้ง เช่น ถ้าขนาดกลุ่มคือ 20 โมเดลจะประมวลผลตัวอย่าง 20 รายการก่อนปรับเปลี่ยนพารามิเตอร์

เมื่อฝึกโครงข่ายระบบประสาทเทียม การทำซ้ำ 1 ครั้งจะอาศัย 2 เส้นทางต่อไปนี้

การส่งต่อเพื่อประเมินการสูญเสียในชุดเดียว
การส่งแบบย้อนหลัง (backprofagation) เพื่อปรับพารามิเตอร์ของโมเดลตามการสูญเสียและอัตราการเรียนรู้

L

การกำหนดกฎ L₀

#fundamentals

ประเภทของรูปแบบการจัดสรรที่หักจำนวนรวมของน้ำหนักที่ไม่ใช่ 0 ในโมเดล เช่น โมเดลที่มีน้ำหนักมากกว่า 0 จำนวน 11 รายการ จะได้รับการลงโทษมากกว่าโมเดลที่คล้ายกันที่มีน้ำหนักมากกว่า 00 จำนวน 10

การกำหนดกฎ L₀ บางครั้งเรียกว่าการกำหนด L0-norm

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

โดยทั่วไปแล้วการกำหนด L₀ มักไม่สามารถทำได้จริงในรูปแบบขนาดใหญ่ เนื่องจากรูปแบบ L₀ จะเปลี่ยนการฝึกเป็นปัญหาการเพิ่มประสิทธิภาพ Conv.

แพ้ L₁

#fundamentals

ฟังก์ชัน Los ที่คำนวณค่าสัมบูรณ์ของความแตกต่างระหว่างค่า label จริงกับค่าที่โมเดลคาดการณ์ไว้ เช่น การคำนวณการสูญเสีย L₁ สำหรับกลุ่ม 5 ตัวอย่าง

มูลค่าจริงของตัวอย่าง	ค่าที่คาดการณ์ไว้ของโมเดล	ค่าสัมบูรณ์ของเดลต้า
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = แพ้ L₁

การสูญเสีย ₁ มีความไวต่อค่าที่ผิดปกติน้อยกว่าการสูญเสีย L₂

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์คือการสูญเสีย L₁ โดยเฉลี่ยต่อตัวอย่าง

คลิกไอคอนเพื่อดูคณิตศาสตร์ที่เป็นทางการ

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

โดย

$n$ คือจำนวนตัวอย่าง
$y$ คือมูลค่าที่แท้จริงของป้ายกำกับ
$\hat{y}$ คือค่าที่โมเดลคาดการณ์ไว้สำหรับ $y$

การกำหนดกฎ L₁

#fundamentals

ประเภทรูปแบบการจัดสรรที่หักค่าน้ำหนักเป็นสัดส่วนกับผลรวมของค่าสัมบูรณ์ของน้ำหนัก การกำหนดกฎ L₁ ช่วยให้น้ำหนักของฟีเจอร์ที่ไม่เกี่ยวข้องหรือแทบจะไม่เกี่ยวข้องเป็น 0 เลย ระบบนำฟีเจอร์ที่มีน้ำหนักเป็น 0 ออกจากโมเดลอย่างเหมาะสม

คอนทราสต์กับการกำหนดกฎ L₂

แพ้ L₂

#fundamentals

ฟังก์ชัน Los ที่คำนวณค่ากำลังสองของความแตกต่างระหว่างค่า label จริงกับค่าที่โมเดลคาดการณ์ เช่น การคำนวณการสูญเสีย L₂ สำหรับกลุ่ม 5 ตัวอย่าง

มูลค่าจริงของตัวอย่าง	ค่าที่คาดการณ์ไว้ของโมเดล	กำลังสองของเดลต้า
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ แพ้

เนื่องจากการยกกำลังสอง L₂ จะขยายอิทธิพลของค่าที่ผิดปกติ กล่าวคือ การสูญเสีย L₂ ตอบสนองอย่างมากต่อการคาดการณ์ที่ผิดพลาดมากกว่าการสูญเสีย L₁ เช่น การสูญเสีย L₁ สำหรับกลุ่มก่อนหน้าจะเป็น 8 ไม่ใช่ 16 โปรดสังเกตว่าค่าที่ผิดปกติ แต่ละรายการมีค่าเป็น 9 ใน 16

โมเดลการถดถอยมักจะใช้การสูญเสีย L₂ เป็นฟังก์ชันการสูญเสีย

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง คือการสูญเสีย L₂ โดยเฉลี่ยต่อตัวอย่าง Squared Los เป็นอีกชื่อหนึ่งของการสูญเสีย L₂

คลิกไอคอนเพื่อดูคณิตศาสตร์ที่เป็นทางการ

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

โดย

$n$ คือจำนวนตัวอย่าง
$y$ คือมูลค่าที่แท้จริงของป้ายกำกับ
$\hat{y}$ คือค่าที่โมเดลคาดการณ์ไว้สำหรับ $y$

การกำหนดกฎ L₂

#fundamentals

ประเภทของรูปแบบการจัดสรรที่หักลบน้ำหนักตามสัดส่วนของผลรวมของกำลังสองของน้ำหนัก การกำหนดกฎ L₂ ช่วยให้น้ำหนักค่าผิดปกติ (ที่มีค่าบวกสูงหรือค่าลบต่ำ) มีค่าใกล้เคียงกับ 0 แต่ไม่เชิงถึง 0 ฟีเจอร์ที่มีค่าใกล้ 0 มากจะยังคงอยู่ในโมเดล แต่จะไม่ส่งผลต่อการคาดการณ์ของโมเดลมากนัก

การกำหนดรูปแบบ L₂ จะปรับปรุงการสรุปเนื้อหาในโมเดลเชิงเส้นเสมอ

คอนทราสต์กับการกำหนดกฎ L₁

ป้ายกำกับ

#fundamentals

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล ส่วน "คำตอบ" หรือ "ผลลัพธ์" ของตัวอย่าง

ตัวอย่างที่ติดป้ายกำกับแต่ละรายการประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ เช่น ในชุดข้อมูลการตรวจจับสแปม ป้ายกำกับอาจเป็น "สแปม" หรือ "ไม่ใช่สแปม" ในชุดข้อมูลปริมาณฝน ป้ายกำกับอาจหมายถึงปริมาณน้ำฝนที่ตกลงในช่วงเวลาหนึ่งๆ

ตัวอย่างที่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่าง 3 แบบที่มีป้ายกำกับจากรูปแบบการประเมินราคาบ้าน โดยแต่ละรายการมีฟีเจอร์ 3 รายการและป้ายกำกับ 1 ป้าย

จำนวนห้องนอน	จำนวนห้องน้ำ	อายุบ้าน	ราคาบ้าน (ป้ายกำกับ)
3	2	15	10,350,000 บาท
2	1	72	5,280,000 บาท
4	2	34	392,000 ดอลลาร์

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกตามตัวอย่างที่มีป้ายกำกับและคาดการณ์ตัวอย่างที่ไม่มีป้ายกำกับ

ตัดกันกับตัวอย่างที่มีป้ายกำกับกับตัวอย่างที่ไม่มีป้ายกำกับ

แลมบ์ดา

#fundamentals

คำพ้องของอัตราปกติ

คำว่า Lambda เป็นคำศัพท์ที่มากเกินไป เราจะเน้นไปที่คำจำกัดความของคำศัพท์ในการกำหนดรูปแบบที่สอดคล้องกัน

ชั้น

#fundamentals

ชุดของเซลล์ประสาทในโครงข่ายประสาท เลเยอร์ทั่วไปมี 3 ประเภท ดังต่อไปนี้

เลเยอร์อินพุต ซึ่งระบุค่าสำหรับฟีเจอร์ทั้งหมด
มีเลเยอร์ที่ซ่อนไว้อย่างน้อย 1 เลเยอร์ ซึ่งจะพบความสัมพันธ์ที่ไม่ใช่แบบเชิงเส้นระหว่างจุดสนใจและป้ายกำกับ
เลเยอร์เอาต์พุต ซึ่งจะมอบการคาดการณ์

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโครงข่ายประสาทที่มีเลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 ชั้น

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต 1 ชั้น เลเยอร์ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 ชั้น เลเยอร์อินพุตประกอบด้วยฟีเจอร์ 2 อย่าง ชั้นแรกที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาท 3 เซลล์ และชั้นที่ 2 ที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาท 2 เซลล์ เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

ใน TensorFlow เลเยอร์ยังเป็นฟังก์ชัน Python ที่ใช้ Tensor และตัวเลือกการกำหนดค่าเป็นอินพุตและสร้าง Tensor อื่นๆ เป็นเอาต์พุต

อัตราการเรียนรู้

#fundamentals

ตัวเลขลอยตัวที่บอกอัลกอริทึมการไล่ระดับสีว่าจะปรับน้ำหนักและการให้น้ำหนักพิเศษในการทำซ้ำแต่ละรายการมากเพียงใด เช่น อัตราการเรียนรู้ที่ 0.3 จะปรับน้ำหนักและความให้น้ำหนักพิเศษได้มากกว่าอัตราการเรียนรู้ที่ 0.1 ถึง 3 เท่า

อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์ที่สำคัญ หากคุณกำหนดอัตราการเรียนรู้ต่ำเกินไป การฝึกจะใช้เวลานานเกินไป หากคุณตั้งอัตราการเรียนรู้สูงเกินไป การไล่ระดับสีต่ำลงมักจะมีปัญหาในการเข้าถึงการสนทนา

คลิกที่ไอคอนเพื่อดูคำอธิบายทางคณิตศาสตร์เพิ่มเติม

ระหว่างการทำซ้ำแต่ละครั้ง อัลกอริทึมการไล่ระดับสีจะคูณอัตราการเรียนรู้ด้วยการไล่ระดับสี ผลที่ได้จะเรียกว่าขั้นตอนการไล่ระดับสี

เชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่สามารถแสดงผ่านการเพิ่มและการคูณเพียงอย่างเดียว

พล็อตของความสัมพันธ์เชิงเส้นคือเส้น

คอนทราสต์กับเนื้อหาที่ไม่ใช่เชิงเส้น

รูปแบบเชิงเส้น

#fundamentals

modelที่กำหนดmodel 1 รายการต่อmodelเพื่อสร้างmodel (รูปแบบเชิงเส้นยังมีอคติรวมอยู่ด้วย) ในทางตรงกันข้าม ความสัมพันธ์ของฟีเจอร์กับการคาดการณ์ในโมเดลเชิงลึกโดยทั่วไปจะไม่เป็นเชิงเส้น

รูปแบบเชิงเส้นมักฝึกได้ง่ายกว่าและตีความได้มากกว่าโมเดลเชิงลึก อย่างไรก็ตาม โมเดลเชิงลึกจะเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างฟีเจอร์ต่างๆ ได้

การถดถอยเชิงเส้นและการถดถอยแบบโลจิสติกเป็นรูปแบบเชิงเส้น 2 ประเภท

คลิกไอคอนเพื่อดูการคำนวณ

รูปแบบเชิงเส้นเป็นไปตามสูตรนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

โดย

y' คือการคาดการณ์ดิบ (ในรูปแบบเชิงเส้นบางประเภท การคาดการณ์ดิบนี้จะมีการแก้ไขเพิ่มเติม ตัวอย่างเช่น ดูการถดถอยแบบโลจิสติก)
b คืออคติ
w คือน้ำหนัก ดังนั้น w₁ คือน้ำหนักของจุดสนใจแรก, w₂ คือน้ำหนักของจุดสนใจที่ 2 และต่อไปเรื่อยๆ
x คือฟีเจอร์ ดังนั้น x₁ คือค่าของฟีเจอร์แรก x₂ คือค่าของฟีเจอร์ที่ 2 และต่อไปเรื่อยๆ

ตัวอย่างเช่น สมมติว่ารูปแบบเชิงเส้นของฟีเจอร์ 3 รายการเรียนรู้อคติและน้ำหนักต่อไปนี้

b = 7
กว้าง ₁ = -2.5
กว้าง₂ = -1.2
กว้าง ₃ = 1.4

ดังนั้น เมื่อมี 3 ฟีเจอร์ (x₁, x₂ และ x₃) โมเดลเชิงเส้นจะใช้สมการต่อไปนี้เพื่อสร้างการคาดการณ์แต่ละรายการ

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

สมมติว่าตัวอย่างหนึ่งมีค่าต่อไปนี้

x₁ = 4
x₂ = -10
x₃ = 5

การเสียบค่าเหล่านั้นในสูตรจะให้การคาดการณ์สำหรับตัวอย่างนี้

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

รูปแบบเชิงเส้นไม่ได้หมายรวมถึงโมเดลที่ใช้เพียงสมการเชิงเส้นเท่านั้นในการคาดการณ์ แต่รวมถึงชุดโมเดลที่กว้างขึ้นซึ่งใช้สมการเชิงเส้นเป็นเพียงองค์ประกอบหนึ่งของสูตรที่ใช้คาดการณ์ ตัวอย่างเช่น การถดถอยแบบโลจิสติกหลังการประมวลผลการคาดคะเนดิบ (y") เพื่อสร้างค่าการคาดการณ์สุดท้ายระหว่าง 0 ถึง 1 โดยเฉพาะ

การถดถอยเชิงเส้น

#fundamentals

โมเดลแมชชีนเลิร์นนิงประเภทหนึ่งที่มีลักษณะดังนี้

โมเดลนี้เป็นรูปแบบเชิงเส้น
การคาดคะเนจะเป็นค่าทศนิยม (นี่คือส่วนการถดถอยของการถดถอยเชิงเส้น)

คอนทราสต์การถดถอยเชิงเส้นกับการถดถอยแบบโลจิสติก รวมถึงการถดถอยคอนทราสต์กับการแยกประเภท

การถดถอยแบบโลจิสติก

#fundamentals

โมเดลการถดถอยประเภทหนึ่งที่คาดการณ์ความน่าจะเป็น โมเดลการถดถอยแบบโลจิสติกมีลักษณะดังต่อไปนี้

ป้ายกำกับเป็นหมวดหมู่ คำว่า "โลจิสติกส์" มักจะหมายถึงการถดถอยแบบโลจิสติกส์แบบไบนารี ซึ่งก็คือโมเดลที่คำนวณความน่าจะเป็นของป้ายกำกับที่มีค่าที่เป็นไปได้ 2 ค่า ตัวแปรการถดถอยแบบลอจิสติกส์แบบพหุนามตัวแปรที่พบน้อยกว่า จะคำนวณความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า
ฟังก์ชันการสูญเสียในระหว่างการฝึกคือ บันทึกสูญหาย (คุณสามารถวางหน่วยการสูญเสียบันทึกหลายหน่วยพร้อมกันสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า)
โมเดลมีสถาปัตยกรรมแบบเส้นตรง ไม่ใช่โครงข่ายประสาทแบบลึก อย่างไรก็ตาม ส่วนที่เหลือของคําจํากัดความนี้ยังใช้กับโมเดลเชิงลึกที่คาดการณ์ความน่าจะเป็นสำหรับป้ายกํากับตามหมวดหมู่ได้ด้วย

เช่น ลองพิจารณาโมเดลการถดถอยแบบโลจิสติกซึ่งคำนวณความเป็นไปได้ที่อีเมลอินพุตจะเป็นสแปมหรือไม่เป็นจดหมายขยะ ในระหว่างการอนุมาน สมมติว่าโมเดลคาดการณ์ 0.72 ดังนั้น โมเดลนี้ จึงประมาณข้อมูลต่อไปนี้

โอกาส 72% ที่อีเมลจะเป็นสแปม
มีโอกาส 28% ที่อีเมลจะไม่เป็นจดหมายขยะ

โมเดลการถดถอยแบบโลจิสติกใช้สถาปัตยกรรม 2 ขั้นตอนต่อไปนี้

โมเดลจะสร้างการคาดการณ์ดิบ (y") โดยใช้ฟังก์ชันเชิงเส้นของฟีเจอร์อินพุต
โมเดลนี้ใช้การคาดการณ์แบบข้อมูลดิบดังกล่าวเป็นอินพุตไปยังฟังก์ชันซิกมอยด์ ซึ่งจะแปลงการคาดการณ์ดิบเป็นค่าระหว่าง 0 ถึง 1 (ที่ไม่ซ้ำกัน)

โมเดลการถดถอยแบบโลจิสติกจะคาดการณ์จำนวนได้เช่นเดียวกับโมเดลการถดถอย แต่โดยปกติแล้วตัวเลขนี้จะกลายเป็นส่วนหนึ่งของโมเดลการจัดประเภทแบบไบนารี ดังนี้

หากจำนวนที่คาดการณ์มากกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสที่เป็นบวก
หากจำนวนที่คาดการณ์น้อยกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสที่เป็นลบ

บันทึกหายไป

#fundamentals

ฟังก์ชันการสูญเสียที่ใช้ในการถดถอยแบบโลจิสติกแบบไบนารี

คลิกไอคอนเพื่อดูการคำนวณ

สูตรต่อไปนี้จะคำนวณการสูญเสียบันทึก

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

โดย

$(x,y)\in D$ คือชุดข้อมูลที่มีตัวอย่างที่มีป้ายกำกับหลายรายการ ซึ่งเป็น $(x,y)$ คู่
$y$ คือป้ายกำกับในตัวอย่างที่มีป้ายกำกับ เนื่องจากนี่เป็นการถดถอยแบบโลจิสติกส์ ทุกค่าของ $y$ ต้องเป็น 0 หรือ 1
$y'$ คือค่าที่คาดการณ์ไว้ (ค่าใดค่าหนึ่งระหว่าง 0 ถึง 1 เท่านั้น) ตามชุดของฟีเจอร์ใน $x$

โอกาสในการบันทึก

#fundamentals

ลอการิทึมของความน่าจะเป็นของเหตุการณ์บางอย่าง

คลิกไอคอนเพื่อดูการคำนวณ

หากเหตุการณ์เป็นความน่าจะเป็นแบบไบนารี ความน่าจะเป็นจะหมายถึงอัตราส่วนของความน่าจะเป็นของความสําเร็จ (p) ต่อความน่าจะเป็นของความล้มเหลว (1-p) ตัวอย่างเช่น สมมติว่าเหตุการณ์หนึ่งๆ มีโอกาสที่จะสำเร็จ 90% และมีโอกาสล้มเหลว 10% ในกรณีนี้ อัตราต่อรองคำนวณดังนี้

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

ลอการิทึมของราคาดังกล่าวเป็นเพียงลอการิทึม ตามธรรมเนียม "ลอการิทึม" หมายถึงลอการิทึมธรรมชาติ แต่ลอการิทึมอาจเป็นฐานใดๆ ที่มากกว่า 1 เพื่อให้สอดคล้องกับแบบแผนข้างต้น ตัวอย่างข้างต้นจึงเป็นตัวอย่างข้างต้น

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

ฟังก์ชัน log-odds จะผกผันของฟังก์ชัน sigmoid

แพ้

#fundamentals

ในระหว่างการฝึกของโมเดลที่มีการควบคุมดูแล ระบบจะวัดว่าการคาดคะเนของโมเดลอยู่ห่างจากป้ายกำกับเท่าใด

ฟังก์ชันการสูญเสียจะคำนวณการสูญเสีย

เส้นโค้งการสูญเสีย

#fundamentals

พล็อต loss ในรูปฟังก์ชันของจำนวนการทำซ้ำการฝึก พล็อตต่อไปนี้จะแสดงเส้นโค้งของการสูญเสียโดยทั่วไป

กราฟคาร์ทีเซียนของการสูญเสียเทียบกับการทำซ้ำการฝึก แสดงการลดลงอย่างรวดเร็วของความสูญเสียสำหรับการทำซ้ำครั้งแรก ตามด้วยการลดลงทีละน้อย ตามด้วยความลาดชันคงที่ระหว่างการทำซ้ำรอบสุดท้าย

เส้นโค้งการสูญเสียช่วยให้คุณระบุเวลาที่โมเดลกำลังสนทนาหรือซ้อนทับได้

เส้นโค้งการสูญเสียสามารถพล็อตการสูญเสียทุกประเภทต่อไปนี้

การสูญเสียการฝึกอบรม
การสูญเสียการตรวจสอบ
การแพ้การทดสอบ

ดูเส้นโค้งภาพรวมด้วย

ฟังก์ชันการสูญเสีย

#fundamentals

ในระหว่างการฝึกหรือการทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่ใช้คำนวณความสูญเสียในกลุ่มของตัวอย่าง ฟังก์ชันการสูญเสียจะส่งคืนความสูญเสียต่ำกว่าสำหรับโมเดลที่ให้การคาดการณ์ที่ดีเมื่อเทียบกับโมเดลที่ทำการคาดการณ์ได้ไม่ดี

โดยทั่วไป เป้าหมายของการฝึกคือเพื่อลดการสูญเสียที่ฟังก์ชัน Loss กลับมา

มีฟังก์ชันการสูญเสียหลายรูปแบบ เลือกฟังก์ชันการสูญเสียที่เหมาะกับชนิดของโมเดลที่คุณกำลังสร้าง เช่น

L₂ Loss (หรือ Mean Squared Error) คือฟังก์ชันการสูญเสียสำหรับการถดถอยเชิงเส้น
Log Loss คือฟังก์ชันการสูญเสียสำหรับการถดถอยแบบโลจิสติกส์

M

แมชชีนเลิร์นนิง

#fundamentals

โปรแกรมหรือระบบที่ฝึกโมเดลจากข้อมูลอินพุต โมเดลที่ผ่านการฝึกจะสร้างการคาดการณ์ที่เป็นประโยชน์จากข้อมูลใหม่ (ไม่เคยเห็นมาก่อน) ที่มาจากการกระจายข้อมูลเดียวกันกับที่ใช้ฝึกโมเดล

แมชชีนเลิร์นนิงยังหมายถึงสาขาวิชาที่เกี่ยวข้องกับโปรแกรมหรือระบบเหล่านี้ด้วย

คลาสส่วนใหญ่

#fundamentals

ป้ายกำกับที่พบได้บ่อยในชุดข้อมูลที่ไม่สมดุลระดับคลาส ตัวอย่างเช่น หากชุดข้อมูลที่มีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับดังกล่าวคือคลาสส่วนใหญ่

ตรงข้ามกับชนกลุ่มน้อย

กลุ่มขนาดเล็ก

#fundamentals

ชุดย่อยขนาดเล็กที่สุ่มเลือกของกลุ่มซึ่งประมวลผลในการทำซ้ำ 1 รายการ ขนาดกลุ่มของกลุ่มเล็กๆ มักจะอยู่ระหว่าง 10 ถึง 1,000 ตัวอย่าง

เช่น สมมติว่าชุดการฝึกทั้งชุด (กลุ่มทั้งหมด) ประกอบด้วยตัวอย่าง 1,000 รายการ นอกจากนี้ สมมติว่าคุณตั้งค่าขนาดกลุ่มของแต่ละกลุ่มขนาดเล็กเป็น 20 ดังนั้น การทำซ้ำแต่ละรายการจะระบุความสูญเสียของตัวอย่าง 20 รายการจากทั้งหมด 1,000 รายการแบบสุ่ม จากนั้นจะปรับน้ำหนักและอคติตามนั้น

การคํานวณการสูญเสียในชุดย่อยจะมีประสิทธิภาพมากกว่าการขาดทุนในตัวอย่างทั้งหมดในกลุ่มที่สมบูรณ์

ชนชั้นน้อย

#fundamentals

ป้ายกำกับที่พบไม่บ่อยในชุดข้อมูลที่ไม่สมดุลระดับคลาส ตัวอย่างเช่น หากชุดข้อมูลที่มีป้ายกำกับลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงบวกคือกลุ่มชนกลุ่มน้อย

ตรงข้ามกับกลุ่มใหญ่

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

ชุดการฝึกอบรมที่มีตัวอย่างนับล้านฟังดูน่าประทับใจจริงๆ อย่างไรก็ตาม หากชนกลุ่มน้อยด้อยโอกาส แม้แต่ชุดการฝึกอบรมขนาดใหญ่มากก็อาจไม่เพียงพอ มุ่งเน้นไปที่จำนวนตัวอย่างทั้งหมดในชุดข้อมูลให้น้อยลง และเน้นไปที่จำนวนตัวอย่างในชนกลุ่มน้อย

หากชุดข้อมูลมีตัวอย่างชนกลุ่มน้อยที่เพียงพอ ให้พิจารณาใช้การดาวน์แซมปลิง (คำจำกัดความในหัวข้อย่อยที่ 2) เพื่อเสริมคลาสของชนกลุ่มน้อย

model

#fundamentals

โดยทั่วไป โครงสร้างทางคณิตศาสตร์ใดๆ ที่ประมวลผลข้อมูลอินพุตและเอาต์พุตกลับ พูดง่ายๆ ก็คือ โมเดลคือชุดของพารามิเตอร์และโครงสร้างที่จำเป็นสำหรับระบบเพื่อทำการคาดการณ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะใช้ตัวอย่างเป็นอินพุตและอนุมานการคาดคะเนเป็นเอาต์พุต ภายในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะแตกต่างไปบ้าง เช่น

โมเดลการถดถอยเชิงเส้นประกอบด้วยชุดน้ำหนักและอคติ
โมเดลโครงข่ายระบบประสาทเทียมประกอบด้วย
- ชุดของเลเยอร์ที่ซ่อนอยู่ แต่ละชั้นมีเซลล์ประสาทอย่างน้อย 1 ชั้น
- น้ำหนักและการให้น้ำหนักที่สัมพันธ์กับเซลล์ประสาทแต่ละเซลล์
โมเดลแผนผังการตัดสินใจประกอบด้วย
- รูปร่างของต้นไม้ ซึ่งก็คือรูปแบบที่มีการเชื่อมโยงเงื่อนไขและใบไม้เข้าด้วยกัน
- เงื่อนไขและออกจากสถานที่

คุณจะบันทึก กู้คืน หรือทำสำเนาของโมเดลได้

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลยังสร้างโมเดล ซึ่งโดยทั่วไปจะเป็นฟังก์ชันที่แมปตัวอย่างอินพุตกับคลัสเตอร์ที่เหมาะสมที่สุดได้

คลิกไอคอนเพื่อเปรียบเทียบฟังก์ชันพีชคณิตและการเขียนโปรแกรมกับโมเดล ML

ฟังก์ชันพีชคณิตในรายการต่อไปนี้คือโมเดล

  f(x, y) = 3x -5xy + y² + 17

ฟังก์ชันก่อนหน้านี้จะจับคู่ค่าอินพุต (x และ y) กับเอาต์พุต

ฟังก์ชันการเขียนโปรแกรมดังต่อไปนี้ก็เป็นโมเดลอย่างหนึ่งเช่นกัน

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

ตัวเรียกใช้จะส่งอาร์กิวเมนต์ไปยังฟังก์ชัน Python ก่อนหน้า และฟังก์ชัน Python จะสร้างเอาต์พุต (ผ่านคำสั่ง return)

แม้ว่าโครงข่ายประสาทแบบลึกจะมีโครงสร้างทางคณิตศาสตร์ที่ต่างจากฟังก์ชันพีชคณิตหรือการเขียนโปรแกรมอย่างมาก แต่โครงข่ายประสาทแบบลึกยังคงรับอินพุต (ตัวอย่าง) และเอาต์พุต (การคาดการณ์) อยู่

โปรแกรมเมอร์ที่เป็นมนุษย์เขียนโค้ดฟังก์ชันในการเขียนโปรแกรมด้วยตนเอง ในทางตรงกันข้าม โมเดลแมชชีนเลิร์นนิงจะค่อยๆ เรียนรู้พารามิเตอร์ที่เหมาะสมระหว่างการฝึกอัตโนมัติ

การจัดประเภทแบบหลายคลาส

#fundamentals

ในการเรียนรู้ภายใต้การควบคุมดูแล ปัญหาการแยกประเภทซึ่งชุดข้อมูลมีป้ายกำกับมากกว่า 2 คลาส ตัวอย่างเช่น ป้ายกำกับในชุดข้อมูล Iris ต้องเป็น 1 ใน 3 คลาสต่อไปนี้

ไอริสเซโตซา
ไอริสเวอร์จิเนีย
สีม่านตา

โมเดลที่ฝึกจากชุดข้อมูล Iris ที่คาดการณ์ประเภท Iris ในตัวอย่างใหม่กำลังทำการจัดประเภทแบบหลายคลาส

ในทางตรงกันข้าม ปัญหาการจัดประเภทที่แยกความแตกต่างระหว่างคลาส 2 คลาสจริงๆ คือโมเดลการจัดประเภทแบบไบนารี เช่น โมเดลอีเมลที่คาดคะเนสแปมหรือไม่ใช่สแปมคือโมเดลการจัดประเภทแบบไบนารี

ในปัญหาการจัดกลุ่ม การจัดประเภทแบบหลายคลาสหมายถึงคลัสเตอร์มากกว่า 2 คลัสเตอร์

N

คลาสเชิงลบ

#fundamentals

ในการจัดประเภทไบนารี คลาสหนึ่งเรียกว่าเชิงบวก และอีกคลาสเรียกว่าเชิงลบ คลาสเชิงบวกคือสิ่งที่โมเดลหรือเหตุการณ์ที่โมเดลกำลังทดสอบ ส่วนคลาสเชิงลบก็เป็นความเป็นไปได้อื่น เช่น

ชนิดที่ติดลบในการทดสอบทางการแพทย์อาจเป็น "ไม่ใช่เนื้องอก"
คลาสเชิงลบในตัวแยกประเภทอีเมลอาจเป็น "ไม่ใช่สแปม"

คอนทราสต์กับคลาสเชิงบวก

โครงข่ายระบบประสาทเทียม

#fundamentals

modelที่มีmodelอย่างน้อย 1 รายการ โครงข่ายประสาทแบบลึก คือโครงข่ายประสาทประเภทหนึ่งที่มีเลเยอร์ซ่อนอยู่มากกว่า 1 ชั้น ตัวอย่างเช่น แผนภาพต่อไปนี้ แสดงโครงข่ายประสาทแบบลึกที่มีเลเยอร์ซ่อนอยู่ 2 ชั้น

โครงข่ายประสาทที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

เซลล์ประสาทแต่ละเซลล์ในโครงข่ายประสาทจะเชื่อมต่อกับโหนดทั้งหมดในเลเยอร์ถัดไป ตัวอย่างเช่น ในแผนภาพก่อนหน้า ให้สังเกตว่าเซลล์ประสาทแต่ละเซลล์ในเลเยอร์ที่ซ่อนแรกจะเชื่อมต่อกับเซลล์ประสาททั้ง 2 เซลล์ของเซลล์ประสาททั้ง 2 เซลล์ในชั้นที่ 2 ที่ซ่อนอยู่แยกจากกัน

บางครั้งก็เรียกว่าโครงข่ายประสาทเทียม ซึ่งจะแยกออกจากโครงข่ายประสาทที่พบในสมองและระบบประสาทอื่นๆ

โครงข่ายประสาทบางเครือข่ายอาจเลียนแบบความสัมพันธ์แบบไม่ใช่เชิงเส้นที่ซับซ้อนมากระหว่างฟีเจอร์ต่างๆ และป้ายกำกับ

โปรดดูโครงข่ายระบบประสาทเทียมและโครงข่ายประสาทแบบเกิดซ้ำ

เซลล์ประสาท

#fundamentals

ในแมชชีนเลิร์นนิง หน่วยที่แตกต่างกันภายในเลเยอร์ที่ซ่อนอยู่ของโครงข่ายระบบประสาทเทียม เซลล์ประสาทแต่ละเซลล์จะทำงาน ใน 2 ขั้นตอนดังต่อไปนี้

จะคำนวณผลรวมถ่วงน้ำหนักของค่าที่ป้อนคูณด้วยน้ำหนักที่สัมพันธ์กัน
ส่งต่อผลรวมน้ำหนักเป็นอินพุตไปยังฟังก์ชันการเปิดใช้งาน

เซลล์ประสาทในเลเยอร์แรกที่ซ่อนอยู่จะยอมรับอินพุตจากค่าฟีเจอร์ในเลเยอร์อินพุต เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่นอกเหนือจากชั้นแรกจะรับอินพุตจากเซลล์ประสาทในชั้นที่ซ่อนอยู่ที่อยู่ก่อนหน้า เช่น เซลล์ประสาทในชั้นที่ 2 ที่ซ่อนอยู่จะยอมรับอินพุตจากเซลล์ประสาทในชั้นแรกที่ซ่อนอยู่

ภาพต่อไปนี้จะไฮไลต์เซลล์ประสาทสองเซลล์และข้อมูลของเซลล์เหล่านั้น

โครงข่ายประสาทที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต มีการไฮไลต์เซลล์ประสาท 2 เซลล์ โดยเซลล์แรกอยู่ในเลเยอร์ที่ซ่อนอยู่ชั้นแรกและอีกเซลล์หนึ่งในเลเยอร์ที่ซ่อนอยู่ลำดับที่ 2 เซลล์ประสาทที่ไฮไลต์
ในเลเยอร์แรกที่ซ่อนอยู่จะได้รับอินพุตจากฟีเจอร์ทั้ง 2
ในเลเยอร์อินพุต เซลล์ประสาทที่ไฮไลต์ในเลเยอร์ที่สองที่ซ่อนอยู่จะได้รับอินพุตจากเซลล์ประสาททั้ง 3 เซลล์ในเลเยอร์ที่ซ่อนแรก

เซลล์ประสาทในโครงข่ายประสาทจะเลียนแบบพฤติกรรมของเซลล์ประสาทในสมองและส่วนอื่นๆ ของระบบประสาท

โหนด (โครงข่ายระบบประสาทเทียม)

#fundamentals

เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่

ไม่เป็นเชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่ไม่สามารถนำเสนอผ่านการเพิ่มและการคูณเพียงอย่างเดียวได้ ความสัมพันธ์แบบเชิงเส้นอาจแสดงเป็นเส้น ความสัมพันธ์แบบไม่ใช่เชิงเส้นจะแสดงแบบเส้นไม่ได้ เช่น ลองพิจารณาโมเดล 2 รูปแบบที่แต่ละโมเดล เชื่อมโยงฟีเจอร์เดียวกับป้ายกำกับป้ายเดียว โมเดลด้านซ้ายเป็นเชิงเส้น และโมเดลด้านขวาไม่ใช่แบบเชิงเส้น

สองแปลง พล็อตหนึ่งคือเส้น จึงเป็นความสัมพันธ์เชิงเส้น
อีกพล็อตเป็นเส้นโค้ง จึงเป็นความสัมพันธ์แบบไม่ใช่เชิงเส้น

ความไม่คงที่

#fundamentals

ฟีเจอร์ที่มีค่าเปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งโดยปกติจะเป็นเวลา ตัวอย่างเช่น ลองพิจารณาตัวแสดงค่าที่ไม่คงที่ดังต่อไปนี้

จํานวนชุดว่ายน้ำที่ขายในร้านค้าหนึ่งๆ จะแตกต่างกันไปตามฤดูกาล
ผลไม้ชนิดหนึ่งที่เก็บในภูมิภาคหนึ่งๆ จะมีปริมาณเป็น 0 ในช่วงเวลาส่วนใหญ่ของปี แต่จะสูงเป็นระยะเวลาสั้นๆ
เนื่องจากการเปลี่ยนแปลงสภาพภูมิอากาศ ทำให้อุณหภูมิเฉลี่ยต่อปีมีการเปลี่ยนแปลง

คอนทราสต์กับความคงที่

การปรับให้เป็นมาตรฐาน

#fundamentals

กล่าวกว้างๆ ก็คือขั้นตอนการแปลงช่วงค่าจริงของตัวแปรให้อยู่ในช่วงค่ามาตรฐาน เช่น

-1 ถึง +1
0 ถึง 1
การกระจายปกติ

ตัวอย่างเช่น สมมติว่าช่วงจริงของค่าฟีเจอร์หนึ่งคือ 800 ถึง 2,400 ในวิศวกรรมฟีเจอร์ คุณสามารถปรับค่าจริงให้อยู่ในระดับมาตรฐานได้ เช่น -1 ถึง +1

การปรับให้สอดคล้องตามมาตรฐานเป็นงานทั่วไปในวิศวกรรมฟีเจอร์ โมเดลมักจะฝึกได้เร็วขึ้น (และคาดการณ์ได้ดีกว่า) เมื่อฟีเจอร์ตัวเลขทั้งหมดใน เวกเตอร์ฟีเจอร์ มีช่วงใกล้เคียงกัน

ข้อมูลตัวเลข

#fundamentals

ฟีเจอร์ซึ่งแสดงเป็นจำนวนเต็มหรือจำนวนจริง เช่น รูปแบบการตีราคาบ้านอาจแสดงขนาดบ้าน (เป็นตารางฟุตหรือตารางเมตร) เป็นข้อมูลตัวเลข การนำเสนอฟีเจอร์เป็นข้อมูลตัวเลขซึ่งบ่งบอกว่าค่าของฟีเจอร์มีความสัมพันธ์ทางคณิตศาสตร์กับป้ายกำกับ กล่าวคือ จำนวนตารางเมตรในบ้านน่าจะมีความสัมพันธ์ทางคณิตศาสตร์บางอย่างกับมูลค่าของบ้าน

ข้อมูลจำนวนเต็มบางรายการไม่ควรแสดงเป็นข้อมูลตัวเลข ตัวอย่างเช่น รหัสไปรษณีย์ในบางพื้นที่ของโลกเป็นจำนวนเต็ม อย่างไรก็ตาม รหัสไปรษณีย์ไม่ควรแสดงเป็นข้อมูลตัวเลขในโมเดล เนื่องจากรหัสไปรษณีย์ของ 20000 ไม่ใช่ 2 (หรือครึ่งหนึ่ง) ที่เทียบเท่ากับรหัสไปรษณีย์ 10000 นอกจากนี้ แม้ว่ารหัสไปรษณีย์ต่างๆ จะมีความเกี่ยวข้องกับมูลค่าอสังหาริมทรัพย์ที่ต่างกัน แต่เราก็ไม่สามารถสรุปได้ว่ามูลค่าอสังหาริมทรัพย์ตามรหัสไปรษณีย์ 20000 มีมูลค่าเป็น 2 เท่าของมูลค่าอสังหาริมทรัพย์ที่รหัสไปรษณีย์ 10000 รหัสไปรษณีย์ควรแสดงเป็นข้อมูลตามหมวดหมู่แทน

บางครั้งเราเรียกฟีเจอร์ที่เป็นตัวเลขว่าฟีเจอร์แบบต่อเนื่อง

O

ออฟไลน์

#fundamentals

คำพ้องของ static

การอนุมานแบบออฟไลน์

#fundamentals

กระบวนการของโมเดลที่สร้างการคาดการณ์ชุดหนึ่ง แล้วแคช (บันทึก) การคาดการณ์เหล่านั้น จากนั้นแอปจะเข้าถึงการคาดการณ์ที่ต้องการจากแคชแทนการเรียกใช้โมเดลอีกครั้ง

ตัวอย่างเช่น ลองพิจารณาโมเดลที่สร้างการพยากรณ์อากาศในท้องถิ่น (การพยากรณ์อากาศ) 1 ครั้งในทุกๆ 4 ชั่วโมง หลังจากแต่ละโมเดลทำงานแล้ว ระบบจะแคชข้อมูลการพยากรณ์อากาศท้องถิ่นทั้งหมด แอปสภาพอากาศจะเรียกพยากรณ์อากาศ จากแคช

การอนุมานแบบออฟไลน์เรียกอีกอย่างว่าการอนุมานแบบคงที่

คอนทราสต์กับการอนุมานออนไลน์

การเข้ารหัสแบบ One-hot

#fundamentals

แสดงข้อมูลเชิงหมวดหมู่เป็นเวกเตอร์ที่

องค์ประกอบ 1 รายการได้รับการตั้งค่าเป็น 1
องค์ประกอบอื่นๆ ทั้งหมดจะกำหนดไว้เป็น 0

การเข้ารหัสแบบ One-Hot นั้นมักใช้กันเพื่อแสดงถึงสตริงหรือตัวระบุที่มีชุดค่าที่เป็นไปได้ที่แน่นอน ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ Scandinavia มีค่าที่เป็นไปได้ 5 ค่า ดังนี้

"เดนมาร์ก"
"สวีเดน"
"นอร์เวย์"
"ฟินแลนด์"
"ไอซ์แลนด์"

การเข้ารหัสแบบ Hot-Hot สามารถแสดงแต่ละค่าในห้าค่าดังต่อไปนี้:

country	เวกเตอร์
"เดนมาร์ก"	1	0	0	0	0
"สวีเดน"	0	1	0	0	0
"นอร์เวย์"	0	0	1	0	0
"ฟินแลนด์"	0	0	0	1	0
"ไอซ์แลนด์"	0	0	0	0	1

การเข้ารหัสแบบ Hot-Hot ช่วยให้โมเดลเรียนรู้การเชื่อมต่อที่แตกต่างกันตามแต่ละประเทศ 5 ประเทศได้

การแสดงฟีเจอร์เป็น ข้อมูลตัวเลข เป็นอีกทางเลือกหนึ่งของการเข้ารหัสแบบ 1-Hot แต่การแทนประเทศสแกนดิเนเวียด้วยตัวเลขไม่ใช่ตัวเลือกที่ดี ตัวอย่างเช่น ลองพิจารณาการนำเสนอด้วยตัวเลขต่อไปนี้

"เดนมาร์ก" คือ 0
"สวีเดน" คือ 1
"นอร์เวย์" คือ 2
"ฟินแลนด์" คือ 3
"ไอซ์แลนด์" คือ 4

ด้วยการเข้ารหัสตัวเลข โมเดลจะตีความตัวเลขดิบทางคณิตศาสตร์ และจะพยายามฝึกกับตัวเลขเหล่านั้น แต่ประเทศไอซ์แลนด์ไม่ได้มากกว่านอร์เวย์ 2 เท่า (หรือครึ่งหนึ่ง) เลยทำให้ได้ข้อสรุปที่แปลกๆ

หนึ่งต่อทั้งหมด

#fundamentals

จากปัญหาการจัดประเภทของคลาส N คำตอบจะประกอบด้วยตัวแยกประเภทแบบไบนารีแยกกัน N รายการ ซึ่งเป็นตัวแยกประเภทไบนารีสำหรับผลลัพธ์ที่เป็นไปได้แต่ละรายการ ตัวอย่างเช่น สำหรับโมเดลที่จำแนกตัวอย่างเป็นสัตว์ ผัก หรือแร่ โซลูชันแบบหนึ่งเทียบกับทั้งหมดจะให้ตัวแยกประเภทแบบไบนารีที่แยกกัน 3 รายการต่อไปนี้

สัตว์กับไม่ใช่สัตว์
ผักกับไม่ใช่ผัก
Mineral เทียบกับ ไม่ใช่แร่

ออนไลน์

#fundamentals

คำพ้องความหมายสำหรับ dynamic

การอนุมานออนไลน์

#fundamentals

สร้างการคาดการณ์ตามคำขอ ตัวอย่างเช่น สมมติว่าแอปส่งอินพุตไปยังโมเดลและออกคำขอสำหรับการคาดการณ์ ระบบที่ใช้การอนุมานออนไลน์จะตอบสนองต่อคำขอโดยเรียกใช้โมเดล (และแสดงผลการคาดการณ์ไปยังแอป)

คอนทราสต์กับการอนุมานแบบออฟไลน์

เลเยอร์เอาต์พุต

#fundamentals

ชั้น "สุดท้าย" ของโครงข่ายประสาท เลเยอร์เอาต์พุตมีการคาดการณ์

ภาพต่อไปนี้แสดงโครงข่ายประสาทแบบลึกขนาดเล็กที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

Overfitting

#fundamentals

การสร้างmodelที่ตรงกับmodelให้ใกล้เคียงมากจนทำให้โมเดลคาดการณ์ข้อมูลใหม่ไม่ถูกต้อง

การปรับให้สม่ำเสมอช่วยลดการปรับให้มากเกินไปได้ การฝึกอบรมในชุดการฝึกอบรมที่มีขนาดใหญ่และหลากหลายยังสามารถลดการออกกำลังกายมากเกินไปได้

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

การตั้งค่ามากเกินไปก็เหมือนการปฏิบัติตามคำแนะนำจากครูคนโปรดอย่างเคร่งครัด คุณอาจจะประสบความสำเร็จในชั้นเรียนของครูนั้น แต่คุณอาจ "แย่กว่า" ความคิดของครูคนนั้น และอาจไม่ประสบความสำเร็จในวิชาอื่นๆ การปฏิบัติตามคำแนะนำจากครูหลายคนจะช่วยให้คุณปรับตัวเข้ากับสถานการณ์ใหม่ๆ ได้ดีขึ้น

คะแนน

แพนด้า

#fundamentals

API การวิเคราะห์ข้อมูลแบบคอลัมน์ซึ่งสร้างขึ้นจาก numpy เฟรมเวิร์กแมชชีนเลิร์นนิงจำนวนมาก รวมถึง TensorFlow รองรับโครงสร้างข้อมูลแพนด้าเป็นอินพุต ดูรายละเอียดได้ที่ เอกสารประกอบเกี่ยวกับ Pandas

พารามิเตอร์

#fundamentals

น้ำหนักและอคติที่โมเดลเรียนรู้ระหว่างการฝึก ตัวอย่างเช่น ในรูปแบบการถดถอยเชิงเส้น พารามิเตอร์ประกอบด้วยการให้น้ำหนักพิเศษ (b) และน้ำหนักทั้งหมด (w₁, w₂ และอื่นๆ) ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในทางตรงกันข้าม hyperparameter คือค่าที่ คุณ (หรือบริการเปลี่ยนไฮเปอร์พารามิเตอร์) จัดหาให้กับโมเดล เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์

คลาสเชิงบวก

#fundamentals

ชั้นเรียนที่คุณจะทดสอบ

ตัวอย่างเช่น คลาสเชิงบวกในโมเดลมะเร็งอาจเป็น "เนื้องอก" คลาสเชิงบวกในตัวแยกประเภทอีเมลอาจเป็น "สแปม"

คอนทราสต์กับคลาสเชิงลบ

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คำว่าคลาสเชิงบวกอาจทำให้สับสนได้ เนื่องจากผลลัพธ์ "เชิงบวก" ของการทดสอบหลายรายการมักเป็นผลลัพธ์ที่ไม่พึงประสงค์ ตัวอย่างเช่น คลาสเชิงบวกในการทดสอบทางการแพทย์ จำนวนมากจะเกี่ยวข้องกับเนื้องอกหรือโรคต่างๆ ปกติแล้ว คุณอยากให้คุณหมอมาบอกคุณว่า "ยินดีด้วย ผลการทดสอบของคุณเป็นลบ" อย่างไรก็ตาม คลาสเชิงบวกก็คือเหตุการณ์ที่การทดสอบกำลังมองหา

เป็นที่ยอมรับว่าคุณกำลังทดสอบทั้งคลาสเชิงบวกและเชิงลบ

หลังการประมวลผล

#fairness

#fundamentals

การปรับเอาต์พุตของโมเดลหลังจากที่เรียกใช้โมเดลแล้ว คุณอาจใช้กระบวนการหลังการประมวลผลในการบังคับใช้ข้อจำกัดเกี่ยวกับความเป็นธรรมโดยไม่ต้องปรับเปลี่ยนโมเดลด้วยตนเอง

เช่น รายการหนึ่งอาจใช้หลังการประมวลผลกับตัวแยกประเภทแบบไบนารีโดยการตั้งค่าเกณฑ์การจัดประเภทเพื่อให้แอตทริบิวต์บางรายการคงความเท่ากันของโอกาสไว้ โดยตรวจสอบว่าอัตราผลบวกจริงเหมือนกันสำหรับค่าทั้งหมดของแอตทริบิวต์นั้น

การคาดการณ์

#fundamentals

เอาต์พุตของโมเดล เช่น

การคาดการณ์ของโมเดลการจัดประเภทแบบไบนารีอาจเป็นคลาสบวกหรือคลาสเชิงลบ
การคาดการณ์ของโมเดลการจัดประเภทแบบหลายคลาสเป็น 1 คลาส
การคาดการณ์ของโมเดลการถดถอยเชิงเส้นเป็นตัวเลข

ป้ายกำกับพร็อกซี

#fundamentals

ข้อมูลที่ใช้ประมาณป้ายกำกับที่ไม่มีอยู่ในชุดข้อมูลโดยตรง

เช่น สมมติว่าคุณต้องฝึกโมเดลให้คาดการณ์ระดับความเครียดของพนักงาน ชุดข้อมูลมีฟีเจอร์การคาดการณ์จำนวนมาก แต่ไม่มีป้ายกำกับชื่อระดับความเครียด ไม่ต้องกังวล คุณจึงเลือก "อุบัติเหตุในที่ทำงาน" เป็นป้ายกำกับพร็อกซีสำหรับระดับความเครียด เพราะสุดท้ายแล้ว พนักงานที่อยู่ในช่วงที่มีความเครียดสูง ประสบกับอุบัติเหตุมากกว่าพนักงานที่สงบสุข หรือว่า อุบัติเหตุในที่ทำงาน อาจขึ้นๆ ลงๆ ได้จากหลายสาเหตุ

ตัวอย่างเช่น สมมติว่าคุณต้องการให้ฝนตกไหมเป็นป้ายกำกับบูลีนสำหรับชุดข้อมูล แต่ชุดข้อมูลไม่มีข้อมูลฝน กรณีที่มีถ่ายภาพได้ คุณอาจสร้างภาพคน ถือร่มเป็นป้ายชื่อพร็อกซีว่า ฝนตกไหม เป็นป้ายกำกับพร็อกซีที่ดีไหม หรืออาจจะ แต่ผู้คนในบางวัฒนธรรม มีแนวโน้มที่จะพกร่มเพื่อป้องกันแสงแดดมากกว่าฝน

ป้ายกำกับพร็อกซีมักจะไม่สมบูรณ์ เมื่อเป็นไปได้ ให้เลือกป้ายกำกับจริง แทนป้ายกำกับพร็อกซี อย่างไรก็ตาม เมื่อไม่มีป้ายกำกับจริง ให้เลือกป้ายกำกับพร็อกซีอย่างระมัดระวัง โดยเลือกใช้ป้ายกำกับพร็อกซีที่ไม่เหมาะสมน้อยที่สุด

R

ผู้ตรวจสอบ

#fundamentals

บุคคลที่ให้ป้ายกำกับสำหรับตัวอย่าง "ผู้กำกับเนื้อหา" เป็นอีกชื่อหนึ่งของผู้ประเมิน

หน่วยเชิงเส้นตรง (ReLU)

#fundamentals

ฟังก์ชันการเปิดใช้งานที่มีลักษณะการทำงานต่อไปนี้

หากอินพุตเป็นลบหรือ 0 เอาต์พุตจะเป็น 0
หากอินพุตเป็นบวก เอาต์พุตจะเท่ากับอินพุต

เช่น

หากอินพุตเป็น -3 เอาต์พุตจะเป็น 0
หากอินพุตเป็น +3 เอาต์พุตจะเป็น 3.0

พล็อตเรื่อง ReLU มีดังนี้

ReLU เป็นฟังก์ชันเปิดใช้งานที่ได้รับความนิยมอย่างมาก แม้จะมีลักษณะการทำงานที่ไม่ซับซ้อน แต่ ReLU ก็ยังคงช่วยให้โครงข่ายประสาทเรียนรู้ความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างฟีเจอร์และป้ายกำกับได้

โมเดลการถดถอย

#fundamentals

แบบไม่เป็นทางการ เป็นโมเดลที่สร้างการคาดการณ์เชิงตัวเลข (ในทางตรงกันข้าม โมเดลการจัดประเภทจะสร้างการคาดการณ์คลาส) ตัวอย่างต่อไปนี้คือโมเดลการถดถอยทั้งหมด

โมเดลที่คาดการณ์มูลค่าของบ้านบางหลัง เช่น 423,000 ยูโร
โมเดลที่คาดการณ์อายุการใช้งานของต้นไม้ต้นหนึ่ง เช่น 23.2 ปี
โมเดลที่คาดการณ์ปริมาณฝนที่จะตกในบางเมืองในช่วง 6 ชั่วโมงข้างหน้า เช่น 0.18 นิ้ว

รูปแบบการถดถอยที่พบบ่อยมี 2 ประเภท ได้แก่

การถดถอยเชิงเส้น ซึ่งจะค้นหาบรรทัดที่เหมาะกับค่าของป้ายกำกับกับฟีเจอร์ต่างๆ มากที่สุด
การถดถอยแบบโลจิสติกส์ ซึ่งสร้างความน่าจะเป็นระหว่าง 0.0 ถึง 1.0 ที่ระบบมักจะแมปกับการคาดคะเนคลาส

ไม่ใช่ทุกโมเดลที่แสดงการคาดการณ์เชิงตัวเลขที่เป็นรูปแบบการถดถอย ในบางกรณี การคาดการณ์แบบตัวเลขเป็นเพียงโมเดลการจัดประเภทที่มีชื่อคลาสเป็นตัวเลข เช่น โมเดลที่คาดการณ์รหัสไปรษณีย์ที่เป็นตัวเลขคือโมเดลการจัดประเภท ไม่ใช่โมเดลการถดถอย

Regularization

#fundamentals

กลไกที่ลดการปรับให้พอดี ประเภทรูปแบบที่นิยมใช้กัน ได้แก่

การกำหนดกฎ L₁
การกำหนดกฎ L₂
การกำหนดรูปแบบดรอปเอาต์
การหยุดก่อนกำหนด (นี่ไม่ใช่วิธีการกำหนดรูปแบบเป็นทางการ แต่สามารถจำกัดการปรับมากเกินไปได้อย่างมีประสิทธิภาพ)

การปรับให้เป็นปกติอาจเป็นบทลงโทษสำหรับความซับซ้อนของโมเดล

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

การกำหนดมาตรฐานเป็นเรื่องที่ขัดกัน การปรับให้สม่ำเสมอมัก เพิ่มการสูญเสียการฝึก ซึ่งน่าสับสนเพราะไม่ใช่เป้าหมายที่จะลดการสูญเสียการฝึกใช่ไหม

ไม่จริง เป้าหมายไม่ใช่การลดการสูญเสียการฝึกให้เหลือน้อยที่สุด โดยมีเป้าหมายเพื่อคาดการณ์ตัวอย่างจากการใช้งานจริงได้อย่างดีเยี่ยม เห็นได้ชัดว่าแม้ว่าการปรับอยู่เป็นประจำจะทำให้สูญเสียการฝึกมากขึ้น แต่ก็มักจะช่วยให้โมเดลสามารถคาดการณ์ตัวอย่างจากสถานการณ์จริงได้ดีขึ้น

อัตราการปรับให้เป็นมาตรฐาน

#fundamentals

ตัวเลขที่ระบุความสำคัญเชิงสัมพัทธ์ของรูปแบบการจัดสรรในระหว่างการฝึก การเพิ่มอัตราการปรับรูปแบบสม่ำเสมอจะลดการปรับให้เหมาะสมแต่อาจลดประสิทธิภาพการคาดการณ์ของโมเดล ในทางกลับกัน การลดหรือละเว้นอัตราการปรับเป็นประจำจะเพิ่มมากเกินไป

คลิกไอคอนเพื่อดูการคำนวณ

อัตราการกำหนดมาตรฐานนี้จะแสดงเป็นตัวอักษรกรีก lambda สมการ loss แบบง่ายๆ ต่อไปนี้แสดงอิทธิพลของแลมบ์ดา

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

โดยที่ regularization คือกลไกการกำหนดกฎ ซึ่งรวมถึง

การกำหนดกฎ L₁
การกำหนดกฎ L₂

ReLU

#fundamentals

ตัวย่อของหน่วยเชิงเส้นแบบปรับเป็นหน่วย

รุ่น Augmented Reality สำหรับการดึงข้อมูล

#fundamentals

สถาปัตยกรรมซอฟต์แวร์ที่ใช้กันโดยทั่วไปในแอปพลิเคชันโมเดลภาษาขนาดใหญ่ (LLM) แรงจูงใจทั่วไปในการใช้การสร้างการดึงข้อมูลเพิ่มเติม ได้แก่

การเพิ่มความถูกต้องของข้อเท็จจริงของคำตอบที่สร้างขึ้นของโมเดล
การให้สิทธิ์เข้าถึงความรู้ที่โมเดลไม่ได้รับการฝึกอบรม
เปลี่ยนความรู้ที่โมเดลใช้
ทำให้โมเดลสามารถอ้างอิงแหล่งที่มาได้

เช่น สมมติว่าแอปวิชาเคมีใช้ PaLM API เพื่อสร้างสรุปเกี่ยวกับ ข้อความค้นหาของผู้ใช้ เมื่อแบ็กเอนด์ของแอปได้รับคำค้นหา ระบบแบ็กเอนด์จะค้นหาข้อมูล ("การดึงข้อมูล") ที่เกี่ยวข้องกับคำค้นหาของผู้ใช้ก่อน จากนั้นจึงเติม ("เสริม") ข้อมูลเคมีที่เกี่ยวข้องไปกับคำค้นหาของผู้ใช้ และสั่งให้ LLM สร้างสรุปตามข้อมูลต่อท้าย

เส้นโค้ง ROC (องค์ประกอบการทำงานในฝั่งผู้รับ)

#fundamentals

กราฟของอัตราผลบวกจริงกับอัตราผลบวกลวงสำหรับเกณฑ์การจัดประเภทที่แตกต่างกันในการจัดประเภทไบนารี

รูปร่างของเส้นโค้ง ROC แสดงถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสบวกออกจากคลาสเชิงลบ ตัวอย่างเช่น สมมติว่าโมเดลการจัดประเภทแบบไบนารีแยกคลาสเชิงลบทั้งหมดออกจากคลาสเชิงบวกทั้งหมดอย่างลงตัว

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 8 รายการทางด้านขวาและตัวอย่างเชิงลบ 7 รายการทางด้านซ้าย

เส้นโค้ง ROC สำหรับรูปแบบก่อนหน้าจะมีลักษณะดังนี้

เส้นโค้ง ROC แกน x คืออัตราผลบวกเท็จและแกน y คืออัตราผลบวกจริง เส้นโค้งมีรูปตัว L กลับหัว เส้นโค้งเริ่มต้นที่ (0.0,0.0) และตรงขึ้นไปที่ (0.0,1.0) จากนั้นเส้นโค้งเริ่มจาก (0.0,1.0) ไปยัง (1.0,1.0)

ในทางตรงกันข้าม ภาพประกอบต่อไปนี้จะแสดงกราฟค่าการถดถอยแบบโลจิสติกที่เป็นข้อมูลดิบสำหรับโมเดลที่แย่มากซึ่งไม่สามารถแยกคลาสเชิงลบออกจากคลาสเชิงบวกได้เลย

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวกและคลาสเชิงลบ
รวมกันอยู่อย่างสมบูรณ์

เส้นโค้ง ROC สำหรับโมเดลนี้มีลักษณะดังนี้

เส้นโค้ง ROC ซึ่งเป็นเส้นตรงตั้งแต่ (0.0,0.0) ถึง (1.0,1.0)

ในขณะเดียวกัน ในโลกแห่งความเป็นจริง โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยกคลาสบวกและเชิงลบในระดับหนึ่ง แต่ก็มักจะไม่ได้สมบูรณ์แบบ ดังนั้น เส้นโค้ง ROC โดยทั่วไปจะอยู่ระหว่างด้านสุดโต่ง 2 ด้าน ดังนี้

เส้นโค้ง ROC แกน x คืออัตราผลบวกเท็จและแกน y คืออัตราผลบวกจริง เส้นโค้ง ROC จะประมาณเส้นโค้งที่สั่นไหวไปตามจุดเข็มทิศจากทิศตะวันตกไปยังทิศเหนือ

ตามหลักแล้ว จุดบนเส้นโค้ง ROC ที่ใกล้เคียงที่สุด (0.0,1.0) จะระบุเกณฑ์การจัดประเภทที่เหมาะสม อย่างไรก็ตาม ปัญหาอื่นๆ มากมายในโลกนี้ มีอิทธิพลต่อการเลือกเกณฑ์การจัดประเภทที่เหมาะสม เช่น ผลลบลวง อาจทำให้รู้สึกเจ็บปวดมากกว่าผลบวกลวง

เมตริกตัวเลขที่ชื่อ AUC จะสรุปเส้นโค้ง ROC เป็นค่าจุดลอยตัวค่าเดียว

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)

#fundamentals

รากที่สองของ ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง

S

ฟังก์ชันซิกมอยด์

#fundamentals

ฟังก์ชันทางคณิตศาสตร์ที่ "บีบ" ค่าอินพุตให้อยู่ในช่วงที่มีการจำกัด ซึ่งโดยทั่วไปคือ 0 ถึง 1 หรือ -1 ถึง +1 นั่นคือ คุณสามารถส่งจำนวนใดก็ได้ (2,1,000,000,000,000 หรืออะไรก็ได้) ไปยัง sigmoid และเอาต์พุตจะยังคงอยู่ในช่วงที่จำกัด พล็อตของฟังก์ชันการเปิดใช้งานซิกมอยด์มีลักษณะดังต่อไปนี้

ฟังก์ชัน Sigmoid มีประโยชน์หลายอย่างในแมชชีนเลิร์นนิง ซึ่งรวมถึง

การแปลงเอาต์พุตข้อมูลดิบของโมเดลการถดถอยแบบโลจิสติกหรือโมเดลการถดถอยพหุนามเป็นความน่าจะเป็น
ทำหน้าที่เป็นฟังก์ชันเปิดใช้งานในโครงข่ายระบบประสาทเทียมบางเครือข่าย

คลิกไอคอนเพื่อดูการคำนวณ

ฟังก์ชัน sigmoid ที่อยู่เหนือหมายเลขอินพุต x มีสูตรดังนี้

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

ในแมชชีนเลิร์นนิง โดยทั่วไปแล้ว x คือผลรวมถ่วงน้ำหนัก

Softmax

#fundamentals

ฟังก์ชันที่กำหนดความน่าจะเป็นสำหรับคลาสที่เป็นไปได้แต่ละคลาสในโมเดลการจัดประเภทแบบหลายคลาส ความน่าจะเป็นรวมกัน เป็น 1.0 พอดี ตัวอย่างเช่น ตารางต่อไปนี้แสดงให้เห็นว่า Softmax กระจายความน่าจะเป็นต่างๆ อย่างไร

รูปภาพคือ...	ความน่าจะเป็น
สุนัข	.85
cat	.13
ม้า	0.02

Softmax เรียกอีกอย่างว่า Full softmax

ตรงข้ามกับการนำข้อความตัวอย่างไปใช้

คลิกไอคอนเพื่อดูการคำนวณ

สมการ Soft Max มีดังนี้

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

โดย

$\sigma_i$ เป็นเวกเตอร์เอาต์พุต แต่ละองค์ประกอบของเวกเตอร์เอาต์พุต จะระบุความน่าจะเป็นขององค์ประกอบนี้ ผลรวมขององค์ประกอบทั้งหมดในเวกเตอร์เอาต์พุต คือ 1.0 เวกเตอร์เอาต์พุตจะมีจำนวนองค์ประกอบ เท่ากับเวกเตอร์อินพุต $z$
$z$ คือเวกเตอร์อินพุต แต่ละองค์ประกอบของเวกเตอร์อินพุต จะมีค่าจุดลอยตัว
$K$ คือจำนวนองค์ประกอบในเวกเตอร์อินพุต (และเวกเตอร์เอาต์พุต)

ตัวอย่างเช่น สมมติว่าเวกเตอร์อินพุตคือ

[1.2, 2.5, 1.8]

ดังนั้น Softmax จะคำนวณตัวส่วนดังนี้

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

ดังนั้นความน่าจะเป็นของ Soft Max ของแต่ละองค์ประกอบจึงเป็น

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

ดังนั้น เวกเตอร์เอาต์พุตจะเป็นดังนี้

$$\sigma = [0.154, 0.565, 0.281]$$

ผลรวมขององค์ประกอบทั้ง 3 ใน $\sigma$ คือ 1.0 ในที่สุด

ฟีเจอร์แบบกระจัดกระจาย

#language

#fundamentals

ฟีเจอร์ที่มีค่าเป็น 0 หรือว่างเปล่าเป็นหลัก เช่น ฟีเจอร์ที่มีค่า 1 ค่าเดียวแต่มีค่าเป็น 0 ล้านค่าจะมีจำนวนน้อย แต่ในทางตรงกันข้าม ฟีเจอร์แบบหนาแน่นจะมีค่าที่โดยส่วนใหญ่แล้วไม่เท่ากับ 0 หรือว่างเปล่า

ในแมชชีนเลิร์นนิง จำนวนฟีเจอร์ที่ไม่น่าประหลาดใจคือฟีเจอร์ที่มีน้อย ฟีเจอร์ตามหมวดหมู่มักเป็นฟีเจอร์ที่มีน้อย เช่น จากต้นไม้ 300 ชนิดที่เป็นไปได้ในป่า ตัวอย่างหนึ่งอาจระบุเพียงต้นเมเปิลก็ได้ หรือวิดีโอที่เป็นไปได้นับล้านในคลังวิดีโอ ตัวอย่างเดียวอาจหมายถึง "คาซาบลังกา"

ในโมเดล โดยปกติแล้วคุณจะแสดงฟีเจอร์แบบเบาบางโดยใช้การเข้ารหัสแบบ One-Hot หากการเข้ารหัสแบบคลิกเดียวมีขนาดใหญ่ คุณอาจวางเลเยอร์การฝังไว้ที่ด้านบนของการเข้ารหัสแบบ One-Hot เพื่อเพิ่มประสิทธิภาพ

การเป็นตัวแทนบางส่วน

#language

#fundamentals

การจัดเก็บเฉพาะตำแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์แบบกระจัดกระจาย

ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ species ระบุพันธุ์ไม้ 36 ชนิดในป่าแห่งใดแห่งหนึ่ง สมมติต่อไปว่าตัวอย่างแต่ละรายการระบุสายพันธุ์เพียงสายพันธุ์เดียว

คุณสามารถใช้เวกเตอร์หนึ่งที่น่าสนใจเพื่อแสดงถึงสปีชีส์ของต้นไม้ในแต่ละตัวอย่าง เวกเตอร์ 1 รายการจะมี 1 เดี่ยว (เพื่อแทนต้นไม้สายพันธุ์ที่เฉพาะเจาะจงในตัวอย่างนั้น) และ 35 0 (เพื่อแสดงถึงประเภทต้นไม้ 35 ชนิดที่ไม่ใช่ในตัวอย่างนั้น) ดังนั้น การแสดงค่าเดี่ยวของ maple อาจมีลักษณะดังนี้

เวกเตอร์ที่ตำแหน่ง 0 ถึง 23 มีค่าเป็น 0, ตำแหน่งที่ 24 มีค่า 1 และตำแหน่งที่ 25 ถึง 35 มีค่าเป็น 0

หรือการแสดงข้อมูลแบบกระจัดกระจายอาจเพียงแค่ระบุตำแหน่งของสิ่งมีชีวิตชนิดใดชนิดหนึ่ง หาก maple อยู่ที่ตำแหน่ง 24 การแสดงที่เบาบางของ maple จะเป็นเพียง

โปรดสังเกตว่าการแสดงแบบกระทัดรัดจะกะทัดรัดมากกว่าการนำเสนอแบบแสดงครั้งเดียวมาก

คลิกไอคอนสำหรับตัวอย่างที่ซับซ้อนขึ้นเล็กน้อย

สมมติว่าแต่ละตัวอย่างในรูปแบบของคุณต้องแสดงแทนคำในประโยคภาษาอังกฤษ ไม่ใช่ลำดับของคำเหล่านั้น ภาษาอังกฤษประกอบด้วยคำประมาณ 170,000 คำ ดังนั้นภาษาอังกฤษจึงเป็นฟีเจอร์เชิงหมวดหมู่ที่มีองค์ประกอบประมาณ 170,000 องค์ประกอบ ประโยคภาษาอังกฤษส่วนใหญ่ใช้เพียงเศษส่วนน้อยมากจาก 170,000 คำนั้น ดังนั้นชุดของคำในตัวอย่างเดียวจึงแทบจะเป็นข้อมูลที่กระจัดกระจายไปเลย

ลองพิจารณาประโยคต่อไปนี้

My dog is a great dog

คุณสามารถใช้รูปแบบของเวกเตอร์ที่นิยมครั้งเดียวเพื่อแสดงคำในประโยคนี้ได้ ในตัวแปรนี้ หลายเซลล์ในเวกเตอร์อาจมีค่าที่ไม่ใช่ 0 นอกจากนี้ ในตัวแปรนี้ เซลล์อาจมีจำนวนเต็มมากกว่าหนึ่งรายการ แม้ว่าคำว่า "ของฉัน", "คือ", "a" และ "ดีเลิศ" จะปรากฏเพียงหนึ่งครั้งในประโยคนี้ แต่คำว่า "สุนัข" จะปรากฏ 2 ครั้ง การใช้ตัวแปรของเวกเตอร์ที่นิยมหนึ่งครั้งนี้เพื่อแทนคำในประโยคนี้จะได้เวกเตอร์องค์ประกอบ 170,000 องค์ประกอบดังต่อไปนี้

บางส่วนของประโยคเดียวกันที่แสดงเพียงสั้นๆ

คลิกไอคอนหากคุณไม่เข้าใจ

คำว่า "การเป็นตัวแทนแบบกระจัดกระจาย" สร้างความสับสนให้แก่ผู้คนจำนวนมาก เพราะการเป็นตัวแทนแบบกระจัดกระจายนั้นไม่ใช่เวกเตอร์แบบกระจัดกระจาย แต่แทนแบบกระจัดกระจายคือการแสดงเวกเตอร์แบบหนาแน่น คำพ้องความหมายว่าการแทนดัชนีจะชัดเจนกว่า "การแทนแบบกระจัดกระจาย" เล็กน้อย

เวกเตอร์กระจัดกระจาย

#fundamentals

เวกเตอร์ที่ค่าส่วนใหญ่เป็น 0 โปรดดูฟีเจอร์แบบย่อและความตรงกันของข้อมูลด้วย

ความสูญเสียยกกำลังสอง

#fundamentals

คำพ้องความหมายของ L₂ Los

คงที่

#fundamentals

เป็นการดำเนินการที่ทำเพียงครั้งเดียว แทนที่จะเป็นอย่างต่อเนื่อง คำว่าคงที่และออฟไลน์เป็นคำพ้องความหมาย การใช้งานแบบคงที่และออฟไลน์โดยทั่วไปในแมชชีนเลิร์นนิงมีดังนี้

โมเดลแบบคงที่ (หรือโมเดลออฟไลน์) เป็นโมเดลที่ได้รับการฝึกเพียงครั้งเดียวแล้วใช้ไประยะหนึ่ง
การฝึกแบบคงที่ (หรือการฝึกออฟไลน์) คือกระบวนการฝึกโมเดลแบบคงที่
การอนุมานแบบคงที่ (หรือการอนุมานแบบออฟไลน์) คือขั้นตอนที่โมเดลสร้างการคาดการณ์แบบกลุ่มขึ้นมาทีละชุด

คอนทราสต์แบบไดนามิก

การอนุมานแบบคงที่

#fundamentals

คำพ้องความหมายของการอนุมานแบบออฟไลน์

สถานีเพลง

#fundamentals

ฟีเจอร์ที่มีค่าไม่เปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักจะเป็นเวลา ตัวอย่างเช่น คุณลักษณะที่มีค่าพอๆ กันในปี 2021 และ 2023 จะแสดงภาพนิ่ง

ในโลกแห่งความเป็นจริง มีน้อยมากที่จะจัดนิทรรศการภาพนิ่งต่างๆ แม้แต่คุณลักษณะที่ไม่มีความหมายเหมือนกันกับความเสถียร (เช่น ระดับน้ำทะเล) ก็มีการเปลี่ยนแปลงเมื่อเวลาผ่านไป

คอนทราสต์กับความไม่คงที่

การไล่ระดับสีแบบสตอคฮัสติก (SGD)

#fundamentals

อัลกอริทึมการลดระดับลงของการไล่ระดับสีซึ่งมีขนาดกลุ่มเท่ากับ กล่าวคือ SGD ฝึกกับตัวอย่างเดียวที่ได้รับเลือกอย่างเท่าเทียมกันจากชุดการฝึก

แมชชีนเลิร์นนิงที่มีการควบคุมดูแล

#fundamentals

การฝึกmodelจากmodelและmodelที่เกี่ยวข้อง แมชชีนเลิร์นนิงที่มีการควบคุมดูแลเทียบเคียงกันได้ กับการเรียนรู้เรื่องใดเรื่องหนึ่งโดยการศึกษาชุดคำถามและคำตอบที่ตรงกัน หลังจากจับคู่คำถามและคำตอบอย่างเชี่ยวชาญแล้ว นักเรียนจะสามารถตอบคำถามใหม่ๆ (ไม่เคยเห็นมาก่อน) ในหัวข้อเดียวกันได้

เปรียบเทียบกับแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

ฟีเจอร์สังเคราะห์

#fundamentals

ฟีเจอร์ที่ไม่ปรากฏในฟีเจอร์อินพุต แต่ประกอบขึ้นจากฟีเจอร์อย่างน้อย 1 รายการ วิธีสร้างฟีเจอร์สังเคราะห์มีดังนี้

การเก็บข้อมูลฟีเจอร์แบบต่อเนื่องไว้ในกลุ่มช่วง
การสร้างกากบาทฟีเจอร์
การคูณ (หรือหาร) ค่าสถานที่หนึ่งด้วยค่าอื่นๆ ของจุดสนใจหรือค่าเดียว ตัวอย่างเช่น หาก a และ b เป็นฟีเจอร์อินพุต ต่อไปนี้จะเป็นตัวอย่างของฟีเจอร์สังเคราะห์
- ab
- a²
การใช้ฟังก์ชันเชิงซ้อนกับค่าฟีเจอร์ ตัวอย่างเช่น หาก c เป็นฟีเจอร์อินพุต ตัวอย่างของฟีเจอร์สังเคราะห์มีดังนี้
- sin(c)
- ln(c)

ฟีเจอร์ที่สร้างโดยการปรับให้สอดคล้องตามมาตรฐานหรือการปรับขนาดเพียงอย่างเดียวไม่ถือว่าเป็นฟีเจอร์สังเคราะห์

T

ทดสอบการสูญหาย

#fundamentals

เมตริกที่แสดงถึงความสูญเสียของโมเดลเมื่อเทียบกับชุดทดสอบ เมื่อสร้างmodel คุณมักพยายามลดการสูญเสียการทดสอบ นั่นเป็นเพราะว่าการสูญเสียการทดสอบต่ำจะเป็นสัญญาณที่มีคุณภาพดีกว่าการสูญเสียการฝึกต่ำ หรือการสูญเสียการตรวจสอบต่ำ

บางครั้งความแตกต่างอย่างมากระหว่างการสูญเสียการทดสอบกับการสูญเสียการฝึกหรือการตรวจสอบความถูกต้องอาจทำให้คุณต้องเพิ่มอัตราการทำให้เป็นมาตรฐาน

การฝึก

#fundamentals

ขั้นตอนการกำหนดพารามิเตอร์ที่เหมาะสม (น้ำหนักและอคติ) ซึ่งประกอบด้วยโมเดล ในระหว่างการฝึก ระบบจะอ่านตัวอย่างและค่อยๆ ปรับพารามิเตอร์ การฝึกจะใช้ตัวอย่างแต่ละรายการตั้งแต่ 2-3 ครั้งไปจนถึงหลายพันล้านครั้ง

การสูญเสียจากการฝึก

#fundamentals

เมตริกที่แสดงถึงการสูญเสียของโมเดลระหว่างการฝึกซ้ำๆ ตัวอย่างเช่น สมมติว่าฟังก์ชันการสูญเสียเป็น Mean Squared Error บางทีการสูญเสียการฝึก (ข้อผิดพลาด Squared เฉลี่ย) สำหรับการทำซ้ำครั้งที่ 10 อาจเป็น 2.2 และการสูญเสียการฝึกสำหรับการทำซ้ำครั้งที่ 100 คือ 1.9

เส้นโค้งการสูญเสียแสดงการสูญเสียการฝึกเทียบกับจำนวนการทำซ้ำ เส้นโค้งการสูญเสียให้คำใบ้เกี่ยวกับการฝึกดังต่อไปนี้

ความลาดลงด้านล่างหมายความว่าโมเดลมีการปรับปรุง
ความลาดชันขึ้นหมายความว่าโมเดลกำลังแย่ลง
ความลาดชันแบบแบนราบหมายความว่าโมเดลมาถึงการสนทนาแล้ว

ตัวอย่างเช่น เส้นโค้งการสูญเสียซึ่งค่อนข้างสมบูรณ์ในอุดมคติต่อไปนี้

กราฟที่ลาดชันลงระหว่างการทำซ้ำครั้งแรก ซึ่งแสดงถึงการปรับปรุงโมเดลอย่างรวดเร็ว
ทางลาดที่ค่อยๆ ราบเรียบ (แต่ยังคงเป็นขาลง) จนกระทั่งใกล้สิ้นสุดการฝึก ซึ่งบ่งบอกว่ามีการปรับปรุงโมเดลอย่างต่อเนื่องด้วยความเร็วที่ค่อนข้างช้ากว่าในระหว่างการทำซ้ำครั้งแรก
ทางลาดที่ราบเรียบไปจนถึงช่วงท้ายของการฝึก ซึ่งแสดงถึงการบรรจบกัน

โครงเรื่องของการสูญเสียการฝึกเทียบกับการทำซ้ำ โดยเส้นโค้งการสูญเสียนี้จะเริ่มต้นด้วยทางลาดชัน ความลาดชันจะค่อยๆ คงที่จนกว่าความลาดชันจะกลายเป็น 0

แม้ว่าการสูญเสียการฝึกอบรมจะมีความสำคัญ โปรดดูการทำให้เป็นแบบทั่วไปด้วย

ความคลาดเคลื่อนระหว่างการฝึกและการให้บริการ

#fundamentals

ความแตกต่างระหว่างประสิทธิภาพของโมเดลในระหว่างการฝึกกับประสิทธิภาพของโมเดลเดียวกันในระหว่างการแสดงผล

ชุดการฝึก

#fundamentals

ชุดย่อยของชุดข้อมูลที่ใช้เพื่อฝึกโมเดล

เดิมที ตัวอย่างในชุดข้อมูลจะแบ่งออกเป็น 3 ชุดย่อยที่แตกต่างกันดังนี้

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นของชุดย่อยที่อยู่ก่อนหน้าเพียงชุดเดียวเท่านั้น เช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดการตรวจสอบ

ผลลบจริง (TN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบได้อย่างถูกต้อง ตัวอย่างเช่น โมเดลจะอนุมานได้ว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม และข้อความอีเมลนั้นไม่ใช่สแปมจริงๆ

ผลบวกจริง (TP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงบวกได้อย่างถูกต้อง ตัวอย่างเช่น โมเดลอนุมานได้ว่าข้อความอีเมลหนึ่งๆ เป็นสแปม และข้อความอีเมลนั้นเป็นสแปมจริงๆ

อัตราผลบวกจริง (TPR)

#fundamentals

คำพ้องความหมายของ recall โดยการ

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

อัตราผลบวกจริงคือแกน Y ในเส้นโค้ง ROC

U

การใส่ชุดชั้นใน

#fundamentals

สร้างmodelที่มีความสามารถในการคาดการณ์ต่ำเนื่องจากโมเดลไม่ได้บันทึกความซับซ้อนของข้อมูลการฝึกอย่างสมบูรณ์ หลายๆ ปัญหา ที่อาจทำให้เกิดความไม่สมควรนี้ ได้แก่

การฝึกใช้ฟีเจอร์ผิดชุด
การฝึกสำหรับ Epoch น้อยเกินไปหรือมีอัตราการเรียนรู้ต่ำเกินไป
การฝึกที่มีอัตราการจัดเป็นมาตรฐานสูงเกินไป
การมีเลเยอร์ที่ซ่อนอยู่น้อยเกินไปในโครงข่ายประสาทแบบลึก

ตัวอย่างที่ไม่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์ แต่ไม่มีป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่าง 3 ตัวอย่างที่ไม่มีป้ายกำกับจากรูปแบบการประเมินมูลค่าบ้าน โดยแต่ละรายการมีฟีเจอร์ 3 รายการแต่ไม่มีมูลค่าบ้าน

จำนวนห้องนอน	จำนวนห้องน้ำ	อายุบ้าน
3	2	15
2	1	72
4	2	34

ในการเรียนรู้แบบมีการควบคุมดูแลและไม่มีการควบคุมดูแล จะมีการใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการฝึก

ตัวอย่างคอนทราสต์ที่ไม่มีป้ายกำกับกับตัวอย่างที่ติดป้ายกำกับ

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering

#fundamentals

การฝึกmodelเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งโดยปกติแล้วจะเป็นชุดข้อมูลที่ไม่มีป้ายกำกับ

การใช้แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลที่พบมากที่สุดคือการจัดกลุ่มข้อมูลเป็นกลุ่มตัวอย่างที่คล้ายกัน เช่น อัลกอริทึมแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลสามารถจัดกลุ่มเพลงตามคุณสมบัติต่างๆ ของเพลง คลัสเตอร์ที่ได้อาจกลายเป็นอินพุตของอัลกอริทึมแมชชีนเลิร์นนิงอื่นๆ (เช่น บริการแนะนำเพลง) การจัดกลุ่มมีประโยชน์หากไม่มีหรือขาดป้ายกำกับที่เป็นประโยชน์ ตัวอย่างเช่น ในโดเมนต่างๆ อย่างการป้องกันการละเมิดและการประพฤติมิชอบ คลัสเตอร์จะช่วยให้ผู้ใช้เข้าใจข้อมูลได้ดีขึ้น

ตรงข้ามกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

อีกตัวอย่างหนึ่งของแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลคือการวิเคราะห์องค์ประกอบหลัก (PCA) เช่น การใช้ PCA ในชุดข้อมูลที่มีเนื้อหาของรถเข็นช็อปปิ้งนับล้านอาจเปิดเผยว่ารถเข็นช็อปปิ้งที่มีมะนาวมักมียาลดกรดเช่นกัน

V

การตรวจสอบความถูกต้อง

#fundamentals

การประเมินคุณภาพของโมเดลเบื้องต้น การตรวจสอบความถูกต้องจะตรวจสอบคุณภาพของการคาดการณ์ของโมเดลโดยเทียบกับชุดการตรวจสอบ

เนื่องจากชุดการตรวจสอบจะแตกต่างจากชุดการฝึก การตรวจสอบจึงช่วยป้องกันการซ้อนทับ

คุณอาจลองประเมินโมเดลเทียบกับชุดการตรวจสอบในฐานะการทดสอบรอบแรก และประเมินโมเดลเทียบกับชุดทดสอบซึ่งเป็นการทดสอบรอบที่ 2

การสูญเสียการตรวจสอบ

#fundamentals

เมตริกที่แสดงถึงการสูญเสียของโมเดลในชุดการตรวจสอบในระหว่างการทำซ้ำการฝึกที่เฉพาะเจาะจง

ดูเส้นโค้งภาพรวมด้วย

ชุดการตรวจสอบ

#fundamentals

ชุดย่อยของชุดข้อมูลที่ทำการประเมินเบื้องต้นกับโมเดลที่ผ่านการฝึกแล้ว โดยปกติแล้ว คุณจะประเมินโมเดลที่ฝึกกับชุดการตรวจสอบหลายครั้งก่อนที่จะประเมินโมเดลกับชุดการทดสอบ

เดิมที คุณจะแบ่งตัวอย่างในชุดข้อมูลออกเป็น 3 ชุดย่อยที่แตกต่างกันดังนี้

W

น้ำหนัก

#fundamentals

ค่าที่โมเดลคูณด้วยค่าอื่น การฝึกเป็นกระบวนการกำหนดน้ำหนักที่เหมาะสมของโมเดล การอนุมานเป็นกระบวนการของการใช้น้ำหนักที่เรียนรู้มานี้ในการคาดการณ์

คลิกไอคอนเพื่อดูตัวอย่างน้ำหนักในรูปแบบเชิงเส้น

ลองนึกถึงรูปแบบเชิงเส้นที่มีฟีเจอร์ 2 อย่าง สมมติว่าการฝึกเป็นตัวกำหนดน้ำหนัก (และอคติ) ต่อไปนี้

การให้น้ำหนัก ข มีค่า 2.2
น้ำหนัก₁ ที่เชื่อมโยงกับจุดสนใจหนึ่งคือ 1.5
น้ำหนัก ₂ ที่เชื่อมโยงกับจุดสนใจอื่นคือ 0.4

คราวนี้ลองคิดถึงตัวอย่างที่มีค่าของฟีเจอร์ต่อไปนี้

ค่า x₁ ของ 1 ฟีเจอร์คือ 6
ค่า x₂ ของอีกฟีเจอร์คือ 10

โมเดลเชิงเส้นนี้ใช้สูตรต่อไปนี้เพื่อสร้างการคาดการณ์

$$y' = b + w_1x_1 + w_2x_2$$

ดังนั้น การคาดการณ์จะเป็นดังนี้

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

หากน้ำหนักเป็น 0 แสดงว่าฟีเจอร์ที่เกี่ยวข้องไม่มีผลต่อโมเดล เช่น หาก w₁ เป็น 0 ค่าของ x₁ จะไม่เกี่ยวข้อง

ผลรวมถ่วงน้ำหนัก

#fundamentals

ผลรวมของค่าที่ป้อนที่เกี่ยวข้องทั้งหมดคูณด้วยน้ำหนักที่สัมพันธ์กัน ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้องประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต	น้ำหนักอินพุต
2	-1.3
-1	0.6
3	0.4

ดังนั้น ผลรวมถ่วงน้ำหนักจะเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

ผลรวมถ่วงน้ำหนักคืออาร์กิวเมนต์อินพุตของฟังก์ชันการเปิดใช้งาน

Z

การปรับค่ามาตรฐาน Z

#fundamentals

เทคนิคการปรับขนาดที่แทนที่ค่า feature ดิบด้วยค่าจุดลอยตัวซึ่งแสดงจำนวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของจุดสนใจนั้น ตัวอย่างเช่น ลองพิจารณาสถานที่ที่มีค่าเฉลี่ยคือ 800 และมีค่าเบี่ยงเบนมาตรฐานคือ 100 ตารางต่อไปนี้แสดงวิธีที่การปรับมาตรฐานคะแนน Z จับคู่ค่าดิบกับค่ามาตรฐาน Z

ค่าดิบ	คะแนน Z
800	0
950	+1.5
575	-2.25

จากนั้นโมเดลแมชชีนเลิร์นนิงจะฝึกตามค่าคะแนน Z สำหรับฟีเจอร์นั้นแทนค่าดิบ

อภิธานศัพท์ของแมชชีนเลิร์นนิง: พื้นฐาน ML

A

ความแม่นยำ

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

ฟังก์ชันการเปิดใช้งาน

คลิกที่ไอคอนเพื่อดูตัวอย่าง

ปัญญาประดิษฐ์ (AI)

AUC (พื้นที่ใต้เส้นโค้ง ROC)

คลิกที่ไอคอนเพื่อดูข้อมูลเกี่ยวกับความสัมพันธ์ระหว่างเส้นโค้ง AUC และ ROC

คลิกไอคอนเพื่อดูคำจำกัดความที่เป็นทางการของ AUC

B

การแพร่พันธุ์ของด้านหลัง

กลุ่ม

ขนาดกลุ่ม

อคติ (จริยธรรม/ความยุติธรรม)

การให้น้ำหนักพิเศษ (ทางคณิตศาสตร์) หรือคำที่ให้น้ำหนักพิเศษ

การจำแนกประเภทเลขฐานสอง

การฝากข้อมูล

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

C

ข้อมูลเชิงหมวดหมู่

คลาส

โมเดลการจัดประเภท

เกณฑ์การจัดประเภท

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

ชุดข้อมูลที่ไม่สมดุลระดับ

การคลิป

เมทริกซ์ความสับสน

ฟีเจอร์ต่อเนื่อง

ผสานรวม

D

DataFrame

ชุดข้อมูลหรือชุดข้อมูล

โมเดลเชิงลึก

จุดสนใจที่หนาแน่น

ความลึก

ฟีเจอร์แยกกัน

ไดนามิก

โมเดลแบบไดนามิก

E

การหยุดก่อนกำหนด

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เลเยอร์ที่ฝัง

Epoch

example (ตัวอย่าง)

F

ผลลบลวง (FN)

ผลบวกลวง (FP)

อัตราผลบวกลวง (FPR)

ฟีเจอร์

กากบาทฟีเจอร์

Feature Engineering

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติมเกี่ยวกับ TensorFlow

ชุดฟีเจอร์

เวกเตอร์จุดสนใจ

ลูปความคิดเห็น

G

ข้อมูลทั่วไป

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เส้นโค้งภาพรวม

การไล่ระดับสีลง

ข้อมูลจากการสังเกตการณ์โดยตรง

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

ฮิต

เลเยอร์ที่ซ่อนอยู่

ไฮเปอร์พารามิเตอร์

I

เผยแพร่อย่างอิสระและเหมือนกัน (เช่น)

การอนุมาน

เลเยอร์อินพุต

ความสามารถในการตีความ

การทำซ้ำ

L

การกำหนดกฎ L0

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

แพ้ L1

คลิกไอคอนเพื่อดูคณิตศาสตร์ที่เป็นทางการ

การกำหนดกฎ L1

แพ้ L2

คลิกไอคอนเพื่อดูคณิตศาสตร์ที่เป็นทางการ

การกำหนดกฎ L₀

แพ้ L₁

การกำหนดกฎ L₁

แพ้ L₂

การกำหนดกฎ L₂