อภิธานศัพท์แมชชีนเลิร์นนิง: ML พื้นฐาน

หน้านี้มีคําศัพท์อภิธานศัพท์ของ ML สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่

ความแม่นยำ

#fundamentals

จํานวนการคาดการณ์การจัดหมวดหมู่ที่ถูกต้องหารด้วยจํานวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

ตัวอย่างเช่น โมเดลที่คาดคะเนได้ 40 รายการและ การคาดการณ์ที่ไม่ถูกต้อง 10 ครั้งจะมีความแม่นยําดังนี้

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การแยกประเภทไบนารีจะระบุชื่อที่เฉพาะเจาะจงสําหรับการคาดการณ์ที่ถูกต้องและการคาดการณ์ที่ไม่ถูกต้องในหมวดหมู่ต่างๆ สูตรความถูกต้องของการจัดประเภทไบนารี มีดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

โดยที่:

เปรียบเทียบความคมชัดด้วย ความแม่นยําและการจําได้

ฟังก์ชันการเปิดใช้งาน

#fundamentals

ฟังก์ชันที่ช่วยให้เครือข่ายระบบประสาทเรียนรู้ความสัมพันธ์ที่ไม่ใช่แบบเชิงเส้น (ซับซ้อน) ระหว่างฟีเจอร์และป้ายกํากับ

ฟังก์ชันการเปิดใช้งานยอดนิยม ได้แก่

พล็อตของฟังก์ชันการเปิดใช้งานต้องไม่เป็นเส้นตรงเดี่ยว ตัวอย่างเช่น พล็อตของฟังก์ชันการเปิดใช้งาน ReLU ประกอบด้วยเส้นตรง 2 เส้นดังนี้

พล็อตกราฟแบบ 2 เส้น บรรทัดแรกมีค่า y คงที่เป็น 0 อยู่ในแกน x ตั้งแต่ -infinity, 0 ถึง 0,-0
          บรรทัดที่สองจะเริ่มที่ 0,0 บรรทัดนี้มีความลาดชันของ +1 ดังนั้นจึงทํางานตั้งแต่ 0,0 ถึง +finity,+finity

พล็อตของฟังก์ชันการเปิดใช้งานซิกมอยด์มีลักษณะดังต่อไปนี้

พล็อตกราฟโค้งสองมิติที่มีค่า x ครอบคลุมโดเมน
          - อนันต์ถึง + บวก ขณะที่ค่า y ครอบคลุมช่วงเกือบ 0 ถึง
          1 เมื่อ x เท่ากับ 0 y จะเป็น 0.5 ความชันของเส้นโค้งจะเป็นค่าบวกเสมอ โดยความลาดชันสูงสุดที่ 0,0.5 และค่อยๆ ลดความลาดชันลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ปัญญาประดิษฐ์ (AI)

#fundamentals

โปรแกรมหรือโมเดลที่ไม่ได้เกิดจากมนุษย์ซึ่งสามารถแก้ปัญหางานที่ซับซ้อนได้ ตัวอย่างเช่น โปรแกรมหรือโมเดลที่แปลข้อความหรือโปรแกรมหรือโมเดลที่ระบุโรคจากภาพรังสี จะแสดงปัญญาประดิษฐ์

ก่อนหน้านี้แมชชีนเลิร์นนิงคือช่องย่อยของปัญญาประดิษฐ์ แต่ช่วงไม่กี่ปีที่ผ่านมา บางองค์กรเริ่มใช้คําว่าปัญญาประดิษฐ์และแมชชีนเลิร์นนิงสลับกันไป

AUC (พื้นที่ใต้เส้นโค้ง ROC)

#fundamentals

จํานวนระหว่าง 0.0 ถึง 1.0 แสดงถึงความสามารถของการจัดประเภทแบบไบนารีในการแยกคลาสเชิงบวกออกจากคลาสเชิงลบ ยิ่ง AUC ใกล้เคียงกับ 1.0 มากเท่าใด ความสามารถของโมเดลในการแยกคลาส ออกจากกันก็ยิ่งดีขึ้นเท่านั้น

ตัวอย่างเช่น ภาพประกอบต่อไปนี้แสดงโมเดลตัวแยกประเภทที่แยกคลาสบวก (วงรีสีเขียว) ออกจากคลาสลบ (สี่เหลี่ยมผืนผ้าสีม่วง) อย่างสมบูรณ์แบบ โมเดลที่สมจริงอย่างไม่สมเหตุสมผลนี้มี AUC เท่ากับ 1.0 ดังนี้

บรรทัดตัวเลขที่มีตัวอย่างด้านบวก 8 ด้านในด้านหนึ่งและตัวอย่างเชิงลบ 9 ฝั่งอีกฝั่ง

ในทางกลับกัน ภาพประกอบต่อไปนี้แสดงผลลัพธ์สําหรับโมเดลตัวแยกประเภทที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มี AUC เป็น 0.5:

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลําดับของตัวอย่างคือเชิงบวก เชิงลบ เชิงบวก เชิงลบ เชิงบวก เชิงลบ เชิงบวก เชิงลบ และเชิงบวกเชิงลบ เชิงบวก และเชิงลบ

ใช่ รุ่นก่อนหน้านี้มี AUC เป็น 0.5 ไม่ใช่ 0.0

แบบจําลองส่วนใหญ่จะอยู่ระหว่างปลายสองด้าน ตัวอย่างเช่น โมเดลต่อไปนี้แยกผลบวกออกจากเชิงลบ ดังนั้นจะมี AUC ที่อยู่ระหว่าง 0.5 ถึง 1.0

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ตัวอย่างของลําดับเป็นแง่ลบ แง่ลบ แง่ลบ แง่ลบ แง่บวก แง่บวก แง่บวก แง่ลบ แง่ลบ แง่บวก แง่บวก

AUC ไม่สนใจค่าที่คุณตั้งค่าไว้สําหรับเกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมดแทน

การเผยแพร่ต่อ

#fundamentals

อัลกอริทึมที่ใช้การไล่ระดับการไล่ระดับสีในเครือข่ายระบบประสาท

การฝึกเครือข่ายระบบประสาทเกี่ยวข้องกับการปรับปรุงหลายอย่างใน 2 รอบต่อไปนี้

  1. ในระหว่างการส่งต่อ ระบบจะประมวลผลกลุ่มของตัวอย่างเพื่อให้การคาดการณ์แสดงผลลัพธ์ ระบบจะเปรียบเทียบการคาดการณ์แต่ละรายการกับค่าป้ายกํากับแต่ละรายการ ความแตกต่างระหว่างการคาดการณ์และค่าป้ายกํากับคือการสูญเสียสําหรับตัวอย่างดังกล่าว ระบบจะรวบรวมการสูญเสียสําหรับตัวอย่างทั้งหมดเพื่อคํานวณการสูญเสียรวมสําหรับแบตช์ปัจจุบัน
  2. ในระหว่างการย้อนกลับ (การสืบสวนการย้อนกลับ) ระบบจะลดการสูญเสียโดยการปรับน้ําหนักของเซลล์ประสาททั้งหมดในทุกเลเยอร์ที่ซ่อนอยู่

เครือข่ายระบบประสาทมักประกอบด้วยเซลล์ประสาทหลายเลเยอร์ที่ซ่อนอยู่ เซลล์ประสาทแต่ละเซลล์มีส่วนทําให้เกิดการสูญเสียโดยรวมในรูปแบบต่างๆ การขยายน้ําหนักกลับเป็นตัวกําหนดว่าจะเพิ่มหรือลดน้ําหนัก ที่ใช้กับเซลล์ประสาทเฉพาะหรือไม่

อัตราการเรียนรู้คือตัวคูณที่ควบคุมระดับของความเร็วในการย้อนกลับแต่ละจุดที่จะเพิ่มหรือลดลง อัตราการเรียนรู้ขนาดใหญ่จะเพิ่มหรือลดน้ําหนักได้มากกว่าอัตราการเรียนรู้ขนาดเล็ก

ในคําศัพท์เกี่ยวกับแคลคูลัส การใช้ภูมิหลังแบบย้อนกลับจะใช้กฎห่วงโซ่ของแคลคูลัส กล่าวคือ การดําเนินการย้อนกลับจะคํานวณอนุพันธ์บางส่วนที่เกี่ยวข้องกับความเคารพต่อพารามิเตอร์แต่ละตัว ดูรายละเอียดเพิ่มเติมได้ที่บทแนะนําใน Machine Learning Crash

เมื่อหลายปีก่อน ผู้ปฏิบัติงาน ML ต้องเขียนโค้ดเพื่อใช้ ตอนนี้ ML API สมัยใหม่อย่าง TensorFlow สามารถใช้การเพิ่มประสิทธิภาพกลับได้แล้ว ในที่สุด

กลุ่ม

#fundamentals

ชุดตัวอย่างที่ใช้ในการฝึกการทําซ้ํา 1 รายการ ขนาดกลุ่มจะกําหนดจํานวนตัวอย่างในแบตช์

ดู epoch สําหรับคําอธิบายเกี่ยวกับวิธีที่กลุ่มเกี่ยวข้องกับ Epoch

ขนาดกลุ่ม

#fundamentals

จํานวนตัวอย่างในกลุ่ม ตัวอย่างเช่น หากขนาดกลุ่มคือ 100 โมเดลจะประมวลผลตัวอย่าง 100 ตัวอย่างต่อการปรับปรุง

กลยุทธ์ต่อไปนี้คือขนาดกลยุทธ์ยอดนิยม

  • Stochastic Gradient Descent (SGD) ซึ่งขนาดกลุ่มคือ 1
  • เป็นชุดเต็มซึ่งกลุ่มตัวอย่างคือจํานวนตัวอย่างในชุดการฝึกทั้งหมด ตัวอย่างเช่น ถ้าชุดการฝึกมีตัวอย่างหลายล้านรายการ ขนาดกลุ่มจะเป็นหนึ่งล้านตัวอย่าง การดําเนินการแบบกลุ่มมักไม่มีประสิทธิภาพ
  • กลุ่มขนาดเล็กที่โดยปกติขนาดกลุ่มจะอยู่ระหว่าง 10 ถึง 1000 มินิแบตช์มักเป็นกลยุทธ์ที่มีประสิทธิภาพมากที่สุด

อคติ (จริยธรรม/ความเป็นธรรม)

#fairness
#fundamentals

1. การเหมารวม อคติ หรือความชอบในบางสิ่ง บุคคล หรือกลุ่มบุคคลอื่นๆ การให้น้ําหนักพิเศษเหล่านี้อาจส่งผลกระทบต่อการรวบรวมและตีความข้อมูล การออกแบบระบบ และการโต้ตอบของผู้ใช้กับระบบ ประเภทของอคติประเภทนี้รวมถึง:

2. ข้อผิดพลาดที่เป็นระบบซึ่งได้จากการสุ่มตัวอย่างหรือขั้นตอนการรายงาน ประเภทของอคติประเภทนี้รวมถึง:

อย่าสับสนกับอคติในโมเดลแมชชีนเลิร์นนิงหรืออคติการคาดการณ์

อคติ (คณิตศาสตร์) หรือคําศัพท์ที่มีอคติ

#fundamentals

การสกัดกั้นหรือจุดเริ่มต้น การให้น้ําหนักเป็นพารามิเตอร์ในโมเดลแมชชีนเลิร์นนิง ซึ่งมีสัญลักษณ์อย่างใดอย่างหนึ่งต่อไปนี้

  • 0

เช่น การให้น้ําหนักพิเศษคือ b ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในสองบรรทัดอย่างง่าย การให้น้ําหนักพิเศษหมายถึง "ตัดกับแกน y" เท่านั้น ตัวอย่างเช่น การให้น้ําหนักของเส้นในภาพประกอบต่อไปนี้ คือ 2

พล็อตของเส้นที่มีความเอียง 0.5 และการให้น้ําหนักอคติ (จุดตัดแกน y) เป็น 2

มีการให้น้ําหนักพิเศษ เนื่องจากบางโมเดลไม่ได้เริ่มต้นจากจุดเริ่มต้น (0,0) เช่น สมมติว่าสวนสนุกมีค่าใช้จ่าย 2 ยูโรสําหรับเข้าชม และ 0.5 ยูโรสําหรับ 1 ชั่วโมงที่ลูกค้าเข้าพัก ดังนั้น โมเดลที่แมปค่าใช้จ่ายทั้งหมดจึงมีความลําเอียงเป็น 2 เนื่องจากต้นทุนต่ําสุดคือ 2 ยูโร

การให้น้ําหนักพิเศษอย่าสับสนกับอคติในจริยธรรมและความยุติธรรม หรืออคติในการคาดคะเน

การแยกประเภทไบนารี

#fundamentals

งาน Classification ประเภทหนึ่งที่คาดคะเน 1 ใน 2 คลาสที่ใช้พร้อมกันไม่ได้ ได้แก่

ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิง 2 แบบต่อไปนี้ใช้การแยกประเภทไบนารี

  • รูปแบบที่กําหนดว่าข้อความอีเมลเป็น สแปม (คลาสเชิงบวก) หรือไม่ใช่สแปม (คลาสเชิงลบ)
  • แบบจําลองที่ประเมินอาการทางการแพทย์เพื่อหาว่าบุคคลนั้นๆ เป็นโรคใดหรือไม่ (โรคร้าย)

ตรงข้ามกับการจัดประเภทแบบหลายคลาส

และดูการถดถอยแบบโลจิสติกและ เกณฑ์การจัดประเภท

การฝากข้อมูล

#fundamentals

การแปลงฟีเจอร์ 1 รายการให้เป็นฟีเจอร์ไบนารีหลายรายการที่เรียกว่าที่เก็บข้อมูลหรือถังขยะ ซึ่งโดยทั่วไปจะขึ้นอยู่กับช่วงค่า ฟีเจอร์ที่ถูกตัดทอนมักเป็นฟีเจอร์ต่อเนื่อง

ตัวอย่างเช่น แทนที่จะแสดงอุณหภูมิเป็นจุดสนใจที่ลอยตัวอยู่จุดเดียวอย่างต่อเนื่อง คุณสามารถแยกช่วงของอุณหภูมิเป็นที่เก็บข้อมูลที่แยกกันได้ เช่น

  • <= 10 องศาเซลเซียสจะเป็นที่เก็บข้อมูล "เย็น"
  • 11 - 24 องศาเซลเซียส จะเป็นที่เก็บข้อมูล "อากาศอบอุ่น"
  • >= 25 องศาเซลเซียสจะเป็นที่เก็บข้อมูล "อุ่น"

โมเดลดังกล่าวจะจัดการกับค่าทั้งหมดในที่เก็บข้อมูลเดียวกัน ตัวอย่างเช่น ทั้งค่า 13 และ 22 ต่างอยู่ในที่เก็บข้อมูลชั่วคราว ดังนั้นโมเดลจึงถือว่าค่าทั้งสองนั้นเหมือนกัน

ข้อมูลเชิงหมวดหมู่

#fundamentals

ฟีเจอร์มีชุดค่าที่เป็นไปได้โดยเฉพาะ ตัวอย่างเช่น พิจารณาฟีเจอร์เชิงหมวดหมู่ที่ชื่อ traffic-light-state ซึ่งจะมีค่าที่เป็นไปได้เพียงค่าใดค่าหนึ่งต่อไปนี้

  • red
  • yellow
  • green

การแสดงถึง traffic-light-state เป็นฟีเจอร์เชิงหมวดหมู่จะทําให้โมเดลสามารถเรียนรู้ผลกระทบที่ต่างกันของ red, green และ yellow ที่มีต่อพฤติกรรมของผู้ขับขี่

บางครั้งฟีเจอร์เชิงหมวดหมู่เรียกว่า ฟีเจอร์ที่แยกกันอยู่

ตรงข้ามกับข้อมูลตัวเลข

คลาส

#fundamentals

หมวดหมู่ที่มีป้ายกํากับอยู่ เช่น

โมเดลการจัดประเภทจะคาดการณ์คลาส ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์ตัวเลข ไม่ใช่คลาส

โมเดลการจัดประเภท

#fundamentals

model ที่มีการคาดการณ์เป็นคลาส ตัวอย่างเช่น โมเดลการจัดประเภททั้งหมดมีดังต่อไปนี้

  • โมเดลที่คาดคะเนภาษาของประโยคอินพุต (ภาษาฝรั่งเศส ภาษาสเปนล่ะ ภาษาอิตาลี)
  • โมเดลที่คาดคะเนต้นไม้สายพันธุ์ต่างๆ (เมเปิล? โอ๊ก? Baobab)
  • โมเดลที่คาดการณ์คลาสเชิงบวกหรือเชิงลบสําหรับสภาวะทางการแพทย์ที่เฉพาะเจาะจง

ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์ตัวเลขไม่ใช่คลาส

รูปแบบการจัดประเภทที่ใช้กันทั่วไปมี 2 ประเภทดังนี้

เกณฑ์การจัดประเภท

#fundamentals

ในการจัดประเภทแบบไบนารี ตัวเลขระหว่าง 0 ถึง 1 ที่แปลงเอาต์พุตดิบของโมเดลการถดถอยแบบโลจิสติกเป็นการคาดการณ์คลาสเชิงบวกหรือคลาสเชิงลบ โปรดทราบว่าเกณฑ์การจัดประเภทคือค่าที่มนุษย์เลือก ไม่ใช่ค่าที่การฝึกโมเดลเลือกไว้

โมเดลการถดถอยแบบโลจิสติกส์จะแสดงผลค่าดิบระหว่าง 0 ถึง 1 จากนั้นให้ทำดังนี้

  • หากค่าดิบนี้มากกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสบวก
  • หากค่าดิบนี้น้อยกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสเชิงลบ

ตัวอย่างเช่น สมมติว่าเกณฑ์การจัดประเภทเท่ากับ 0.8 หากค่าดิบเป็น 0.9 โมเดลจะคาดการณ์คลาสเชิงบวก หากค่าดิบเป็น 0.7 โมเดลจะคาดการณ์คลาสเชิงลบ

ตัวเลือกของเกณฑ์การจัดประเภทมีผลต่อจํานวนค่าเท็จและค่าลบเท็จเป็นอย่างมาก

ชุดข้อมูลที่ไม่สมดุลกัน

#fundamentals

ชุดข้อมูลสําหรับปัญหาการจัดประเภทที่จํานวนป้ายกํากับทั้งหมดของแต่ละคลาสแตกต่างกันอย่างมาก เช่น ลองพิจารณาชุดข้อมูลการจัดประเภทแบบไบนารีที่มีป้ายกํากับ 2 ป้ายซึ่งแบ่งดังนี้

  • ป้ายกํากับเชิงลบ 1,000,000 รายการ
  • ป้ายกํากับเชิงบวก 10 รายการ

อัตราส่วนของป้ายกํากับที่เป็นลบต่อบวกคือ 100,000 ต่อ 1 ดังนั้นนี่คือชุดข้อมูลที่ไม่สมดุลกัน

ในทางกลับกัน ชุดข้อมูลต่อไปนี้ไม่มีความสมดุลของคลาสเนื่องจากอัตราส่วนของป้ายกํากับเชิงลบกับป้ายกํากับเชิงบวกค่อนข้างใกล้เคียงกับ 1

  • 517 ป้ายกํากับเชิงลบ
  • 483 ป้ายกํากับเชิงบวก

นอกจากนี้ ชุดข้อมูลหลายคลาสยังสร้างสมดุลให้กับคลาสได้อีกด้วย ตัวอย่างเช่น ชุดข้อมูลการจัดประเภทแบบหลายคลาสต่อไปนี้ไม่สมดุลกันเพราะป้ายกํากับหนึ่งมีตัวอย่างมากกว่าอีก 2 ป้ายกํากับ

  • ป้ายกํากับ 1,000,000 ป้ายที่มีคลาส "สีเขียว"
  • ป้ายกํากับ 200 รายการมีคลาส "สีม่วง"
  • ป้ายกํากับ 350 รายการที่มีคลาสเป็น "สีส้ม"

และดูเอนโทรปี ชั้นเรียนหลัก และชั้นเรียนผู้เยาว์

การตัดคลิป

#fundamentals

เทคนิคในการจัดการค่าที่ผิดปกติด้วยการดําเนินการอย่างใดอย่างหนึ่งหรือทั้ง 2 อย่างต่อไปนี้

  • การลดค่าฟีเจอร์ที่มากกว่าเกณฑ์ขั้นต่ําจนถึงเกณฑ์สูงสุดดังกล่าว
  • การเพิ่มค่าของคุณลักษณะที่ต่ํากว่าเกณฑ์ขั้นต่ําจนถึงเกณฑ์ขั้นต่ํานั้น

ตัวอย่างเช่น สมมติว่าค่า 0.5% ของจุดสนใจหนึ่งๆ อยู่นอกช่วง 40–60 ในกรณีนี้ คุณสามารถทําดังต่อไปนี้

  • ตัดค่าทั้งหมดที่เกิน 60 (เกณฑ์สูงสุด) ให้เป็น 60
  • ตัดค่าทั้งหมดที่ต่ํากว่า 40 (เกณฑ์ขั้นต่ํา) ให้เป็น 40

ค่าที่ผิดปกติอาจทําให้โมเดลเสียหาย ซึ่งบางครั้งอาจทําให้น้ําหนักล้นระหว่างการฝึก ค่าที่ผิดปกติบางอย่างอาจทําให้เมตริกต่างๆ หมดจด เช่น ความแม่นยํา การชนเป็นเทคนิคที่พบได้บ่อย เพื่อจํากัดความเสียหาย

การตัดการไล่ระดับสี จะบังคับค่าการไล่ระดับสีภายในช่วงที่กําหนดไว้ในระหว่างการฝึก

เมทริกซ์ความสับสน

#fundamentals

ตาราง NxN ที่สรุปจํานวนการคาดการณ์ที่ถูกต้องและไม่ถูกต้องที่โมเดลการจัดประเภทสร้างขึ้น เช่น ลองพิจารณาเมทริกซ์ความสับสนต่อไปนี้สําหรับโมเดลการจัดประเภทแบบไบนารี

เนื้องอก (คาดการณ์) ไม่ใช่เนื้องอก (คาดการณ์ไว้)
เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 18 (TP) 1 (เฟรมแรก)
ไม่ใช่เนื้องอก (ความจริง) 6 (FP) 452 (เทนเนสซี)

เมทริกซ์ความสับสนก่อนหน้านี้จะแสดงข้อมูลต่อไปนี้

  • จากการคาดการณ์ 19 รายการที่ข้อมูลจากการสังเกตการณ์คือ Tumor โมเดลจัดหมวดหมู่ 18 อย่างถูกต้องและจัดประเภท 1 อย่างไม่ถูกต้อง
  • จากการคาดการณ์ 458 ครั้งที่ทําจากการสังเกตการณ์โดยตรงไม่ใช่เรื่องจริง โมเดลนี้จัดประเภท 452 อย่างถูกต้องและจัดประเภทไม่ถูกต้อง 6 รายการ

เมทริกซ์ความสับสนสําหรับปัญหาการจัดประเภทแบบหลายคลาสช่วยให้คุณระบุรูปแบบข้อผิดพลาดได้ ตัวอย่างเช่น พิจารณาเมทริกซ์ความสับสนต่อไปนี้สําหรับโมเดลการจัดประเภทแบบหลายคลาส 3 คลาสที่จัดหมวดหมู่ม่านตา 3 ประเภทที่แตกต่างกัน (Virginica, Versicolor และ Setosa) เมื่อความจริงของพื้นดินคือ Virginica เมทริกซ์การซุกซนแสดงให้เห็นว่าโมเดลนี้มีแนวโน้มที่จะคาดการณ์ Versicolor ผิดพลาดมากกว่า Setosa:

  Setosa (ที่คาดการณ์ไว้) Versicolor (ที่คาดการณ์ไว้) Virginica (ที่คาดการณ์)
เซโตซา (เรื่องจริง) 88 12 0
Versicolor (ข้อมูลจากการสังเกตการณ์โดยตรง) 6 141 7
เวอร์จิเนีย (ข้อมูลจากการสังเกตการณ์โดยตรง) 2 27 109

สําหรับตัวอย่างเพิ่มเติม เมทริกซ์ความสับสนอาจเปิดเผยว่าโมเดลที่ผ่านการฝึกให้จดจําตัวเลขที่เขียนด้วยลายมือมีแนวโน้มที่จะคาดการณ์ 9 แทนที่จะเป็น 4 หรือคาดการณ์ 1 แทนที่จะเป็น 7 โดยไม่ได้ตั้งใจ

เมตริกความสับสนประกอบด้วยข้อมูลที่เพียงพอในการคํานวณเมตริกประสิทธิภาพที่หลากหลาย เช่น ความแม่นยําและการเรียกคืน

ฟีเจอร์ต่อเนื่อง

#fundamentals

ฟีเจอร์จุดลอยตัวซึ่งมีช่วงของค่าที่เป็นไปได้อย่างไม่จํากัด เช่น อุณหภูมิหรือน้ําหนัก

ตรงข้ามกับฟีเจอร์ที่ไม่ต่อเนื่อง

การบรรจบกัน

#fundamentals

จะมีสถานะมาถึงเมื่อค่า loss เปลี่ยนแปลงน้อยมากหรือ ไม่มีเลยเมื่อใช้การทําซ้ําแต่ละครั้ง ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้แนะนําการมาบรรจบกันที่ซ้ําประมาณ 700 ครั้ง

แผนภูมิคาร์ทีเซียน แกน X หายไป แกน Y คือจํานวนการฝึกซ้ํา แพ้มากในระหว่างการทําซ้ํา 2-3 ครั้งแรก แต่ลดลงอย่างมาก หลังการทําซ้ําประมาณ 100 ครั้ง ความสูญเสียยังคงลดลงจากเดิมแต่ค่อยเป็นค่อยไป หลังการทําซ้ําประมาณ 700 ครั้ง การสูญเสียจะอยู่ในแนวราบ

โมเดลมีประสิทธิภาพเมื่อการฝึกเพิ่มเติมไม่ช่วยช่วยปรับปรุงโมเดล

ในการเรียนรู้เชิงลึก บางครั้งค่าการสูญเสียจะคงที่หรือใกล้เคียงกับของเดิมมากๆ สําหรับการทําซ้ําหลายๆ ครั้งก่อนจากมากไปน้อย ระหว่างระยะเวลาที่สูญเสียค่าคงที่มาเป็นเวลานาน คุณอาจรู้สึกว่าการบรรจบกันนั้นเป็นเท็จ

ดูการหยุดแสดงโฆษณาล่วงหน้า

DataFrame

#fundamentals

ประเภทข้อมูลแพนด้ายอดนิยมสําหรับแทนชุดข้อมูลในหน่วยความจํา

DataFrame คล้ายกับตารางหรือสเปรดชีต แต่ละคอลัมน์ของ DataFrame จะมีชื่อ (ส่วนหัว) และแต่ละแถวจะระบุด้วยหมายเลขที่ไม่ซ้ํากัน

แต่ละคอลัมน์ใน DataFrame มีโครงสร้างคล้ายกับอาร์เรย์ 2D ยกเว้นว่าคอลัมน์แต่ละคอลัมน์จะสามารถกําหนดประเภทข้อมูลของตนเอง

โปรดดูหน้าการอ้างอิง pandas.DataFrame อย่างเป็นทางการด้วย

ชุดข้อมูลหรือชุดข้อมูล

#fundamentals

ชุดของข้อมูลดิบที่โดยทั่วไปจะจัด (แต่ไม่เฉพาะ) ในรูปแบบใดรูปแบบหนึ่งต่อไปนี้

  • สเปรดชีต
  • ไฟล์ในรูปแบบ CSV (ค่าที่คั่นด้วยเครื่องหมายจุลภาค)

โมเดลเชิงลึก

#fundamentals

เครือข่ายระบบประสาทที่มีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 ชั้น

รูปแบบนี้เรียกอีกอย่างว่าเครือข่ายระบบประสาทส่วนลึก

ตรงข้ามกับโมเดลแบบกว้าง

หนาแน่น

#fundamentals

ฟีเจอร์ที่ค่าส่วนใหญ่หรือทั้งหมดไม่ใช่ 0 โดยปกติจะเป็น Tensor ของค่าทศนิยม ตัวอย่างเช่น Tensor 10 องค์ประกอบต่อไปนี้หนาแน่นเพราะ 9 ค่าไม่ใช่ 0:

8 3 7 5 2 4 0 4 9 6

ตรงข้ามกับฟีเจอร์ที่มีขนาดเล็ก

ความลึก

#fundamentals

ผลรวมของสิ่งต่อไปนี้ใน เครือข่ายระบบประสาท:

ตัวอย่างเช่น เครือข่ายระบบประสาทที่มีเลเยอร์ที่ซ่อนอยู่ 5 ชั้นและเลเยอร์เอาต์พุต 1 ชั้นมีความลึก 6

โปรดสังเกตว่าเลเยอร์อินพุตไม่ได้ส่งผลต่อความลึก

ฟีเจอร์ที่ไม่ต่อเนื่อง

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้แบบสัมบูรณ์ ตัวอย่างเช่น คุณลักษณะที่มีค่าเป็นสัตว์ ผัก หรือแร่เป็นฟีเจอร์ที่ไม่ต่อเนื่อง (หรือหมวดหมู่)

ตรงข้ามกับฟีเจอร์ต่อเนื่อง

ไดนามิก

#fundamentals

มีบางสิ่งเกิดขึ้นบ่อยหรือต่อเนื่อง คําว่าไดนามิกและออนไลน์จะมีความหมายเหมือนกับแมชชีนเลิร์นนิง การใช้งานไดนามิกและออนไลน์ที่พบบ่อยในแมชชีนเลิร์นนิงมีดังนี้

  • โมเดลแบบไดนามิก (หรือโมเดลออนไลน์) คือรูปแบบที่ได้รับการฝึกซ้ําบ่อยหรือต่อเนื่อง
  • การฝึกอบรมแบบไดนามิก (หรือการฝึกอบรมออนไลน์) เป็นกระบวนการของการฝึกอบรมบ่อยหรือต่อเนื่อง
  • การอนุมานแบบไดนามิก (หรือการอนุมานออนไลน์) เป็นขั้นตอนการสร้างการคาดการณ์ตามคําขอ

รูปแบบแบบไดนามิก

#fundamentals

โมเดลที่ฝึกบ่อยๆ (หรืออาจต่อเนื่อง) รูปแบบแบบไดนามิกคือ "ผู้เรียนรู้ตลอดชีวิต" ซึ่งปรับให้เข้ากับข้อมูลที่เปลี่ยนแปลงอยู่ตลอดเวลา โมเดลแบบไดนามิกหรือที่เรียกว่ารูปแบบออนไลน์

ตรงข้ามกับรูปแบบแบบคงที่

การหยุดก่อนกําหนด

#fundamentals

วิธีสําหรับการปรับให้สอดคล้องตามมาตรฐานที่เกี่ยวข้องกับการสิ้นสุดการฝึกอบรม ก่อนที่จะสูญเสียการฝึกลดลง ในช่วงต้นของการหยุด คุณต้องหยุดการฝึกโมเดลเมื่อเจตนาที่การสูญเสียชุดข้อมูลการตรวจสอบเริ่มเพิ่มขึ้น กล่าวคือเมื่อประสิทธิภาพทั่วไปแย่ลง

การฝังเลเยอร์

#language
#fundamentals

เลเยอร์ที่ซ่อนอยู่แบบพิเศษที่ฝึกบนฟีเจอร์เชิงหมวดหมู่แบบมิติสูงเพื่อค่อยๆ เรียนรู้เวกเตอร์ที่ฝังมิติข้อมูล เลเยอร์การฝังช่วยให้เครือข่ายระบบประสาทฝึกได้มีประสิทธิภาพมากกว่าการฝึกเฉพาะในคุณลักษณะเชิงหมวดหมู่เชิงมิติสูง

ตัวอย่างเช่น ปัจจุบัน Earth สนับสนุนต้นไม้ประมาณ 73,000 สายพันธุ์ สมมติว่าโครงสร้างต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ ดังนั้นเลเยอร์อินพุตของโมเดลมีเวกเตอร์แบบหนึ่งร้อนยาว 73,000 องค์ประกอบ ตัวอย่างเช่น baobab อาจจะเป็นในลักษณะนี้:

อาร์เรย์ขององค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 แรกจะมีค่าเป็น 0 องค์ประกอบถัดไปมีค่า 1 องค์ประกอบ 66,767 สุดท้ายมีค่า
     เป็น 0

อาร์เรย์ที่มี 73,000 องค์ประกอบมีความยาวมาก หากไม่เพิ่มเลเยอร์ที่ฝังลงในโมเดล การฝึกจะใช้เวลานานมากเนื่องจากคูณเลขศูนย์ 72,999 ตัว บางทีคุณอาจเลือกเลเยอร์แบบฝัง ให้มีมิติข้อมูล 12 รายการ ดังนั้น เลเยอร์การฝังจะค่อยๆ เรียนรู้ เวกเตอร์การฝังใหม่สําหรับต้นไม้แต่ละชนิด

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลในเลเยอร์แบบฝัง

Epoch

#fundamentals

การฝึกอบรมที่สมบูรณ์ในชุดการฝึกอบรมทั้งหมด มีการประมวลผลตัวอย่างแต่ละรายการเพียงครั้งเดียว

Epoch จะแสดงการฝึกขนาด N/ขนาดกลุ่ม การทําซ้ํา โดยที่ N คือจํานวนตัวอย่างทั้งหมด

ตัวอย่างเช่น สมมติว่า

  • ชุดข้อมูลจะมี 1,000 ตัวอย่าง
  • กลุ่มตัวอย่างมี 50 ตัวอย่าง

ดังนั้น Epoch เดียวจึงจําเป็นต้องทําซ้ํา 20 ครั้ง

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

example (ตัวอย่าง)

#fundamentals

ค่าของฟีเจอร์ 1 แถวและอาจมีป้ายกํากับ ตัวอย่างในการเรียนรู้ภายใต้การดูแลแบ่งออกเป็น 2 หมวดหมู่ทั่วไป ได้แก่

ตัวอย่างเช่น สมมติว่าคุณกําลังฝึกโมเดลเพื่อระบุอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ต่อไปนี้เป็นตัวอย่างสามป้ายกํากับ:

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 เร็ว
19 34 1020 ดีมาก
18 92 1012 แย่

ต่อไปนี้เป็นตัวอย่างที่ไม่มีป้ายกํากับ 3 ตัวอย่าง

อุณหภูมิ ความชื้น ความกดอากาศ  
12 62 1014  
21 47 1017  
19 41 1021  

แถวของชุดข้อมูลมักจะเป็นแหล่งที่มาดิบสําหรับตัวอย่าง กล่าวคือ ตัวอย่างมักจะประกอบด้วยชุดย่อยของคอลัมน์ในชุดข้อมูล นอกจากนี้ ฟีเจอร์ในตัวอย่างยังรวมถึงฟีเจอร์สังเคราะห์ เช่น การข้ามฟีเจอร์

F

ผลลบลวง (FN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบโดยไม่ตั้งใจ ตัวอย่างเช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม (คลาสเชิงลบ) แต่ข้อความอีเมลนั้นเป็นสแปม

false positive (FP)

#fundamentals

ตัวอย่างโมเดลที่คาดคะเนคลาสเชิงบวกโดยไม่ได้ตั้งใจ ตัวอย่างเช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ จะเป็นสแปม (คลาสเชิงบวก) แต่ข้อความอีเมลนั้นไม่ใช่สแปมจริงๆ

อัตราผลบวกลวง (FPR)

#fundamentals

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสเชิงบวกผิดพลาด สูตรต่อไปนี้จะคํานวณอัตราผลบวกลวง

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในเส้นโค้ง ROC

ฟีเจอร์

#fundamentals

ตัวแปรอินพุตสําหรับโมเดลแมชชีนเลิร์นนิง ตัวอย่าง ประกอบด้วยคุณลักษณะอย่างน้อย 1 รายการ ตัวอย่างเช่น สมมติว่าคุณกําลังฝึกโมเดลเพื่อระบุอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตารางต่อไปนี้แสดงตัวอย่างสามตัวอย่าง แต่ละรายการมีคุณลักษณะ 3 รายการและป้ายกํากับเดียว

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 92
19 34 1020 84
18 92 1012 87

ตรงข้ามกับป้ายกํากับ

คุณลักษณะกากบาท

#fundamentals

ฟีเจอร์สังเคราะห์ที่เกิดจากฟีเจอร์ "ข้าม" เชิงหมวดหมู่หรือเก็บข้อมูล

ตัวอย่างเช่น ลองพิจารณาโมเดล "การคาดการณ์อารมณ์" ที่แสดงถึงอุณหภูมิใน 1 ใน 4 กลุ่มต่อไปนี้

  • freezing
  • chilly
  • temperate
  • warm

และแสดงถึงความเร็วลมใน 1 ใน 3 ที่เก็บข้อมูลต่อไปนี้

  • still
  • light
  • windy

หากไม่มีเครื่องหมายกากบาท โมเดลเชิงเส้นจะฝึกแบบอิสระต่อที่เก็บข้อมูลทั้ง 7 กลุ่มที่มีอยู่ก่อนหน้า ดังนั้น โมเดลจะฝึกต่อจาก freezing โดยไม่ผ่านการฝึก ตัวอย่างเช่น windy

อีกทางเลือกหนึ่งคือ คุณสามารถสร้างคุณลักษณะข้ามอุณหภูมิและความเร็วลม คุณลักษณะสังเคราะห์นี้จะมีค่าที่เป็นไปได้ 12 ค่าดังนี้

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

การใช้ฟีเจอร์ไม้กางเขนบนแบบจําลองช่วยให้โมเดลนี้เรียนรู้ความแตกต่างทางอารมณ์ได้ระหว่าง freezing-windy วันถึง freezing-still วัน

หากคุณสร้างคุณลักษณะสังเคราะห์จากคุณลักษณะ 2 รายการซึ่งมีที่เก็บที่ต่างกันจํานวนมาก คุณลักษณะกากบาทที่ได้จะมีชุดค่าผสมที่เป็นไปได้จํานวนมาก เช่น หากฟีเจอร์หนึ่งมีที่เก็บข้อมูล 1,000 รายการ และอีกฟีเจอร์มีที่เก็บข้อมูล 2,000 รายการ ครอสฟีเจอร์ที่เป็นผลลัพธ์จะมีที่เก็บข้อมูล 2,000,000 รายการ

ไม้กางเขนอย่างเป็นทางการคือ ผลคูณคาร์ทีเซียน

ไม้กางเขนของสถานที่ส่วนใหญ่มักใช้กับรูปแบบเชิงเส้น และมักจะใช้กับโครงข่ายระบบประสาทเทียม

Feature Engineering

#fundamentals
#ขั้นตอนของ Tensor

ซึ่งเป็นกระบวนการที่เกี่ยวข้องกับขั้นตอนต่อไปนี้

  1. การพิจารณาว่าฟีเจอร์ใดเป็นประโยชน์ ในการฝึกโมเดล
  2. การแปลงข้อมูลดิบจากชุดข้อมูล ให้เป็นฟีเจอร์เหล่านี้ที่มีประสิทธิภาพ

ตัวอย่างเช่น คุณอาจมองว่า temperature อาจเป็นฟีเจอร์ที่มีประโยชน์ จากนั้น คุณอาจทดสอบด้วยที่เก็บข้อมูลเพื่อเพิ่มประสิทธิภาพสิ่งที่โมเดลเรียนรู้ได้จากtemperatureช่วงต่างๆ

บางครั้งวิศวกรรมฟีเจอร์เรียกว่าการแยกฟีเจอร์

ชุดคุณลักษณะ

#fundamentals

กลุ่มฟีเจอร์ที่โมเดลแมชชีนเลิร์นนิงของคุณใช้ฝึก ตัวอย่างเช่น รหัสไปรษณีย์ ขนาดพื้นที่ และเงื่อนไขอสังหาริมทรัพย์ อาจประกอบขึ้นจากชุดคุณลักษณะง่ายๆ สําหรับแบบจําลองที่คาดคะเนราคาที่อยู่อาศัย

เวกเตอร์ฟีเจอร์

#fundamentals

อาร์เรย์ของค่า feature ที่ประกอบด้วยตัวอย่าง เวกเตอร์ของคุณลักษณะคืออินพุตระหว่างการฝึกและระหว่างการอนุมาน ตัวอย่างเช่น เวกเตอร์ของฟีเจอร์สําหรับโมเดล ที่มีจุดสนใจไม่ต่อเนื่องกัน อาจเป็น

[0.92, 0.56]

เลเยอร์ 4 ชั้น: เลเยอร์อินพุต 2 เลเยอร์ที่ซ่อนอยู่และ 1 เลเยอร์เอาต์พุต
          เลเยอร์อินพุตมีโหนด 2 โหนด โดยโหนดหนึ่งมีค่า 0.92 และอีกโหนดมีค่า 0.56

ตัวอย่างแต่ละรายการแสดงค่าที่แตกต่างกันสําหรับเวกเตอร์จุดสนใจ ดังนั้นเวกเตอร์ของตัวอย่างสําหรับตัวอย่างถัดไปอาจเป็นดังนี้

[0.73, 0.49]

วิศวกรรมฟีเจอร์กําหนดวิธีแสดงฟีเจอร์ในเวกเตอร์ฟีเจอร์ เช่น ฟีเจอร์หมวดหมู่ไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าอาจแสดงเป็นการเข้ารหัสแบบ Hot-hot ในกรณีนี้ ส่วนของเวกเตอร์จุดสนใจสําหรับตัวอย่างจะประกอบด้วยเลขศูนย์ 4 ตัว และ 1 ตัว 0.1 ในตําแหน่งที่สาม ดังนี้

[0.0, 0.0, 1.0, 0.0, 0.0]

ตัวอย่างอีกตัวอย่างหนึ่งคือ โมเดลของคุณประกอบด้วยคุณลักษณะสามประการ:

  • [0.0, 1.0, 0.0, 0.0, 0.0]
  • คุณลักษณะเชิงหมวดหมู่ไบนารีอีกอย่างหนึ่งที่มีค่าที่เป็นไปได้ 3 ซึ่งแสดงเป็นการเข้ารหัสแบบ Hot-hot ตัวอย่างเช่น [0.0, 0.0, 1.0]
  • ฟีเจอร์จุดลอยตัว เช่น 8.3

ในกรณีนี้ เวกเตอร์ฟีเจอร์สําหรับตัวอย่างแต่ละรายการจะแสดงด้วยค่า 9 ค่า ตามค่าตัวอย่างในรายการก่อนหน้านี้ เวกเตอร์คุณลักษณะจะเป็นดังนี้

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

รายงานความคิดเห็น

#fundamentals

ในแมชชีนเลิร์นนิง สถานการณ์ที่การคาดการณ์ของโมเดลจะส่งผลต่อข้อมูลการฝึกสําหรับโมเดลเดียวกันหรือโมเดลอื่น ตัวอย่างเช่น โมเดลที่แนะนําภาพยนตร์จะส่งผลต่อภาพยนตร์ที่ผู้ชมเห็น ซึ่งจะมีผลต่อโมเดลคําแนะนําภาพยนตร์ที่ตามมา

G

ข้อมูลทั่วไป

#fundamentals

ความสามารถของ model ในการคาดการณ์ข้อมูลใหม่ที่ไม่เคยเห็นมาก่อนได้อย่างถูกต้อง โมเดลที่สร้างความแตกต่างได้จะตรงกันข้ามกับโมเดลที่กําลังติดตั้งมากเกินไป

เส้นโค้งทั่วไป

#fundamentals

โครงเรื่องของการสูญเสียการฝึกและการสูญเสียการตรวจสอบเป็นฟังก์ชันของจํานวนการทําซ้ํา

เส้นโค้งทั่วไปจะช่วยให้คุณตรวจจับความเสียหายที่อาจเกิดขึ้นได้ ตัวอย่างเช่น เส้นโค้งทั่วไปต่อไปนี้แนะนําว่ามากเกินไปเนื่องจากการสูญเสียการตรวจสอบจะสูงกว่าการฝึกที่สูญหายไปอย่างมาก

กราฟคาร์ทีเซียนที่แกน y มีข้อความกํากับว่า &quot;การสูญเสีย&quot; และแกน x มีข้อความระบุว่า &quot;การปรับปรุง&quot; พล็อตเรื่องสองเรื่องจะปรากฏขึ้น พล็อตหนึ่งแสดงการสูญเสียการฝึก และอีกตารางหนึ่งแสดงการสูญเสียการตรวจสอบ
          พล็อตกราฟทั้ง 2 เรื่องนี้เริ่มต้นในลักษณะเดียวกัน แต่ในที่สุดการฝึกก็ลดลงต่ํากว่าการสูญเสียการตรวจสอบอย่างมาก

ไล่ระดับสีไล่ระดับ

#fundamentals

เทคนิคทางคณิตศาสตร์เพื่อลดการสูญเสีย การไล่เฉดสีจะปรับตามน้ําหนักและการให้น้ําหนักพิเศษอย่างต่อเนื่อง โดยค่อยๆ หาชุดค่าผสมที่ดีที่สุดเพื่อลดการสูญเสีย

ไล่ระดับสีที่เก่ากว่า เก่ากว่ามาก เมื่อเทียบกับแมชชีนเลิร์นนิง

ข้อมูลจากการสังเกตการณ์โดยตรง

#fundamentals

เรียลลิตี้

สิ่งที่เกิดขึ้นจริง

ตัวอย่างเช่น ลองพิจารณาโมเดลการจัดประเภทแบบไบนารีที่คาดคะเนว่านักศึกษาปีแรกมหาวิทยาลัยจะจบการศึกษาภายใน 6 ปีหรือไม่ ข้อมูลจากการสังเกตการณ์โดยตรงของแบบจําลองนี้คือ การศึกษาว่านักเรียนจบการศึกษาภายใน 6 ปีหรือไม่

H

เลเยอร์ที่ซ่อนอยู่

#fundamentals

เลเยอร์ในเครือข่ายระบบประสาทระหว่างเลเยอร์อินพุต (จุดสนใจ) และเลเยอร์เอาต์พุต (การคาดการณ์) เลเยอร์ที่ซ่อนอยู่แต่ละเลเยอร์ประกอบด้วยเซลล์ประสาทอย่างน้อยหนึ่งเลเยอร์ ตัวอย่างเช่น เครือข่ายระบบประสาทดังต่อไปนี้มีเลเยอร์ที่ซ่อนอยู่ 2 ชั้น ชั้นแรกมีเซลล์ประสาท 3 เซลล์ และอีกชั้นที่มีเซลล์ประสาท 2 ชั้น

สี่เลเยอร์ เลเยอร์แรกเป็นเลเยอร์อินพุตที่มี
          ฟีเจอร์ 2 อย่าง เลเยอร์ที่ 2 คือเลเยอร์ที่ซ่อนอยู่ซึ่งมีเซลล์ประสาท 3 เซลล์ เลเยอร์ที่ 3 คือเลเยอร์ที่ซ่อนอยู่ซึ่งมีเซลล์ประสาท 2 เซลล์ เลเยอร์ที่สี่คือชั้นเอาต์พุต แต่ละฟีเจอร์มีขอบ 3 ด้าน แต่ละด้านชี้ไปที่เซลล์ประสาทที่แตกต่างกันในเลเยอร์ที่ 2 เซลล์ประสาทแต่ละตัวในเลเยอร์ที่ 2 มีขอบ 2 ด้าน แต่ละเซลล์ชี้ไปที่เซลล์ประสาทที่แตกต่างกันในเลเยอร์ที่ 3 เซลล์ประสาทแต่ละเลเยอร์ในเลเยอร์ที่สามมีขอบด้านหนึ่งแต่ละด้านที่ชี้ไปที่เลเยอร์เอาต์พุต

เครือข่ายประสาทเทียมระดับลึกมีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 ชั้น ตัวอย่างเช่น ภาพประกอบก่อนหน้าคือโครงข่ายประสาทแบบลึก เพราะโมเดลมีเลเยอร์ที่ซ่อนอยู่ 2 ชั้น

ไฮเปอร์พารามิเตอร์

#fundamentals

ตัวแปรที่คุณหรือบริการปรับแต่งไฮเปอร์พารามิเตอร์ ปรับเปลี่ยนระหว่างการฝึกโมเดลอย่างต่อเนื่อง เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์ คุณสามารถตั้งค่าอัตราการเรียนรู้เป็น 0.01 ก่อนเซสชันการฝึกอบรมหนึ่งครั้งได้ หากเห็นว่า 0.01 สูงเกินไป คุณอาจตั้งค่าอัตราการเรียนรู้เป็น 0.003 สําหรับเซสชันการฝึกอบรมถัดไป

ในทางตรงกันข้าม พารามิเตอร์คือน้ําหนักและการให้น้ําหนักพิเศษต่างๆ ที่โมเดล เรียนรู้ระหว่างการฝึก

I

เผยแพร่โดยอิสระและเหมือนกันทุกประการ (เช่น

#fundamentals

ข้อมูลที่ดึงมาจากการกระจายที่ไม่มีการเปลี่ยนแปลง และโดยที่แต่ละค่าจะไม่ขึ้นอยู่กับค่าที่วาดไว้ก่อนหน้า ไอดอร์คือก๊าซในอุดมคติ ของการเรียนรู้ทางคอมพิวเตอร์ ซึ่งเป็นโครงสร้างทางคณิตศาสตร์ที่มีประโยชน์ แต่แทบจะไม่เคยพบในชีวิตจริง ตัวอย่างเช่น การกระจายของผู้เข้าชมหน้าเว็บอาจ เช่น ในช่วงเวลาสั้นๆ กล่าวคือ การกระจายจะไม่เปลี่ยนแปลง ระหว่างช่วงเวลาสั้นๆ ดังกล่าว และการเข้าชมของบุคคลหนึ่งจะไม่ขึ้นกับการเข้าชมของผู้อื่น อย่างไรก็ตาม หากคุณขยายกรอบเวลานั้น ผู้เข้าชมหน้าเว็บอาจมีการเปลี่ยนแปลงตามฤดูกาล

ดูNonstationarityity เพิ่มเติม

การอนุมาน

#fundamentals

ในแมชชีนเลิร์นนิง ขั้นตอนการทําการคาดการณ์โดยใช้โมเดลที่ฝึกแล้วกับตัวอย่างที่ไม่มีป้ายกํากับ

การอนุมานมีความหมายที่ค่อนข้างแตกต่างในสถิติ ดู บทความวิกิพีเดียเกี่ยวกับการอนุมานทางสถิติสําหรับรายละเอียด

เลเยอร์อินพุต

#fundamentals

เลเยอร์ของเครือข่ายระบบประสาทที่มีเวกเตอร์ฟีเจอร์ กล่าวคือ เลเยอร์อินพุตมีตัวอย่างสําหรับการฝึกทํางานหรือการอนุมาน ตัวอย่างเช่น เลเยอร์อินพุตในเครือข่ายระบบประสาทต่อไปนี้ประกอบด้วย 2 คุณลักษณะ

เลเยอร์ 4 ชั้น: เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 ชั้นและเลเยอร์เอาต์พุต

ความสามารถในการตีความ

#fundamentals

ความสามารถในการอธิบายหรือนําเสนอเหตุผลของ model ของ ML ในคําศัพท์ที่เข้าใจได้ของมนุษย์

ตัวอย่างเช่น โมเดลการถดถอยเชิงเส้นส่วนใหญ่จะตีความได้ไม่ชัดเจน (คุณแค่ต้องดูน้ําหนักที่ฝึกแล้วสําหรับแต่ละฟีเจอร์) แถมป่าแห่งการตัดสินใจก็ตีความได้สูงด้วยเช่นกัน อย่างไรก็ตาม บางโมเดลต้องใช้การแสดงผลที่ซับซ้อนเพื่อให้ตีความได้

คุณสามารถใช้เครื่องมือเรียนรู้การตีความ (LIT) เพื่อตีความโมเดล ML

การทําซ้ํา

#fundamentals

การอัปเดตพารามิเตอร์ model ครั้งเดียว ได้แก่ น้ําหนักและการให้น้ําหนักพิเศษของโมเดลในระหว่างการฝึก ขนาดกลุ่มจะเป็นตัวกําหนดจํานวนตัวอย่างที่โมเดลประมวลผลในการทําซ้ําครั้งเดียว ตัวอย่างเช่น หากขนาดกลุ่มคือ 20 โมเดลจะประมวลผลตัวอย่าง 20 รายการก่อนที่จะปรับพารามิเตอร์

เมื่อฝึกเครือข่ายระบบประสาท การดําเนินการซ้ําๆ จะเกิดขึ้น 2 ครั้งดังต่อไปนี้

  1. บัตรผ่านสําหรับประเมินการสูญเสียแบบกลุ่ม
  2. การส่งกลับ (การย้อนกลับ) ไปปรับพารามิเตอร์ของโมเดลโดยอิงตามการสูญเสียและอัตราการเรียนรู้

L

การกําหนดกฎ L0

#fundamentals

ประเภทของกฎเกณฑ์ประเภทหนึ่งที่ลงโทษจํานวนรวมของน้ําหนักที่ไม่ใช่ศูนย์ในโมเดล ตัวอย่างเช่น โมเดลที่มีน้ําหนักที่ไม่ใช่ 11 จะถูกลงโทษมากกว่าโมเดลที่คล้ายกันที่มีน้ําหนักที่ไม่ใช่ 10

ในบางครั้ง0 การกําหนดกฎเป็นการทําให้เป็นมาตรฐาน L0-norm

แพ้ L1

#fundamentals

ฟังก์ชันการสูญเสียที่คํานวณค่าสัมบูรณ์ของผลต่างระหว่างค่าป้ายกํากับจริงกับค่าที่โมเดลคาดการณ์ เช่น การคํานวณการสูญเสีย L1 จากแบทช์จาก 5 ตัวอย่าง

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ของโมเดล ค่าสัมบูรณ์ของเดลต้า
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = แพ้ 1 ครั้ง

การสูญเสีย L1 มีความไวน้อยกว่าต่อค่าที่ผิดปกติ เมื่อเทียบกับการสูญเสีย

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์คือการสูญเสีย 1 โดยเฉลี่ยต่อตัวอย่าง

การกําหนดกฎ L1

#fundamentals

Regularization ประเภทหนึ่งที่ลงโทษน้ําหนักตามสัดส่วนของมูลค่าสัมบูรณ์ของน้ําหนัก การควบคุมแบบ L1 ช่วยลดน้ําหนักของคุณลักษณะที่ไม่เกี่ยวข้อง หรือแทบจะไม่มีความเกี่ยวข้องกับ0 ได้เลย ฟีเจอร์ที่มีน้ําหนักเป็น 0 จะถูกนําออกจากโมเดลอย่างมีประสิทธิภาพ

ตรงข้ามกับกฎประจําบล็อก L2

แพ้ L2

#fundamentals

ฟังก์ชันการสูญเสียที่คํานวณกําลังสองของผลต่างระหว่างค่าป้ายกํากับจริงกับค่าที่โมเดลคาดการณ์ เช่น การคํานวณการสูญเสีย2 ของกลุ่มจาก 5 ตัวอย่างมีดังนี้

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ของโมเดล จัตุรัสเดลต้า
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = แพ้ 2

เนื่องจากการทุจริต การสูญเสีย L2 จะช่วยเพิ่มอิทธิพลของค่าที่ผิดปกติ นั่นคือ การสูญเสีย L2 จะตอบสนองต่อการคาดการณ์ที่แย่มากกว่า L1 มาก เช่น ค่า L1 ที่ยกมาสําหรับกลุ่ม ก่อนหน้าจะเป็น 8 แทนที่จะเป็น 16 โปรดสังเกตว่า ค่าที่ผิดปกติหนึ่งค่าเท่ากับ 9 จาก 16

โมเดลการเกิดปัญหาซ้ํามักจะใช้การสูญเสีย 2 เป็นฟังก์ชันการสูญเสีย

ค่าเฉลี่ยความคลาดเคลื่อนกําลังสอง คือการสูญเสีย L2 โดยเฉลี่ยต่อตัวอย่าง Squad Loss เป็นอีกชื่อสําหรับการสูญเสีย L2

การกําหนดกฎ L2

#fundamentals

กฎเกณฑ์ประเภทหนึ่งที่ลงโทษน้ําหนักตามสัดส่วนของผลรวมของสี่เหลี่ยมจัตุรัสของน้ําหนัก กฎ L2 จะช่วยสร้างน้ําหนักให้กับ Outlier ให้น้ําหนัก ฟีเจอร์ที่มีค่าใกล้เคียงกับ 0 มากจะยังคงอยู่ในโมเดลนั้น แต่ไม่ได้ส่งผลต่อการคาดการณ์ของโมเดลมากนัก

การจัดทํากฎประจํา L2 จะปรับปรุงการกําหนดทั่วไปในรูปแบบเชิงเส้นเสมอ

ตรงข้ามกับกฎประจําตัว L1

ป้ายกำกับ

#fundamentals

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล ส่วน "คําตอบ" หรือ "ผลลัพธ์" ของตัวอย่าง

ตัวอย่างที่มีป้ายกํากับแต่ละรายการประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการและป้ายกํากับ ตัวอย่างเช่น ในชุดข้อมูลการตรวจสอบสแปม ป้ายกํากับอาจเป็น "สแปม" หรือ "ไม่ใช่จดหมายขยะ" ในชุดข้อมูลปริมาณฝน ป้ายกํากับอาจเป็นปริมาณฝนที่ตกในช่วงเวลาหนึ่งๆ

ตัวอย่างที่มีป้ายกํากับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์อย่างน้อย 1 รายการและป้ายกํากับ เช่น ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการที่มีป้ายกํากับจากโมเดลการประเมินมูลค่าบ้าน โดยแต่ละฟีเจอร์มีฟีเจอร์ 3 รายการและป้ายกํากับ 1 รายการ

จำนวนห้องนอน จํานวนห้องน้ํา อายุของคฤหาสน์ ราคาเฮาส์ (ป้ายกํากับ)
3 2 15 345,000 ดอลลาร์
2 1 72 179,000 ดอลลาร์
4 2 34 392,000 ดอลลาร์

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกตัวอย่างที่ติดป้ายกํากับ และคาดการณ์ตัวอย่างที่ไม่มีป้ายกํากับ

คอนทราสต์ตัวอย่างที่มีป้ายข้อความตัวอย่าง

แลมบ์ดา

#fundamentals

คําพ้องสําหรับอัตรามาตรฐาน

Lambda เป็นคําที่ฟังดูมากเกินไป โดยจะเน้นคําจํากัดความในการทําให้เป็นมาตรฐาน

ชั้น

#fundamentals

ชุดของเซลล์ประสาทในเครือข่ายระบบประสาท เลเยอร์ทั่วไปมี 3 ประเภทดังนี้

ตัวอย่างเช่น ภาพต่อไปนี้แสดงเครือข่ายระบบประสาทที่มีเลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์

เครือข่ายระบบประสาทที่มีเลเยอร์อินพุต 1 ชั้น เลเยอร์ที่ซ่อนอยู่ 2 ชั้น และ
          เลเยอร์เอาต์พุต 1 รายการ เลเยอร์อินพุตมีองค์ประกอบ 2 อย่าง เลเยอร์ที่ซ่อนอยู่ชั้นแรกประกอบด้วยเซลล์ประสาท 3 ชั้น และเซลล์ที่ 2 ที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาท 2 เซลล์ ชั้นเอาต์พุตประกอบด้วยโหนดเดี่ยว

ใน TensorFlow เลเยอร์ยังเป็นฟังก์ชัน Python ที่มี Tensor และตัวเลือกการกําหนดค่าเป็นอินพุต และสร้าง Tensor อื่นๆ เป็นเอาต์พุต

อัตราการเรียนรู้

#fundamentals

จํานวนจุดลอยตัวที่บอกอัลกอริทึม การไล่ระดับการไล่ระดับสี ว่าจะปรับน้ําหนักและการให้น้ําหนักพิเศษใน การทําซ้ําแต่ละจุดได้มากเพียงใด ตัวอย่างเช่น อัตราการเรียนรู้ 0.3 จะปรับน้ําหนักและการให้น้ําหนักพิเศษมากกว่าพลังการเรียนรู้ 0.1 ถึง 3 เท่า

อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์หลัก ถ้าคุณตั้งอัตราการเรียนรู้ต่ําเกินไป การฝึกอบรมจะใช้เวลานานเกินไป หากคุณตั้งค่าอัตราการเรียนรู้สูงเกินไป การไล่ระดับแบบไล่ระดับสีมักจะมีปัญหาในการเข้าถึงความสะดวก

รูปแบบเชิงเส้น

#fundamentals

โมเดลที่กําหนดให้น้ําหนัก 1 ชิ้นต่อฟีเจอร์เพื่อสร้างการคาดการณ์ (รูปแบบเชิงเส้นมีการให้น้ําหนักพิเศษด้วย) ในทางตรงกันข้าม ความสัมพันธ์ของฟีเจอร์กับการคาดการณ์ในโมเดลเชิงลึกนั้นโดยทั่วไปจะไม่ใช่เชิงเส้น

รูปแบบเชิงเส้นนั้นมักจะฝึกได้ง่ายกว่าและ สามารถตีความได้มากกว่าโมเดลเชิงลึก อย่างไรก็ตาม โมเดลเชิงลึกจะเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างฟีเจอร์ต่างๆ ได้

การถดถอยเชิงเส้นและ การถดถอยแบบโลจิสติกเป็นโมเดลสองประเภท

เชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปร 2 ตัวขึ้นไปที่สามารถแสดงแทน การบวกและคูณเพียงอย่างเดียว

พล็อตของความสัมพันธ์เชิงเส้นเป็นเส้น

ตรงข้ามกับแบบไม่เป็นเชิงเส้น

การถดถอยเชิงเส้น

#fundamentals

โมเดลแมชชีนเลิร์นนิงประเภทหนึ่งที่ทั้ง 2 เงื่อนไขเป็นจริง

การถดถอยเชิงเส้นเชิงเส้นด้วย การถดถอยแบบโลจิสติก นอกจากนี้ ความถดถอยคอนทราสต์ด้วยการจัดประเภท

การถดถอยแบบโลจิสติก

#fundamentals

ประเภทของโมเดลการถดถอยที่คาดคะเนความน่าจะเป็น รูปแบบการถดถอยแบบโลจิสติกส์มีลักษณะดังต่อไปนี้

  • ป้ายกํากับคือหมวดหมู่ คําว่าความถดถอยแบบโลจิสติกส์มักจะหมายถึงการถดถอยแบบโลจิสติกแบบไบนารี ซึ่งก็คือรูปแบบที่คํานวณความน่าจะเป็นสําหรับป้ายกํากับที่มีค่าที่เป็นไปได้ 2 ค่า รูปแบบการถดถอยแบบโลจิสติกส์เชิงเศรษฐกิจที่มีการใช้กันน้อยกว่าจะคํานวณความน่าจะเป็นสําหรับป้ายกํากับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า
  • ฟังก์ชันการสูญเสียระหว่างการฝึกทํางานคือบันทึกหายไป (ป้ายกํากับหลายรายการอาจหายไปพร้อมกันสําหรับป้ายกํากับที่มีค่ามากกว่า 2 ค่า)
  • แบบจําลองนี้มีสถาปัตยกรรมเชิงเส้น ไม่ใช่เครือข่ายโครงข่ายประสาทแบบลึก อย่างไรก็ตาม ส่วนที่เหลือของคําจํากัดความนี้ยังใช้กับโมเดลเชิงลึกที่คาดการณ์แนวโน้มของป้ายกํากับเชิงหมวดหมู่ได้ด้วย

ตัวอย่างเช่น พิจารณาโมเดลการถดถอยแบบโลจิสติกส์ที่จะคํานวณความน่าจะเป็นของอีเมลที่ป้อนว่าเป็นจดหมายขยะหรือไม่ ระหว่างการอนุมานนี้ โมเดลจะคาดการณ์ 0.72 ดังนั้น โมเดลกําลังประเมิน:

  • โอกาส 72% ของอีเมลจะเป็นสแปม
  • มีโอกาส 28% ที่อีเมลจะไม่ถูกสแปม

โมเดลการถดถอยแบบโลจิสติกส์ใช้สถาปัตยกรรมแบบ 2 ขั้นตอนต่อไปนี้

  1. โมเดลจะสร้างการคาดการณ์แบบ Raw (y) โดยใช้ฟังก์ชันเชิงเส้นของฟีเจอร์อินพุต
  2. โมเดลนี้ใช้การคาดการณ์แบบข้อมูลดิบดังกล่าวเป็นอินพุตสําหรับฟังก์ชัน Sigmoid ซึ่งแปลงการคาดการณ์แบบดิบเป็นค่าระหว่าง 0 ถึง 1

เช่นเดียวกับรูปแบบการถดถอย โมเดลการถดถอยแบบโลจิสติกจะคาดการณ์ตัวเลข อย่างไรก็ตาม ตัวเลขนี้มักจะเป็นส่วนหนึ่งของโมเดลการจัดประเภท แบบไบนารีดังต่อไปนี้

  • หากจํานวนที่คาดการณ์มากกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสที่เป็นบวก
  • ถ้าจํานวนที่คาดคะเนน้อยกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทไบนารีจะคาดการณ์คลาสเชิงลบ

บันทึกหายไป

#fundamentals

ฟังก์ชันการสูญเสียที่ใช้ในการถดถอยแบบโลจิสติกส์แบบไบนารี

โอกาสในการบันทึก

#fundamentals

ลอการิทึมของความน่าจะเป็นของบางเหตุการณ์

แพ้

#fundamentals

ในระหว่างการฝึกทํางานของโมเดลที่มีการควบคุมดูแล การวัดว่าการคาดการณ์ของโมเดลอยู่ห่างจากป้ายกํากับมากเพียงใด

ฟังก์ชันการสูญเสียจะคํานวณการสูญเสีย

เส้นโค้งที่สูญหาย

#fundamentals

โครงเรื่องการสูญเสียเป็นฟังก์ชันของจํานวนการฝึกการฝึก พล็อตต่อไปนี้แสดงเส้นโค้ง การสูญเสียทั่วไป

กราฟความสูญเสียแบบคาร์ทีเซียนเทียบกับการฝึกซ้ํา ซึ่งแสดงการลดลงอย่างรวดเร็วของการปรับปรุงซ้ํา ตามด้วยการลดลงทีละน้อย แล้วกราฟที่ลาดชันในช่วงที่มีการทําซ้ํารอบสุดท้าย

เส้นโค้งที่สูญเสียข้อมูลช่วยให้คุณระบุได้เวลาที่โมเดลกําลังเปรียบเทียบหรือปรับมากเกินไป

เส้นโค้งการสูญเสียสามารถพล็อตประเภทการสูญเสียทั้งหมดได้ดังต่อไปนี้:

ดูเส้นโค้งทั่วไปเพิ่มเติม

ฟังก์ชันการสูญเสีย

#fundamentals

ระหว่างการฝึกทํางานหรือการทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่คํานวณความสูญเสียในกลุ่มตัวอย่าง ฟังก์ชัน Loss จะแสดงค่า Loss ที่ลดลง สําหรับโมเดลที่คาดการณ์ได้ดี สําหรับโมเดลที่คาดคะเน ที่ไม่ดี

โดยทั่วไปแล้ว เป้าหมายของการฝึกอบรมคือ เพื่อลดการสูญเสียฟังก์ชันฟังก์ชันการสูญเสีย

ฟังก์ชันการสูญเสียมีอยู่หลายประเภท เลือกฟังก์ชันการสูญเสียที่เหมาะสม สําหรับโมเดลที่คุณกําลังสร้าง เช่น

M

แมชชีนเลิร์นนิง

#fundamentals

โปรแกรมหรือระบบที่ฝึกโมเดลจากข้อมูลอินพุต โมเดลที่ฝึกแล้วจะสามารถสร้างการคาดการณ์ที่เป็นประโยชน์จากข้อมูลใหม่ (ที่ไม่เคยเห็นมาก่อน) ซึ่งดึงมาจากการกระจายเดียวกันกับที่ใช้ฝึกโมเดล

แมชชีนเลิร์นนิงยังหมายถึงสาขา การศึกษาที่เกี่ยวข้องกับโปรแกรมหรือระบบเหล่านี้

ระดับส่วนใหญ่

#fundamentals

ป้ายกํากับที่ใช้บ่อยในชุดข้อมูลที่ไม่สมดุลของชั้นเรียน ตัวอย่างเช่น หากชุดข้อมูลที่มีป้ายกํากับเชิงลบ 99% และป้ายกํากับเชิงบวก 1% ป้ายกํากับเชิงลบจะเป็นคลาสส่วนใหญ่

ตรงข้ามกับชนกลุ่มน้อย

มินิแบตช์

#fundamentals

ชุดย่อยขนาดเล็กที่สุ่มเลือกของกลุ่มที่ประมวลผลแล้วในการปรับปรุงเดียว ขนาดกลุ่มของมินิแบทช์มักจะอยู่ระหว่าง 10 ถึง 1,000 ตัวอย่าง

ตัวอย่างเช่น สมมติว่าชุดการฝึกทั้งหมด (ทั้งชุด) ประกอบด้วยตัวอย่าง 1,000 รายการ และสมมติว่าคุณตั้งค่าขนาดกลุ่มของแต่ละมินิแบตช์ไว้ที่ 20 ดังนั้น การทําซ้ําแต่ละครั้งจะระบุการสูญเสียจากการสุ่มตัวอย่าง 20 จาก 1,000 ตัวอย่าง จากนั้นจึงปรับน้ําหนักและการให้น้ําหนักพิเศษตามความเหมาะสม

การคํานวณการสูญเสียเป็นชุดเล็กจะมีประสิทธิภาพมากกว่าการสูญเสียตัวอย่างทั้งหมดในกลุ่ม

ชนชั้นน้อย

#fundamentals

ป้ายกํากับที่ไม่ค่อยมีอยู่ในชุดข้อมูลที่ไม่สมดุลกัน ตัวอย่างเช่น หากชุดข้อมูลที่มีป้ายกํากับเชิงลบ 99% และป้ายกํากับเชิงบวก 1% ป้ายกํากับเชิงบวกจะเป็นชนกลุ่มน้อย

ตรงข้ามกับคลาสส่วนใหญ่

รุ่น

#fundamentals

โดยทั่วไป การคํานวณทางคณิตศาสตร์ที่ประมวลผลอินพุตของข้อมูลและแสดงเอาต์พุต กล่าวคือ โมเดลคือชุดของพารามิเตอร์และโครงสร้างที่จําเป็นสําหรับระบบในการคาดการณ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลใช้ตัวอย่างเป็นอินพุตและอนุมาน การคาดการณ์เป็นเอาต์พุต ในโมเดลแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะค่อนข้างแตกต่างกัน เช่น

คุณสามารถบันทึก กู้คืน หรือทําสําเนาโมเดลได้

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลจะสร้างโมเดลด้วย ซึ่งโดยทั่วไปจะเป็นฟังก์ชันที่แมปตัวอย่างอินพุตกับคลัสเตอร์ที่เหมาะสมที่สุด

การจัดประเภทแบบหลายคลาส

#fundamentals

ในการเรียนรู้ที่มีการควบคุมดูแล ปัญหาการจัดหมวดหมู่ที่ชุดข้อมูลมีป้ายกํากับมากกว่า classes 2 ชุด ตัวอย่างเช่น ป้ายกํากับในชุดข้อมูล Iris ต้องเป็นคลาสหนึ่งจาก 3 คลาสต่อไปนี้

  • ไอริส เซโตซา
  • ไอริสเวอร์จิน
  • ม่านตาตก

โมเดลที่ฝึกบนชุดข้อมูล Iris ที่คาดคะเนประเภท Iris ในตัวอย่างใหม่ทําการจําแนกแบบหลายคลาส

ในทางตรงกันข้าม ปัญหาการแยกประเภทระหว่าง 2 คลาสคือโมเดลการจัดประเภทแบบไบนารี เช่น โมเดลอีเมลที่คาดคะเนสแปมหรือไม่ใช่สแปมคือรูปแบบการจัดประเภทไบนารี

ในการจัดกลุ่ม การจัดประเภทแบบหลายคลาสหมายถึงมากกว่า 2 คลัสเตอร์

N

คลาสเชิงลบ

#fundamentals

ในการจัดประเภทแบบไบนารี คลาสหนึ่งเรียกว่าค่าบวก และอีกคลาสเรียกว่าค่าลบ คลาสที่เป็นบวกคือเหตุการณ์หรือโมเดลที่ทดสอบอยู่ และคลาสเชิงลบก็เป็นไปได้ เช่น

  • คลาสที่เป็นลบในการทดสอบทางการแพทย์อาจเป็น "เนื้องอก"
  • คลาสค่าลบในโปรแกรมจัดประเภทอีเมลอาจ "ไม่ใช่สแปม"

ตรงข้ามกับคลาสเชิงบวก

โครงข่ายระบบประสาทเทียม

#fundamentals

แบบจําลองที่มีเลเยอร์ที่ซ่อนอยู่อย่างน้อย 1 ชั้น เครือข่ายประสาทเทียมระดับลึกคือเครือข่ายระบบประสาทประเภทหนึ่ง ที่มีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 ชั้น เช่น แผนภาพต่อไปนี้แสดงโครงข่ายประสาทส่วนลึกที่มีเลเยอร์ที่ซ่อนอยู่ 2 ชั้น

เครือข่ายระบบประสาทที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 ชั้น และ
          เลเยอร์เอาต์พุต

เซลล์ประสาทแต่ละเซลล์ในเครือข่ายเส้นประสาทจะเชื่อมต่อกับโหนดทั้งหมดในเลเยอร์ถัดไป ตัวอย่างเช่น ในแผนภาพก่อนหน้า สังเกตว่า เซลล์ประสาท 3 เซลล์ในเลเยอร์ที่ซ่อนอยู่ชั้นแรกจะเชื่อมต่อกับเซลล์ทั้งสองในชั้นที่ 2 ที่ซ่อนอยู่

บางครั้ง โครงข่ายประสาทที่ใช้ในคอมพิวเตอร์เรียกว่า โครงข่ายประสาทเทียม เพื่อแยกแยะเครือข่ายเหล่านั้นออกจากเครือข่ายประสาทเทียมที่พบในสมองและระบบประสาทอื่นๆ

เครือข่ายระบบประสาทบางแห่งอาจเลียนแบบความสัมพันธ์ที่ไม่ใช่เชิงเส้นที่ซับซ้อนมากระหว่างฟีเจอร์และป้ายกํากับต่างๆ

โปรดดูโครงข่ายระบบประสาทเทียมแบบ Convolution และโครงข่ายระบบประสาทเทียมแบบเกิดซ้ํา

เซลล์ประสาท

#fundamentals

ในแมชชีนเลิร์นนิง หน่วยที่ไม่ซ้ํากันในเลเยอร์ที่ซ่อนอยู่ของเครือข่ายระบบประสาท เซลล์ประสาทแต่ละเซลล์จะ ดําเนินการ 2 ขั้นตอนดังต่อไปนี้

  1. คํานวณผลรวมถ่วงน้ําหนักของค่าอินพุตคูณด้วยน้ําหนักที่ตรงกัน
  2. ส่งผ่านค่าผลรวมแบบถ่วงน้ําหนักเป็นอินพุตไปยังฟังก์ชันการเปิดใช้งาน

เซลล์ประสาทในเลเยอร์แรกที่ซ่อนอยู่จะรับอินพุตจากค่าของฟีเจอร์ในเลเยอร์อินพุต เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่ในเซลล์แรก จะรับอินพุตจากเซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่ก่อนหน้านี้ ตัวอย่างเช่น เซลล์ประสาทในเลเยอร์ที่ 2 ที่ซ่อนอยู่จะยอมรับอินพุตจากเซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่ชั้นแรก

ภาพต่อไปนี้ไฮไลต์เซลล์ประสาท 2 เซลล์ และอินพุตของเซลล์

เครือข่ายระบบประสาทที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 ชั้น และ
          เลเยอร์เอาต์พุต เซลล์ประสาท 2 จุดจะถูกไฮไลต์โดย 1 ในเลเยอร์ที่ซ่อนอยู่ชั้นแรกและ 1 ในเลเยอร์ที่ซ่อนอยู่ 2 ชั้น เซลล์ประสาทที่ไฮไลต์ในเลเยอร์ที่ซ่อนอยู่แรกจะได้รับอินพุตจากทั้ง 2 ฟีเจอร์ในเลเยอร์อินพุต เซลล์ประสาทที่ไฮไลต์ในเลเยอร์ที่ 2 ที่ซ่อนอยู่ได้รับอินพุตจากเซลล์ประสาท 3 เซลล์ในเลเยอร์แรกที่ซ่อนอยู่

เซลล์ประสาทในโครงข่ายประสาทจะเลียนแบบการทํางานของเซลล์ประสาทในสมองและส่วนอื่นๆ ของระบบประสาท

โหนด (โครงข่ายระบบประสาทเทียม)

#fundamentals

เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่

ไม่เป็นเชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปร 2 ตัวขึ้นไปที่ไม่สามารถแสดงให้เห็นผ่านการเพิ่มและคูณเพียงอย่างเดียวได้ ความสัมพันธ์แบบเชิงเส้นอาจแสดงเป็นเส้นได้ ความสัมพันธ์ที่ไม่ใช่แบบเชิงเส้นไม่สามารถนําเสนอเป็นเส้นได้ ตัวอย่างเช่น พิจารณา 2 โมเดลที่แต่ละโมเดล เชื่อมโยงฟีเจอร์เดียวเข้ากับป้ายกํากับเดียว โมเดลทางด้านซ้ายเป็นแบบเชิงเส้น และโมเดลทางด้านขวาจะไม่เป็นเชิงเส้น

พล็อตสองตัว พล็อตหนึ่งเป็นเส้น ดังนั้นจึงเป็นความสัมพันธ์เชิงเส้น
          พล็อตอีกแบบเป็นเส้นโค้ง จึงเป็นความสัมพันธ์ที่ไม่เป็นเชิงเส้น

การไม่อยู่ร่วมกัน

#fundamentals

จุดสนใจที่ค่ามีการเปลี่ยนแปลงไปยังมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักเป็นเวลา ลองดูตัวอย่างการไม่เป็นพาร์ทเนอร์ต่อไปนี้

  • จํานวนชุดว่ายน้ําที่ขายในร้านบางแห่งจะแตกต่างกันไปตามฤดูกาล
  • จํานวนผลไม้ที่เก็บเกี่ยวในภูมิภาคหนึ่ง เป็น 0 สําหรับตลอดทั้งปี แต่มากในช่วงเวลาสั้นๆ
  • เนื่องจากการเปลี่ยนแปลงของสภาพภูมิอากาศ อุณหภูมิเฉลี่ยต่อปีกําลังเปลี่ยนแปลง

ตรงข้ามกับความสอดคล้องกัน

การปรับให้เป็นมาตรฐาน

#fundamentals

พูดกว้างๆ ก็คือ การเปลี่ยนช่วงของค่าจริงของตัวแปรเป็นช่วงของค่ามาตรฐาน เช่น

  • -1 ถึง +1
  • 0 ถึง 1
  • การกระจายปกติ

ตัวอย่างเช่น สมมติว่าช่วงจริงของค่าบางคุณลักษณะคือ 800 ถึง 2,400 ในวิศวกรรมคุณลักษณะ คุณสามารถทําให้ค่าจริงเป็นมาตรฐานในช่วงต่างๆ เช่น -1 ถึง +1 ได้

การปรับให้สอดคล้องตามมาตรฐานเป็นงานทั่วไปในวิศวกรรมฟีเจอร์ โมเดลมักจะฝึกได้เร็วขึ้น (และสร้างการคาดการณ์ได้ดีขึ้น) เมื่อฟีเจอร์ตัวเลขทั้งหมดในเวกเตอร์ฟีเจอร์มีช่วงเดียวกันโดยประมาณ

ข้อมูลตัวเลข

#fundamentals

ฟีเจอร์แสดงเป็นจํานวนเต็มหรือค่าจริง ตัวอย่างเช่น โมเดลการประเมินมูลค่าบ้านอาจแสดงถึงขนาดของบ้าน (เป็นตารางฟุตหรือตารางเมตร) เป็นข้อมูลตัวเลข แสดงฟีเจอร์โดยใช้ข้อมูลตัวเลขหมายความว่าค่าของฟีเจอร์มีความสัมพันธ์ทางคณิตศาสตร์กับป้ายกํากับ กล่าวคือ บ้านหลายตารางเมตรน่าจะมีความสัมพันธ์เชิงคณิตศาสตร์กับคุณค่าของบ้านบ้าง

ข้อมูลที่เป็นจํานวนเต็มทั้งหมดไม่ควรแสดงข้อมูลเป็นตัวเลข ตัวอย่างเช่น รหัสไปรษณีย์ในบางพื้นที่ของโลกเป็นจํานวนเต็ม อย่างไรก็ตาม รหัสไปรษณีย์ไม่ควรแสดงเป็นข้อมูลตัวเลขในโมเดล นั่นเป็นเพราะรหัสไปรษณีย์ของรหัสไปรษณีย์ 20000 น้อยกว่า 2 เท่าหรือครึ่งหนึ่งเท่ากับรหัสไปรษณีย์ 10,000 นอกจากนี้ แม้ว่ารหัสไปรษณีย์ที่แตกต่างกันจะสัมพันธ์กับค่าอสังหาริมทรัพย์ที่แตกต่างกัน แต่เราไม่อาจสรุปได้ว่ามูลค่าอสังหาริมทรัพย์ในรหัสไปรษณีย์ 20,000 จะมีค่ามากกว่ามูลค่าอสังหาริมทรัพย์ในรหัสไปรษณีย์ 10000 ถึง 2 เท่า และควรเป็นข้อมูลเชิงหมวดหมู่ แทน

บางครั้งฟีเจอร์ที่เป็นตัวเลขเรียกว่าฟีเจอร์ต่อเนื่อง

O

ออฟไลน์

#fundamentals

คําพ้องสําหรับ static

การอนุมานแบบออฟไลน์

#fundamentals

ขั้นตอนของโมเดลที่สร้างชุดการคาดการณ์ จากนั้นแคช (บันทึก) การคาดการณ์เหล่านั้น จากนั้นแอปจะเข้าถึงการคาดการณ์ที่ต้องการจากแคชแทนที่จะเรียกใช้โมเดลอีกครั้ง

ตัวอย่างเช่น พิจารณาโมเดลที่สร้างพยากรณ์อากาศท้องถิ่น (การคาดการณ์) ทุก 4 ชั่วโมง หลังจากที่แต่ละโมเดลทํางาน ระบบจะจัดเก็บการพยากรณ์อากาศทั้งหมดไว้ในเครื่อง แอปพยากรณ์อากาศจะดึงข้อมูล การคาดการณ์จากแคช

การอนุมานแบบออฟไลน์เรียกอีกอย่างว่าการอนุมานแบบคงที่

ตรงข้ามกับการอนุมานออนไลน์

การเข้ารหัสแบบ Hot-hot

#fundamentals

แสดงข้อมูลหมวดหมู่เป็นเวกเตอร์ที่:

  • องค์ประกอบหนึ่งถูกตั้งค่าเป็น 1
  • องค์ประกอบอื่นๆ ทั้งหมดจะตั้งค่าเป็น 0

การเข้ารหัสแบบ Hot-hot มักใช้เพื่อแสดงสตริงหรือตัวระบุที่มีค่าที่แน่นอนที่เป็นไปได้ เช่น สมมติว่าฟีเจอร์แบบหมวดหมู่บางรายการชื่อ Scandinavia มีค่าที่เป็นไปได้ 5 ค่าดังนี้

  • "เดนมาร์ก"
  • "สวีเดน"
  • "นอร์เวย์"
  • "ฟินแลนด์"
  • "ไอซ์แลนด์"

การเข้ารหัสแบบ Hot-hot อาจแสดงค่าแต่ละค่าในห้าค่าต่อไปนี้:

country เวกเตอร์
"เดนมาร์ก" 1 0 0 0 0
"สวีเดน" 0 1 0 0 0
"นอร์เวย์" 0 0 1 0 0
"ฟินแลนด์" 0 0 0 1 0
"ไอซ์แลนด์" 0 0 0 0 1

การเข้ารหัสแบบครั้งเดียวช่วยให้โมเดลเรียนรู้การเชื่อมต่อที่แตกต่างกันตาม 5 ประเทศได้

ฟีเจอร์หนึ่งเรียกว่าข้อมูลตัวเลขซึ่งเป็นทางเลือกสําหรับการเข้ารหัสแบบ 1 จุด น่าเสียดายที่การนําเสนอในประเทศสแกนดิเนเวียตามตัวเลขไม่ใช่ทางเลือกที่ดี ตัวอย่างเช่น พิจารณาการแทนค่าตัวเลขต่อไปนี้

  • "เดนมาร์ก" เท่ากับ 0
  • "สวีเดน" คือ 1
  • "นอร์เวย์" เท่ากับ 2
  • "ฟินแลนด์" เท่ากับ 3
  • "ไอซ์แลนด์" เท่ากับ 4

เมื่อใช้การเข้ารหัสตัวเลข โมเดลจะตีความตัวเลขดิบ และพยายามฝึกตัวเลขเหล่านั้น อย่างไรก็ตาม ประเทศไอซ์แลนด์ไม่ได้มีมากกว่า (หรือครึ่งหนึ่งของสองเท่า) ของนอร์เวย์เหมือนอย่างแรก โมเดลนี้จึงได้ข้อสรุปที่แปลกประหลาด

หนึ่งกับทั้งหมด

#fundamentals

เมื่อพิจารณาถึงการแยกประเภทกับคลาส N ได้ แนวทางแก้ไขปัญหาจึงประกอบด้วย Binary Classifier แยกประเภทไบนารี 1 ตัวสําหรับผลลัพธ์ที่เป็นไปได้แต่ละรายการ ตัวอย่างเช่น สําหรับโมเดลที่จัดประเภทตัวอย่างเป็นสัตว์ ผัก หรือแร่ โซลูชันหนึ่งกับทั้งหมดจะให้ตัวแยกประเภทไบนารี 3 ตัวต่อไปนี้

  • สัตว์กับไม่ใช่สัตว์
  • ผักกับไม่ทาน
  • แร่กับ ไม่ใช่แร่

ออนไลน์

#fundamentals

คําพ้องสําหรับไดนามิก

การอนุมานออนไลน์

#fundamentals

การสร้างการคาดการณ์ตามคําขอ ตัวอย่างเช่น สมมติว่าแอปส่งอินพุตไปยังโมเดลและส่งคําขอการคาดการณ์ ระบบที่ใช้การอนุมานออนไลน์จะตอบสนองคําขอด้วยการเรียกใช้โมเดล (และส่งการคาดการณ์กลับไปยังแอป)

ตรงข้ามกับการอนุมานแบบออฟไลน์

เลเยอร์เอาต์พุต

#fundamentals

เลเยอร์ "สุดท้าย" ของเครือข่ายระบบประสาท ชั้นเอาต์พุตจะมีการคาดการณ์

ภาพประกอบต่อไปนี้แสดงโครงข่ายประสาทแบบลึกขนาดเล็กที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 ชั้น และเลเยอร์เอาต์พุต

เครือข่ายระบบประสาทที่มีเลเยอร์อินพุต 1 ชั้น เลเยอร์ที่ซ่อนอยู่ 2 ชั้น และ
          เลเยอร์เอาต์พุต 1 รายการ เลเยอร์อินพุตมีองค์ประกอบ 2 อย่าง เลเยอร์ที่ซ่อนอยู่ชั้นแรกประกอบด้วยเซลล์ประสาท 3 ชั้น และเซลล์ที่ 2 ที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาท 2 เซลล์ ชั้นเอาต์พุตประกอบด้วยโหนดเดี่ยว

Overfitting

#fundamentals

การสร้างโมเดลที่ตรงกับข้อมูลการฝึกอย่างใกล้ชิดมากจนโมเดลทําการคาดการณ์ข้อมูลใหม่ไม่ถูกต้อง

ทําให้เป็นมาตรฐานอาจลดการใช้งานมากเกินไปได้ การฝึกแบบฝึกหัดที่หลากหลายและหลากหลายจะช่วยลดการเกิดส่วนเกินได้

P

แพนด้า

#fundamentals

API วิเคราะห์ข้อมูลที่เน้นคอลัมน์ซึ่งสร้างจากจํานวน เฟรมเวิร์กแมชชีนเลิร์นนิงมากมาย ซึ่งรวมถึง TensorFlow รองรับโครงสร้างข้อมูลแพนด้าเป็นอินพุต ดูรายละเอียดได้ในเอกสารประกอบเกี่ยวกับแพนด้า

พารามิเตอร์

#fundamentals

น้ําหนักและการให้น้ําหนักพิเศษที่โมเดลเรียนรู้ในระหว่างการฝึก เช่น ในโมเดลการถดถอยเชิงเส้น พารามิเตอร์ประกอบด้วยการให้น้ําหนัก (b) และน้ําหนักทั้งหมด (w1, w2 และอื่นๆ) ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในทางตรงกันข้าม hyperparameter คือค่าที่คุณ (หรือบริการเปลี่ยนไฮเปอร์พารามิเตอร์) จ่ายให้กับโมเดล เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์

คลาสเชิงบวก

#fundamentals

ชั้นเรียนที่คุณกําลังทดสอบอยู่

ตัวอย่างเช่น คลาสที่เป็นบวกในโมเดลมะเร็งอาจเป็น "เนื้องอก" คลาสเชิงบวกในเครื่องมือจําแนกอีเมลอาจเป็น "สแปม"

ตรงข้ามกับคลาสเชิงลบ

หลังการประมวลผล

#fairness
#fundamentals

การปรับเอาต์พุตของโมเดลหลังจากที่เรียกใช้โมเดลแล้ว หลังการประมวลผลยังใช้เพื่อบังคับข้อจํากัดด้านความเป็นธรรมได้โดยไม่ต้องแก้ไขโมเดลเอง

เช่น นําขั้นตอนหลังการประมวลผลไปใช้กับตัวแยกประเภทไบนารีโดยการตั้งค่าเกณฑ์การจัดประเภทเพื่อให้ความเท่าเทียมของโอกาสได้รับการรักษาสําหรับบางแอตทริบิวต์ โดยตรวจสอบว่าอัตราผลบวกจริงเท่ากันสําหรับค่าทั้งหมดของแอตทริบิวต์นั้น

การคาดการณ์

#fundamentals

เอาต์พุตของโมเดล เช่น

  • การคาดการณ์ของโมเดลการจัดประเภทแบบไบนารีจะเป็นคลาสบวกหรือคลาสเชิงลบ
  • การคาดการณ์โมเดลการจัดประเภทแบบหลายคลาสคือ 1 คลาส
  • การคาดการณ์ของรูปแบบการถดถอยเชิงเส้นจะเป็นตัวเลข

ป้ายกํากับพร็อกซี

#fundamentals

ข้อมูลที่ใช้ประมาณป้ายกํากับที่ไม่มีในชุดข้อมูลโดยตรง

ตัวอย่างเช่น สมมติว่าคุณต้องฝึกโมเดลเพื่อคาดการณ์ระดับความเครียดของพนักงาน ชุดข้อมูลของคุณมีฟีเจอร์การคาดการณ์จํานวนมาก แต่ไม่มีป้ายกํากับที่ชื่อว่าระดับความเครียด หากไม่เลือกใช้ ให้เลือก "อุบัติเหตุที่ทํางาน" เป็นป้ายกํากับพร็อกซีสําหรับระดับความเครียด เพราะพนักงานที่เครียดมากจะประสบอุบัติเหตุมากกว่าพนักงานที่ใจเย็น หรือไม่ บางทีอุบัติเหตุในสถานที่ทํางาน อาจจะเพิ่มขึ้นและหลายสาเหตุ

ตัวอย่างที่ 2 สมมติว่าคุณต้องการให้ฝนตกเป็นป้ายกํากับบูลีนสําหรับชุดข้อมูล แต่ชุดข้อมูลไม่มีข้อมูลฝน ถ้ามีภาพถ่าย คุณอาจใส่ภาพคนถือร่มเป็นป้ายสําหรับฝนโปรยปราย นั่นเป็นป้ายกํากับ พร็อกซีที่ดีหรือไม่ เป็นไปได้ แต่ผู้คนในวัฒนธรรมบางอย่างมีแนวโน้มที่จะพกร่มไว้ป้องกันแสงแดดมากกว่าฝน

ป้ายกํากับของพร็อกซีมักจะไม่สมบูรณ์ หากเป็นไปได้ ให้เลือกป้ายกํากับจริงแทนป้ายกํากับพร็อกซี อย่างไรก็ตาม หากไม่มีป้ายกํากับจริง ให้เลือกป้ายกํากับพร็อกซีอย่างระมัดระวัง โดยเลือกคําที่เป็นป้ายกํากับของพร็อกซีที่น่ากลัวที่สุด

ขวา

ผู้ให้คะแนน

#fundamentals

บุคคลที่ให้ป้ายกํากับสําหรับตัวอย่าง "คําอธิบายประกอบ" เป็นอีกชื่อหนึ่งของผู้ประเมิน

หน่วยเชิงเส้นแบบคงที่ (RELU)

#fundamentals

ฟังก์ชันการเปิดใช้งานที่มีลักษณะการทํางานต่อไปนี้

  • หากอินพุตเป็นค่าลบหรือเป็นศูนย์ เอาต์พุตจะเป็น 0
  • หากอินพุตเป็นบวก เอาต์พุตจะเท่ากับอินพุต

เช่น

  • หากอินพุตเป็น -3 เอาต์พุตจะเป็น 0
  • ถ้าอินพุตคือ +3 เอาต์พุตจะเป็น 3.0

โครงเรื่องของ LLU มีดังนี้

พล็อตกราฟแบบ 2 เส้น บรรทัดแรกมีค่า y คงที่เป็น 0 อยู่ในแกน x ตั้งแต่ -infinity, 0 ถึง 0,-0
          บรรทัดที่สองจะเริ่มที่ 0,0 บรรทัดนี้มีความลาดชันของ +1 ดังนั้นจึงทํางานตั้งแต่ 0,0 ถึง +finity,+finity

ReLU เป็นฟังก์ชันการเปิดใช้งานที่ได้รับความนิยมมาก แม้จะมีการทํางานที่เรียบง่าย แต่ ReLU ยังคงทําให้เครือข่ายระบบประสาทเรียนรู้ความสัมพันธ์ที่ไม่เป็นเชิงเส้น ระหว่างฟีเจอร์และป้ายกํากับได้

โมเดลการถดถอย

#fundamentals

แบบจําลองที่สร้างการคาดการณ์อย่างไม่มีแบบแผน (ในทางตรงกันข้าม โมเดลการจัดประเภทจะสร้างการคาดการณ์คลาส) ตัวอย่างเช่น โมเดลการถดถอยทั้งหมดมีดังต่อไปนี้

  • แบบจําลองที่คาดคะเนค่าของบ้านบางหลัง เช่น 423,000 ยูโร
  • แบบจําลองที่คาดคะเนอายุขัยเฉลี่ยของต้นไม้หนึ่งๆ เช่น 23.2 ปี
  • โมเดลที่คาดการณ์ว่าปริมาณฝนจะตกในเมืองใดเมืองหนึ่งในช่วง 6 ชั่วโมงข้างหน้า เช่น 0.18 นิ้ว

รูปแบบการเกิดปัญหาซ้ําที่พบบ่อย 2 ประเภท ได้แก่

โมเดลที่แสดงเอาต์พุตตัวเลขเป็นตัวเลขไม่ใช่โมเดลการถดถอย ในบางกรณี การคาดคะเนตัวเลขเป็นเพียง โมเดลการจัดประเภทที่เกิดขึ้นซึ่งมีชื่อคลาสที่เป็นตัวเลข ตัวอย่างเช่น โมเดลที่คาดคะเนรหัสไปรษณีย์ที่เป็นตัวเลข คือโมเดลการจัดประเภท ไม่ใช่โมเดลการถดถอย

Regularization

#fundamentals

กลไกที่ลดการเพิ่มประสิทธิภาพ ประเภทของกฎเกณฑ์ที่ได้รับความนิยมมีดังนี้

นอกจากนี้ การปรับให้เป็นมาตรฐานยังสามารถทําให้เกิดการลงโทษกับความซับซ้อนของโมเดลได้

อัตรามาตรฐาน

#fundamentals

ตัวเลขที่ระบุความสําคัญเชิงเปรียบเทียบของการปรับให้สอดคล้องตามมาตรฐานระหว่างการฝึกทํางาน การเพิ่มอัตรามาตรฐานจะช่วยลดการเพิ่มประสิทธิภาพ แต่ก็อาจลดความสามารถในการคาดการณ์ของโมเดล ในทางตรงกันข้าม การลดหรือละเลยอัตราการเกิดมาตรฐานจะเพิ่มผลที่มากเกินไป

รีลู

#fundamentals

ตัวย่อของ Rectified Linear Unit

การสร้างเสริมการดึงข้อมูล

#fundamentals

สถาปัตยกรรมของซอฟต์แวร์ที่ใช้กันโดยทั่วไปในแอปพลิเคชัน Model Language (LLM) แรงจูงใจทั่วไปในการใช้การสร้างเวอร์ชันที่ดึงข้อมูล ได้แก่

  • การเพิ่มความแม่นยําของคําตอบที่สร้างขึ้นของโมเดล
  • ทําให้โมเดลเข้าถึงความรู้ที่โมเดลไม่ได้รับการฝึกอบรม
  • การเปลี่ยนความรู้ที่โมเดลใช้
  • การเปิดใช้โมเดลเพื่ออ้างอิงแหล่งที่มา

ตัวอย่างเช่น สมมติว่าแอปเคมีใช้ PaLM API เพื่อสร้างข้อมูลสรุปเกี่ยวกับคําค้นหาของผู้ใช้ เมื่อแบ็กเอนด์ของแอปได้รับการค้นหา แบ็กเอนด์จะค้นหาข้อมูล ("เรียก") ที่เกี่ยวข้องกับข้อความค้นหาของผู้ใช้ก่อน แล้วต่อท้าย ("เสริม") ข้อมูลเคมีที่เกี่ยวข้องลงในคําค้นหาของผู้ใช้ และสั่ง LLM เพื่อสร้างสรุปจากข้อมูลต่อท้าย

กราฟเส้นโค้ง ROC (Receiver Operating Characteristic)

#fundamentals

กราฟของอัตราผลบวกจริงเทียบกับอัตราผลบวกลวงสําหรับเกณฑ์การจัดประเภทที่แตกต่างกันในการจัดประเภทไบนารี

รูปร่างของเส้นโค้ง ROC แสดงถึงความสามารถของโมเดลการแยกประเภทไบนารีเพื่อแยกคลาสเชิงบวกออกจากคลาสเชิงลบ ตัวอย่างเช่น โมเดลการจัดประเภทแบบไบนารีจะแยกคลาสที่เป็นลบทั้งหมดออกจากคลาสที่เป็นบวกทั้งหมด

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 8 ตัวอย่างทางด้านขวา และตัวอย่างเชิงลบ 7 ตัวอย่างทางด้านซ้าย

เส้นโค้ง ROC สําหรับโมเดลก่อนหน้าจะมีลักษณะดังนี้

เส้นโค้ง ROC แกน x เป็นอัตราบวกเท็จและแกน y คืออัตราผลบวกจริง เส้นโค้งมีรูปร่างเป็น L กลับสี เส้นโค้งจะเริ่มต้นที่ (0.0,0.0) และตรงไปจนถึง (0.0,1.0) จากนั้นเส้นโค้งเปลี่ยนจาก (0.0,1.0) เป็น (1.0,1.0)

ในทางกลับกัน ภาพประกอบต่อไปนี้แสดงกราฟของค่าการถดถอยแบบโลจิสติกส์แบบดิบสําหรับโมเดลที่แย่มาก ซึ่งไม่สามารถแยกคลาสเชิงลบจากคลาสที่เป็นบวกได้เลย

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวกและคลาสเชิงลบจะปนกันโดยสิ้นเชิง

เส้นโค้ง ROC สําหรับโมเดลนี้มีลักษณะดังนี้

เส้นโค้ง ROC ซึ่งที่จริงแล้วเป็นเส้นตรงจาก (0.0,0.0) ถึง (1.0,1.0)

ในขณะเดียวกัน ในชีวิตจริง รูปแบบการแยกประเภทไบนารีส่วนใหญ่จะแยกคลาสบวกและลบออกจากกันเป็นระดับหนึ่ง แต่ก็มักจะไม่สมบูรณ์แบบ ดังนั้น เส้นโค้ง ROC ทั่วไปจะตกอยู่ระหว่างปลาย 2 ระดับดังนี้

เส้นโค้ง ROC แกน x เป็นอัตราบวกเท็จและแกน y คืออัตราผลบวกจริง เส้นโค้ง ROC จะวาดเป็นเส้นโค้งที่สั่นเพื่อข้ามจุดเข็มทิศจากทิศตะวันตกไปยังทิศเหนือ

จุดบนเส้นโค้ง ROC ที่อยู่ใกล้กับ (0.0,1.0) ในทางทฤษฎีจะระบุเกณฑ์การจัดประเภทที่ดีที่สุด อย่างไรก็ตาม มีปัญหาอื่นๆ ในโลกจริงที่มีอิทธิพลกับการเลือกเกณฑ์การจัดประเภทที่เหมาะสม ตัวอย่างเช่น ผลบวกลวงอาจก่อให้เกิดอาการปวดมากกว่าผลบวกลวง

เมตริกตัวเลขชื่อ AUC จะสรุปเส้นโค้ง ROC เป็นค่าทศนิยมจุดเดียว

ความคลาดเคลื่อนกําลังสองเฉลี่ย (RMSE)

#fundamentals

รากที่สองของข้อผิดพลาดกําลังสองเฉลี่ย

S

ฟังก์ชัน sigmoid

#fundamentals

ฟังก์ชันทางคณิตศาสตร์ที่ "แทนที่" ค่าอินพุตในช่วงที่จํากัด โดยทั่วไปจะอยู่ระหว่าง 0-1 หรือ -1 ถึง +1 นั่นคือ คุณอาจส่งจํานวน (2, 1, 000,000, 000 อะไรก็ตาม) ไปยังซิกมด แล้วเอาต์พุตก็จะยังอยู่ในช่วงที่จํากัด พล็อตของฟังก์ชันการเปิดใช้งานซิกมอยด์มีลักษณะดังต่อไปนี้

พล็อตกราฟโค้งสองมิติที่มีค่า x ครอบคลุมโดเมน
          - อนันต์ถึง + บวก ขณะที่ค่า y ครอบคลุมช่วงเกือบ 0 ถึง
          1 เมื่อ x เท่ากับ 0 y จะเป็น 0.5 ความชันของเส้นโค้งจะเป็นค่าบวกเสมอ โดยความลาดชันสูงสุดที่ 0,0.5 และค่อยๆ ลดความลาดชันลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ฟังก์ชัน sigmoid มีประโยชน์หลายอย่างในแมชชีนเลิร์นนิง ได้แก่

ซอฟต์แม็กซ์

#fundamentals

ฟังก์ชันที่จะกําหนดความน่าจะเป็นของแต่ละคลาสในโมเดลการจัดประเภทแบบหลายคลาส ความน่าจะเป็นรวมกันได้ตั้งแต่ 1.0 ตัวอย่างเช่น ตารางต่อไปนี้แสดงวิธีที่ซอฟต์แมกซ์แจกจ่ายความน่าจะเป็นต่างๆ

รูปภาพคือ... ความน่าจะเป็น
สุนัข 0.85
แมว 13
ม้า .02

Softmax เรียกอีกอย่างว่าSoftmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัครงาน

คุณลักษณะแยกวิเคราะห์

#language
#fundamentals

ฟีเจอร์ที่มีค่าเป็นศูนย์หรือว่างเปล่า เช่น ฟีเจอร์ที่มีค่า 1 ค่าเดียวและมีค่าเป็น 0 หลายล้านรายการ ในทางตรงกันข้าม คุณลักษณะที่หนาแน่น มีค่าส่วนใหญ่ที่ไม่ใช่ศูนย์หรือว่างเปล่า

ในแมชชีนเลิร์นนิง มีฟีเจอร์มากมายอย่างไม่น่าเชื่อ ฟีเจอร์เชิงหมวดหมู่มักจะเป็นฟีเจอร์ที่มีจํานวนน้อย เช่น ต้นไม้ 300 ชนิดในป่า 1 ตัวอย่างอาจบ่งชี้ถึงต้นเมเปิลเท่านั้น หรือจากวิดีโอนับล้าน ในไลบรารีวิดีโอ ตัวอย่างหนึ่งอาจระบุแค่ "คาซาบลังกา"

ในรูปแบบต่างๆ ตามปกติแล้วคุณมักจะแสดงฟีเจอร์ที่ไม่กระตุกด้วยการเข้ารหัสแบบ Hot-hot หากการเข้ารหัสแบบ Hot-hot มีขนาดใหญ่ คุณอาจวางเลเยอร์การฝังลงไปบนการเข้ารหัสแบบ One-Hot เพื่อประสิทธิภาพที่ดีขึ้น

ตัวแทนบางส่วน

#language
#fundamentals

การจัดเก็บเฉพาะตําแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์ที่มีข้อมูลน้อย

เช่น สมมติว่าฟีเจอร์ตามหมวดหมู่ที่ชื่อ species เป็นต้นไม้ 36 สายพันธุ์ในป่าแห่งใดแห่งหนึ่ง ให้สมมติว่าตัวอย่างแต่ละรายการระบุเพียงสปีชีส์เดียวเท่านั้น

คุณสามารถใช้เวกเตอร์แบบ 1 ทิศทางในการแสดงถึงสายพันธุ์ต้นไม้ในแต่ละตัวอย่าง เวกเตอร์ 1 ทิศทางจะมี 1 1 ชุด (เพื่อแทนต้นไม้สายพันธุ์ที่เฉพาะเจาะจงในตัวอย่างนั้น) และ 35 0 (เพื่อแสดงถึงต้นไม้ 35 สายพันธุ์ไม่ในตัวอย่าง) การนําเสนอ maple แบบเผ็ดร้อนอาจมีลักษณะเช่นนี้

เวกเตอร์ที่ตําแหน่ง 0 ถึง 23 จะเก็บค่า 0, ตําแหน่ง 24 จะเก็บค่า 1 และตําแหน่งที่ 25 ถึง 35 จะเก็บค่า 0

อีกวิธีหนึ่งคือ การแจกแจงแบบแคบเพียงแค่กําหนดตําแหน่งของชนิดที่เจาะจง ถ้า maple อยู่ในอันดับ 24 การนําเสนอ maple แบบกระจัดกระจายจะเป็นดังนี้:

24

โปรดสังเกตว่าการนําเสนอแบบกระจัดกระจายนั้นมีขนาดน้อยกว่าการนําเสนอแบบครั้งเดียว

เวกเตอร์แบบกระจาย

#fundamentals

เวกเตอร์ที่มีค่าส่วนใหญ่เป็นศูนย์ ดูฟีเจอร์กระจัดกระจายและความกระจัดกระจาย

ความสูญเสียยกกําลังสอง

#fundamentals

คําพ้องสําหรับ L2 สูญเสีย

คงที่

#fundamentals

มีการทํางานเพียงครั้งเดียว แทนที่จะทําอย่างต่อเนื่อง คําว่าคงที่และออฟไลน์คือคําพ้อง ต่อไปนี้คือการใช้งานทั่วไปของแบบคงที่และออฟไลน์ในแมชชีนเลิร์นนิง

  • รูปแบบคงที่ (หรือรูปแบบออฟไลน์) คือโมเดลที่ฝึกแล้ว 1 ครั้งแล้วจึงใช้สักพัก
  • การฝึกอบรมแบบคงที่ (หรือการฝึกอบรมออฟไลน์) เป็นกระบวนการฝึกโมเดลแบบคงที่
  • การอนุมานแบบคงที่ (หรือการอนุมานแบบออฟไลน์) คือกระบวนการที่โมเดลสร้างการคาดการณ์แบบกลุ่มพร้อมกัน

ตรงข้ามกับไดนามิก

การอนุมานแบบคงที่

#fundamentals

คําพ้องความหมายสําหรับการอนุมานแบบออฟไลน์

เครื่องเขียน

#fundamentals

คุณลักษณะที่ค่าไม่มีการเปลี่ยนแปลงกับมิติข้อมูลอย่างน้อย 1 รายการ มักจะเป็นเวลา ตัวอย่างเช่น คุณลักษณะที่มีค่าเหมือนกันในปี 2021 และ เป็นปี 2023 ที่เป็นเครื่องแสดง

ในโลกความเป็นจริงนั้นแทบจะมีคุณลักษณะที่จัดแสดงอยู่ได้ไม่มากนัก แม้แต่คุณลักษณะที่ ตรงกันกับความเสถียร (เช่น ระดับน้ําทะเล) ก็จะเปลี่ยนไปตามเวลา

ตรงข้ามกับNonstationarity

การไล่ระดับ stochastic (SGD)

#fundamentals

อัลกอริทึมการไล่ระดับการไล่ระดับสีที่มีขนาดกลุ่ม กล่าวคือ SGD จะฝึกใช้ตัวอย่างเดียวที่เลือกอย่างเท่าเทียมกันในแบบสุ่มจากชุดการฝึก

แมชชีนเลิร์นนิงที่มีการควบคุมดูแล

#fundamentals

ฝึกโมเดลจากฟีเจอร์และป้ายกํากับที่เกี่ยวข้อง แมชชีนเลิร์นนิงที่มีการควบคุมดูแล คล้ายกับการเรียนรู้วิชาหนึ่งๆ ด้วยการศึกษาชุดคําถามและคําตอบที่เกี่ยวข้อง หลังจากทําความชํานาญเรื่องการทําแผนที่ระหว่างคําถามและคําตอบกันแล้ว นักเรียนก็สามารถตอบคําถามในคําถามใหม่ๆ (ที่ไม่เคยเห็นมาก่อน) ในหัวข้อเดียวกันได้

เปรียบเทียบกับแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

ฟีเจอร์สังเคราะห์

#fundamentals

ฟีเจอร์ที่ไม่มีในฟีเจอร์อินพุต แต่ประกอบจากฟีเจอร์อย่างน้อย 1 รายการ วิธีการสร้างคุณลักษณะสังเคราะห์มีดังนี้

  • การฝากข้อมูล จุดสนใจต่อเนื่องในถังข้อมูลที่กําหนด
  • การสร้างคุณลักษณะข้าม
  • การคูณ (หรือแบ่ง) ค่าคุณลักษณะหนึ่งด้วยค่าอื่นๆ หรือเฉพาะค่าอื่นๆ ตัวอย่างเช่น หาก a และ b เป็นฟีเจอร์อินพุต ตัวอย่างต่อไปนี้คือตัวอย่างของฟีเจอร์สังเคราะห์
    • 2
  • การใช้ฟังก์ชันแทนค่ากับคุณลักษณะ ตัวอย่างเช่น ถ้า c เป็นคุณลักษณะอินพุต ต่อไปนี้เป็นตัวอย่างของคุณลักษณะสังเคราะห์:
    • sin(c)
    • ln(c)

ฟีเจอร์ที่สร้างขึ้นโดยการปรับให้เป็นมาตรฐานหรือการปรับขนาดเพียงอย่างเดียวไม่ถือว่าเป็นฟีเจอร์สังเคราะห์

T

ทดสอบการสูญหาย

#fundamentals

เมตริกที่แทนการสูญเสียของโมเดลเทียบกับชุดทดสอบ เมื่อสร้างโมเดล คุณมักพยายามลดการทดสอบ นั่นเป็นเพราะการสูญเสียการทดสอบต่ําเป็นสัญญาณคุณภาพที่สูงกว่าการสูญเสียการฝึกหรือการสูญเสียการตรวจสอบที่ต่ํา

บางครั้งช่องว่างระหว่างการสูญเสียการทดสอบกับการสูญเสียการฝึกอบรมหรือการตรวจสอบความถูกต้องขาดหายไปก็ชี้ให้เห็นว่าคุณจําเป็นต้องเพิ่มอัตรามาตรฐาน

การฝึก

#fundamentals

กระบวนการกําหนดพารามิเตอร์ (น้ําหนักและการให้น้ําหนักพิเศษ) ที่เหมาะสมประกอบด้วยโมเดล ในระหว่างการฝึก ระบบจะอ่านตัวอย่างและค่อยๆ ปรับพารามิเตอร์ การฝึกอบรมจะใช้ตัวอย่างแต่ละรายการที่ใดก็ได้ 2-3 ครั้งไปจนถึงหลายพันล้านครั้ง

การลดลงของการฝึก

#fundamentals

เมตริกที่แทนการสูญเสียของโมเดลในระหว่างการฝึกซ้ํา เช่น สมมติว่าฟังก์ชันการสูญเสีย คือ ค่าเฉลี่ยความคลาดเคลื่อนกําลังสอง บางทีความสูญเสียในการฝึกอบรม (ข้อผิดพลาดค่าเฉลี่ยกําลังสอง) สําหรับการทําซ้ําครั้งที่ 10 คือ 2.2 และการสูญเสียการฝึกอบรมสําหรับการปรับปรุงครั้งที่ 100 คือ 1.9

เส้นโค้งของการสูญเสียจะแสดงถึงการสูญเสียการฝึกอบรมเทียบกับจํานวนครั้งที่ทําซ้ํา กราฟการสูญเสียจะให้คําแนะนําต่อไปนี้เกี่ยวกับการฝึกอบรม

  • ลาดลงหมายความว่าโมเดลมีการปรับปรุง
  • ทางลาดที่ชี้ขึ้นด้านบนหมายความว่าโมเดลกําลังแย่ลง
  • ความลาดชันแบบแนวราบหมายความว่าแบบจําลองมีจํานวนถึง ความสะดวก

ตัวอย่างเช่น เส้นโค้งของการสูญเสียที่เหมาะสมจะเป็นดังนี้

  • การลาดชันแบบลาดชันในช่วงการทําซ้ําในระยะแรก ซึ่งบ่งบอกถึงการปรับปรุงรูปแบบอย่างรวดเร็ว
  • ความลาดชันแบบค่อยเป็นค่อยไป (แต่ยังคงลดลง) จนกว่าจะใกล้สิ้นสุดการฝึก ซึ่งนั่นหมายความว่าการพัฒนาโมเดลจะดําเนินต่อไปในระดับที่ค่อนข้างช้า หลังจากนั้นในระหว่างการทดสอบครั้งแรก
  • ความลาดชันแบบแบนราบไปจนถึงช่วงท้ายของการฝึก ซึ่งแสดงถึงความบรรจบกัน

โครงเรื่องของการสูญเสียการฝึกอบรมและการทําซ้ํา เส้นโค้งแห่งการสูญเสียนี้
     เริ่มต้นด้วยทางลาดชัน ความลาดชันจะค่อยๆ ลดลงจนกว่าความชันจะกลายเป็นศูนย์

ถึงแม้การสูญเสียการฝึกอบรมจะมีความสําคัญ โปรดดูภาพรวมเพิ่มเติม

ความคลาดเคลื่อนระหว่างการฝึกและการให้บริการ

#fundamentals

ความแตกต่างระหว่างประสิทธิภาพของโมเดลระหว่างการฝึกทํางานและประสิทธิภาพของโมเดลเดียวกันในระหว่างการแสดงผล

ชุดการฝึก

#fundamentals

เซ็ตย่อยของชุดข้อมูลที่ใช้ฝึกโมเดล

ตัวอย่างเดิมในชุดข้อมูลแบ่งออกเป็น 3 ส่วนย่อยดังต่อไปนี้

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นส่วนหนึ่งของชุดข้อมูลก่อนหน้าเพียงชุดเดียว ตัวอย่างเช่น ตัวอย่างหนึ่งไม่ควรเป็นทั้ง ชุดการฝึกและชุดการตรวจสอบ

ผลลบจริง (TN)

#fundamentals

ตัวอย่างโมเดลที่คาดการณ์คลาสเชิงลบได้อย่างถูกต้อง ตัวอย่างเช่น โมเดลมีการอนุมานว่าข้อความอีเมลบางรายการไม่ใช่สแปม และข้อความอีเมลนั้นไม่ใช่สแปมจริงๆ

ผลบวกจริง (TP)

#fundamentals

ตัวอย่างโมเดลที่คาดการณ์คลาสเชิงบวกได้อย่างถูกต้อง ตัวอย่างเช่น โมเดลสรุปว่าข้อความอีเมลหนึ่งๆ เป็นสแปมและข้อความอีเมลนั้นเป็นสแปมจริงๆ

อัตราผลบวกจริง (TPR)

#fundamentals

คําพ้องความหมายสําหรับ recall โดยการ

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

อัตราผลบวกจริงคือแกน y ในเส้นโค้ง ROC

U

ไม่เหมาะสม

#fundamentals

การสร้างโมเดลที่มีความสามารถในการคาดการณ์ที่ไม่ดี เนื่องจากโมเดลไม่ได้บันทึกความซับซ้อนของข้อมูลการฝึกอย่างสมบูรณ์ ปัญหาหลายอย่าง อาจส่งผลให้เกิดการเชื่อมต่อที่ไม่เพียงพอ ซึ่งรวมถึง

ตัวอย่างที่ไม่มีป้ายกํากับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์แต่ไม่มีป้ายกํากับ เช่น ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการที่ไม่มีป้ายกํากับจากโมเดลการประเมินบ้าน โดยแต่ละฟีเจอร์มีฟีเจอร์ 3 รายการแต่ไม่มีค่าบ้าน

จำนวนห้องนอน จํานวนห้องน้ํา อายุของคฤหาสน์
3 2 15
2 1 72
4 2 34

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกตัวอย่างที่ติดป้ายกํากับ และคาดการณ์ตัวอย่างที่ไม่มีป้ายกํากับ

ในการเรียนรู้ที่มีการควบคุมดูแลบางส่วนและไม่มีการควบคุมดูแล ระบบจะนําตัวอย่างที่ไม่มีป้ายกํากับไปใช้ในระหว่างการฝึกทํางาน

ความเปรียบต่างของตัวอย่างที่ไม่มีป้ายกํากับกับตัวอย่างแบบมีป้ายกํากับ

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering
#fundamentals

การฝึกโมเดลเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งโดยปกติจะเป็นชุดข้อมูลที่ไม่มีป้ายกํากับ

การใช้แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลที่พบบ่อยที่สุดคือการจัดกลุ่มข้อมูลลงในกลุ่มตัวอย่างที่คล้ายกัน เช่น อัลกอริทึมแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลจะจัดกลุ่มเพลงตามพร็อพเพอร์ตี้ที่หลากหลายของเพลงได้ คลัสเตอร์ที่ได้อาจกลายเป็นอินพุตของอัลกอริทึม แมชชีนเลิร์นนิงอื่นๆ (เช่น บริการแนะนําเพลง) การคลัสเตอร์มีประโยชน์เมื่อไม่มีป้ายกํากับที่มีประโยชน์หรือขาดแคลน ตัวอย่างเช่น ในโดเมนอย่างเช่น การป้องกันการละเมิดและการประพฤติมิชอบ คลัสเตอร์จะช่วยให้ผู้คนเข้าใจข้อมูลได้ดีขึ้น

ขัดแย้งกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล

V

การตรวจสอบความถูกต้อง

#fundamentals

การประเมินเริ่มต้นของคุณภาพของโมเดล การตรวจสอบความถูกต้องจะตรวจสอบคุณภาพของการคาดการณ์ด้วยชุดการตรวจสอบ

เนื่องจากชุดการตรวจสอบแตกต่างจากชุดการฝึก การตรวจสอบจึงช่วยป้องกันการปรับมากเกินไป

คุณอาจพิจารณาประเมินโมเดลเทียบกับชุดการตรวจสอบ ซึ่งก็คือการทดสอบรอบแรก และประเมินโมเดลกับชุดทดสอบว่าเป็นการทดสอบรอบที่สอง

การสูญหายของการตรวจสอบ

#fundamentals

เมตริกที่แทนการสูญเสียของโมเดลในชุดการตรวจสอบในระหว่างการฝึกทําซ้ํา

ดูเส้นโค้งทั่วไปเพิ่มเติม

ชุดการตรวจสอบความถูกต้อง

#fundamentals

เซ็ตย่อยของชุดข้อมูลที่ประเมินเบื้องต้นเทียบกับโมเดลที่ผ่านการฝึกแล้ว โดยทั่วไป คุณจะประเมิน โมเดลที่ฝึกแล้วเทียบกับชุดการตรวจสอบหลายครั้งก่อนที่จะประเมินโมเดลเทียบกับชุดทดสอบ

แต่เดิมคุณแบ่งตัวอย่างในชุดข้อมูลออกเป็นกลุ่มย่อยที่แตกต่างกัน 3 รายการต่อไปนี้

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นส่วนหนึ่งของชุดข้อมูลก่อนหน้าเพียงชุดเดียว ตัวอย่างเช่น ตัวอย่างหนึ่งไม่ควรเป็นทั้ง ชุดการฝึกและชุดการตรวจสอบ

W

น้ำหนัก

#fundamentals

ค่าที่โมเดลคูณกับอีกค่าหนึ่ง การฝึกทํางานคือกระบวนการที่ระบุน้ําหนักที่เหมาะสมของโมเดล การอนุมานเป็นกระบวนการใช้น้ําหนักที่เรียนรู้เหล่านั้นเพื่อทําการคาดการณ์

ผลรวมถ่วงน้ําหนัก

#fundamentals

ผลรวมของค่าอินพุตที่เกี่ยวข้องทั้งหมดคูณด้วยค่าที่ตรงกัน ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้องประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต น้ําหนักอินพุต
2 -1.3
-1 0.6
3 0.4

ดังนั้น ผลรวมถ่วงน้ําหนักจึงมีดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

ผลรวมที่ถ่วงน้ําหนักคืออาร์กิวเมนต์อินพุตของฟังก์ชันการเปิดใช้งาน

Z

การปรับค่ามาตรฐาน Z-score

#fundamentals

เทคนิคการปรับขนาดซึ่งแทนที่ค่าฟีเจอร์ดิบด้วยค่าจุดลอยตัวที่แสดงถึงจํานวนส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของฟีเจอร์ดังกล่าว เช่น ลองนึกถึงคุณลักษณะที่ค่าเฉลี่ยเท่ากับ 800 และส่วนเบี่ยงเบนมาตรฐานคือ 100 ตารางต่อไปนี้แสดงวิธีทําให้ค่ามาตรฐาน Z-score แมปค่าดิบกับคะแนน Z

ค่าดิบ ค่ามาตรฐาน
800 0
950 +1.5
575 -2.25

จากนั้นโมเดลแมชชีนเลิร์นนิงจะฝึกด้วยคะแนน Z สําหรับฟีเจอร์นั้นแทนค่าดิบ