หน้านี้มีคําศัพท์ในอภิธานศัพท์เกี่ยวกับโมเดลรูปภาพ สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่
A
Augmented Reality
เทคโนโลยีที่ซ้อนทับกับภาพที่คอมพิวเตอร์สร้างขึ้นในมุมมองของผู้ใช้ในโลกจริง ซึ่งทําให้เกิดมุมมองแบบผสม
B
กรอบล้อมรอบ
ในภาพ พิกัด (x, y) รูปสี่เหลี่ยมผืนผ้ารอบพื้นที่ที่สนใจ เช่น สุนัขในภาพด้านล่างนี้
C
Convolution
ในทางคณิตศาสตร์ การพูดสบายๆ เป็นการใช้ 2 ฟังก์ชันผสมผสานกันอย่างลงตัว ในแมชชีนเลิร์นนิง การปฏิวัติจะผสมตัวกรองการปฏิวัติและเมทริกซ์อินพุตเพื่อฝึกน้ําหนัก
คําว่า "Convolution" ในแมชชีนเลิร์นนิงมักเรียกสั้นๆ ว่าการปฏิวัติหรือเลเยอร์คอนโพลเวอร์
หากไม่มีการแปลง อัลกอริทึมของแมชชีนเลิร์นนิงจะต้องเรียนรู้น้ําหนักของทุกเซลล์แยกกันในแพลตฟอร์มขนาดใหญ่ เช่น การฝึกอัลกอริทึมของแมชชีนเลิร์นนิงสําหรับรูปภาพขนาด 2K x 2K จะถูกบังคับให้ค้นหาน้ําหนักแยกกัน 4 ล้านครั้ง ต้องขอบคุณอัลกอริทึมที่ทําให้อัลกอริทึม แมชชีนเลิร์นนิงต้องค้นหาน้ําหนักสําหรับทุกเซลล์ในตัวกรองคอนโวลูชัน ช่วยลดหน่วยความจําที่จําเป็นต่อการฝึกโมเดลลงอย่างมาก เมื่อนําตัวกรองการปฏิวัติมาใช้ ระบบจะกรองเฉพาะเซลล์นั้นเพื่อให้คูณกับตัวกรอง
ฟิลเตอร์คอนโวลูชัน
หนึ่งในสองนักแสดงที่ดําเนินร่วมกัน (นักแสดงอีกคนคือส่วนหนึ่งของเมทริกซ์อินพุต) ตัวกรองการปฏิวัติคือเมทริกซ์ที่มีอันดับเหมือนกับเมทริกซ์อินพุต แต่รูปร่างเล็กกว่า เช่น เมทริกซ์อินพุต 28x28 ตัวกรองอาจเป็นเมทริกซ์ 2 มิติใดก็ได้ที่มีขนาดเล็กกว่า 28x28
ในการจัดการการถ่ายภาพ เซลล์ทั้งหมดในฟิลเตอร์ที่มีการปฏิวัติมักจะตั้งค่าเป็นแบบ 0 และ 0 ในแมชชีนเลิร์นนิง ส่วนใหญ่แล้วตัวกรองที่ผสานกันจะมีตัวเลขสุ่มปรากฏขึ้นและเครือข่ายจะมีค่ารถไฟที่เหมาะสม
เลเยอร์ที่มีการปฏิวัติ
เลเยอร์ของเครือข่ายประสาทเทียมระดับลึกที่ตัวกรองแบบปฏิวัติไหลผ่านเมทริกซ์อินพุต เช่น ลองพิจารณาตัวกรองที่มีการปฏิวัติ 3x3 ต่อไปนี้
ภาพเคลื่อนไหวต่อไปนี้แสดงเลเยอร์ที่มีการปฏิวัติที่ประกอบด้วยการปฏิวัติ 9 รายการที่เกี่ยวข้องกับเมทริกซ์อินพุตขนาด 5x5 โปรดสังเกตว่าการทํางานที่มีการปฏิวัติการทํางานแต่ละครั้งจะทํางานบนส่วนย่อยของเมทริกซ์อินพุตขนาด 3x3 ที่แตกต่างกัน เมทริกซ์ขนาด 3x3 (ทางด้านขวา) ประกอบด้วยผลลัพธ์ของการดําเนินการที่ร่วมกัน 9 รายการ
โครงข่ายระบบประสาทเทียมแบบ Convolutional
เครือข่ายระบบประสาทที่มีอย่างน้อย 1 เลเยอร์เป็นเลเยอร์ที่มีการปฏิวัติ โครงข่ายระบบประสาทเทียมที่พบได้ทั่วไป จะประกอบด้วยเลเยอร์ต่างๆ ต่อไปนี้
โครงข่ายระบบประสาทเทียมแบบ Convolution ประสบความสําเร็จอย่างมากในปัญหาบางประเภท เช่น การจดจําภาพ
การปฏิวัติ
การคํานวณทางคณิตศาสตร์สองขั้นตอนต่อไปนี้:
- การปฏิวัติและการคูณบางส่วนของเมทริกซ์อินพุต (ส่วนของเมทริกซ์อินพุตมีอันดับและขนาดเท่ากับตัวกรองแบบ Convolution)
- การสรุปค่าทั้งหมดในเมทริกซ์ผลิตภัณฑ์ที่แสดง
ตัวอย่างเช่น พิจารณาเมทริกซ์อินพุตขนาด 5x5 ต่อไปนี้
ตอนนี้ให้สมมติว่าตัวกรองแบบ Convolution ขนาด 2x2 ต่อไปนี้
การดําเนินการที่มีการปฏิวัติแต่ละครั้งเกี่ยวข้องกับเมทริกซ์อินพุตขนาด 2x2 เพียงส่วนเดียว ตัวอย่างเช่น สมมติว่าคุณใช้ชิ้นส่วน 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต การปฏิวัติบนชิ้นส่วนนี้ จะมีลักษณะดังนี้
เลเยอร์ที่มีการปฏิวัติ ประกอบไปด้วยซีรี่ส์ของการปฏิวัติ โดยแต่ละส่วนย่อยจะทํางานบนชิ้นส่วนของเมทริกซ์อินพุตแต่ละส่วน
D
การเสริมข้อมูล
เพิ่มช่วงและตัวอย่างของการฝึกที่ไม่ได้เกิดขึ้นจริงโดยการเปลี่ยนตัวอย่างที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติม ตัวอย่างเช่น สมมติว่ารูปภาพเป็นหนึ่งในฟีเจอร์ แต่ชุดข้อมูลมีตัวอย่างรูปภาพไม่เพียงพอสําหรับโมเดลเพื่อเรียนรู้เกี่ยวกับการเชื่อมโยงที่เป็นประโยชน์ โดยหลักการแล้วคุณควรจะเพิ่มรูปภาพที่ติดป้ายกํากับลงในชุดข้อมูลให้เพียงพอเพื่อให้โมเดลฝึกได้อย่างถูกต้อง หากทําไม่ได้ การขยายข้อมูลจะสามารถหมุน ยืด และสะท้อนภาพแต่ละภาพเพื่อสร้างรูปแบบที่หลากหลายของรูปภาพต้นฉบับ ซึ่งอาจทําให้เกิดข้อมูลที่มีป้ายกํากับมากพอที่จะทําให้การฝึกดีขึ้น
โครงข่ายระบบประสาทเทียมแบบ Convolutional
สถาปัตยกรรมระบบประสาทเทียมแบบ Convolution อิงตามแนวคิด แต่มีการเปลี่ยนโมดูลที่แนวคิด Inception อย่างคล้ายคลึงกัน หรือที่เรียกว่า Xception
การปฏิวัติที่แยกออกได้ชัดเจน (หรือเรียกสั้นๆ ว่า การปฏิวัติที่แยกจากกัน) จะประกอบการปฏิวัติมาตรฐาน 3 มิติลงในการปฏิวัติแบบแยกสองแบบซึ่งมีประสิทธิภาพมากกว่า: ประการแรก เป็นการปฏิวัติที่ลึกซึ้งโดยมีความลึกเป็น 1 (n ✕ n ✕ 1) แล้วตามด้วยการปฏิวัติจุดเดียว 1 ครั้ง (ตามความยาวและความกว้าง 1 จุด)
ดูข้อมูลเพิ่มเติมได้ใน Xception: การเรียนรู้เชิงลึกด้วย Convolution
การสุ่มเนื้อหา
คําที่ใช้มากเกินไปซึ่งอาจหมายถึงข้อใดข้อหนึ่งต่อไปนี้
- การลดปริมาณข้อมูลในฟีเจอร์เพื่อฝึกโมเดลได้อย่างมีประสิทธิภาพมากขึ้น ตัวอย่างเช่น ก่อนที่จะฝึกโมเดลการจดจํารูปภาพ ให้ลดเวลาของรูปภาพความละเอียดสูงลงเป็นรูปแบบที่มีความละเอียดน้อยลง
- การฝึกตัวอย่างแบบคลาสในสัดส่วนที่ต่ํามากอย่างไม่เป็นสัดส่วนสูง เพื่อปรับปรุงการฝึกโมเดลของคลาสที่ด้อยโอกาส ตัวอย่างเช่น ในชุดข้อมูลที่ไม่สมดุลกัน โมเดลมักจะเรียนรู้เกี่ยวกับคลาสส่วนใหญ่และไม่เพียงพอเกี่ยวกับคลาสย่อย การสุ่มจะช่วย จัดสมดุลให้กับชั้นเรียนส่วนใหญ่และชนกลุ่มน้อยได้
I
การจดจำรูปภาพ
ขั้นตอนที่แยกประเภทวัตถุ รูปแบบ หรือแนวคิดในรูปภาพ การจดจํารูปภาพหรือที่เรียกว่าการแยกประเภทรูปภาพ
ดูข้อมูลเพิ่มเติมได้ที่ ML Practicum: การจัดประเภทอิมเมจ
จุดตัดข้ามสหภาพ (IoU)
อินเตอร์เซกชันของ 2 ชุดหารด้วยสหภาพของพวกเขา ในงานการตรวจจับรูปภาพโดยใช้แมชชีนเลิร์นนิง IoU จะใช้เพื่อวัดความแม่นยําของกรอบล้อมรอบของโมเดลที่สัมพันธ์กับกรอบล้อมรอบข้อมูลจากการสังเกตการณ์ ในกรณีนี้ IoU สําหรับ 2 กล่องคืออัตราส่วนระหว่างพื้นที่ที่ทับซ้อนกันกับพื้นที่ทั้งหมด และค่าของช่วงมีตั้งแต่ 0 (ไม่มีการทับซ้อนของกรอบล้อมรอบกับช่องที่เป็นจริง) ต่อ 1 (ช่องล้อมรอบที่คาดการณ์ไว้และช่องที่ล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรงมีพิกัดเดียวกัน)
ตัวอย่างเช่น ในภาพด้านล่าง
- กรอบล้อมรอบที่คาดการณ์ไว้ (พิกัดที่คั่นตําแหน่งของแบบจําลองที่คาดคะเนตารางคืนในภาพวาด) จะเป็นสีม่วง
- กรอบล้อมรอบตามพื้นดิน (พิกัดที่คั่นตําแหน่งของตารางกลางคืนในภาพวาด) จะเป็นสีเขียว
ตรงนี้ จุดที่ตัดของกรอบล้อมรอบสําหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างซ้าย) คือ 1 และยูเนียนของช่องขอบเขตสําหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างขวา) คือ 7 ดังนั้น IoU เท่ากับ \(\frac{1}{7}\)


K
ประเด็นสําคัญ
พิกัดของคุณลักษณะเฉพาะในภาพ เช่น สําหรับรูปแบบการจดจํารูปภาพที่แยกแยะสายพันธุ์ดอกไม้ได้ จุดสําคัญอาจเป็นศูนย์กลางของกลีบดอกไม้ ก้าน ส้อม และอื่นๆ
L
จุดสังเกต
คําพ้องความหมายสําหรับ keypoints
M
ลงทะเบียน
ชุดข้อมูลที่เป็นสาธารณสมบัติซึ่งรวบรวมโดย LeCun, Cortes และ Burges มีรูปภาพ 60,000 รูป แต่ละรูปแสดงลักษณะที่มนุษย์เขียนตัวเลขที่เจาะจงตั้งแต่ 0-9 รูปภาพแต่ละรูปจะจัดเก็บเป็นอาร์เรย์ขนาด 28x28 โดยที่จํานวนเต็มแต่ละตัวจะมีค่าสีเทาตั้งแต่ 0 ถึง 255
MNIST คือชุดข้อมูล Canonical สําหรับแมชชีนเลิร์นนิง มักใช้เพื่อทดสอบแนวทางใหม่ๆ ของแมชชีนเลิร์นนิง โปรดดูรายละเอียดใน ฐานข้อมูลตัวเลขที่เขียนด้วยลายมือของ MNIST
P
Pooling
การลดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างโดยเลเยอร์การปฏิวัติก่อนหน้านี้เป็นเมทริกซ์ขนาดเล็ก โดยปกติ การรวมกลุ่มจะคํานึงถึงมูลค่าสูงสุดหรือค่าเฉลี่ยทั่วทั้งพื้นที่สระว่ายน้ํา ตัวอย่างเช่น สมมติว่าเรามี เมทริกซ์ขนาด 3x3 ต่อไปนี้
การดําเนินการพูลนั้นเหมือนกับการดําเนินการที่ทําให้เกิดการหาร แบ่ง เมทริกซ์นั้นออกเป็นชิ้นส่วนๆ แล้วเลื่อนการปฏิวัติเหล่านั้นตาม การก้าวเดิน ตัวอย่างเช่น สมมติว่าการพูลร่วมกันแบ่งเมทริกซ์การปฏิวัติออกเป็นชิ้นส่วนขนาด 2x2 ด้วยขั้นตอน 1x1 ตามที่เห็นแผนภาพต่อไปนี้ มีการทําพูล 4 รายการเกิดขึ้น ลองนึกว่าการดําเนินการรวมแต่ละกลุ่มจะเลือกค่าสูงสุดของ 4 ส่วนในแต่ละส่วน
การพูลช่วยบังคับใช้ความแปรปรวนระหว่างการแปลในเมทริกซ์อินพุต
การประยุกต์ใช้สําหรับการสร้างวิสัยทัศน์เป็นที่รู้จักอย่างเป็นทางการว่าการรวมตัวในพื้นที่ แอปพลิเคชันอนุกรมเวลามักจะเรียกรวมกันว่าการรวมชั่วคราว อย่างเป็นทางการก็คือ การรวมกลุ่มมักจะเรียกว่าการติดตามหรือการสุ่มตัวอย่าง
ขวา
ความแปรปรวนแบบหมุน
ในปัญหาการจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการแยกประเภทรูปภาพให้สําเร็จแม้ว่าการวางแนวของรูปภาพจะเปลี่ยนไป ตัวอย่างเช่น อัลกอริทึมยังคงสามารถระบุไม้เทนนิสที่ชี้ขึ้น เอียง หรือเอียงลงได้ โปรดทราบว่าค่าความแปรผันของการหมุนไม่เป็นที่ต้องการเสมอไป เช่น กลับหัว 9 ไม่ควรจัดเป็น 9
ดูความแปรปรวนระหว่างตําแหน่งและความแปรปรวนของขนาดด้วย
S
ความแปรปรวนของขนาด
ในปัญหาในการแยกประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดหมวดหมู่รูปภาพให้สําเร็จ แม้ว่าขนาดของรูปภาพจะเปลี่ยนไปก็ตาม เช่น อัลกอริทึมยังคงระบุแมวว่ากินพื้นที่ 2 ล้านพิกเซลหรือ 200,000 พิกเซลได้ โปรดทราบว่าแม้แต่อัลกอริทึมการจัดประเภทรูปภาพที่ดีที่สุดก็ยังมีข้อจํากัดเกี่ยวกับความแปรปรวนของขนาดในทางปฏิบัติ เช่น อัลกอริทึม (หรือมนุษย์) ไม่มีแนวโน้มที่จะจัดประเภท รูปภาพแมวอย่างถูกต้องโดยใช้เพียง 20 พิกเซล
ดูความแปรปรวนระหว่างตําแหน่งและความแปรปรวนแบบหมุนด้วย
การสร้างพื้นที่เชิงพื้นที่
ดูการพูล
ก้าวเท้า
ในการดําเนินการเชิงปฏิวัติหรือการรวมกลุ่ม เดลต้าในแต่ละมิติข้อมูลของชุดอินพุตส่วนถัดไป ตัวอย่างเช่น ภาพเคลื่อนไหวต่อไปนี้แสดงก้าวเดิน (1,1) ระหว่างการผ่าตัด ดังนั้น ส่วนอินพุตถัดไปจะเริ่มต้นตําแหน่ง 1 ตําแหน่งทางด้านขวาของส่วนแบ่งอินพุตก่อนหน้า เมื่อการดําเนินการมาถึงขอบด้านขวา ส่วนถัดไปจะอยู่ทางซ้ายสุด ส่วนตําแหน่งด้านล่างอีก 1 ตําแหน่ง
ตัวอย่างก่อนหน้านี้แสดงถึงก้าวย่างสองมิติ ถ้าเมทริกซ์อินพุต มีสามมิติ บันไดก็อาจจะเป็น 3 มิติด้วย
การสุ่มย่อย
ดูการพูล
T
ความแปรปรวนของการแปล
ในปัญหาในการแยกประเภทรูปภาพ ความสามารถของอัลกอริทึมในการแยกประเภทรูปภาพให้สําเร็จแม้ว่าตําแหน่งของวัตถุภายในรูปภาพจะเปลี่ยนไปก็ตาม เช่น อัลกอริทึมยังคงระบุสุนัขได้ ไม่ว่าจะอยู่ตรงกลางของเฟรมหรือด้านซ้ายของเฟรม
ดูความแปรปรวนของขนาดและความแปรปรวนแบบหมุนด้วย