หน้านี้มีคำศัพท์ในอภิธานศัพท์ของโมเดลรูปภาพ ดูคำศัพท์ทั้งหมดในอภิธานศัพท์ คลิกที่นี่
A
Augmented Reality
เทคโนโลยีที่แทนที่รูปภาพที่สร้างโดยคอมพิวเตอร์ในมุมมองของผู้ใช้ในโลกจริง จึงเป็นมุมมองแบบผสม
โปรแกรมเปลี่ยนไฟล์อัตโนมัติ
ระบบที่เรียนรู้เพื่อดึงข้อมูลที่สำคัญที่สุดออกจากอินพุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นการรวมโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส โปรแกรมเปลี่ยนไฟล์อัตโนมัติมีกระบวนการสองขั้นตอนต่อไปนี้
- โปรแกรมเปลี่ยนไฟล์จะแมปอินพุตกับรูปแบบ (ปกติ) แบบสูญเสียบางส่วน (แบบปานกลาง) แบบสูญเสียบางส่วน
- เครื่องมือถอดรหัสจะสร้างอินพุตต้นฉบับเวอร์ชันแบบสูญเสียบางส่วนโดยการแมปรูปแบบที่มีมิติต่ำกว่ากับรูปแบบอินพุตที่มีมิติสูงกว่าเดิม
โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะได้รับการฝึกจากต้นทางถึงปลายทางโดยให้เครื่องมือถอดรหัสพยายามสร้างอินพุตดั้งเดิมจากรูปแบบระดับกลางของโปรแกรมเปลี่ยนไฟล์ให้ใกล้เคียงที่สุด เนื่องจากรูปแบบระดับกลางมีขนาดเล็กกว่า (ขนาดต่ำกว่า) รูปแบบเดิม ตัวเข้ารหัสอัตโนมัติจึงถูกบังคับให้เรียนรู้ว่าข้อมูลใดในอินพุตที่เป็นสิ่งจำเป็น และเอาต์พุตที่ได้จะไม่เหมือนกับอินพุตที่มีอย่างสมบูรณ์
เช่น
- หากข้อมูลอินพุตเป็นกราฟิก สำเนาที่ไม่ใช่แบบตรงกันทุกประการจะคล้ายกับกราฟิกต้นฉบับ แต่อาจมีการแก้ไขบ้าง ข้อความที่เหมือนกันทุกประการอาจทำให้มีการตัดเสียงรบกวนออกจากกราฟิกต้นฉบับหรือเติมเต็มพิกเซลที่ขาดหายไปบางส่วน
- หากข้อมูลอินพุตเป็นข้อความ โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะสร้างข้อความใหม่ที่เลียนแบบ (แต่ไม่เหมือนกับ) ข้อความต้นฉบับ
ดูเครื่องมือเข้ารหัสอัตโนมัติรูปแบบต่างๆ
โมเดลแบบถดถอยอัตโนมัติ
modelที่อนุมานการคาดการณ์โดยอิงตามการคาดการณ์ก่อนหน้านี้ของตนเอง ตัวอย่างเช่น โมเดลภาษาแบบถดถอยอัตโนมัติจะคาดการณ์โทเค็นถัดไปโดยอิงตามโทเค็นที่คาดการณ์ไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ทั้งหมดที่ใช้ Transformer จะทำงานแบบถดถอยโดยอัตโนมัติ
ในทางตรงกันข้าม โมเดลรูปภาพแบบใช้ GAN มักจะไม่ใช้แบบถดถอยอัตโนมัติเนื่องจากโมเดลจะสร้างรูปภาพในการส่งไปข้างหน้าเพียงครั้งเดียวและไม่ทำซ้ำทีละขั้น อย่างไรก็ตาม โมเดลการสร้างรูปภาพบางรูปแบบจะถดถอยอัตโนมัติเนื่องจากโมเดลจะสร้างรูปภาพในขั้นตอน
B
กรอบล้อมรอบ
ในรูปภาพ พิกัด (x, y) ของสี่เหลี่ยมผืนผ้ารอบพื้นที่ที่สนใจ เช่น สุนัขในรูปภาพด้านล่าง
C
Convolution
ในทางคณิตศาสตร์ การพูดแบบสบายๆ เป็นส่วนผสมของ 2 ฟังก์ชัน ในแมชชีนเลิร์นนิง คอนโวลูชันจะผสมตัวกรอง Convolutional กับเมทริกซ์อินพุตเพื่อฝึกน้ำหนัก
คำว่า "convolution" ในแมชชีนเลิร์นนิงมักเป็นคำสั้นๆ ที่หมายถึงการดำเนินการเชิงปฏิวัติหรือชั้น Convolutional
หากไม่มีคอนโวลูชัน อัลกอริทึมของแมชชีนเลิร์นนิงจะต้องเรียนรู้น้ำหนักแยกกันสำหรับทุกเซลล์ใน tensor ขนาดใหญ่ เช่น การฝึกอัลกอริทึมแมชชีนเลิร์นนิงเกี่ยวกับรูปภาพขนาด 2K x 2K จะต้องหาน้ำหนักแยกกัน 4 ล้านครั้ง อัลกอริทึมของแมชชีนเลิร์นนิงต้องค้นหาน้ำหนักของแต่ละเซลล์ในตัวกรอง Convolutional เพียงอย่างเดียวเท่านั้น ซึ่งช่วยลดหน่วยความจำที่ต้องใช้ในการฝึกโมเดลลงได้อย่างมาก เมื่อใช้ตัวกรอง Convolutional ระบบจะจำลองการทำงานซ้ำข้ามเซลล์ ซึ่งแต่ละเซลล์คูณกับตัวกรอง
ฟิลเตอร์ Convolutional
หนึ่งในสองของนักแสดงในปฏิบัติการเชิงปฏิวัติ (ตัวดำเนินการอีกตัวคือ ชิ้นส่วนของเมทริกซ์อินพุต) ตัวกรองคอนโวลูชันคือเมทริกซ์ที่มีอันดับเหมือนเมทริกซ์อินพุต แต่มีรูปร่างเล็กกว่า ตัวอย่างเช่น เมื่อใช้เมทริกซ์อินพุต 28x28 ตัวกรองอาจเป็นเมทริกซ์ 2 มิติใดก็ได้ที่มีขนาดเล็กกว่า 28x28
ในการปรับแต่งภาพถ่าย เซลล์ทั้งหมดในฟิลเตอร์แบบผสานแนวคิด มักจะตั้งค่าเป็นรูปแบบคงที่ของเซลล์กับเลข 0 ในแมชชีนเลิร์นนิง ตัวกรองแบบ Conv. มักจะสร้างขึ้นด้วยตัวเลขแบบสุ่ม จากนั้นเครือข่ายจะฝึกค่าที่ดีที่สุด
เลเยอร์ Convolutional
ชั้นของโครงข่ายประสาทแบบลึกซึ่งตัวกรอง Convolutional ส่งผ่านเมทริกซ์อินพุต ตัวอย่างเช่น ลองพิจารณาตัวกรอง Convolution แบบ 3x3 ต่อไปนี้
ภาพเคลื่อนไหวต่อไปนี้แสดงเลเยอร์แบบ Convolutional ซึ่งประกอบด้วยการดำเนินการแบบ Convolution 9 รายการที่เกี่ยวข้องกับเมทริกซ์อินพุต 5x5 โปรดสังเกตว่าการดำเนินการ Conversion แต่ละอย่างจะทำงานบนชิ้นส่วนขนาด 3x3 ของเมทริกซ์อินพุต เมทริกซ์ 3x3 ที่ได้ (ทางด้านขวา) ประกอบด้วยผลลัพธ์ของการดำเนินการแบบ Convolution 9 รายการ ดังนี้
โครงข่ายระบบประสาทเทียมแบบ Convolutional
โครงข่ายระบบประสาทเทียมที่มีอย่างน้อย 1 เลเยอร์เป็นเลเยอร์แบบ Convolutional โครงข่ายประสาทแบบ Convolutional ทั่วไปประกอบด้วยเลเยอร์ต่างๆ ต่อไปนี้
โครงข่ายระบบประสาทเทียมแบบ Convolutional ประสบความสำเร็จอย่างมากในบาง ปัญหา เช่น การจดจำรูปภาพ
ปฏิบัติการเชิงปฏิวัติ
การคำนวณทางคณิตศาสตร์ 2 ขั้นตอนต่อไปนี้
- การคูณองค์ประกอบของตัวกรอง Convolution และส่วนของเมทริกซ์อินพุต (ชิ้นส่วนของเมทริกซ์อินพุตมีอันดับและขนาดเดียวกันกับตัวกรองแบบ Convolutional)
- การรวมค่าทั้งหมดในเมทริกซ์ผลลัพธ์
ตัวอย่างเช่น ลองพิจารณาเมทริกซ์อินพุต 5x5 ต่อไปนี้
ทีนี้ลองคิดถึงตัวกรองแบบ Convolutional ขนาด 2x2 ดังต่อไปนี้
การดำเนินการแบบ Convolution แต่ละครั้งจะใช้เมทริกซ์อินพุต 2x2 ชิ้นเดียว ตัวอย่างเช่น สมมติว่าเราใช้ชิ้นส่วนขนาด 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ดังนั้น การดำเนินการคอนโวลูชันบนสไลซ์นี้จะมีลักษณะดังนี้
เลเยอร์ Convolutional ประกอบด้วยชุดการดำเนินการแบบ Convolutional โดยแต่ละชุดจะกระทำต่อชิ้นส่วนต่างๆ ของเมทริกซ์อินพุต
D
การเพิ่มข้อมูล
การเพิ่มช่วงและจำนวนตัวอย่างการฝึกอย่างปลอมๆ โดยการแปลงตัวอย่างที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติม ตัวอย่างเช่น สมมติว่ารูปภาพเป็นหนึ่งในฟีเจอร์ของคุณ แต่ชุดข้อมูลมีตัวอย่างรูปภาพไม่เพียงพอที่จะทำให้โมเดลเรียนรู้การเชื่อมโยงที่เป็นประโยชน์ ตามหลักแล้ว คุณควรเพิ่มรูปภาพที่ติดป้ายกำกับให้เพียงพอกับชุดข้อมูลเพื่อให้โมเดลฝึกได้อย่างถูกต้อง หากทำไม่ได้ การเพิ่มข้อมูลจะสามารถหมุน ขยาย และสะท้อนรูปภาพแต่ละรูปเพื่อสร้างรูปแบบที่หลากหลายของรูปภาพต้นฉบับได้ ทำให้มีข้อมูลที่มีป้ายกำกับมากเพียงพอสำหรับการฝึกให้เป็นที่ยอดเยี่ยม
โครงข่ายประสาทเทียมแบบ Convolutional แบบ depthwise ก็ (sepCNN)
สถาปัตยกรรมโครงข่ายระบบประสาทเทียม ที่อิงตาม Inception แต่แทนที่โมดูล Inception ด้วย Conversion ที่แยกจากกันได้แบบเจาะลึก หรือที่เรียกว่า Xception
การแปลงแบบมิติชัดเจนที่แยกออกได้ (หรือเรียกย่อๆ ว่าคอนวัติวิวัฒนาการแบบแยกกัน) จะประกอบการแปลง 3-D มาตรฐานเป็นการดำเนินการการแปลง 2 ส่วนแยกกัน ซึ่งมีประสิทธิภาพในการคํานวณมากกว่า อย่างแรก การเกิดแบบความลึกที่มีความลึก 1 (n มาก่อน {3} th) ตามด้วยค่าที่สอง คือ 1 จุดทศนิยม ความยาวและความกว้างของ 1 จุด
ดูข้อมูลเพิ่มเติมได้ที่ Xception: Deep Learning with Depthwise Separable Convolutions
การสุ่ม
คำที่มากเกินไป ซึ่งอาจหมายถึงอย่างใดอย่างหนึ่งต่อไปนี้
- ลดจํานวนข้อมูลในฟีเจอร์เพื่อฝึกโมเดลอย่างมีประสิทธิภาพยิ่งขึ้น ตัวอย่างเช่น ก่อนการฝึกโมเดลการจดจำรูปภาพ ให้ลดขนาดรูปภาพที่มีความละเอียดสูงให้เป็นรูปแบบที่มีความละเอียดต่ำลง
- การฝึกจากตัวอย่างในชั้นเรียนที่มีเปอร์เซ็นต์ต่ำอย่างไม่สมส่วนเพื่อปรับปรุงการฝึกโมเดลในชั้นเรียนที่มีตัวแทนไม่เพียงพอ ตัวอย่างเช่น ในชุดข้อมูลที่ไม่สมดุลระหว่างคลาส โมเดลมักจะเรียนรู้เกี่ยวกับกลุ่มส่วนใหญ่และยังไม่เพียงพอเกี่ยวกับชนชั้นชนกลุ่มน้อย การดาวน์แซมปลิงช่วยสร้างความสมดุล ระหว่างการฝึกอบรมในชั้นเรียนส่วนใหญ่และชนกลุ่มน้อย
F
การปรับแต่ง
บัตรผ่านการฝึกอบรมแบบที่ 2 ที่เจาะจงงานซึ่งทำงานในโมเดลที่ฝึกไว้แล้วเพื่อปรับแต่งพารามิเตอร์สำหรับกรณีการใช้งานที่เฉพาะเจาะจง ตัวอย่างเช่น ลำดับการฝึกแบบเต็มสำหรับโมเดลภาษาขนาดใหญ่บางรายการมีดังนี้
- การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ในชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทั้งหมด
- การปรับแต่ง: ฝึกโมเดลที่ฝึกไว้ล่วงหน้าให้ทำงานที่เฉพาะเจาะจง เช่น การตอบสนองต่อคำค้นหาทางการแพทย์ การปรับแต่งมักประกอบด้วยตัวอย่างหลายร้อยหรือหลายพันรายการที่มุ่งเน้นงานนั้นๆ
อีกตัวอย่างหนึ่ง ลำดับการฝึกทั้งหมดสำหรับโมเดลรูปภาพขนาดใหญ่มีดังนี้
- การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่ในชุดข้อมูลรูปภาพทั่วไปขนาดใหญ่ เช่น รูปภาพทั้งหมดในคอมมอน Wikimedia
- การปรับแต่ง: ฝึกโมเดลที่ฝึกล่วงหน้าให้ทำงานที่เฉพาะเจาะจง เช่น การสร้างรูปภาพของวาฬเพชฌฆาต
การปรับแต่งอาจผสมผสานกลยุทธ์ต่อไปนี้เข้าด้วยกัน
- การแก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าทั้งหมด บางครั้งจะเรียกกรณีเช่นนี้ว่าการปรับแต่งเต็มรูปแบบ
- แก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าบางส่วนเท่านั้น (โดยทั่วไปคือเลเยอร์ที่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด) ขณะเดียวกันก็คงพารามิเตอร์อื่นๆ ที่มีอยู่ไว้ตามเดิม (โดยปกติจะเป็นเลเยอร์ที่อยู่ใกล้เลเยอร์อินพุตมากที่สุด) ดูการปรับแต่งแบบใช้พารามิเตอร์
- การเพิ่มเลเยอร์ โดยปกติจะอยู่ทับเลเยอร์ที่มีอยู่ซึ่งใกล้กับเลเยอร์เอาต์พุตมากที่สุด
การปรับแต่งเป็นการเรียนรู้จากการโอนรูปแบบหนึ่ง ดังนั้น การปรับแต่งอาจใช้ฟังก์ชันการสูญเสียหรือประเภทโมเดลที่แตกต่างจากที่ใช้ฝึกโมเดลก่อนการฝึก ตัวอย่างเช่น คุณสามารถปรับแต่งโมเดลรูปภาพขนาดใหญ่ที่ฝึกไว้แล้วเพื่อสร้างโมเดลการถดถอยที่แสดงจำนวนนกในอิมเมจอินพุต
เปรียบเทียบความเหมือนและความต่างของการปรับแต่งกับคำศัพท์ต่อไปนี้
G
Generative AI
สาขาการเปลี่ยนแปลงที่กำลังเป็นรูปธรรมซึ่งไม่มีคำจำกัดความอย่างเป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่เห็นด้วยว่าโมเดล Generative AI สามารถสร้าง ("สร้าง") เนื้อหาที่มีลักษณะดังต่อไปนี้ได้
- ซับซ้อน
- สอดคล้องกัน
- เดิม
ตัวอย่างเช่น โมเดล Generative AI สามารถสร้างเรียงความหรือรูปภาพที่ซับซ้อนได้
เทคโนโลยีรุ่นก่อนๆ เช่น LSTM และ RNN สามารถสร้างเนื้อหาต้นฉบับที่สอดคล้องได้เช่นกัน ผู้เชี่ยวชาญบางคนมองว่าเทคโนโลยีรุ่นก่อนเหล่านี้คือ Generative AI ขณะที่คนอื่นๆ รู้สึกว่า Generative AI ที่แท้จริงต้องใช้เอาต์พุตที่ซับซ้อนกว่าเทคโนโลยีใหม่ๆ ที่เทคโนโลยียุคก่อนทำได้
คอนทราสต์กับ ML แบบคาดคะเน
I
การรู้จำรูปภาพ
กระบวนการที่จัดประเภทวัตถุ รูปแบบ หรือแนวคิดในรูปภาพ การรู้จำรูปภาพเรียกอีกอย่างว่าการจัดประเภทรูปภาพ
ดูข้อมูลเพิ่มเติมได้ที่ ML Practicum: การแยกประเภทรูปภาพ
จุดตัดข้ามสหภาพ (IoU)
อินเตอร์เซกชันของ 2 ชุดหารด้วยจำนวนสหภาพ ในงานตรวจจับรูปภาพของแมชชีนเลิร์นนิง IoU จะใช้เพื่อวัดความแม่นยำของกรอบล้อมรอบที่คาดการณ์ไว้ของโมเดลที่เกี่ยวข้องกับกรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรง ในกรณีนี้ IoU สำหรับ 2 ช่องคืออัตราส่วนระหว่างพื้นที่ที่ทับซ้อนกันและพื้นที่ทั้งหมด และค่าจะเป็นตั้งแต่ 0 (ไม่มีการซ้อนทับกันของกรอบล้อมรอบที่คาดการณ์ไว้และกรอบล้อมรอบความจริงของพื้นดิน) ต่อ 1 (กรอบล้อมรอบที่คาดการณ์ไว้และกรอบล้อมรอบความจริงของพื้นดินมีพิกัดเดียวกัน)
ดังตัวอย่างต่อไปนี้ในรูปภาพด้านล่าง
- กรอบล้อมรอบที่คาดการณ์ไว้ (ตัวคั่นพิกัดที่โมเดลคาดการณ์ตารางกลางคืนในภาพวาด) จะมีเส้นขอบเป็นสีม่วง
- กรอบล้อมรอบความจริง (พิกัดพิกัดของตำแหน่งที่มีโต๊ะอาหารกลางคืนในภาพวาด) จะมีเส้นขอบเป็นสีเขียว
ในที่นี้ จุดตัดของกรอบล้อมรอบสำหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างซ้าย) คือ 1 และการรวมกรอบล้อมรอบสำหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์ (ด้านล่างขวา) คือ 7 ดังนั้น IoU จึงเป็น \(\frac{1}{7}\)
K
จุดสำคัญ
พิกัดของจุดสนใจบางอย่างในรูปภาพ ตัวอย่างเช่น สำหรับโมเดลการจดจำรูปภาพที่จำแนกสายพันธุ์ดอกไม้ต่างๆ จุดสำคัญอาจเป็นจุดกึ่งกลางของแต่ละกลีบ ก้าน ก้าน และอื่นๆ
L
จุดสังเกต
คำพ้องความหมายของ keypoints
M
MNIST
ชุดข้อมูลโดเมนสาธารณะที่รวบรวมโดย LeCun, Cortes และ Burges ซึ่งประกอบด้วยรูปภาพ 60,000 รูป โดยแต่ละภาพแสดงให้เห็นว่ามนุษย์เขียนตัวเลขตัวเลขตั้งแต่ 0-9 ด้วยตนเองได้อย่างไร แต่ละภาพจะเก็บเป็นอาร์เรย์ 28x28 ของจำนวนเต็ม โดยจำนวนเต็มแต่ละภาพเป็นค่าโทนสีเทาระหว่าง 0 ถึง 255
MNIST คือชุดข้อมูล Canonical สำหรับแมชชีนเลิร์นนิงที่มักใช้ในการทดสอบแนวทางใหม่ๆ ของแมชชีนเลิร์นนิง ดูรายละเอียดได้ที่ ฐานข้อมูล MNIST ของตัวเลขที่เขียนด้วยลายมือ
คะแนน
การรวมกลุ่ม
การลดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างขึ้นจากเลเยอร์ Convolutional ก่อนหน้านี้ให้เป็นเมทริกซ์ที่เล็กกว่า การรวมมักจะเป็นการนำค่าสูงสุดหรือค่าเฉลี่ยไปใช้กับพื้นที่ร่วม ตัวอย่างเช่น สมมติว่าเรามี เมทริกซ์ 3x3 ต่อไปนี้
การดำเนินการรวมเช่นเดียวกับการดำเนินการแบบ Convolution จะแบ่งเมทริกซ์ออกเป็นส่วนๆ แล้วเลื่อนการดำเนินการแบบผสานกันด้วยจังหวะ ตัวอย่างเช่น สมมติว่าการดำเนินการรวบรวมจะแบ่งเมทริกซ์แบบ Convolutional ออกเป็นส่วนๆ 2x2 โดยมีอัตราความเร็ว 1x1 ดังที่แสดงในแผนภาพต่อไปนี้ จะเห็นการดำเนินการรวม 4 รายการ สมมติว่าการดำเนินการร่วมแต่ละครั้งเลือกค่าสูงสุดของ 4 ในส่วนดังกล่าว
การรวมจะช่วยบังคับใช้ความแปรปรวนของการแปลในเมทริกซ์อินพุต
การรวมกลุ่มสำหรับแอปพลิเคชันด้านการมองเห็นมีชื่อเรียกอีกอย่างว่า Spatial Pooling แอปพลิเคชันอนุกรมเวลามักเรียกว่าการรวมชั่วคราว และไม่เป็นทางการ การจัดกลุ่มมักจะเรียกว่าการซับแซมพลิงหรือการดาวน์แซมพลิง
โมเดลก่อนการฝึก
โมเดลหรือคอมโพเนนต์ของโมเดล (เช่น เวกเตอร์การฝัง) ที่ได้รับการฝึกแล้ว บางครั้งคุณจะฟีดเวกเตอร์การฝังก่อนการฝึกลงในโครงข่ายระบบประสาทเทียม แต่บางครั้งโมเดลของคุณจะฝึกตัวเวกเตอร์การฝังเองแทนที่จะฝึกการฝังที่ฝึกล่วงหน้า
คำว่าโมเดลภาษาก่อนการฝึกหมายถึงโมเดลภาษาขนาดใหญ่ที่ผ่านการการฝึกล่วงหน้า
ก่อนการฝึกอบรม
การฝึกเริ่มต้นของโมเดลบนชุดข้อมูลขนาดใหญ่ โมเดลที่ฝึกไว้แล้วล่วงหน้าบางโมเดลเป็นขนาดใหญ่ที่งุ่มง่ามและมักต้องปรับแต่งผ่านการฝึกเพิ่มเติม เช่น ผู้เชี่ยวชาญ ML อาจฝึกโมเดลภาษาขนาดใหญ่ล่วงหน้าบนชุดข้อมูลข้อความขนาดใหญ่ เช่น ทุกหน้าภาษาอังกฤษใน Wikipedia หลังจากการฝึกล่วงหน้าแล้ว โมเดลผลลัพธ์อาจได้รับการปรับปรุงให้ดีขึ้นโดยใช้เทคนิคต่อไปนี้
R
ค่าความแปรปรวนของการหมุน
ในปัญหาการจัดประเภทรูปภาพ อัลกอริทึมจะจัดประเภทรูปภาพได้สำเร็จแม้การวางแนวของรูปภาพจะเปลี่ยนไปก็ตาม ตัวอย่างเช่น อัลกอริทึมยังคงระบุไม้เทนนิสได้ว่าไม้ชี้ขึ้น ด้านข้าง หรือลง โปรดทราบว่าความไม่แน่นอนของการหมุนไม่เป็นที่ต้องการเสมอไป ตัวอย่างเช่น การกลับหัว 9 ไม่ควรจัดเป็น 9
ดูความแปรปรวนของคำแปลและความแปรปรวนของขนาดด้วย
S
ความแปรปรวนของขนาด
ในปัญหาการจัดประเภทรูปภาพ อัลกอริทึมจะจัดประเภทรูปภาพได้สำเร็จแม้ว่าขนาดของรูปภาพจะเปลี่ยนไปก็ตาม ตัวอย่างเช่น อัลกอริทึมยังคงระบุแมวได้ว่าจะใช้ 2 ล้านพิกเซลหรือ 200,000 พิกเซล โปรดทราบว่าแม้แต่อัลกอริทึมการจัดประเภทรูปภาพที่ดีที่สุดก็ยังคงมีขีดจำกัดด้านความแปรปรวนของขนาดในทางปฏิบัติ เช่น อัลกอริทึม (หรือมนุษย์) อาจไม่จำแนกประเภทรูปภาพแมวที่กินพื้นที่เพียง 20 พิกเซลได้อย่างถูกต้อง
ดูความแปรปรวนของการแปลและความแปรปรวนของการหมุน
การรวบรวมข้อมูลเชิงพื้นที่
การก้าว
ในการดำเนินการแบบ Convolution หรือการรวมกลุ่ม เดลต้าในแต่ละมิติข้อมูลของส่วนแบ่งอินพุตชุดถัดไป ตัวอย่างเช่น ภาพเคลื่อนไหวต่อไปนี้แสดงให้เห็นจังหวะ (1,1) ระหว่างการดำเนินการแบบ Convolution ดังนั้น สไลซ์ของอินพุตถัดไปจะเริ่มต้นตำแหน่งหนึ่งทางด้านขวาของช่องอินพุตก่อนหน้า เมื่อการดำเนินการมาถึงขอบด้านขวา ส่วนแบ่งถัดไปจะอยู่ทางซ้ายสุด แต่จะมีตำแหน่งลง 1 ตำแหน่ง
ตัวอย่างก่อนหน้านี้แสดงให้เห็นความก้าวหน้าแบบ 2 มิติ ถ้าเมทริกซ์อินพุตเป็นแบบ 3 มิติ อัตราก้าวก็จะเป็น 3 มิติด้วย
ซับแซมพลิง
T
อุณหภูมิ
hyperparameter ที่ควบคุมระดับความสุ่มของเอาต์พุตของโมเดล อุณหภูมิที่สูงขึ้นจะส่งผลให้มีเอาต์พุตแบบสุ่มมากขึ้น ส่วนอุณหภูมิที่ต่ำลงจะทำให้เอาต์พุตแบบสุ่มน้อยลง
การเลือกอุณหภูมิที่ดีที่สุดขึ้นอยู่กับแอปพลิเคชันเฉพาะและคุณสมบัติที่ต้องการของเอาต์พุตโมเดล เช่น คุณอาจเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่สร้างเอาต์พุตครีเอทีฟโฆษณา ในทางกลับกัน คุณอาจลดอุณหภูมิลงเมื่อสร้างโมเดลที่แยกประเภทรูปภาพหรือข้อความเพื่อปรับปรุงความแม่นยำและความสอดคล้องของโมเดล
อุณหภูมิมักจะใช้กับ softmax
ความไม่แน่นอนของการแปล
ในปัญหาการจัดประเภทรูปภาพ อัลกอริทึมจะจัดประเภทรูปภาพได้สำเร็จแม้ว่าตำแหน่งของวัตถุภายในรูปภาพจะเปลี่ยนไปก็ตาม เช่น อัลกอริทึมยังคงระบุสุนัขได้ ไม่ว่าจะอยู่กึ่งกลางเฟรมหรือปลายด้านซ้ายของเฟรม
นอกจากนี้ โปรดดูความแปรปรวนของขนาดและความแปรปรวนของการหมุน