อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง: โมเดลรูปภาพ

หน้านี้มีคําศัพท์ในอภิธานศัพท์เกี่ยวกับโมเดลรูปภาพ สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

Augmented Reality

#image

เทคโนโลยีที่ซ้อนทับกับภาพที่คอมพิวเตอร์สร้างขึ้นในมุมมองของผู้ใช้ในโลกจริง ซึ่งทําให้เกิดมุมมองแบบผสม

B

กรอบล้อมรอบ

#image

ในภาพ พิกัด (x, y) รูปสี่เหลี่ยมผืนผ้ารอบพื้นที่ที่สนใจ เช่น สุนัขในภาพด้านล่างนี้

รูปภาพสุนัขนั่งอยู่บนโซฟา กล่องล้อมรอบสีเขียวที่มีพิกัดด้านซ้ายบนของ (275, 1271) และพิกัดด้านล่างขวาของ (2954, 2761) ที่ล้อมรอบร่างกายสุนัข

C

Convolution

#image

ในทางคณิตศาสตร์ การพูดสบายๆ เป็นการใช้ 2 ฟังก์ชันผสมผสานกันอย่างลงตัว ในแมชชีนเลิร์นนิง การปฏิวัติจะผสมตัวกรองการปฏิวัติและเมทริกซ์อินพุตเพื่อฝึกน้ําหนัก

คําว่า "Convolution" ในแมชชีนเลิร์นนิงมักเรียกสั้นๆ ว่าการปฏิวัติหรือเลเยอร์คอนโพลเวอร์

หากไม่มีการแปลง อัลกอริทึมของแมชชีนเลิร์นนิงจะต้องเรียนรู้น้ําหนักของทุกเซลล์แยกกันในแพลตฟอร์มขนาดใหญ่ เช่น การฝึกอัลกอริทึมของแมชชีนเลิร์นนิงสําหรับรูปภาพขนาด 2K x 2K จะถูกบังคับให้ค้นหาน้ําหนักแยกกัน 4 ล้านครั้ง ต้องขอบคุณอัลกอริทึมที่ทําให้อัลกอริทึม แมชชีนเลิร์นนิงต้องค้นหาน้ําหนักสําหรับทุกเซลล์ในตัวกรองคอนโวลูชัน ช่วยลดหน่วยความจําที่จําเป็นต่อการฝึกโมเดลลงอย่างมาก เมื่อนําตัวกรองการปฏิวัติมาใช้ ระบบจะกรองเฉพาะเซลล์นั้นเพื่อให้คูณกับตัวกรอง

ฟิลเตอร์คอนโวลูชัน

#image

หนึ่งในสองนักแสดงที่ดําเนินร่วมกัน (นักแสดงอีกคนคือส่วนหนึ่งของเมทริกซ์อินพุต) ตัวกรองการปฏิวัติคือเมทริกซ์ที่มีอันดับเหมือนกับเมทริกซ์อินพุต แต่รูปร่างเล็กกว่า เช่น เมทริกซ์อินพุต 28x28 ตัวกรองอาจเป็นเมทริกซ์ 2 มิติใดก็ได้ที่มีขนาดเล็กกว่า 28x28

ในการจัดการการถ่ายภาพ เซลล์ทั้งหมดในฟิลเตอร์ที่มีการปฏิวัติมักจะตั้งค่าเป็นแบบ 0 และ 0 ในแมชชีนเลิร์นนิง ส่วนใหญ่แล้วตัวกรองที่ผสานกันจะมีตัวเลขสุ่มปรากฏขึ้นและเครือข่ายจะมีค่ารถไฟที่เหมาะสม

เลเยอร์ที่มีการปฏิวัติ

#image

เลเยอร์ของเครือข่ายประสาทเทียมระดับลึกที่ตัวกรองแบบปฏิวัติไหลผ่านเมทริกซ์อินพุต เช่น ลองพิจารณาตัวกรองที่มีการปฏิวัติ 3x3 ต่อไปนี้

เมทริกซ์ 3x3 ที่มีค่าต่อไปนี้ [[0,1,0], [1,0,1], [0,1,0]]

ภาพเคลื่อนไหวต่อไปนี้แสดงเลเยอร์ที่มีการปฏิวัติที่ประกอบด้วยการปฏิวัติ 9 รายการที่เกี่ยวข้องกับเมทริกซ์อินพุตขนาด 5x5 โปรดสังเกตว่าการทํางานที่มีการปฏิวัติการทํางานแต่ละครั้งจะทํางานบนส่วนย่อยของเมทริกซ์อินพุตขนาด 3x3 ที่แตกต่างกัน เมทริกซ์ขนาด 3x3 (ทางด้านขวา) ประกอบด้วยผลลัพธ์ของการดําเนินการที่ร่วมกัน 9 รายการ

ภาพเคลื่อนไหวที่แสดงเมทริกซ์สองชุด เมทริกซ์แรกคือเมทริกซ์ 5x5
          [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [33,28,92,195,179]179]
          เมทริกซ์ที่สองคือเมทริกซ์ 3x3: [[181,303,618], [115,338,605], [169,351,560]]
          เมทริกซ์ที่สองจะคํานวณโดยใช้ตัวกรองที่สัมพันธ์กัน [[0, 1, 0], [1, 0, 1], [0, 1, 0]] กับส่วนย่อย 3x3 ของเมทริกซ์ 5x5

โครงข่ายระบบประสาทเทียมแบบ Convolutional

#image

เครือข่ายระบบประสาทที่มีอย่างน้อย 1 เลเยอร์เป็นเลเยอร์ที่มีการปฏิวัติ โครงข่ายระบบประสาทเทียมที่พบได้ทั่วไป จะประกอบด้วยเลเยอร์ต่างๆ ต่อไปนี้

โครงข่ายระบบประสาทเทียมแบบ Convolution ประสบความสําเร็จอย่างมากในปัญหาบางประเภท เช่น การจดจําภาพ

การปฏิวัติ

#image

การคํานวณทางคณิตศาสตร์สองขั้นตอนต่อไปนี้:

  1. การปฏิวัติและการคูณบางส่วนของเมทริกซ์อินพุต (ส่วนของเมทริกซ์อินพุตมีอันดับและขนาดเท่ากับตัวกรองแบบ Convolution)
  2. การสรุปค่าทั้งหมดในเมทริกซ์ผลิตภัณฑ์ที่แสดง

ตัวอย่างเช่น พิจารณาเมทริกซ์อินพุตขนาด 5x5 ต่อไปนี้

เมทริกซ์ 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,1770], [31,44,197], [31,44,197], [31,48,197], [31,48,197], [31,48

ตอนนี้ให้สมมติว่าตัวกรองแบบ Convolution ขนาด 2x2 ต่อไปนี้

เมทริกซ์ 2x2: [[1, 0], [0, 1]]

การดําเนินการที่มีการปฏิวัติแต่ละครั้งเกี่ยวข้องกับเมทริกซ์อินพุตขนาด 2x2 เพียงส่วนเดียว ตัวอย่างเช่น สมมติว่าคุณใช้ชิ้นส่วน 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต การปฏิวัติบนชิ้นส่วนนี้ จะมีลักษณะดังนี้

การใช้ตัวกรองการปฏิวัติ [[1, 0], [0, 1]] กับส่วน 2x2 ด้านซ้ายบนของเมทริกซ์อินพุต ซึ่งก็คือ [[128,97], [35,22]]
          ตัวกรองการปฏิวัติจะยังคงเหมือนเดิมสําหรับ 128 และ 22 แต่ 0 กับ 97 และ 35 ผลของการปฏิวัติจึงได้ค่า 150 (128+22)

เลเยอร์ที่มีการปฏิวัติ ประกอบไปด้วยซีรี่ส์ของการปฏิวัติ โดยแต่ละส่วนย่อยจะทํางานบนชิ้นส่วนของเมทริกซ์อินพุตแต่ละส่วน

D

การเสริมข้อมูล

#image

เพิ่มช่วงและตัวอย่างของการฝึกที่ไม่ได้เกิดขึ้นจริงโดยการเปลี่ยนตัวอย่างที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติม ตัวอย่างเช่น สมมติว่ารูปภาพเป็นหนึ่งในฟีเจอร์ แต่ชุดข้อมูลมีตัวอย่างรูปภาพไม่เพียงพอสําหรับโมเดลเพื่อเรียนรู้เกี่ยวกับการเชื่อมโยงที่เป็นประโยชน์ โดยหลักการแล้วคุณควรจะเพิ่มรูปภาพที่ติดป้ายกํากับลงในชุดข้อมูลให้เพียงพอเพื่อให้โมเดลฝึกได้อย่างถูกต้อง หากทําไม่ได้ การขยายข้อมูลจะสามารถหมุน ยืด และสะท้อนภาพแต่ละภาพเพื่อสร้างรูปแบบที่หลากหลายของรูปภาพต้นฉบับ ซึ่งอาจทําให้เกิดข้อมูลที่มีป้ายกํากับมากพอที่จะทําให้การฝึกดีขึ้น

โครงข่ายระบบประสาทเทียมแบบ Convolutional

#image

สถาปัตยกรรมระบบประสาทเทียมแบบ Convolution อิงตามแนวคิด แต่มีการเปลี่ยนโมดูลที่แนวคิด Inception อย่างคล้ายคลึงกัน หรือที่เรียกว่า Xception

การปฏิวัติที่แยกออกได้ชัดเจน (หรือเรียกสั้นๆ ว่า การปฏิวัติที่แยกจากกัน) จะประกอบการปฏิวัติมาตรฐาน 3 มิติลงในการปฏิวัติแบบแยกสองแบบซึ่งมีประสิทธิภาพมากกว่า: ประการแรก เป็นการปฏิวัติที่ลึกซึ้งโดยมีความลึกเป็น 1 (n ✕ n ✕ 1) แล้วตามด้วยการปฏิวัติจุดเดียว 1 ครั้ง (ตามความยาวและความกว้าง 1 จุด)

ดูข้อมูลเพิ่มเติมได้ใน Xception: การเรียนรู้เชิงลึกด้วย Convolution

การสุ่มเนื้อหา

#image

คําที่ใช้มากเกินไปซึ่งอาจหมายถึงข้อใดข้อหนึ่งต่อไปนี้

  • การลดปริมาณข้อมูลในฟีเจอร์เพื่อฝึกโมเดลได้อย่างมีประสิทธิภาพมากขึ้น ตัวอย่างเช่น ก่อนที่จะฝึกโมเดลการจดจํารูปภาพ ให้ลดเวลาของรูปภาพความละเอียดสูงลงเป็นรูปแบบที่มีความละเอียดน้อยลง
  • การฝึกตัวอย่างแบบคลาสในสัดส่วนที่ต่ํามากอย่างไม่เป็นสัดส่วนสูง เพื่อปรับปรุงการฝึกโมเดลของคลาสที่ด้อยโอกาส ตัวอย่างเช่น ในชุดข้อมูลที่ไม่สมดุลกัน โมเดลมักจะเรียนรู้เกี่ยวกับคลาสส่วนใหญ่และไม่เพียงพอเกี่ยวกับคลาสย่อย การสุ่มจะช่วย จัดสมดุลให้กับชั้นเรียนส่วนใหญ่และชนกลุ่มน้อยได้

I

การจดจำรูปภาพ

#image

ขั้นตอนที่แยกประเภทวัตถุ รูปแบบ หรือแนวคิดในรูปภาพ การจดจํารูปภาพหรือที่เรียกว่าการแยกประเภทรูปภาพ

ดูข้อมูลเพิ่มเติมได้ที่ ML Practicum: การจัดประเภทอิมเมจ

จุดตัดข้ามสหภาพ (IoU)

#image

อินเตอร์เซกชันของ 2 ชุดหารด้วยสหภาพของพวกเขา ในงานการตรวจจับรูปภาพโดยใช้แมชชีนเลิร์นนิง IoU จะใช้เพื่อวัดความแม่นยําของกรอบล้อมรอบของโมเดลที่สัมพันธ์กับกรอบล้อมรอบข้อมูลจากการสังเกตการณ์ ในกรณีนี้ IoU สําหรับ 2 กล่องคืออัตราส่วนระหว่างพื้นที่ที่ทับซ้อนกันกับพื้นที่ทั้งหมด และค่าของช่วงมีตั้งแต่ 0 (ไม่มีการทับซ้อนของกรอบล้อมรอบกับช่องที่เป็นจริง) ต่อ 1 (ช่องล้อมรอบที่คาดการณ์ไว้และช่องที่ล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรงมีพิกัดเดียวกัน)

ตัวอย่างเช่น ในภาพด้านล่าง

  • กรอบล้อมรอบที่คาดการณ์ไว้ (พิกัดที่คั่นตําแหน่งของแบบจําลองที่คาดคะเนตารางคืนในภาพวาด) จะเป็นสีม่วง
  • กรอบล้อมรอบตามพื้นดิน (พิกัดที่คั่นตําแหน่งของตารางกลางคืนในภาพวาด) จะเป็นสีเขียว

ภาพวาดของแวนโก๊ะที่ชื่อว่า "Vincent's Bedroom in Arles" ที่มีกรอบล้อมรอบ 2 กรอบล้อมรอบโต๊ะกลางคืนอยู่ข้างเตียง กล่องล้อมรอบ (สีเขียว) ล้อมรอบตารางกลางคืนอย่างสมบูรณ์แบบ กรอบล้อมรอบที่คาดการณ์ (สีม่วง) จะลดระยะห่าง 50% ทางด้านขวาของกรอบล้อมรอบจากพื้นดิน โดยล้อมรอบพื้นที่ด้านขวาล่างของตารางกลางคืนแต่พลาดส่วนอื่นๆ ของตาราง

ตรงนี้ จุดที่ตัดของกรอบล้อมรอบสําหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างซ้าย) คือ 1 และยูเนียนของช่องขอบเขตสําหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างขวา) คือ 7 ดังนั้น IoU เท่ากับ \(\frac{1}{7}\)

รูปภาพเดียวกับด้านบน แต่ที่มีกรอบล้อมรอบแต่ละช่องแบ่งออกเป็น 4 จตุภาค สี่เหลี่ยมทั้งสี่มีทั้งหมด 4 ช่อง เนื่องจากจตุภาคขวานล่างของช่องล้อมรอบด้วยพื้นดินและควอไทล์ที่สี่ของกลุ่มซ้ายบนทับซ้อนกัน ส่วนที่ทับซ้อนกันนี้ (ไฮไลต์สีเขียว) ตัดกับทางแยกและมีพื้นที่เป็น 1 รูปภาพเดียวกับด้านบน แต่ที่มีกรอบล้อมรอบแต่ละช่องแบ่งออกเป็น 4 จตุภาค สี่เหลี่ยมทั้งสี่มีทั้งหมด 4 ช่อง เนื่องจากจตุภาคขวานล่างของช่องล้อมรอบด้วยพื้นดินและควอไทล์ที่สี่ของกลุ่มซ้ายบนทับซ้อนกัน
          ภายในทั้งหมดที่อยู่ภายในกรอบล้อมรอบทั้งสองด้าน (ไฮไลต์ด้วยสีเขียว) แสดงถึงสหภาพและมีพื้นที่ 7 ชิ้น

K

ประเด็นสําคัญ

#image

พิกัดของคุณลักษณะเฉพาะในภาพ เช่น สําหรับรูปแบบการจดจํารูปภาพที่แยกแยะสายพันธุ์ดอกไม้ได้ จุดสําคัญอาจเป็นศูนย์กลางของกลีบดอกไม้ ก้าน ส้อม และอื่นๆ

L

จุดสังเกต

#image

คําพ้องความหมายสําหรับ keypoints

M

ลงทะเบียน

#image

ชุดข้อมูลที่เป็นสาธารณสมบัติซึ่งรวบรวมโดย LeCun, Cortes และ Burges มีรูปภาพ 60,000 รูป แต่ละรูปแสดงลักษณะที่มนุษย์เขียนตัวเลขที่เจาะจงตั้งแต่ 0-9 รูปภาพแต่ละรูปจะจัดเก็บเป็นอาร์เรย์ขนาด 28x28 โดยที่จํานวนเต็มแต่ละตัวจะมีค่าสีเทาตั้งแต่ 0 ถึง 255

MNIST คือชุดข้อมูล Canonical สําหรับแมชชีนเลิร์นนิง มักใช้เพื่อทดสอบแนวทางใหม่ๆ ของแมชชีนเลิร์นนิง โปรดดูรายละเอียดใน ฐานข้อมูลตัวเลขที่เขียนด้วยลายมือของ MNIST

P

Pooling

#image

การลดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างโดยเลเยอร์การปฏิวัติก่อนหน้านี้เป็นเมทริกซ์ขนาดเล็ก โดยปกติ การรวมกลุ่มจะคํานึงถึงมูลค่าสูงสุดหรือค่าเฉลี่ยทั่วทั้งพื้นที่สระว่ายน้ํา ตัวอย่างเช่น สมมติว่าเรามี เมทริกซ์ขนาด 3x3 ต่อไปนี้

เมทริกซ์ 3x3 [[5,3,1], [8,2,5], [9,4,3]]

การดําเนินการพูลนั้นเหมือนกับการดําเนินการที่ทําให้เกิดการหาร แบ่ง เมทริกซ์นั้นออกเป็นชิ้นส่วนๆ แล้วเลื่อนการปฏิวัติเหล่านั้นตาม การก้าวเดิน ตัวอย่างเช่น สมมติว่าการพูลร่วมกันแบ่งเมทริกซ์การปฏิวัติออกเป็นชิ้นส่วนขนาด 2x2 ด้วยขั้นตอน 1x1 ตามที่เห็นแผนภาพต่อไปนี้ มีการทําพูล 4 รายการเกิดขึ้น ลองนึกว่าการดําเนินการรวมแต่ละกลุ่มจะเลือกค่าสูงสุดของ 4 ส่วนในแต่ละส่วน

เมทริกซ์อินพุตมีค่า 3x3 ที่มีค่าเป็น [[5,3,1], [8,2,5], [9,4,3]]
          เมทริกซ์ย่อยขนาด 2x2 ด้านซ้ายบนของเมทริกซ์อินพุตคือ [[5,3], [8,2]] ดังนั้น การรวมกันของด้านซ้ายบนจะแสดงค่า 8 (ซึ่งก็คือสูงสุด 5, 3, 8 และ 2) เมทริกซ์ย่อยขนาด 2x2 ด้านบนขวาของเมทริกซ์อินพุตคือ [[3,1], [2,5]] ดังนั้น การพูลด้านขวาบนจะแสดงค่า 5 เมทริกซ์ย่อย 2x2 ที่ด้านซ้ายล่างของเมทริกซ์อินพุตคือ [[8,2], [9,4]] ดังนั้น การรวมกันของลิงก์ด้านล่างซ้ายจึงได้ค่า 9  เมทริกซ์ย่อยขนาด 2x2 ด้านขวาล่างของเมทริกซ์อินพุตคือ [[2,5], [4,3]] ดังนั้น การพูลด้านขวาล่างจะแสดงค่าเป็น 5  โดยสรุป การรวมกันของเมทริกซ์จะแสดงผลเมทริกซ์ 2x2
          [[8,5], [9,5]]

การพูลช่วยบังคับใช้ความแปรปรวนระหว่างการแปลในเมทริกซ์อินพุต

การประยุกต์ใช้สําหรับการสร้างวิสัยทัศน์เป็นที่รู้จักอย่างเป็นทางการว่าการรวมตัวในพื้นที่ แอปพลิเคชันอนุกรมเวลามักจะเรียกรวมกันว่าการรวมชั่วคราว อย่างเป็นทางการก็คือ การรวมกลุ่มมักจะเรียกว่าการติดตามหรือการสุ่มตัวอย่าง

ขวา

ความแปรปรวนแบบหมุน

#image

ในปัญหาการจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการแยกประเภทรูปภาพให้สําเร็จแม้ว่าการวางแนวของรูปภาพจะเปลี่ยนไป ตัวอย่างเช่น อัลกอริทึมยังคงสามารถระบุไม้เทนนิสที่ชี้ขึ้น เอียง หรือเอียงลงได้ โปรดทราบว่าค่าความแปรผันของการหมุนไม่เป็นที่ต้องการเสมอไป เช่น กลับหัว 9 ไม่ควรจัดเป็น 9

ดูความแปรปรวนระหว่างตําแหน่งและความแปรปรวนของขนาดด้วย

S

ความแปรปรวนของขนาด

#image

ในปัญหาในการแยกประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดหมวดหมู่รูปภาพให้สําเร็จ แม้ว่าขนาดของรูปภาพจะเปลี่ยนไปก็ตาม เช่น อัลกอริทึมยังคงระบุแมวว่ากินพื้นที่ 2 ล้านพิกเซลหรือ 200,000 พิกเซลได้ โปรดทราบว่าแม้แต่อัลกอริทึมการจัดประเภทรูปภาพที่ดีที่สุดก็ยังมีข้อจํากัดเกี่ยวกับความแปรปรวนของขนาดในทางปฏิบัติ เช่น อัลกอริทึม (หรือมนุษย์) ไม่มีแนวโน้มที่จะจัดประเภท รูปภาพแมวอย่างถูกต้องโดยใช้เพียง 20 พิกเซล

ดูความแปรปรวนระหว่างตําแหน่งและความแปรปรวนแบบหมุนด้วย

การสร้างพื้นที่เชิงพื้นที่

#image

ดูการพูล

ก้าวเท้า

#image

ในการดําเนินการเชิงปฏิวัติหรือการรวมกลุ่ม เดลต้าในแต่ละมิติข้อมูลของชุดอินพุตส่วนถัดไป ตัวอย่างเช่น ภาพเคลื่อนไหวต่อไปนี้แสดงก้าวเดิน (1,1) ระหว่างการผ่าตัด ดังนั้น ส่วนอินพุตถัดไปจะเริ่มต้นตําแหน่ง 1 ตําแหน่งทางด้านขวาของส่วนแบ่งอินพุตก่อนหน้า เมื่อการดําเนินการมาถึงขอบด้านขวา ส่วนถัดไปจะอยู่ทางซ้ายสุด ส่วนตําแหน่งด้านล่างอีก 1 ตําแหน่ง

เมทริกซ์ขนาด 5x5 และตัวกรองการปฏิวัติขนาด 3x3 เนื่องจากจังหวะการก้าวเท้าเป็น (1,1) ตัวกรองการปฏิวัติจะถูกนํามาใช้ 9 ครั้ง ส่วนแรกของ Convolution จะประเมินเมทริกซ์ย่อย 3x3 ด้านซ้ายบนของเมทริกซ์อินพุต ส่วนที่สองจะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางด้านบน ส่วนที่ 3 ของการปฏิวัติจะประเมินเมทริกซ์ขนาด 3x3 ที่ด้านบนขวา  ส่วนที่สี่จะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางด้านซ้าย
     ส่วนที่ห้าจะประเมินเมทริกซ์ย่อยขนาด 3x3 ตรงกลาง ชิ้นส่วนที่ 6 จะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางด้านขวา ส่วนที่ 7 จะประเมินเมทริกซ์ 3x3 ที่ด้านซ้ายล่าง  ชิ้นส่วนที่ 8 จะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางด้านล่าง ส่วนแบ่งส่วนที่ 9 จะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านขวาล่าง

ตัวอย่างก่อนหน้านี้แสดงถึงก้าวย่างสองมิติ ถ้าเมทริกซ์อินพุต มีสามมิติ บันไดก็อาจจะเป็น 3 มิติด้วย

การสุ่มย่อย

#image

ดูการพูล

T

ความแปรปรวนของการแปล

#image

ในปัญหาในการแยกประเภทรูปภาพ ความสามารถของอัลกอริทึมในการแยกประเภทรูปภาพให้สําเร็จแม้ว่าตําแหน่งของวัตถุภายในรูปภาพจะเปลี่ยนไปก็ตาม เช่น อัลกอริทึมยังคงระบุสุนัขได้ ไม่ว่าจะอยู่ตรงกลางของเฟรมหรือด้านซ้ายของเฟรม

ดูความแปรปรวนของขนาดและความแปรปรวนแบบหมุนด้วย