Makine Öğrenimi Sözlüğü: Görüntü Modelleri

Bu sayfada Resim Modelleri sözlüğü terimleri yer almaktadır. Tüm sözlük terimleri için burayı tıklayın.

A

artırılmış gerçeklik

#image

Bilgisayar tarafından oluşturulan bir resmi, kullanıcının gerçek dünyadaki görüşüne bindiren ve böylece birleşik bir görünüm sağlayan bir teknoloji.

Mr

sınırlayıcı kutu

#image

Bir resimde (x, y), aşağıdaki resimde bulunan köpek gibi, ilgi alanının çevresindeki bir dikdörtgenin koordinatlarıdır.

Kanepede oturan bir köpeğin fotoğrafı. Köpeğin vücudunu atlatmak için sol üst koordinatları (275, 1271) ve sağ alt koordinatları (2954, 2761) olan yeşil bir sınırlayıcı kutu

C

evrim

#image

Matematikte, basit bir şekilde iki işlevin karışımı. Makine öğreniminde, eğimli filtre ile giriş matrisini karıştırarak ağırlıkların eğitilmesini sağlayın.

Makine öğreniminde "konvolüsyon" terimi genellikle konvolüsyon işlemi ya da konvolüsyon katmanına göndermenin kısaltılmış bir yoludur.

Çevikler olmadan makine öğrenimi algoritmasının büyük bir tensördeki her hücre için ayrı bir ağırlık öğrenmesi gerekir. Örneğin, 2.000 x 2.000 görüntü üzerinde eğitilen bir makine öğrenimi algoritması 4 milyon ayrı ağırlık bulmaya zorlanır. Çevikler sayesinde, makine öğrenimi algoritmasının çevrilim filtresindeki her hücrenin ağırlığını bulması ve modeli eğitmek için gereken belleği önemli ölçüde azaltması gerekiyor. Eğimli filtre uygulandığında, hücreler arasında kopyalanarak her biri filtreyle çarpılır.

evrişim filtresi

#image

Eşimsel operasyondaki iki aktörden biri. (Diğer aktör, bir giriş matrisinin dilimidir.) Evrişim filtresi, giriş matrisi ile aynı sıralamaya sahip ancak daha küçük bir şekle sahip bir matristir. Örneğin, 28x28 boyutunda bir giriş matrisine göre filtre, 28x28'den küçük herhangi bir 2D matrisini içerebilir.

Fotoğrafların manipülasyonunda, konvolüsyon filtresindeki tüm hücreler genellikle sabit bir hücre ve sıfır kalıbına ayarlanır. Makine öğreniminde, evrişim filtreleri genellikle rastgele sayılarla başlatılır ve ardından ağ ideal değerleri eğitir.

evrimsel katman

#image

Bir giriş matrisi boyunca çeviri filtresinin geçtiği bir derin nöral ağı katmanı. Örneğin, aşağıdaki 3x3 konvolüsyon filtresini değerlendirin:

Şu değerlere sahip bir 3x3 matrisi: [[0,1,0], [1,0,1], [0,1,0]]

Aşağıdaki animasyon, 5x5 giriş matrisini içeren 9 kıvrımlı işlemi içeren konvolüsyonlu bir katmanı göstermektedir. Her yığılmış işlemin, giriş matrisinin farklı bir 3x3 dilimi üzerinde çalıştığına dikkat edin. Elde edilen 3x3 matris (sağda), 9 konçelto işleminin sonucundan oluşur:

İki matrisi gösteren animasyon. Birinci matris 5x5
 matrisidir: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,177,179,177,179,177,177,177
          İkinci matris 3x3 matrisidir:
          [[181,303,618], [115,338,605], [169,351,560]].
          İkinci matris, 5x5 matrisinin farklı 3x3 alt kümelerinde eğim filtresi [[0, 1, 0], [1, 0, 1], [0, 1, 0]] uygulanarak hesaplanır.

evrişimli sinir ağı

#image

En az bir katmanın çevrilmiş katman olduğu bir nöral ağ. Tipik bir konvolüsyonel nöral ağ, aşağıdaki katmanların bir kombinasyonundan oluşur:

Evrişimli nöral ağlar, görüntü tanıma gibi belirli sorunlarda büyük başarı elde etti.

evrimsel çalışma

#image

Aşağıdaki iki adımlı matematik işlemi:

  1. Eğim filtresi ile bir giriş matrisinin bir diliminin öğe çarpımı. (Giriş matrisinin dilimi, evrişim filtresiyle aynı sıralamaya ve boyuta sahiptir.)
  2. Ortaya çıkan ürün matrisindeki tüm değerlerin toplamı.

Örneğin, aşağıdaki 5x5 giriş matrisini göz önünde bulundurun:

5x5 matrisi: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [117,197,177]

Şimdi de aşağıdaki 2x2 evrim filtresine bakalım:

2x2 matrisi: [[1, 0], [0, 1]]

Her konvolüsyon işlemi, giriş matrisinin tek bir 2x2 dilimini içerir. Örneğin, giriş matrisinin sol üst kısmındaki 2x2 dilimi kullandığımızı varsayalım. Dolayısıyla, bu dilimdeki evrim işlemi şu şekilde görünür:

Giriş matrisinin sol üst 2x2 bölümüne [[128,97], [35,22]] ile eğim filtresi [[1, 0], [0, 1]] uygulanır.
          Çevrilmiş filtre, 128 ve 22'yi korur ancak 97 ve 35'i sıfırlar. Sonuç olarak, evrilme işlemi 150 (128+22) değerini verir.

Kıvrımlı katman, her biri giriş matrisinin farklı bir dilimini temel alan bir dizi konvolüsyon işlemi içerir.

D

veri genişletme

#image

Ek örnekler oluşturmak için mevcut örnekleri dönüştürerek eğitim örneklerinin aralığını ve sayısını yapay olarak artırın. Örneğin, özelliğiniz resimlerden biridir, ancak veri kümeniz modelin kullanışlı ilişkilendirmeleri öğrenmesi için yeterli resim örneği içermez. İdeal olarak, modelinizin düzgün bir şekilde eğitilebilmesi için veri kümenize etiketlenmiş resimler eklemeniz yeterlidir. Bu mümkün değilse veri genişletme, orijinal resmin birçok varyantını üretmek için her bir resmi döndürebilir, genişletebilir ve yansıtabilir. Bu da muhtemelen, mükemmel eğitim sağlamak için yeterli etiketli veri sağlar.

derinden ayrılabilir konvolüsyonel nöral ağ (sepCNN)

#image

Başlangıç'a dayalı ancak Başlangıç modüllerinin, tamamen ayrılabilir çemberlerle değiştirildiği bir eğişimli nöral ağ mimarisi. Xception olarak da bilinir.

Ayrıştırılabilir evrim (ayrı ayrılabilir kıvrım olarak da kısaltılır), standart 3D kıvrımını hesaplanabilirlik açısından daha etkili olan iki ayrı kıvrım işlemine dahil eder: önce 1 derinliğiyle derinlik kıvrımı (n GTM n  1) ve ardından ikincisi 1.

Daha fazla bilgi için Xception: Derin Ayrımlı Konveksiyonlarla Derin Öğrenme konusuna bakın.

aşağı örnekleme

#image

Aşağıdakilerden herhangi biri anlamına gelebilecek aşırı yüklenmiş terim:

  • Bir modeli daha verimli bir şekilde eğitmek için özellik bilgisinin azaltılması. Örneğin, bir görüntü tanıma modelini eğitmeden önce, yüksek çözünürlüklü resimleri daha düşük çözünürlüklü bir biçimden alt bölümlere ayırın.
  • Yeterince temsil edilmeyen sınıflarda model eğitimini iyileştirmek için fazla temsil edilen sınıf örneklerinin orantısız olarak düşük bir yüzdesinde eğitim. Örneğin, sınır dengeli bir veri kümesinde modeller genellikle büyüklük sınıfı hakkında çok şey öğrenir ve azınlık sınıfı hakkında yeterli bilgi sahibi olmaz. Aşağı örnekleme, çoğunluk ve azınlık sınıfına ait eğitim miktarının dengelenmesine yardımcı olur.

I

resim tanıma

#image

Bir resimdeki nesneleri, desenleri veya kavramları sınıflandıran bir süreç. Görüntü tanıma, resim sınıflandırma olarak da bilinir.

Daha fazla bilgi için ML Pratiği: Görüntü Sınıflandırma bölümüne bakın.

birleşimden geçen kavşak (IoU)

#image

İki kümenin birleşimlerine bölünmüş hali. Makine öğrenimi görüntü algılama görevlerinde IoU, modelin tahmin edilen sınır kutusu kesin referans sınırlayıcı kutusuyla ilgili doğruluğunu ölçmek için kullanılır. Bu durumda, iki kutu için IoU, çakışan alan ile toplam alan arasındaki orandır. Bu alanın değeri 0 (sınırlayıcı sınırlayıcı kutu veya kesin referans sınırlayıcı kutusu olmadan) ile 1 (tahmini sınırlayıcı kutu ve kesin ve kesin sınırlayıcı kutusu) tam olarak aynı koordinatlara sahiptir.

Örneğin, aşağıdaki resimde:

  • Tahmin edilen sınırlayıcı kutu (modelin resimdeki gece tablosunu tahmin ettiği yeri sınırlandıran koordinatlar) mor renkle belirtilir.
  • Kesin referans numaralı kutu (resimde gece tablosunun bulunduğu yeri belirleyen koordinatlar) yeşil renkle belirtilir.

Yatağın yanındaki gece masasının etrafında iki farklı sınırlayıcı kutu bulunan Van Gogh'un "Arles'deki Vincent's Bedroom" tablosu. Kesin referans çizgili kutu (yeşil renkte), gece tablosunu mükemmel şekilde sınırlandırır. Tahmin edilen sınırlayıcı kutu (mor renkli), kesin referans sınırlayıcı kutusunun% 50 aşağısı ve sağındadır; gece tablosunun sağ alt çeyreğini kapsar, ancak tablonun geri kalanını kaçırır.

Burada, tahmin ve kesin referans için sınırlayıcı kutuların (sol altta) kesişim noktası 1'dir. Tahmin ve kesin referans için sınırlayıcı kutuların toplamı (sağ altta) 7'dir, yani IoU \(\frac{1}{7}\)şeklindedir.

Yukarıdakiyle aynı resim, ancak her sınırlayıcı kutu dört çeyreğe bölünmüştür. Kesin referans sınırı olan kutunun sağ alt çeyreği ile tahmin edilen sınırlayıcı kutunun sol üst kadranı birbiriyle çakıştığı için toplam yedi çeyreğe sahiptir. Bu örtüşen bölüm (yeşil renkle vurgulanır) kesişimi temsil eder ve 1 alan içerir. Yukarıdakiyle aynı resim, ancak her sınırlayıcı kutu dört çeyreğe bölünmüştür. Kesin referans sınırı olan kutunun sağ alt çeyreği ile tahmin edilen sınırlayıcı kutunun sol üst kadranı birbiriyle çakıştığı için toplam yedi çeyreğe sahiptir.
          Her iki sınırlayıcı kutunun (içi yeşil) vurgulanmış olan iç kısmı birliği temsil eder ve 7 alana sahiptir.

K

önemli noktalar

#image

Bir resimdeki belirli özelliklerin koordinatları. Örneğin, çiçek türlerini birbirinden ayıran bir resim tanıma modeli için temel noktalar her bir taç yaprak, sap, dikiş vb. ortada olabilir.

L

önemli noktalar

#image

Anahtar noktaları için eş anlamlıdır.

M

MNIST

#image

LeCun, Cortes ve Burges tarafından derlenen, 60.000'den fazla görüntü içeren herkese açık bir veri kümesi. Her veri, belirli bir basamağı 0-9 arasında nasıl manuel olarak yazdığını gösterir. Her resim, 28x28 tam sayı dizisi olarak depolanır. Her tam sayı, 0 ile 255 arasında (ikisi de dahil) bir gri tonlama değeridir.

MNIST, makine öğrenimi için standart bir veri kümesidir ve genellikle yeni makine öğrenimi yaklaşımlarını test etmek için kullanılır. Ayrıntılar için El Yazısı Rakamları MNIST Veritabanı

P

havuz

#image

Önceki bir konvolüsyon katmanı tarafından oluşturulan matrisi (veya matrisleri) daha küçük bir matrisin azaltma. Havuz oluşturma işlemi genellikle havuz alanının maksimum veya ortalama değerini almayı içerir. Örneğin, aşağıdaki 3x3 matrisi kullandığımızı varsayalım:

3x3 matrisi [[5,3,1], [8,2,5], [9,4,3]].

Havuz oluşturma işlemi, tıpkı evrimsel bir işlem gibi bu matrisi parçalara ayırır ve ardından bu eğimli işlemi adımlarla kaydırır. Örneğin, havuzlama işleminin konvolüsyon matrisini 1x1'lik bir adımla 2x2'ye böldüğünü varsayalım. Aşağıdaki şemada görüldüğü gibi, dört havuz oluşturma işlemi gerçekleşir. Her bir havuzlama işleminin bu dilimdeki dört değerin maksimum değerini seçtiğini varsayalım:

Giriş matrisi, [[5,3,1], [8,2,5], [9,4,3]] değerleriyle 3x3'tür.
          Giriş matrisinin sol üst 2x2 alt matrisi [[5,3], [8,2]] olduğundan sol üstteki havuzlama işlemi 8 değerini (maksimum 5, 3, 8 ve 2) döndürür. Giriş matrisinin sağ üst 2x2 alt matrisi [[3,1], [2,5]] olduğu için sağ üstteki havuzlama işlemi 5 değerini verir. Giriş matrisinin sol alt 2x2 alt matrisi [[8,2], [9,4]] olduğundan sol alt havuz işlemi 9 değerini döndürür.  Giriş matrisinin sağ alt 2x2 alt matrisi [[2,5], [4,3]] olduğundan sağ alttaki havuzlama işlemi 5 değerini verir.  Özetlemek gerekirse, havuzlama işlemi 2x2 matrisini [[8,5], [9,5]] sağlar.

Havuz, giriş matrisinde çeviri değişmezliğini uygulamaya yardımcı olur.

Görsel uygulama uygulamaları için havuz oluşturma, daha resmi olarak üç boyutlu havuz olarak bilinir. Zaman serisi uygulamaları genellikle havuzu geçici havuzlama olarak adlandırır. Daha resmi olmayan yöntemler ise genellikle alt örnekleme veya aşağı örnekleme olarak adlandırılır.

balon

rotasyon değişimi

#image

Resim sınıflandırma sorununda algoritmanın, resmin yönü değişse bile resimleri başarılı bir şekilde sınıflandırma becerisi. Örneğin algoritma, bir tenis raketini yukarı, yan veya aşağı doğru işaret etmeye devam ederek tespit edebilir. Rotasyondaki sapmanın her zaman istendiği gibi olmadığını unutmayın. Örneğin, baş aşağı 9, 9 olarak sınıflandırılmamalıdır.

Ayrıca, çeviri değişmezliği ve boyut değişmezliği bölümlerine de bakın.

C

boyut değişkeni

#image

Resim sınıflandırma sorununda, algoritmanın resmin boyutu değişse bile resimleri başarıyla sınıflandırabilmesi. Örneğin, algoritma bir kediyi 2 milyon piksel mi yoksa 200 K piksel mi tükettiğini tanımlamaya devam edebilir. En iyi resim sınıflandırma algoritmalarının bile boyut değişikliğiyle ilgili pratik sınırlamalarının olduğunu unutmayın. Örneğin, bir algoritmanın (veya insanın) yalnızca 20 piksel tüketen bir kedi resmini doğru şekilde sınıflandırma olasılığı düşüktür.

Ayrıca çeviri değişmezliği ve dönüştürme değişimi başlıklı makaleleri de inceleyin.

üç boyutlu havuz

#image

Havuz bölümünü inceleyin.

stride

#image

Çevrilmiş bir işlemde veya havuzlamada bir sonraki giriş dilim serisinin her bir boyutundaki delta. Örneğin, aşağıdaki animasyon evrili bir işlem sırasında bir (1,1) adımı gösteriyor. Bu nedenle, bir sonraki giriş dilimi önceki giriş diliminin sağında bir konum başlatır. İşlem sağ kenara ulaştığında bir sonraki dilim sola doğru, bir konum aşağıda olacak şekilde uygulanır.

Giriş 5x5 matrisi ve 3x3 konvolüsyon filtresi. Adım (1,1) olduğundan, 9 kez konvolüsyon filtresi uygulanır. İlk kıvrımlı dilim, giriş matrisinin sol üst 3x3 alt matrisini değerlendirir. İkinci dilim, üst ortadaki 3x3 alt matrisi değerlendirir. Üçüncü evrimsel dilim, sağ üstteki 3x3 alt matrisi değerlendirir.  Dördüncü dilim, orta sol 3x3 alt matrisi değerlendirir.
     Beşinci dilim orta 3x3 alt matrisi değerlendirir. Altıncı dilim, sağ altın 3x3 alt matrisini değerlendirir. Yedinci dilim sol alt 3x3 alt matrisi değerlendirir.  Sekizinci dilim, alt ortadaki 3x3 alt matrisi değerlendirir. Dokuzuncu dilim, sağ alt 3x3 alt matrisi değerlendirir.

Yukarıdaki örnekte iki boyutlu bir adım gösterilmiştir. Giriş matrisi üç boyutluysa adım da üç boyutlu olur.

alt örnekleme

#image

Havuz bölümünü inceleyin.

T

çeviri sapması

#image

Bir resim sınıflandırma sorununda, algoritmanın resimdeki nesnelerin konumu değişse bile resimleri başarıyla sınıflandırma becerisi. Örneğin, algoritma bir köpeği, çerçevenin ortasında veya sol ucunda tanıyabilir.

Ayrıca, boyut sabitliği ve dönüştürme değişimi bölümlerine de bakın.