Diese Seite enthält Begriffe zum Glossar für Bildmodelle. Alle Glossarbegriffe finden Sie hier.
A
augmented reality
Eine Technologie, die ein computergeneriertes Bild über der Perspektive eines Nutzers überlagert und so eine Gesamtansicht erzeugt.
B
Begrenzungsrahmen
In einem Bild die (x, y)-Koordinaten eines Rechtecks um einen relevanten Bereich, z. B. den Hund im Bild unten.
C
Faltung
Eine Mischung aus zwei Funktionen in der Mathematik: Beim maschinellen Lernen kombiniert eine Faltung den Convolutional Filter und die Eingabematrix, um Gewichtungen zu trainieren.
Der Begriff „Convolution“ im maschinellen Lernen ist häufig eine Kurzform von Convolutional Operations oder Convolutional Layer.
Ohne Faltungen müsste ein Algorithmus für maschinelles Lernen für jede Zelle in einem großen Tensor eine separate Gewichtung ermitteln. Zum Beispiel wäre ein Training des Algorithmus für maschinelles Lernen mit 2K x 2K Bildern gezwungen, 4 Mio. separate Gewichtungen zu finden. Dank Faltungen muss ein Algorithmus für maschinelles Lernen nur für jede Zelle im Convolutional Filter Gewichtungen finden. Dadurch wird der für das Training des Modells erforderliche Arbeitsspeicher drastisch reduziert. Wenn der Faltungsfilter angewendet wird, wird er einfach in Zellen repliziert, sodass jede davon mit dem Filter multipliziert wird.
Faltungsfilter
Einer der beiden Akteure in einem Faltungsvorgang (Der andere Akteur ist ein Ausschnitt einer Eingabematrix.) Ein Faltungsfilter ist eine Matrix mit demselben Rang wie die Eingabematrix, aber mit einer kleineren Form. Bei einer Eingabematrix mit 28 × 28 könnte der Filter beispielsweise eine beliebige 2D-Matrix unter 28 × 28 sein.
Bei fotografischer Bearbeitung sind alle Zellen in einem Faltungsfilter normalerweise auf ein konstantes Muster von Einsen und Nullen eingestellt. Beim maschinellen Lernen werden Filter in der Regel mit Zufallszahlen geseedet und das Netzwerk trainiert die idealen Werte.
Faltungsschicht
Die Ebene eines tiefen neuronalen Netzwerks, in dem ein Convolutional Filter eine Eingabematrix übergibt. Hier ein Beispiel für den Convolutional Filter (3 x 3):
Die folgende Animation zeigt eine Faltungsebene, bestehend aus 9 Faltungsvorgängen, die die 5 x 5-Eingabematrix betreffen. Beachten Sie, dass jeder Convolutional-Vorgang auf einem anderen 3x3-Segment der Eingabematrix funktioniert. Die daraus resultierende 3 x 3-Matrix (rechts) besteht aus den Ergebnissen der neun Convolutional Operations:
Convolutional Neural Network
Ein neuronales Netzwerk, in dem mindestens eine Ebene eine Convolutional Layer ist. Ein typisches konvolutionales neuronales Netzwerk besteht aus einer Kombination der folgenden Ebenen:
Convolutional Neural Networks waren bei bestimmten Arten von Problemen sehr erfolgreich, z. B. bei der Bilderkennung.
Faltungsbetrieb
Der folgende mathematische Schritt in zwei Schritten:
- Elementweise Multiplikation des Convolutional Filters und eines Segment einer Eingabematrix. Der Teil der Eingabematrix hat denselben Rang und dieselbe Größe wie der Faltungsfilter.
- Summe aller Werte in der resultierenden Produktmatrix.
Hier ein Beispiel für die 5-x-5-Eingabematrix:
Stellen Sie sich nun den folgenden 2x2-Faltungsfilter vor:
Jeder Faltvorgang umfasst ein einzelnes 2x2-Segment der Eingabematrix. Nehmen wir beispielsweise an, dass das 2x2-Segment oben links in der Eingabematrix verwendet wird. Der Faltungsvorgang für diesen Bereich sieht so aus:
Eine Convolutional Layer besteht aus einer Reihe von Faltungsvorgängen, die jeweils auf ein anderes Segment der Eingabematrix angewendet werden.
D
Datenerweiterung
Bereich und Anzahl der Trainingsbeispiele künstlich erhöhen, indem vorhandene Beispiele transformiert werden, um zusätzliche Beispiele zu erstellen Angenommen, Bilder sind eines Ihrer Features, aber Ihr Dataset enthält nicht genügend Bildbeispiele für das Modell, um nützliche Verknüpfungen zu erhalten. Im Idealfall fügen Sie dem Dataset genügend beschriftete Bilder hinzu, damit das Modell ordnungsgemäß trainiert werden kann. Wenn dies nicht möglich ist, kann die Datenerweiterung jedes Bild drehen, strecken und reflektieren, um viele Varianten des Originalbildes zu erzeugen, die möglicherweise genügend Label-Daten für ein hervorragendes Training liefern.
Tief trennbares faltendes neuronales Netzwerk (sepCNN)
Eine Convolutional Neural Network-Architektur, die auf Inception basiert, aber dort, wo Inception-Module durch zu trennende Faltungen ersetzt werden. Auch als Xception bezeichnet.
Eine tief separierbare Faltung (auch als trennbare Faltung bezeichnet) berücksichtigt eine standardmäßige 3D-Faltung in zwei separate Faltungsvorgänge, die recheneffizienter sind: zuerst eine tiefe Faltung mit einer Tiefe von 1 (n × n × 1) und dann eine zweite Faltung, die eine Länge und eine Länge hat (1 mit 1).
Weitere Informationen finden Sie unter Xception: Deep Learning with depthwitz Seveable Convolutions.
Downsampling
Überlasteter Begriff, der Folgendes bedeuten kann:
- Reduzierung der Informationsmenge in einem Feature, um ein Modell effizienter zu trainieren. Beispielsweise werden vor dem Training eines Bilderkennungsmodells Bilder mit hoher Auflösung auf ein Format mit niedrigerer Auflösung reduziert.
- Training mit einem überproportional geringen Prozentsatz an überrepräsentierten Klassenbeispielen, um das Modelltraining für unterrepräsentierte Klassen zu verbessern. Beispielsweise erhalten Modelle in einem Dataset mit Klassenungleichheit viel über die Hauptklasse und nicht genug über die Nebenversionsklasse. Durch ein Downsampling wird die richtige Menge an Schulungen auf die Mehrheits- und Minderheitenklassen abgestimmt.
I
bilderkennung
Ein Prozess, der in einem Bild Objekte, Muster oder Konzepte klassifiziert. Die Bilderkennung wird auch als Bildklassifizierung bezeichnet.
Weitere Informationen finden Sie unter ML Practicum: Bildklassifizierung.
Kreuzung über Union (IoU)
Die Schnittmenge von zwei Gruppen, die durch ihre Vereinigung geteilt werden. Mit der Bilderkennung beim maschinellen Lernen wird IoU verwendet, um die Genauigkeit des vorhergesagten Begrenzungsrahmens des Modells in Bezug auf den Ground-Truth-Begrenzungsrahmen zu messen. In diesem Fall ist die IoU für die beiden Felder das Verhältnis zwischen dem sich überschneidenden Bereich und der Gesamtfläche und ihre Werte reichen von 0 (keine Überschneidung des vorhergesagten Begrenzungsrahmens und des Ground-Truth-Begrenzungsrahmens) bis 1 (prognostizierter Begrenzungsrahmen und Ground-Truth-Begrenzungsrahmen haben die gleichen Koordinaten).
Hier ein Beispiel:
- Der vorhergesagte Begrenzungsrahmen (die Koordinaten, mit denen der Standort des Nachttischs im Gemälde vorhergesagt wird) wird lila dargestellt.
- Der Ground-Truth-Begrenzungsrahmen (die Koordinaten, die angeben, wo sich der Nachttisch im Bild befindet) ist grün umrandet.
Hier ist die Schnittmenge der Begrenzungsrahmen für Vorhersagen und Ground Truth (unten links) 1 und die Vereinigung der Begrenzungsrahmen für die Vorhersage und Ground Truth (unten rechts) ist 7, sodass der IoU \(\frac{1}{7}\)ist.


$
Keypoints
Die Koordinaten bestimmter Elemente in einem Bild. Beispielsweise können für ein Bilderkennungsmodell, das Blumenarten unterscheidet, die Mittelpunkte jedes Blütenblatts, der Stammzellen, der Stämme, usw. sein.
l
landmarks
Synonym für Schlüsselpunkte.
M
MNIST
Ein urheberrechtsfreies Dataset von LeCun, Cortes und Burges mit 60.000 Bildern, die jeweils zeigen, wie ein Mensch eine bestimmte Ziffer von 0–9 manuell geschrieben hat. Jedes Bild wird als ein Array von Ganzzahlen im Format 28 x 28 gespeichert, wobei jede Ganzzahl ein Graustufenwert zwischen 0 und 255 ist.
MNIST ist ein kanonisches Dataset für maschinelles Lernen, das häufig zum Testen neuer Ansätze für maschinelles Lernen verwendet wird. Weitere Informationen finden Sie unter MNIST-Datenbank mit handgeschriebenen Ziffern.
P
Pooling
Verringern einer Matrix (oder Matrizen), die von einer früheren Convolutional Layer erstellt wurde, auf eine kleinere Matrix. Beim Pooling wird in der Regel der Höchst- oder Durchschnittswert über den gesamten Poolbereich hinweg eingesetzt. Angenommen, wir haben die folgende 3x3-Matrix:
Wie bei einem Faltvorgang wird diese Matrix durch einen Pooling-Vorgang in Segmente aufgeteilt und dann wird dieser Faltvorgang durch Schritte unterteilt. Angenommen, der Pooling-Vorgang teilt die Faltungsmatrix in 2 x 2 Segmente mit einem 1 x 1-Schritt auf. Wie das folgende Diagramm zeigt, finden vier Pooling-Vorgänge statt. Angenommen, jeder Pooling-Vorgang wählt den Maximalwert der vier Elemente in diesem Segment aus:
Pooling trägt dazu bei, eine übersetzungsinvarianz in der Eingabematrix zu erzwingen.
Pooling für Vision-Anwendungen wird formal als räumliches Pooling bezeichnet. Zeitachsenanwendungen werden in der Regel Pooling genannt. Weniger formell wird das Pooling auch als Subsampling oder Downsampling bezeichnet.
R
Rotationsinvarianz
Bei der Bildklassifizierung kann ein Algorithmus Bilder erfolgreich klassifizieren, auch wenn sich die Ausrichtung des Bildes ändert. Beispielsweise kann der Algorithmus immer noch einen Tennisschläger identifizieren, unabhängig davon, ob er nach oben, seitlich oder nach unten zeigt. Beachten Sie, dass die Rotationsinvarianz nicht immer wünschenswert ist. Beispielsweise sollte eine auf dem Kopf stehende 9 nicht als 9 klassifiziert werden.
Siehe auch übersetzungsinvarianz und Größenabweichungen
S
Größenabweichung
Bei der Bildklassifizierung kann ein Algorithmus Bilder erfolgreich klassifizieren, auch wenn sich die Größe des Bildes ändert. Der Algorithmus kann beispielsweise immer noch eine Katze identifizieren, die 2 Millionen oder 200.000 Pixel verbraucht. Beachten Sie, dass selbst die besten Algorithmen für die Bildklassifizierung noch praktische Limits in Bezug auf die Größenabweichung haben. Beispielsweise kann ein Algorithmus (oder ein Mensch) ein Katzenbild, das nur 20 Pixel beansprucht, nicht richtig klassifizieren.
Siehe auch Verschiebungsinvarianz und Rotationsinvarianz.
Spatial Pooling
Weitere Informationen finden Sie unter Pooling.
Stride
Bei einem Faltungsvorgang oder Pooling das Delta in jeder Dimension der nächsten Reihe von Eingabesegmenten. Die folgende Animation zeigt beispielsweise einen Schritt (1,1) während eines Faltungsvorgangs. Daher beginnt das nächste Eingabesegment eine Position rechts vom vorherigen Eingabesegment. Wenn der Vorgang die rechte Kante erreicht, ist das nächste Segment ganz links, aber eine Position nach unten.
Das vorherige Beispiel zeigt einen zweidimensionalen Schritt. Bei einer dreidimensionalen Eingabematrix wäre auch der Schritt dreidimensional.
Stichprobenerhebung
Weitere Informationen finden Sie unter Pooling.
T
Übersetzungsinvarianz
Bei der Bildklassifizierung kann ein Algorithmus Bilder erfolgreich klassifizieren, auch wenn sich die Position von Objekten im Bild ändert. Beispielsweise kann der Algorithmus immer noch einen Hund identifizieren, egal ob er sich in der Mitte des Frames oder am linken Ende des Frames befindet.
Siehe auch Größenabweichungen und Rotationsinvarianz