Glossar zum maschinellen Lernen: Bildmodelle

Diese Seite enthält Glossarbegriffe zu Bildmodellen. Alle Glossarbegriffe finden Sie hier.

A

augmented reality

#image

Eine Technologie, die die reale Welt eines Nutzers durch ein computergeneriertes Bild überlagert und so eine zusammengesetzte Ansicht liefert.

Autoencoder

#language
#image

Ein System, das lernt, die wichtigsten Informationen aus der Eingabe zu extrahieren. Autoencoder sind eine Kombination aus einem Encoder und einem Decoder. Autoencoder nutzen den folgenden zweistufigen Prozess:

  1. Der Encoder ordnet die Eingabe einem (in der Regel) verlustbehafteten Format mit niedrigerer Dimension (Zwischenformat) zu.
  2. Der Decoder erstellt eine verlustbehaftete Version der ursprünglichen Eingabe, indem er das niedrigdimensionale Format dem ursprünglichen höherdimensionalen Eingabeformat zuordnet.

Autoencoder werden durchgängig trainiert. Dabei versucht der Decodierer, die ursprüngliche Eingabe möglichst genau aus dem Zwischenformat des Encoders zu rekonstruieren. Da das Zwischenformat kleiner (niedrigerdimensional) als das Originalformat ist, muss der Autoencoder lernen, welche Informationen in der Eingabe wichtig sind, und die Ausgabe ist nicht genau identisch mit der Eingabe.

Beispiel:

  • Wenn die Eingabedaten eine Grafik sind, würde die nicht exakte Kopie der Originalgrafik ähneln, aber etwas abgeändert sein. Möglicherweise entfernt die ungenaue Kopie das Rauschen aus der Originalgrafik oder füllt einige fehlende Pixel auf.
  • Wenn die Eingabedaten Text sind, generiert ein Autoencoder neuen Text, der den ursprünglichen Text imitiert, aber nicht damit identisch ist.

Weitere Informationen finden Sie unter Verschiedene Autoencoder.

automatisch regressives Modell

#language
#image
#generativeKI

Ein model, das eine Vorhersage anhand seiner eigenen vorherigen Vorhersagen ableitet. Zum Beispiel sagen automatisch regressive Sprachmodelle das nächste Token anhand der zuvor vorhergesagten Tokens voraus. Alle auf Transformer basierenden Large-Language-Modelle sind automatisch regressiv.

Im Gegensatz dazu sind GAN-basierte Bildmodelle in der Regel nicht automatisch regressiv, da sie ein Bild in einem einzelnen Vorlauf und nicht iterativ in Schritten generieren. Bestimmte Bildgenerierungsmodelle sind jedoch automatisch regressiv, da sie ein Bild schrittweise generieren.

B

Begrenzungsrahmen

#image

In einem Bild die (x, y) Koordinaten eines Rechtecks um einen Interessenbereich, z. B. den Hund im Bild unten.

Foto eines Hundes, der auf einem Sofa sitzt. Ein grüner Begrenzungsrahmen mit den Koordinaten (275, 1271) oben links und den Koordinaten unten rechts (2954, 2761) umschreibt den Körper des Hundes.

C

Faltung

#image

In der Mathematik ist das eine Mischung aus zwei Funktionen. Beim maschinellen Lernen vermischt eine Faltung den Faltungsfilter und die Eingabematrix, um Gewichtungen zu trainieren.

Der Begriff „Faltung“ im maschinellen Lernen ist oft eine Kurzform für Faltungsvorgang oder Faltungsebene.

Ohne Faltungen müsste ein Algorithmus für maschinelles Lernen eine separate Gewichtung für jede Zelle in einem großen Tensor lernen. Beispielsweise würde ein Algorithmus für maschinelles Lernen, der auf Bilder mit einer Größe von 2.000 x 2.000 trainiert wird, 4 Millionen separate Gewichtungen finden müssen. Dank Faltungen muss ein Algorithmus für maschinelles Lernen nur Gewichtungen für jede Zelle im Faltungsfilter finden, wodurch der Speicherbedarf zum Trainieren des Modells erheblich reduziert wird. Wenn der Faltungsfilter angewendet wird, wird er einfach über die Zellen hinweg repliziert, sodass jede Zelle mit dem Filter multipliziert wird.

Faltungsfilter

#image

Einer der beiden Akteure bei einer Faltungsvorgang. (Der andere Akteur ist ein Teil einer Eingabematrix.) Ein Faltungsfilter ist eine Matrix, die den gleichen Rang wie die Eingabematrix hat, aber eine kleinere Form. Bei einer 28 x 28-Eingabematrix kann der Filter beispielsweise eine beliebige 2D-Matrix sein, die kleiner als 28 x 28 ist.

Bei der fotografischen Bearbeitung sind alle Zellen in einem Faltungsfilter in der Regel auf ein konstantes Muster aus Einsen und Nullen eingestellt. Beim maschinellen Lernen werden Faltungsfilter in der Regel mit Zufallszahlen versehen. Das Netzwerk trainiert dann die idealen Werte.

Faltungsschicht

#image

Eine Ebene eines neuronalen Deep-Learning-Netzwerks, in der ein Faltungsfilter durch eine Eingabematrix geleitet wird. Betrachten Sie beispielsweise den folgenden Faltungsfilter (3x3):

Eine 3x3-Matrix mit den folgenden Werten: [[0,1,0], [1,0,1], [0,1,0]]

Die folgende Animation zeigt eine Faltungsschicht, die aus neun Faltungsvorgängen besteht, in denen die 5x5-Eingabematrix verwendet wird. Beachten Sie, dass jeder Faltungsvorgang mit einem anderen 3x3-Slice der Eingabematrix arbeitet. Die resultierende 3x3-Matrix (rechts) besteht aus den Ergebnissen der neun Faltungsoperationen:

Eine Animation mit zwei Matrizen. Die erste Matrix ist die 5x5-Matrix: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,70], [31,70]
          Die zweite Matrix ist die 3x3-Matrix: [[181,303,618], [115,338,605], [169,351,560]].
          Die zweite Matrix wird durch Anwenden des Faltungsfilters [[0, 1, 0], [1, 0, 1], [0, 1, 0]] auf verschiedene 3x3-Untergruppen der 5x5-Matrix berechnet.

Convolutional Neural Network

#image

Ein neuronales Netzwerk, in dem mindestens eine Schicht eine Faltungsschicht ist. Ein typisches Convolutional neuronales Netz besteht aus einer Kombination der folgenden Schichten:

Convolutional Neural Networks haben großen Erfolg bei bestimmten Problemen, z. B. bei der Bilderkennung.

Faltungsvorgang

#image

Die folgende zweistufige mathematische Operation:

  1. Elementweise Multiplikation des Faltungsfilters und eines Segments einer Eingabematrix. Das Segment der Eingabematrix hat denselben Rang und dieselbe Größe wie der Faltungsfilter.
  2. Summe aller Werte in der resultierenden Produktmatrix.

Betrachten Sie beispielsweise die folgende 5x5-Eingabematrix:

Die 5x5-Matrix: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40],107,100,1

Stellen Sie sich nun den folgenden 2x2-Faltungsfilter vor:

2x2-Matrix: [[1, 0], [0, 1]]

Jeder Faltungsvorgang umfasst ein einzelnes 2x2-Segment der Eingabematrix. Angenommen, wir verwenden das 2x2-Segment oben links in der Eingabematrix. Der Faltungsvorgang für dieses Segment sieht also so aus:

Anwendung des Faltungsfilters [[1, 0], [0, 1]] auf den linken oberen 2x2-Abschnitt der Eingabematrix, also [[128,97], [35,22]].
          Der Faltungsfilter lässt die Werte 128 und 22 intakt, 97 und 35 werden jedoch auf null gesetzt. Folglich ergibt die Faltungsvorgang den Wert 150 (128+22).

Eine Faltungsschicht besteht aus einer Reihe von Faltungsvorgängen, die jeweils auf einen anderen Teil der Eingabematrix wirken.

D

Datenerweiterung

#image

Die Reichweite und Anzahl der Trainingsbeispiele durch Umwandlung vorhandener Beispiele in zusätzliche Beispiele werden künstlich erhöht. Angenommen, Bilder sind eines Ihrer Features, aber Ihr Dataset enthält nicht genügend Bildbeispiele, damit das Modell nützliche Verknüpfungen lernen kann. Im Idealfall fügen Sie Ihrem Dataset genügend Bilder mit Label hinzu, damit Ihr Modell richtig trainieren kann. Wenn dies nicht möglich ist, kann die Datenerweiterung jedes Bild drehen, strecken und reflektieren, um viele Varianten des Originalbildes zu erzeugen. Dadurch erhalten Sie möglicherweise genügend Daten mit Labels, um ein hervorragendes Training zu ermöglichen.

depthwise trennable Convolutional Neural Network (sepCNN)

#image

Eine Architektur des Convolutional Neural Network, die auf Inception basiert, in der Inception-Module jedoch durch in der Tiefe trennbare Faltungen ersetzt werden. Auch als Xception bezeichnet.

Eine tiefenweise trennbare Faltung (auch als trennbare Faltung abgekürzt) unterteilt eine Standard-3D-Faltung in zwei separate Faltungsvorgänge, die recheneffizienter sind: zuerst eine tiefenweise Faltung mit einer Tiefe von 1 (n × n × 1) und dann eine punktweise Faltung mit einer Länge × n von 1 (1 × n).

Weitere Informationen finden Sie unter Xception: Deep Learning with Depthwise Separable Convolutions.

Downsampling

#image

Überladener Begriff, der Folgendes bedeuten kann:

  • Reduzieren der Informationsmenge in einem Feature, um ein Modell effizienter trainieren zu können. Vor dem Training eines Bilderkennungsmodells sollten Sie beispielsweise Bilder mit hoher Auflösung auf ein Format mit niedrigerer Auflösung reduzieren.
  • Training mit einem unverhältnismäßig niedrigen Prozentsatz der überrepräsentierten Klassenbeispiele, um das Modelltraining für unterrepräsentierte Klassen zu verbessern. In einem Dataset mit unausgeglichener Klasse lernen Modelle beispielsweise viel über die Mehrheitsklasse und nicht genug über die Minderheitenklasse. Downsampling hilft dabei, den Trainingsumfang auf die Mehrheits- und Minderheitenklasse auszugleichen.

F

Feinabstimmung

#language
#image
#generativeKI

Ein zweiter, aufgabenspezifischer Trainingsdurchlauf, der mit einem vortrainierten Modell ausgeführt wurde, um dessen Parameter für einen bestimmten Anwendungsfall zu optimieren. Für einige Large-Language-Modelle sieht beispielsweise die vollständige Trainingssequenz so aus:

  1. Vor dem Training: Trainieren Sie ein Large-Language-Modell mit einem riesigen allgemeinen Dataset, z. B. mit allen englischsprachigen Wikipedia-Seiten.
  2. Feinabstimmung:Trainieren Sie das vortrainierte Modell für die Ausführung einer bestimmten Aufgabe, z. B. zum Antworten auf medizinische Anfragen. Die Feinabstimmung umfasst in der Regel Hunderte oder Tausende von Beispielen, die sich auf die jeweilige Aufgabe beziehen.

Ein weiteres Beispiel: Die vollständige Trainingssequenz für ein Modell mit großen Bildern sieht so aus:

  1. Vor dem Training: Trainieren Sie ein Modell für ein großes Bild mit einem riesigen allgemeinen Bild-Dataset, z. B. mit allen Bildern in Wikimedia Commons.
  2. Feinabstimmung:Trainieren Sie das vortrainierte Modell für eine bestimmte Aufgabe, z. B. das Generieren von Bildern von Orcas.

Die Feinabstimmung kann eine beliebige Kombination der folgenden Strategien beinhalten:

  • Alle vorhandenen Parameter des vortrainierten Modells ändern Dies wird auch als vollständige Feinabstimmung bezeichnet.
  • Es werden nur einige der vorhandenen Parameter des vortrainierten Modells geändert (in der Regel die Ebenen, die der Ausgabeebene am nächsten sind). Andere vorhandene Parameter bleiben unverändert (in der Regel die Ebenen, die der Eingabeebene am nächsten sind). Siehe Parametersparende Abstimmung.
  • Weitere Ebenen hinzufügen, in der Regel auf den vorhandenen Ebenen, die der Ausgabeebene am nächsten sind

Feinabstimmung ist eine Form des Lerntransfers. Daher kann für die Feinabstimmung eine andere Verlustfunktion oder ein anderer Modelltyp verwendet werden als die zum Trainieren des vortrainierten Modells. Sie könnten beispielsweise ein vortrainiertes großes Bildmodell optimieren und ein Regressionsmodell erstellen, das die Anzahl der Vögel in einem Eingabebild zurückgibt.

Vergleichen Sie die Feinabstimmung mit den folgenden Begriffen und stellen Sie sie gegenüber:

G

Generative KI

#language
#image
#generativeKI

Ein aufstrebendes transformatives Feld ohne formale Definition. Dennoch sind sich die meisten Experten einig, dass generative KI-Modelle folgende Inhalte erstellen („generieren“) können:

  • komplex
  • kohärent
  • ursprünglich

Ein generatives KI-Modell kann beispielsweise anspruchsvolle Aufsätze oder Bilder erstellen.

Einige ältere Technologien, darunter LSTMs und RNNs, können ebenfalls eigene und kohärente Inhalte generieren. Einige Experten betrachten diese älteren Technologien als generative KI, während andere der Meinung sind, dass echte generative KI komplexere Ergebnisse erfordert, als diese früheren Technologien erzeugen können.

Im Gegensatz dazu bietet ML vorausschauendes ML einen Kontrast.

I

bilderkennung

#image

Ein Prozess, der Objekte, Muster oder Konzepte in einem Bild klassifiziert. Die Bilderkennung wird auch als Bildklassifizierung bezeichnet.

Weitere Informationen finden Sie unter ML Practicum: Bildklassifizierung.

Schnittmenge über Union (IoU)

#image

Die Schnittmenge zweier Mengen, geteilt durch ihre Vereinigung. Bei Aufgaben zur Bilderkennung durch maschinelles Lernen wird IoU verwendet, um die Genauigkeit des vorhergesagten Begrenzungsrahmens des Modells in Bezug auf den Begrenzungsrahmen Ground Truth zu messen. In diesem Fall ist die IoU für die beiden Rahmen das Verhältnis zwischen dem überlappenden Bereich und der Gesamtfläche. Der Wert reicht von 0 (keine Überschneidung des vorhergesagten Begrenzungsrahmens und des Ground-Truth-Begrenzungsrahmens) bis 1 (der vorhergesagte Begrenzungsrahmen und der Ground-Truth-Begrenzungsrahmen haben genau dieselben Koordinaten).

Hier ein Beispiel:

  • Der vorhergesagte Begrenzungsrahmen (die Koordinaten, durch die der Standort der Nachttabelle im Gemälde vom Modell begrenzt wird) wird lilafarben umrandet.
  • Der Ground-Truth-Begrenzungsrahmen (die Koordinaten, die den tatsächlichen Standort der Nachttabelle im Gemälde begrenzen) ist grün umrandet.

Das Gemälde Van Gogh: „Vincents Schlafzimmer in Arles“ mit zwei unterschiedlichen Begrenzungsrahmen um den Nachttisch neben dem Bett. Der Ground-Truth-Begrenzungsrahmen (in Grün) umschließt die Night-Tabelle perfekt. Der vorhergesagte Begrenzungsrahmen (in Lila) ist um 50% nach unten und rechts vom Ground-Truth-Begrenzungsrahmen verschoben. Er umschließt das untere rechte Viertel der Nachttabelle, verfehlt jedoch den Rest der Tabelle.

Hier ist die Schnittmenge der Begrenzungsrahmen für Vorhersage und Ground Truth (unten links) 1 und die Kombination aus Begrenzungsrahmen für Vorhersage und Ground Truth (unten rechts) ist 7, sodass der IoU \(\frac{1}{7}\)ist.

Dasselbe Bild wie oben, aber jeder Begrenzungsrahmen ist in vier Quadranten unterteilt. Es gibt insgesamt sieben Quadranten, da sich der untere rechte Quadrant des Ground-Truth-Begrenzungsrahmens und der linke obere Quadranten des vorhergesagten Begrenzungsrahmens gegenseitig überschneiden. Dieser überlappende Abschnitt (grün hervorgehoben) stellt die Kreuzung dar und hat eine Fläche von 1. Dasselbe Bild wie oben, aber jeder Begrenzungsrahmen ist in vier Quadranten unterteilt. Es gibt insgesamt sieben Quadranten, da sich der untere rechte Quadrant des Ground-Truth-Begrenzungsrahmens und der linke obere Quadranten des vorhergesagten Begrenzungsrahmens gegenseitig überschneiden.
          Der gesamte Innenbereich, der von beiden (grün hervorgehobenen) Begrenzungsrahmen umgeben ist, stellt die Vereinigung dar und hat eine Fläche von 7.

K

Stichpunkte

#image

Die Koordinaten bestimmter Elemente in einem Bild. Für ein Bilderkennungsmodell, das Blumenarten unterscheidet, können Schlüsselpunkte beispielsweise der Mittelpunkt jedes Blütenblatts, der Stängel, der Stamen usw. sein.

L

landmarks

#image

Synonym für Keypoints.

M

MNIST

#image

Ein von LeCun, Cortes und Burges zusammengestelltes öffentliches Dataset mit 60.000 Bildern, auf denen zu sehen ist, wie ein Mensch eine bestimmte Ziffer von 0 bis 9 manuell geschrieben hat. Jedes Bild wird als 28 x 28-Array von Ganzzahlen gespeichert, wobei jede Ganzzahl ein Graustufenwert zwischen 0 und 255 (einschließlich) ist.

MNIST ist ein kanonisches Dataset für maschinelles Lernen, das häufig zum Testen neuer Ansätze für maschinelles Lernen verwendet wird. Weitere Informationen finden Sie in der MNIST Database of Handwriting Digits.

P

Pooling

#image

Die Matrix (oder Matrizen), die von einer früheren Faltungsschicht erstellt wurden, werden auf eine kleinere Matrix reduziert. Beim Pooling wird in der Regel entweder der Maximal- oder Durchschnittswert für den Poolbereich ermittelt. Angenommen, wir haben die folgende 3x3-Matrix:

Die 3x3-Matrix [[5,3,1], [8,2,5], [9,4,3]].

Ein Pooling-Vorgang teilt genau wie eine Faltungsfunktion diese Matrix in Segmente auf und verschiebt diese Faltungsvorgang dann um Schritte. Angenommen, der Pooling-Vorgang teilt die Faltungsmatrix in 2 x 2 Segmente mit einem 1 x 1-Schritt auf. Wie das folgende Diagramm veranschaulicht, finden vier Pooling-Vorgänge statt. Angenommen, jeder Pooling-Vorgang wählt den Maximalwert der vier in diesem Segment aus:

Die Eingabematrix ist 3x3 mit den Werten: [[5,3,1], [8,2,5], [9,4,3]].
          Die 2x2-Submatrix oben links der Eingabematrix ist [[5,3], [8,2]], sodass der Pooling-Vorgang oben links den Wert 8 ergibt (das Maximum von 5, 3, 8 und 2). Die 2x2-Submatrix oben rechts der Eingabematrix ist [[3,1], [2,5]], sodass der Pooling-Vorgang oben rechts den Wert 5 liefert. Die 2x2-Submatrix unten links der Eingabematrix ist [[8,2], [9,4]], sodass der Pooling-Vorgang unten links den Wert 9 liefert. Die 2x2-Submatrix unten rechts der Eingabematrix ist [[2,5], [4,3]], sodass der Pooling-Vorgang unten rechts den Wert 5 liefert. Zusammenfassend ergibt sich durch den Pooling-Vorgang die 2x2-Matrix [[8,5], [9,5]].

Pooling hilft, eine Übersetzungsinvarianz in der Eingabematrix zu erzwingen.

Pooling für Vision-Anwendungen wird eher als räumliches Pooling bezeichnet. Bei Zeitreihenanwendungen wird Pooling in der Regel als temporales Pooling bezeichnet. Weniger offiziell wird das Pooling häufig als Subsampling oder Downsampling bezeichnet.

Vortrainiertes Modell

#language
#image
#generativeKI

Modelle oder Modellkomponenten (z. B. ein Einbettungsvektor), die bereits trainiert wurden. Manchmal speisen Sie vortrainierte Einbettungsvektoren in ein neuronales Netzwerk ein. In anderen Fällen trainiert Ihr Modell die Einbettungsvektoren selbst, anstatt sich auf die vortrainierten Einbettungen zu verlassen.

Der Begriff vortrainiertes Sprachmodell bezieht sich auf ein großes Sprachmodell, für das ein Vortraining durchgeführt wurde.

Vortraining

#language
#image
#generativeKI

Das erste Training eines Modells mit einem großen Dataset. Einige vortrainierte Modelle sind ungeschickt und müssen in der Regel durch zusätzliche Schulungen verfeinert werden. Beispielsweise können ML-Experten ein Large-Language-Modell für ein umfangreiches Text-Dataset wie alle englischen Seiten in Wikipedia vorab trainieren. Nach dem Training kann das resultierende Modell durch eine der folgenden Techniken weiter verfeinert werden:

R

Rotationsinvarianz

#image

Bei einem Problem bei der Bildklassifizierung ist die Fähigkeit eines Algorithmus, Bilder auch dann erfolgreich zu klassifizieren, wenn sich die Ausrichtung des Bilds ändert. Beispielsweise kann der Algorithmus einen Tennisschläger trotzdem erkennen, wenn er nach oben, zur Seite oder nach unten zeigt. Beachten Sie, dass eine Rotationsinvarianz nicht immer wünschenswert ist. Eine umgedrehte 9 sollte beispielsweise nicht als 9 klassifiziert werden.

Weitere Informationen finden Sie unter Übersetzungsinvarianz und Größeninvarianz.

S

Größeninvarianz

#image

Bei einem Problem bei der Bildklassifizierung ist die Fähigkeit eines Algorithmus, Bilder auch dann erfolgreich zu klassifizieren, wenn sich die Größe des Bildes ändert. Beispielsweise kann der Algorithmus weiterhin eine Katze identifizieren, ob sie 2 Millionen Pixel oder 200.000 Pixel verbraucht. Beachten Sie, dass auch die besten Algorithmen zur Bildklassifizierung dennoch praktische Grenzen bei der Größeninvarianz haben. Beispielsweise ist es unwahrscheinlich, dass ein Algorithmus (oder ein Mensch) ein Katzenbild mit nur 20 Pixeln korrekt klassifiziert.

Weitere Informationen finden Sie unter Translationalinvarianz und Rotationsinvarianz.

Räumliches Pooling

#image

Siehe Pooling.

Stride

#image

Bei einem Faltungsvorgang oder Pooling das Delta in jeder Dimension der nächsten Reihe von Eingabesegmenten. Die folgende Animation zeigt beispielsweise einen Schritt (1,1) während eines Faltungsvorgangs. Daher beginnt das nächste Eingabesegment eine Position rechts neben dem vorherigen Eingabesegment. Wenn der Vorgang den rechten Rand erreicht, befindet sich das nächste Segment ganz links, aber eine Position nach unten.

Eine 5x5-Eingabematrix und ein 3x3-Faltungsfilter. Da der Schritt (1,1) ist, wird ein Faltungsfilter neunmal angewendet. Das erste Faltungssegment wertet die 3x3-Submatrix oben links der Eingabematrix aus. Das zweite Segment wertet die obere mittlere 3x3-Submatrix aus. Das dritte Faltungssegment wertet die 3x3-Submatrix oben rechts aus.  Das vierte Segment wertet die mittlere linke 3x3-Submatrix aus.
     Das fünfte Segment bewertet die mittlere 3x3-Submatrix. Das sechste Segment wertet die mittlere rechte 3x3-Submatrix aus. Das siebte Segment wertet die 3x3-Submatrix unten links aus.  Das achte Segment bewertet die untere mittlere 3x3-Submatrix. Das neunte Segment wertet die 3x3-Submatrix unten rechts aus.

Das vorherige Beispiel zeigt einen zweidimensionalen Schritt. Wenn die Eingabematrix dreidimensional ist, wäre der Schritt ebenfalls dreidimensional.

Subsampling

#image

Siehe Pooling.

T

Temperatur

#language
#image
#generativeKI

Ein Hyperparameter, der den Grad der Zufälligkeit der Modellausgabe steuert. Höhere Temperaturen führen zu einer zufälligen Ausgabe, während niedrigere Temperaturen zu einer weniger zufälligen Ausgabe führen.

Die Auswahl der besten Temperatur hängt von der spezifischen Anwendung und den gewünschten Attributen der Modellausgabe ab. Beispielsweise würden Sie die Temperatur wahrscheinlich erhöhen, wenn Sie eine Anwendung erstellen, die eine Creative-Ausgabe generiert. Umgekehrt würden Sie wahrscheinlich die Temperatur senken, wenn Sie ein Modell erstellen, das Bilder oder Text klassifiziert, um die Genauigkeit und Konsistenz des Modells zu verbessern.

Die Temperatur wird häufig mit softmax verwendet.

Translationalinvarianz

#image

Bei einem Problem bei der Bildklassifizierung ist die Fähigkeit eines Algorithmus, Bilder erfolgreich zu klassifizieren, auch wenn sich die Position von Objekten im Bild ändert. Der Algorithmus kann beispielsweise weiterhin einen Hund identifizieren, unabhängig davon, ob er sich in der Mitte oder am linken Ende des Frames befindet.

Weitere Informationen finden Sie unter Größeninvarianz und Rotationsinvarianz.