Glossar zum maschinellen Lernen: Sprachbewertung

Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Diese Seite enthält Glossarbegriffe zur Sprachbewertung. Alle Glossarbegriffe finden Sie hier.

A

aufmerksamkeit

#language

Verschiedene Mechanismen zur neuronalen Netzwerkarchitektur, mit denen Informationen aus einer Reihe von Eingaben datenabhängig aggregiert werden. Ein typischer Aufmerksamkeitsmechanismus kann eine gewichtete Summe einer Reihe von Eingaben sein, wobei die Gewichtung für jede Eingabe von einem anderen Teil des neuronalen Netzwerks berechnet wird.

Weitere Informationen finden Sie unter Aufmerksamkeit und Multi-Head Self-Achtung, die die Bausteine von Transformers sind.

B

Tasche

#language

Eine Darstellung der Wörter in einer Wortgruppe oder einem Abschnitt, unabhängig von der Reihenfolge. Beispiel: Die Bag of Words stehen für die folgenden drei Sätze:

  • der Hund springt
  • springt der Hund
  • Hund springt

Jedes Wort wird einem Index in einem spärlichen Vektor zugeordnet, wobei der Vektor einen Index für jedes Wort im Vokabular hat. Die Wortgruppe Hund springen ist beispielsweise einem Featurevektor mit Werten ungleich null in den drei Indexen zugeordnet, die den Wörtern , dog und jumps entsprechen. Der Wert ungleich null kann einen der folgenden Werte haben:

  • Eine 1, die das Vorhandensein eines Worts angibt.
  • Gibt an, wie oft ein Wort im Beutel vorkommt. Wenn beispielsweise die Wortgruppe ein rotbrauner Hund ist ein Hund mit braunem Fell lautet, werden sowohl maroon als auch dog als 2 und die anderen Wörter als 1 dargestellt.
  • Ein anderer Wert, z. B. der Logarithmus, wie oft ein Wort im Beutel vorkommt.

BERT (Bidirektionale Encoder-Darstellungen von Transformern)

#language

Eine Modellarchitektur für die Textdarstellung Ein trainiertes BERT-Modell kann als Teil eines größeren Modells für Textklassifizierung oder andere ML-Aufgaben verwendet werden.

BERT hat folgende Merkmale:

Zu den BERT-Varianten gehören:

Eine Übersicht über BERT finden Sie unter Offene BERT-Beschaffung: hochmodernes Pre-Training für Natural Language Processing.

Bigram

#seq
#language

Ein N-Gramm, in dem N = 2.

bidirektional

#language

Ein Begriff, mit dem ein System beschrieben wird, das den Text bewertet, der einem Zielabschnitt des Textes vorgeht und darauf folgt. Im Gegensatz dazu bewertet ein unidirektionales System nur den Text, der einem Zielabschnitt des Textes vorgeht.

Nehmen wir als Beispiel ein maskiertes Sprachmodell, das die Wahrscheinlichkeiten für das Wort oder die Wörter bestimmen muss, die die Unterstriche in der folgenden Frage repräsentieren:

Was ist _____ mit dir?

Für ein unidirektionales Sprachmodell müssen die Wahrscheinlichkeiten nur auf dem Kontext basieren, der durch die Wörter "What"is" und "" bereitgestellt wird. Im Gegensatz dazu könnte ein bidirektionales Sprachmodell auch Kontext von „mit“ und „Sie“ erhalten, was helfen könnte, bessere Vorhersagen zu erstellen.

bidirektionales Sprachmodell

#language

Ein Sprachmodell, das basierend auf dem vorherigen und folgenden Text bestimmt, wie wahrscheinlich es ist, dass ein bestimmtes Token an einer bestimmten Position in einem Textauszug vorhanden ist.

BLEU (Bilingual Evaluation Understudy)

#language

Ein Wert zwischen 0,0 und 1,0 (inklusive), was die Qualität einer Übersetzung zwischen zwei menschlichen Sprachen angibt, z.B.zwischen Englisch und Russisch. Ein BLEU-Score von 1,0 gibt eine perfekte Übersetzung an, ein BLEU-Score von 0,0 bedeutet eine schreckliche Übersetzung.

C

Kausales Sprachmodell

#language

Synonym für unidirektionales Sprachmodell.

Siehe bidirektionales Sprachmodell für Kontrast zu verschiedenen Ansätzen bei der Sprachmodellierung.

Absturzblüte

#language

Ein Satz oder eine Wortgruppe mit zweideutiger Bedeutung. Crashblüten stellen ein erhebliches Problem beim natürlichen Sprachverständnis dar. Der Anzeigentitel Red Tape Holds Up Skyscraper ist beispielsweise eine Crashblüte, weil ein NLU-Modell den Anzeigentitel wortwörtlich oder wortwörtlich interpretieren könnte.

D

Decodierer

#language

Im Allgemeinen wird jedes ML-System, das von einer verarbeiteten, dichten oder internen Darstellung in eine rohere, dünnere oder externere Darstellung konvertiert, verwendet.

Decodierer sind oft eine Komponente eines größeren Modells, bei dem sie häufig mit einem Encoder gekoppelt sind.

In Sequenzsequenzen beginnt ein Decodierer mit dem internen Zustand des Encoders, um die nächste Sequenz vorherzusagen.

Die Definition eines Decodierers in der Transformer-Architektur finden Sie unter Transformation.

Rausch

#language

Ein gängiger Ansatz für das selbstüberwachte Lernen, bei dem:

  1. Rauschen wird dem Dataset künstlich hinzugefügt.
  2. Das Modell versucht, das Rauschen zu entfernen.

Durch Rauschen aus Beispielen ohne Label wird das Lernen ermöglicht. Das ursprüngliche Dataset dient als Ziel oder Label und die ungenauen Daten als Eingabe.

Für einige maskierte Sprachmodelle werden folgende Bezeichnungen verwendet:

  1. Ein Rauschen wird einem nicht gekennzeichneten Satz durch Maskieren einiger Tokens künstlich hinzugefügt.
  2. Das Modell versucht, die ursprünglichen Tokens vorherzusagen.

E

Einbettungsebene

#language
#fundamentals

Eine spezielle verborgene Schicht, die mit einem hochdimensionalen kategorialen Feature trainiert, um nach und nach einen eingebetteten Einbettungsvektor zu erlernen. Mit einer Einbettungsebene kann ein neuronales Netzwerk viel effizienter trainieren als nur mit dem hochdimensionalen kategorialen Feature.

Zum Beispiel unterstützt die Erde derzeit etwa 73.000 Baumarten. Angenommen, die Baumart ist ein Merkmal in Ihrem Modell,sodass die Eingabeebene Ihres Modells einen One-Hot-Vektor mit 73.000 Elementen enthält. Beispielsweise könnte baobab so aussehen:

Ein Array mit 73.000 Elementen. Die ersten 6.232 Elemente haben den Wert 0. Das nächste Element enthält den Wert „1“. Die letzten 66.767 Elemente haben den Wert null.

Ein Array mit 73.000 Elementen ist sehr lang. Wenn Sie dem Modell keine Einbettungsebene hinzufügen, wird das Training sehr viel Zeit in Anspruch nehmen,da 72.999 Nullen multipliziert werden. Vielleicht wählen Sie die Einbettungsebene aus 12 Dimensionen. Daher lernt die Einbettungsebene nach und nach einen neuen Einbettungsvektor für jede Baumart.

In bestimmten Situationen ist Hashing eine sinnvolle Alternative zu einer Einbettungsebene.

Einbettung von Gruppenbereichen

#language

Der d-dimensionale Vektorraum, dem Elemente eines höherdimensionalen Vektorraums zugeordnet sind. Idealerweise enthält der Einbettungsbereich eine Struktur, die aussagekräftige mathematische Ergebnisse liefert. In einem idealen Einbettungsbereich können Worteinbettungen in einer idealen Einbettung durch Wortanalogen gelöst werden.

Das Punktprodukt zweier Einbettungen ist ein Maß für ihre Ähnlichkeit.

Einbettungsvektor

#language

Ganz allgemein gesagt: ein Array von Gleitkommazahlen aus einer beliebigen verborgenen Ebene, die die Eingaben für diese ausgeblendete Ebene beschreiben. Ein Einbettungsvektor ist häufig das Array von Gleitkommazahlen, die in einer Einbettungsebene trainiert werden. Angenommen, eine Einbettungsebene muss für jede der 73.000 Baumarten der Erde einen Einbettungsvektor lernen. Vielleicht ist das folgende Array der Einbettungsvektor für einen Baobab-Baum:

Ein Array mit 12 Elementen, die jeweils eine Gleitkommazahl zwischen 0,0 und 1,0 enthalten.

Ein Einbettungsvektor ist keine Reihe von Zufallszahlen. Eine Einbettungsebene legt diese Werte durch Training fest, ähnlich wie ein neuronales Netzwerk während des Trainings andere Gewichtungen lernt. Jedes Element des Arrays ist eine Bewertung entlang einer Eigenschaft einer Baumart. Welches Element verdeutlicht die Baumart? Das ist für Menschen schwierig zu erkennen.

Der mathematisch bemerkenswerte Teil eines Einbettungsvektors ist, dass ähnliche Elemente ähnliche Gleitkommazahlen haben. Beispielsweise haben ähnliche Baumarten eine ähnliche Gruppe von Gleitkommazahlen als unterschiedliche Baumarten. Mammutbäume und Mammutbäume sind zusammengehörige Baumarten. Sie haben daher eine ähnliche Reihe von schwimmenden Zahlen wie Mammutbäume und Kokospalmen. Die Zahlen im Einbettungsvektor ändern sich jedes Mal, wenn Sie das Modell neu trainieren, auch wenn Sie das Modell mit identischer Eingabe neu trainieren.

Encoder

#language

Im Allgemeinen wird jedes ML-System, das von einer unverarbeiteten, dünnbesetzten oder externen Darstellung in eine stärker verarbeitete, dichtere oder stärker interne Darstellung konvertiert.

Encoder sind häufig eine Komponente eines größeren Modells und werden häufig mit einem Decoder gekoppelt. Einige Transformer kodieren Encoder mit Decodierer, während andere nur den Encoder oder nur den Decodierer nutzen.

Einige Systeme verwenden die Ausgabe des Encoders als Eingabe für ein Klassifizierungs- oder Regressionsnetzwerk.

Bei Sequenzsequenzen verwendet ein Encoder eine Eingabesequenz und gibt einen internen Status (einen Vektor) zurück. Anschließend verwendet der Decoder diesen internen Status, um die nächste Sequenz vorherzusagen.

Die Definition eines Encoders in der Transformer-Architektur finden Sie unter Transformation.

G

GPT (Generativer vortrainierter Transformator)

#language

Eine Familie von Transformer-basierten großen Sprachmodellen, die von OpenAI entwickelt wurden.

GPT-Varianten können für mehrere Modalitäten gelten, darunter:

  • Image-Generierung (z. B. ImageGPT)
  • Text-to-Image-Generierung, z. B. DALL-E.

l

LaMDA (Sprachmodell für Dialoganwendungen)

#language

Ein von Google entwickeltes Transformator-basiertes großes Sprachmodell, das mit einem großen Dialog-Dataset trainiert wurde, um realistische dialogorientierte Antworten zu generieren.

LaMDA: Unsere bahnbrechende Unterhaltungstechnologie bietet einen Überblick.

Sprachmodell

#language

Ein Modell, das die Wahrscheinlichkeit eines Tokens oder einer Reihe von Tokens in einer längeren Tokensequenz schätzt.

Sprachmodell

#language

Ein informeller Begriff ohne strikte Definition, der in der Regel ein Sprachmodell mit einer großen Anzahl von Parametern bedeutet. Einige große Sprachmodelle enthalten über 100 Milliarden Parameter.

M

maskiertes Sprachmodell

#language

Ein Sprachmodell, das vorhersagt, wie wahrscheinlich es ist, dass Kandidaten ein Leerzeichen in einer Reihe ausfüllen. Mit einem maskierten Sprachmodell können beispielsweise Wahrscheinlichkeiten für Kandidatenwörter berechnet werden, um den Unterstrichen im folgenden Satz zu ersetzen:

Die ____ im Hut sind zurück.

In der Literatur wird in der Regel der String „MASK"“ anstelle von Unterstrichen verwendet. Beispiel:

Die Maske im Hut kehrte zurück.

Die meisten modernen maskierten Sprachmodelle sind bidirektional.

Meta-Learning

#language

Eine Untergruppe des maschinellen Lernens, die einen Lernalgorithmus erkennt oder verbessert. Ein Meta-Learning-System kann auch ein Modell trainieren, um schnell eine neue Aufgabe aus einer kleinen Datenmenge oder aus der Erfahrung aus vorherigen Aufgaben zu lernen. Meta-Learning-Algorithmen versuchen in der Regel Folgendes zu erreichen:

  • Verbessern oder lernen Sie manuell entwickelte Features (z. B. einen Initialisierer oder einen Optimierer).
  • Dateneffizienter und recheneffizienter arbeiten
  • Verbessern Sie die Generalisierung.

Meta-Lernen bezieht sich auf wenige Bilder.

Modalität

#language

Eine übergeordnete Datenkategorie. Zahlen, Text, Bilder, Video und Audio sind beispielsweise fünf Modalitäten.

Modellparallelität

#language

Eine Methode zum Skalieren von Training oder Inferenz, durch die verschiedene Teile eines Modells auf verschiedenen Geräten platziert werden. Die Modellparallelität ermöglicht Modelle, die zu groß für ein einzelnes Gerät sind.

Weitere Informationen finden Sie unter Datenparallelität.

Mehrköpfige Selbstaufmerksamkeit

#language

Eine Erweiterung der Selbstaufmerksamkeit, bei der der Mechanismus zur Selbstaufforderung für jede Position in der Eingabesequenz mehrmals angewendet wird.

Transformatoren haben die Funktion „Aufmerksamkeit“ mit mehreren Köpfen eingeführt.

multimodales Modell

#language

Ein Modell, dessen Ein- und/oder Ausgaben mehrere Modalitäten enthalten. Nehmen wir als Beispiel ein Modell, das sowohl ein Bild als auch eine Textbeschriftung (zwei Modalitäten) als Merkmale aufnimmt und eine Punktzahl ausgibt, die angibt, wie passend die Beschriftung für das Bild ist. Die Eingaben dieses Modells sind multimodal und die Ausgabe ist unimodal.

N

Natural Language Understanding

#language

Bestimmen der Absichten eines Nutzers anhand dessen, was er eingegeben oder gesagt hat Beispielsweise nutzt eine Suchmaschine Natural Language Understanding, um zu ermitteln, wonach der Nutzer sucht. Dabei wird berücksichtigt, was der Nutzer eingegeben oder gesagt hat.

N-Gramm

#seq
#language

Eine geordnete Folge von N Wörtern. Beispiel: wahrhaftig ist ein 2 Gramm. Da die Reihenfolge relevant ist, ist wirklich ein anderes 2 Gramm als echt verrückt.

N Name(n) für diese Art von N-Gramm Beispiele
2 Bigram oder 2 Gramm gehen, zu essen gehen, zu essen gehen, zu essen gehen
3 Trigramm oder 3 Gramm Ich habe zu viel, drei blinde Mäuse gezögert, die Mautglocken
4 4 Gramm gehen im Park, Staub im Wind, der Junge hat Linsen gegessen

Viele Natural Language Understanding-Modelle verwenden N-Gramme, um das nächste Wort vorherzusagen, das der Nutzer eingeben oder sagen wird. Beispiel: Ein Nutzer gibt drei Jalousien ein. Ein NLU-Modell auf Basis von Trigrammen würde wahrscheinlich vorhersagen, dass der Nutzer als Nächstes Mäuse eingibt.

Kontrastiere N-Gramme mit Bag of Words, bei denen es sich um ungeordnete Wörter handelt.

NLU

#language

Abkürzung für Natural Language Understanding.

P

Rohrverkleidung

#language

Eine Form von Modellparallelität, bei der die Verarbeitung eines Modells in aufeinanderfolgende Phasen unterteilt wird und jede Phase auf einem anderen Gerät ausgeführt wird. Während einer Phase wird ein Batch verarbeitet, kann die vorherige Phase mit dem nächsten Batch arbeiten.

Siehe auch gestaffeltes Training.

S

Selbstaufmerksamkeit (auch „Selbstaufmerksamkeit“-Ebene genannt)

#language

Eine neuronale Netzwerkebene, die eine Folge von Einbettungen (z. B. Token-Einbettungen) in eine andere Einbettungssequenz umwandelt. Jede Einbettung in der Ausgabesequenz wird durch die Integration von Informationen aus den Elementen der Eingabesequenz über einen Aufmerksamkeitsmechanismus konstruiert.

Der Teil selbst der Selbstaufmerksamkeit bezieht sich auf die Abfolge, die auf sich selbst und nicht auf einen anderen Kontext zutrifft. Die Selbstaufmerksamkeit ist einer der wichtigsten Bausteine für Transformatoren. Dabei wird die Terminologie der Wörterbuchsuche wie „Abfrage“, „Schlüssel“ und „Wert“ verwendet.

Eine Ebene für die Selbstaufmerksamkeit beginnt mit einer Reihe von Eingabedarstellungen, einer pro Wort. Die Eingabedarstellung für ein Wort kann eine einfache Einbettung sein. Für jedes Wort in einer Eingabesequenz bewertet das Netzwerk die Relevanz des Wortes für jedes Element in der gesamten Wortfolge. Der Relevanzwert bestimmt, wie viel das Wort zusammen mit den anderen Wörtern enthält.

Betrachten Sie beispielsweise den folgenden Satz:

Das Tier hat die Straße nicht überschritten, weil es zu müde war.

Die folgende Abbildung aus Transformer: A Novel Neural Network Architecture for Language Understanding zeigt das Aufmerksamkeitsmuster der Eigenaufmerksamkeit des Pronomens it, wobei die Dunkelheit jeder Zeile angibt, wie viel jedes Wort zur Darstellung beiträgt:

Der folgende Satz kommt zweimal vor: 'Das Tier hat die Straße nicht überquert, weil es zu müde war.'  Zeilen verbinden das Wort „&it“ (#) in einem Satz mit fünf Tokens (&;#;39;, ','street','it' sowie dem Punkt) im anderen Satz.  Die Linie zwischen ' und #39; ist am stärksten.

Die Ebene „Aufmerksamkeit“ markiert Wörter, die für „it“ relevant sind. In diesem Fall lernt die Aufmerksamkeitsschicht, Wörter zu markieren, auf die sie sich bezieht, und animal wird das höchste Gewicht zugewiesen.

Bei einer Sequenz von n Tokens transformiert die Selbstaufmerksamkeit eine Sequenz von Einbettungen n separate Male, einmal an jeder Position in der Sequenz.

Weitere Informationen finden Sie unter Aufmerksamkeit und Mehrfachaufmerksamkeit.

Histogramm: Sentimentanalyse

#language

Mit statistischen oder maschinellen Lernalgorithmen die allgemeine Einstellung – positive oder negative – gegenüber einem Dienst, einem Produkt, einer Organisation oder einem Thema bestimmen Mit einem natürlichen Sprachverständnis kann ein Algorithmus beispielsweise eine Stimmungsanalyse des Textfeedbacks eines Universitätskurses durchführen, um zu ermitteln, in welchem Maß den Schülern der Kurs insgesamt gefallen bzw. nicht gefallen hat.

Sequenz-zu-Sequenz-Aufgabe

#language

Eine Aufgabe, die eine Eingabesequenz von Tokens in eine Ausgabesequenz von Tokens konvertiert. Zwei beliebte Arten von Sequenz-zu-Sequenz-Aufgaben sind beispielsweise:

  • Übersetzer:
    • Beispieleingabesequenz: "Ich liebe dich."
    • Beispiel für eine Ausgabesequenz: "Je t'aime."
  • Fragen beantworten:
    • Beispieleingabesequenz: "Brauche ich mein Auto in New York City?quot;
    • Beispielausgabesequenz: "Nein. Bitte halten Sie Ihr Auto zu Hause."

dünnbesetztes Feature

#language
#fundamentals

Ein Merkmal, dessen Werte vorwiegend null oder leer sind. Ein Merkmal, das einen einzelnen 1-Wert und eine Million 0-Werte enthält, ist beispielsweise dünnbesetzt. Im Gegensatz dazu hat ein dichtes Merkmal Werte, die überwiegend nicht null oder leer sind.

Beim maschinellen Lernen handelt es sich um überraschende Funktionen. Kategoriale Merkmale sind in der Regel dünnbesetzte Merkmale. Beispielsweise könnten Sie unter den 300 möglichen Baumarten in einem Wald nur einen Ahornbaum identifizieren. Oder von den Millionen möglicher Videos in einer Videobibliothek könnte ein einzelnes Beispiel nur &Casablanca identifizieren."

In einem Modell stellen Sie dünnbesetzte Features in der Regel mit One-Hot-Codierung dar. Wenn die One-Hot-Codierung groß ist, können Sie zur Steigerung der Effizienz eine Einbettungsebene auf die One-Hot-Codierung setzen.

spärliche Darstellung

#language
#fundamentals

Nur die Position(en) von Elementen ungleich null in einem dünnbesetzten Merkmal speichern

Angenommen, ein kategoriales Merkmal mit dem Namen species identifiziert die 36 Baumarten in einem bestimmten Wald. Außerdem wird davon ausgegangen, dass in jedem Beispiel nur eine einzige Spezies identifiziert ist.

Sie könnten einen One-Hot-Vektor verwenden, um die Baumarten in jedem Beispiel darzustellen. Ein One-Hot-Vektor enthält einen einzelnen 1 (für die spezifische Baumart in diesem Beispiel) und 35 0s (um die 35 Baumarten in diesem Beispiel darzustellen). Die One-Hot-Repräsentation von maple könnte also so aussehen:

Ein Vektor, in dem die Positionen 0 bis 23 den Wert 0, die Positionen 24 den Wert 1 und die Positionen 25 bis 35 den Wert 0 enthalten.

Alternativ würde die dünnbesetzte Darstellung einfach die Position der bestimmten Arten bestimmen. Wenn maple an Position 24 liegt, wäre die dünnbesetzte Darstellung von maple einfach:

24

Die dünnbesetzte Darstellung ist viel kompakter als die One-Hot-Darstellung.

Gestaffeltes Training

#language

Eine Taktik zum Trainieren eines Modells in einer Reihe separater Phasen. Das Ziel kann sein, den Trainingsprozess zu beschleunigen oder eine bessere Modellqualität zu erzielen.

Unten sehen Sie eine Abbildung des Progressive-Stacking-Ansatzes:

  • Phase 1 enthält drei ausgeblendete Ebenen, Phase 2 enthält sechs ausgeblendete Ebenen und Phase 3 enthält 12 ausgeblendete Ebenen.
  • Phase 2 beginnt mit dem Training mit den in den drei verborgenen Ebenen von Phase 1 ermittelten Gewichtungen. Phase 3 beginnt mit dem Training mit den in den sechs versteckten Schichten von Phase 2 gelernten Gewichtungen.

Drei Phasen, die mit 'Phase 1'Phase 2' und 39;Phase 3' gekennzeichnet sind.
          Jede Phase enthält eine andere Anzahl von Ebenen: Phase 1 enthält 3 Ebenen, Phase 2 enthält 6 Ebenen und Phase 3 enthält 12 Ebenen.
          Die drei Ebenen aus Phase 1 werden zu den ersten drei Ebenen von Phase 2.
          Ebenso werden die sechs Ebenen aus Phase 2 zu den ersten sechs Ebenen von Phase 3.

Weitere Informationen finden Sie unter Pipelining.

T

Token

#language

In einem Sprachmodell ist dies die Atomeinheit, auf der das Modell trainiert wird und für die Vorhersagen getroffen werden. Ein Token ist in der Regel eines der folgenden:

  • ein Wort. Zum Beispiel besteht der Ausdruck &dogs wie cats" aus drei Worttokens: "dogs", "like" und "cats".
  • Ein Zeichen, z. B. die Wortgruppe „Fahrradfisch“ besteht aus neun Zeichen. Der leere Bereich zählt als eines der Tokens.
  • Unterwörter, bei denen ein einzelnes Wort ein einzelnes oder mehrere Tokens sein kann. Ein Unterwort besteht aus einem Stammwort, einem Präfix oder einem Suffix. Beispiel: Bei einem Sprachmodell, das Unterwörter als Tokens verwendet, werden das Wort „dogs“ (Hunde) als zwei Tokens angezeigt (das Stammwort „&dog“ und das Pluralsuffix „&“). Dasselbe Sprachmodell kann das einzelne Wort „größer“ als zwei Unterwörter sehen (das Stammwort „&t“ und das Suffix „er"“).

In Domains außerhalb von Sprachmodellen können Tokens andere Arten von atomaren Einheiten darstellen. Beim maschinellen Sehen kann ein Token beispielsweise eine Teilmenge eines Bildes sein.

Transformator

#language

Eine bei Google entwickelte Architektur für ein neuronales Netzwerk, die auf Mechanismen zur Selbstaufmerksamkeit beruht, um eine Folge von Eingabeeinbettungen in eine Folge von Ausgabeeinbettungen umzuwandeln, ohne Konventionen oder wiederkehrende neuronale Netzwerke zu verwenden. Ein Transformator kann als ein Stapel von Ebenen mit Selbstaufmerksamkeit dargestellt werden.

Ein Transformator kann eines der folgenden Elemente enthalten:

Ein Encoder wandelt eine Einbettungssequenz in eine neue Sequenz derselben Länge um. Ein Encoder enthält n identische Ebenen, die jeweils zwei Unterebenen enthalten. Diese beiden Unterebenen werden auf jede Position der Sequenz für die Eingabeeinbettung angewendet und transformieren jedes Element der Sequenz in eine neue Einbettung. Die erste Encoder-Unterschicht aggregiert Informationen aus der gesamten Eingabesequenz. Die zweite Encoder-Unterschicht wandelt die aggregierten Informationen in eine Ausgabeeinbettung um.

Ein Decoder wandelt eine Folge von Eingabeeinbettungen in eine Folge von Ausgabeeinbettungen um, die möglicherweise eine andere Länge hat. Ein Decoder umfasst auch n gleiche Ebenen mit drei Unterebenen, von denen zwei den Unterebenen des Encoders ähnlich sind. Die dritte Decoder-Unterebene übernimmt die Ausgabe des Encoders und wendet den Aufmerksamkeitsmechanismus an, um Informationen daraus zu erfassen.

Der Blogpost Transformer: A Novel Neural Network Architecture for Language Understanding bietet eine gute Einführung in Transformer.

Trigramm

#seq
#language

Ein N-Gramm, in dem N=3.

U

unidirektional

#language

Ein System, das nur den Text bewertet, der einem Zielabschnitt des Textes vorausgeht. Im Gegensatz dazu bewertet ein bidirektionales System sowohl den Text, der einem Text vorausgeht, als auch den Text, der einem Zielabschnitt folgt. Weitere Informationen finden Sie unter bidirektional.

unidirektionales Sprachmodell

#language

Ein Sprachmodell, das seine Wahrscheinlichkeit nur auf den Tokens stützt, die vor und nicht nach den Zieltoken(s) angezeigt werden. Kontrast zum bidirektionalen Sprachmodell.

W

Worteinbettung

#language

Darstellung jedes Worts in einem Wort in einem Einbettungsvektor; das heißt, jedes Wort wird als Vektor von Gleitkommawerten zwischen 0,0 und 1,0 dargestellt. Wörter mit ähnlicher Bedeutung haben eine etwas ähnlichere Darstellung als Wörter mit unterschiedlichen Bedeutungen. Zum Beispiel haben Karotten, Sellerie und Gurken relativ ähnliche Darstellungen, die sich stark von den Darstellungen von Flugzeugen, Sonnenbrille und Zahnpasta unterscheiden.