Diese Seite wurde von der Cloud Translation API übersetzt.

Glossar zum maschinellen Lernen: Sprachbewertung

Diese Seite enthält Glossarbegriffe zur Sprachauswertung. Alle Glossarbegriffe finden Sie hier.

A

aufmerksamkeit

#language

Ein Mechanismus, der in einem neuronalen Netzwerk verwendet wird und die Bedeutung eines bestimmten Wortes oder Teils eines Wortes angibt. Aufmerksamkeit komprimiert die Menge an Informationen, die ein Modell benötigt, um das nächste Token bzw. Wort vorherzusagen. Ein typischer Aufmerksamkeitsmechanismus kann aus einer gewichteten Summe einer Reihe von Eingaben bestehen, wobei die Gewichtung für jede Eingabe von einem anderen Teil des neuronalen Netzwerks berechnet wird.

Weitere Informationen finden Sie unter Selbstaufmerksamkeit und Selbstaufmerksamkeit in mehreren Bereichen – die Bausteine von Transformers.

Autoencoder

#language

#image

Ein System, das lernt, die wichtigsten Informationen aus der Eingabe zu extrahieren. Autoencoder sind eine Kombination aus einem Encoder und Decoder. Autoencoder nutzen den folgenden zweistufigen Prozess:

Der Encoder ordnet die Eingabe einem (üblicherweise) verlustbehafteten Format mit niedrigeren Dimensionen zu.
Der Decoder erstellt eine verlustbehaftete Version der ursprünglichen Eingabe, indem er das niedrigerdimensionale Format dem ursprünglichen höherdimensionalen Eingabeformat zuordnet.

Autoencoder werden durchgängig trainiert. Dabei versucht der Decoder, die ursprüngliche Eingabe möglichst genau aus dem Zwischenformat des Encoders zu rekonstruieren. Da das Zwischenformat kleiner (niedrigerdimensional) als das Originalformat ist, muss der Autoencoder lernen, welche Informationen in der Eingabe wichtig sind, und die Ausgabe ist nicht perfekt mit der Eingabe identisch.

Beispiel:

Wenn es sich bei den Eingabedaten um eine Grafik handelt, würde die nicht exakte Kopie der Originalgrafik ähnlich, aber etwas abgeändert sein. Vielleicht entfernt die nicht exakte Kopie das Rauschen aus der Originalgrafik oder füllt einige fehlende Pixel auf.
Wenn die Eingabedaten Text sind, generiert ein Autoencoder neuen Text, der den Originaltext imitiert (aber nicht damit identisch ist).

Siehe auch Verschiedene Autoencoder.

automatisch-regressives Modell

#language

#image

#generativeKI

Ein model, das eine Vorhersage anhand seiner eigenen vorherigen Vorhersagen ableitet. Autoregressive Sprachmodelle sagen beispielsweise das nächste Token anhand der zuvor vorhergesagten Tokens voraus. Alle Large Language Models, die auf Transformer basieren, sind automatisch regressiv.

Im Gegensatz dazu sind GAN-basierte Bildmodelle normalerweise nicht automatisch regressiv, da sie ein Bild in einem einzigen Vorwärtsdurchlauf und nicht iterativ in Schritten generieren. Bestimmte Bildgenerierungsmodelle sind jedoch automatisch regressiv, da sie ein Bild schrittweise generieren.

B

Worttasche

#language

Darstellung der Wörter in einem Satz oder einer Passage, unabhängig von der Reihenfolge Beispielsweise steht "Bag of Words" für die folgenden drei Wortgruppen identisch:

Der Hund springt
springt der Hund
Hund springt

Jedes Wort wird einem Index in einem dünnbesetzten Vektor zugeordnet, in dem für jedes Wort im Vokabular ein Index vorhanden ist. Beispielsweise wird die Wortgruppe der Hund springt einem Featurevektor mit Werten ungleich null in den drei Indexen zugeordnet, die den Wörtern the, dog und jumps entsprechen. Folgende Werte ungleich null sind möglich:

Eine 1, die auf das Vorhandensein eines Wortes verweist.
Gibt an, wie oft ein Wort in der Tasche erscheint. Wenn die Wortgruppe beispielsweise der kastanienbraune Hund ist ein Hund mit kastanienbraunem Fell lautet, werden sowohl kastanienbraun als auch Hund als 2 und die anderen Wörter als 1 dargestellt.
Ein anderer Wert, z. B. der Logarithmus zur Anzahl der Male, die ein Wort in der Tasche auftaucht.

BERT (Bidirektionale Encoder-Darstellungen von Transformers)

#language

Eine Modellarchitektur für die Textdarstellung. Ein trainiertes BERT-Modell kann als Teil eines größeren Modells für die Textklassifizierung oder andere ML-Aufgaben verwendet werden.

BERT hat die folgenden Eigenschaften:

Verwendet die Transformer-Architektur und setzt daher auf Selbstaufmerksamkeit.
Verwendet den encoder-Teil des Transformers. Die Aufgabe des Encoders besteht darin, gute Textdarstellungen zu erstellen, anstatt eine bestimmte Aufgabe wie Klassifizierung auszuführen.
bidirektional.
Verwendet Maskierung für unüberwachtes Training.

Zu den Varianten von BERT gehören:

ALBERT, ein Akronym für A Light BERT.
LaBSE

Einen Überblick über BERT finden Sie unter Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing.

bidirektional

#language

Begriff, der ein System beschreibt, das den Text auswertet, der einem Zieltext sowohl vorhergeht als auch folgen. Im Gegensatz dazu wertet ein unidirektionales System nur den Text aus, der einem Zieltextabschnitt vor geht.

Angenommen, Sie haben ein maskiertes Sprachmodell, das Wahrscheinlichkeiten für die Wörter ermitteln muss, die die Unterstreichung in der folgenden Frage darstellen:

Was ist _____ mit dir?

Ein unidirektionales Sprachmodell müsste seine Wahrscheinlichkeiten nur auf dem Kontext basieren, der von den Wörtern „Was“, „ist“ und „der“ bereitgestellt wird. Im Gegensatz dazu könnte ein bidirektionales Sprachmodell auch Kontext von „mit“ und „Sie“ erhalten, was dem Modell helfen kann, bessere Vorhersagen zu generieren.

bidirektionales Sprachmodell

#language

Ein Sprachmodell, das anhand des vorherigen und folgenden Textes die Wahrscheinlichkeit bestimmt, mit der ein bestimmtes Token an einer bestimmten Stelle in einem Textauszug vorhanden ist.

Bigram

#seq

#language

Ein N-Gramm, in dem N=2 ist.

BLEU (Bilingual Evaluation Understudy)

#language

Ein Wert zwischen 0,0 und 1,0 (einschließlich), der die Qualität einer Übersetzung zwischen zwei menschlichen Sprachen angibt, z.B.zwischen Englisch und Russisch. Ein BLEU-Wert von 1,0 weist auf eine perfekte Übersetzung hin, ein BLEU-Wert von 0,0 auf eine schlechte Übersetzung.

C

Kausales Sprachmodell

#language

Synonym für unidirektionales Sprachmodell.

Unter Bidirektionales Sprachmodell erfahren Sie, wie Sie verschiedenen richtungsweisenden Ansätzen bei der Sprachmodellierung gegenüberstellen.

Chain-of-Thought Prompting

#language

#generativeKI

Ein Prompt Engineering, das ein Large Language Model (LLM) dazu anregt, seine Gründe Schritt für Schritt zu erklären. Betrachten Sie zum Beispiel die folgende Aufforderung und achten Sie dabei besonders auf den zweiten Satz:

Wie viele Kräfte würde ein Fahrer in einem Auto erleben, das in 7 Sekunden von 0 auf 60 Meilen pro Stunde fährt? Zeigen Sie in der Antwort alle relevanten Berechnungen an.

Die Antwort des LLM würde wahrscheinlich:

Zeigen Sie eine Folge physikalischer Formeln, wobei Sie die Werte 0, 60 und 7 an geeigneten Stellen einsetzen.
Erklären Sie, warum diese Formeln ausgewählt wurden und was die verschiedenen Variablen bedeuten.

Eine Chain-of-Thought Prompting zwingt das LLM, alle Berechnungen durchzuführen, was zu einer genaueren Antwort führen könnte. Darüber hinaus können Nutzer mithilfe von Chain-of-Thought Prompts die Schritte des LLM prüfen, um festzustellen, ob die Antwort sinnvoll ist.

Chat

#language

#generativeKI

Der Inhalt eines Hin- und Her-Dialogs mit einem ML-System, in der Regel ein Large Language Model. Die vorherige Interaktion in einem Chat (Ihre Eingabe und die Antwort des Large Language Model) wird zum Kontext für die nachfolgenden Teile des Chats.

Ein Chatbot ist eine Anwendung eines Large Language Model.

Konfabulation

#language

Synonym für Halluzination.

Konfabulation ist wahrscheinlich ein technisch genauerer Begriff als Halluzination. Die Halluzination wurde jedoch zuerst populär.

Wahlkreis-Parsing

#language

Das Einteilen eines Satzes in kleinere grammatische Strukturen („Bestandteile“). In einem späteren Teil des ML-Systems, z. B. bei einem Natural Language Understanding-Modell, lassen sich die Bürger leichter parsen als der ursprüngliche Satz. Betrachten Sie zum Beispiel den folgenden Satz:

Meine Freundin hat zwei Katzen adoptiert.

Ein Wähler-Parser kann diesen Satz in die folgenden beiden Bestandteile unterteilen:

Mein Freund ist eine Nominalphrase.
adopted zwei cats ist eine Verbphrase.

Diese Personengruppen lassen sich weiter in kleinere Gruppen unterteilen. Zum Beispiel könnte die Verb-Phrase

adoptierte zwei Katzen

könnte weiter unterteilt werden in:

adopted ist ein Verb.
two cats ist eine weitere Nominalphrase.

kontextbezogene Spracheinbettung

#language

#generativeKI

Eine Einbettung, die dem „Verstehen“ von Wörtern und Wortgruppen so nahe kommt, wie es von Muttersprachlern möglich ist. Kontextisierte Spracheinbettungen können komplexe Syntax, Semantik und Kontext verstehen.

Betrachten Sie beispielsweise Einbettungen des englischen Wortes cow. Ältere Einbettungen wie word2vec können englische Wörter darstellen, sodass die Entfernung im Einbettungsbereich von kuh zu bull der Entfernung von ewe (weibliches Schaf) zu ram (männliches Schaf) oder von weiblich zu männlich entspricht. Kontextisierte Spracheinbettungen können noch einen Schritt weiter gehen, da englischsprachige Nutzer manchmal das Wort kuh für Kuh oder Stier verwenden.

Kontextfenster

#language

#generativeKI

Die Anzahl der Tokens, die ein Modell in einer bestimmten Eingabeaufforderung verarbeiten kann. Je größer das Kontextfenster, desto mehr Informationen kann das Modell verwenden, um kohärente und konsistente Antworten auf den Prompt zu liefern.

Crash Blossom

#language

Ein Satz oder eine Wortgruppe mit mehrdeutiger Bedeutung. Crashblüten stellen ein erhebliches Problem beim natürlichen Sprachverständnis dar. Die Überschrift Red Tape Holds Up Skyscraper ist beispielsweise eine Crashblüte, weil ein NLU-Modell die Überschrift buchstäblich oder bildlich interpretieren könnte.

Klicken Sie auf das Symbol, um weitere Hinweise anzuzeigen.

Nur zur Klarstellung dieser geheimnisvollen Überschrift:

Red Tape könnte sich auf einen der folgenden Begriffe beziehen:
- Klebstoff
- Übermäßige Bürokratie
Holds kann sich auf einen der folgenden Begriffe beziehen:
- Strukturelle Unterstützung
- Verzögerungen

D

Decoder

#language

Im Allgemeinen gilt für jedes ML-System, das von einer verarbeiteten, dichten oder internen Darstellung in eine grobe, dünnbesetzte oder externe Darstellung konvertiert wird.

Decoder sind oft eine Komponente eines größeren Modells, in der sie häufig mit einem Encoder gekoppelt werden.

Bei Sequenz-zu-Sequenz-Aufgaben beginnt ein Decoder mit dem vom Encoder generierten internen Status, um die nächste Sequenz vorherzusagen.

Die Definition eines Decoders in der Transformer-Architektur finden Sie unter Transformer.

Entrauschen

#language

Ein gängiger Ansatz für selbstüberwachtes Lernen, bei dem:

Rauschen wird dem Dataset künstlich hinzugefügt.
Das model versucht, das Rauschen zu entfernen.

Rauschunterdrückung ermöglicht Lernen aus Beispielen ohne Label. Das ursprüngliche Dataset dient als Ziel oder Label und die verrauschten Daten als Eingabe.

Einige maskierte Sprachmodelle verwenden die Entrauschung so:

Rauschen wird einem Satz ohne Label künstlich hinzugefügt, indem einige der Tokens maskiert werden.
Das Modell versucht, die ursprünglichen Tokens vorherzusagen.

direkte Aufforderung

#language

#generativeKI

Synonym für Zero-Shot-Prompts.

E

Entfernung bearbeiten

#language

Ein Maß dafür, wie ähnlich zwei Textzeichenfolgen einander sind. Beim maschinellen Lernen ist die Entfernungsbearbeitung nützlich, da sie einfach zu berechnen ist und eine effektive Möglichkeit ist, zwei Strings zu vergleichen, die bekanntermaßen ähnlich sind, oder um Strings zu finden, die einem bestimmten String ähnlich sind.

Es gibt mehrere Definitionen für Entfernungen, die jeweils unterschiedliche Zeichenfolgenvorgänge verwenden. Für die Levenshtein-Entfernung werden beispielsweise die wenigsten Lösch-, Einfüge- und Ersetzungsvorgänge berücksichtigt.

Der Levenshtein-Abstand zwischen den Wörtern „heart“ und „darts“ beträgt beispielsweise 3, da die folgenden drei Bearbeitungen die geringsten Änderungen sind, um ein Wort in ein anderes umzuwandeln:

Herz → Deart („h“ durch „d“ ersetzen)
deart → dart („e“ löschen)
dart → Darts („s“ einfügen)

Einbettungsebene

#language

#fundamentals

Eine spezielle verborgene Ebene, die mit einem hochdimensionalen kategorialen Feature trainiert, um schrittweise einen Einbettungsvektor mit niedrigerer Dimension zu lernen. Mit einer Einbettungsebene kann ein neuronales Netzwerk weitaus effizienter trainieren als nur das hochdimensionale kategoriale Merkmal zu trainieren.

Zum Beispiel unterstützt die Erde derzeit etwa 73.000 Baumarten. Angenommen, Baumarten sind ein Merkmal in Ihrem Modell. Daher umfasst die Eingabeebene Ihres Modells einen One-Hot-Vektor mit 73.000 Elementen. So würde baobab unter Umständen in etwa so dargestellt werden:

Ein Array mit 73.000 Elementen. Die ersten 6.232 Elemente enthalten den Wert 0. Das nächste Element enthält den Wert 1. Die letzten 66.767 Elemente enthalten den Wert null.

Ein Array mit 73.000 Elementen ist sehr lang. Wenn Sie dem Modell keine Einbettungsebene hinzufügen, wird das Training aufgrund der Multiplikation von 72.999 Nullen sehr zeitaufwendig. Vielleicht wählen Sie die Einbettungsebene für 12 Dimensionen aus. Daher lernt die Einbettungsebene nach und nach einen neuen Einbettungsvektor für jede Baumart.

In bestimmten Situationen ist Hashing eine sinnvolle Alternative zu einer Einbettungsebene.

Einbettungsbereich

#language

Der d-dimensionale Vektorraum, dem Merkmale aus einem höherdimensionalen Vektorraum zugeordnet werden. Idealerweise enthält der Einbettungsbereich eine Struktur, die aussagekräftige mathematische Ergebnisse liefert. In einem idealen Einbettungsbereich können beispielsweise durch Addieren und Subtrahieren von Einbettungen Wort Analogieaufgaben gelöst werden.

Das Punktprodukt zweier Einbettungen ist ein Maß für ihre Ähnlichkeit.

Einbettungsvektor

#language

Im Grunde genommen ein Array von Gleitkommazahlen aus jeder ausgeblendeten Ebene, die die Eingaben für diese verborgene Ebene beschreiben. Häufig ist ein Einbettungsvektor ein Array von Gleitkommazahlen, das in einer Einbettungsebene trainiert wird. Angenommen, eine Einbettungsebene muss für jede der 73.000 Baumarten auf der Erde einen Einbettungsvektor lernen. Vielleicht ist das folgende Array der Einbettungsvektor für einen Affenbrotbaum:

Ein Array mit 12 Elementen, die jeweils eine Gleitkommazahl zwischen 0,0 und 1,0 enthalten.

Ein Einbettungsvektor ist keine Gruppe von Zufallszahlen. Eine Einbettungsebene bestimmt diese Werte durch Training, ähnlich wie ein neuronales Netzwerk während des Trainings andere Gewichtungen lernt. Jedes Element des Arrays ist eine Bewertung sowie ein Merkmal einer Baumart. Welches Element stellt das Merkmal welcher Baumart dar? Das ist für Menschen sehr schwer festzustellen.

Der mathematische Aspekt eines Einbettungsvektors ist, dass ähnliche Elemente ähnliche Gleitkommazahlensätze haben. Ähnliche Baumarten haben beispielsweise ähnlichere Gleitkommazahlen als unterschiedliche Baumarten. Mammutbäume und Mammutbäume sind verwandte Baumarten, daher weisen sie ähnliche Gleitkommazahlen auf als Mammutbäume und Kokospalmen. Die Zahlen im Einbettungsvektor ändern sich jedes Mal, wenn Sie das Modell neu trainieren, auch wenn Sie es mit identischer Eingabe neu trainieren.

Encoder

#language

Im Allgemeinen gilt für jedes ML-System, das von einer Roh-, dünnbesetzten oder externen Darstellung in eine verarbeitetere, dichtere oder internere Darstellung konvertiert wird.

Encoder sind oft eine Komponente eines größeren Modells, in der sie häufig mit einem Decoder gekoppelt sind. Einige Transformer koppeln Encoder und Decodierer, während andere nur den Encoder oder nur den Decoder verwenden.

Einige Systeme verwenden die Ausgabe des Encoders als Eingabe für ein Klassifizierungs- oder Regressionsnetzwerk.

Bei Sequenz-zu-Sequenz-Aufgaben übernimmt ein Encoder eine Eingabesequenz und gibt einen internen Zustand (einen Vektor) zurück. Anschließend verwendet der Decoder diesen internen Zustand, um die nächste Sequenz vorherzusagen.

Die Definition eines Encoders in der Transformer-Architektur finden Sie unter Transformer.

F

Prompts mit wenigen Aufnahmen

#language

#generativeKI

Eine Aufforderung, die mehr als ein (ein paar) Beispiel enthält, das zeigt, wie das Large Language Model reagieren sollte. Die folgende ausführliche Eingabeaufforderung enthält beispielsweise zwei Beispiele, die für ein Large Language Model zeigen, wie eine Abfrage beantwortet wird.

Bestandteile eines Prompts	Hinweise
`Was ist die offizielle Währung des angegebenen Landes?`	Die Frage, die das LLM beantworten soll.
`Frankreich: EUR`	Ein Beispiel:
`Vereinigtes Königreich: GBP`	Ein weiteres Beispiel.
`Indien:`	Die eigentliche Abfrage.

Wenige Prompts liefern in der Regel bessere Ergebnisse als Null-Shot-Prompts und One-Shot-Prompts. Solche Prompts erfordern jedoch länger.

Die Option „Wenige Prompts“ ist eine Form von wenigen Prompts für Prompt-basiertes Lernen.

Geige

#language

Eine Konfigurationsbibliothek, die Python zuerst bietet und die Werte von Funktionen und Klassen ohne invasiven Code oder invasive Infrastruktur festlegt. Im Fall von Pax – und anderen ML-Codebasen – stellen diese Funktionen und Klassen Modelle und Training-Hyperparameter dar.

Fiddle geht davon aus, dass die Codebasis für maschinelles Lernen normalerweise wie folgt unterteilt ist:

Bibliothekscode, der die Ebenen und Optimierer definiert.
Dataset-„Glue“-Code, der die Bibliotheken aufruft und alles miteinander verbindet.

Fiddle erfasst die Aufrufstruktur des Glue-Codes in einer nicht ausgewerteten und änderbaren Form.

Abstimmung

#language

#image

#generativeKI

Ein zweiter, aufgabenspezifischer Trainingspass, der mit einem vortrainierten Modell ausgeführt wird, um seine Parameter für einen bestimmten Anwendungsfall zu optimieren. Für einige Large Language Models sieht der vollständige Trainingsablauf beispielsweise so aus:

Vortraining: Trainieren Sie ein Large Language Model mit einem riesigen allgemeinen Dataset, z. B. allen englischsprachigen Wikipedia-Seiten.
Feinabstimmung:Trainieren Sie das vortrainierte Modell für die Ausführung einer bestimmten Aufgabe, z. B. zum Antworten auf medizinische Anfragen. Die Feinabstimmung umfasst in der Regel Hunderte oder Tausende von Beispielen, die auf die jeweilige Aufgabe ausgerichtet sind.

Als weiteres Beispiel sieht die vollständige Trainingssequenz für ein Modell mit großen Bildern so aus:

Vortraining:Trainieren Sie ein Modell mit großen Bildern anhand eines umfangreichen allgemeinen Bild-Datasets, z. B. mit allen Bildern in Wikimedia Commons.
Feinabstimmung:Trainieren Sie das vortrainierte Modell für die Ausführung einer bestimmten Aufgabe, z. B. zum Generieren von Bildern von Orcas.

Die Optimierung kann eine beliebige Kombination der folgenden Strategien umfassen:

Alle vorhandenen Parameter des vortrainierten Modells ändern. Dies wird auch als vollständige Feinabstimmung bezeichnet.
Nur einige der vorhandenen Parameter des vortrainierten Modells ändern (in der Regel die Ebenen, die der Ausgabeschicht am nächsten sind) und andere vorhandene Parameter unverändert lassen (in der Regel die Ebenen, die der Eingabeebene am nächsten sind). Siehe parametersparende Abstimmung.
Weitere Ebenen hinzufügen, in der Regel auf den vorhandenen Ebenen, die der Ausgabeschicht am nächsten sind

Abstimmung ist eine Form des Lerntransfers. Daher kann bei der Feinabstimmung eine andere Verlustfunktion oder ein anderer Modelltyp als der zum Trainieren des vortrainierten Modells verwendet werden. Sie könnten beispielsweise ein vortrainiertes großes Bildmodell optimieren, um ein Regressionsmodell zu erstellen, das die Anzahl der Vögel in einem Eingabebild zurückgibt.

Die Feinabstimmung mit den folgenden Begriffen vergleichen und gegenüberstellen:

Destillation
Prompt-basiertes Lernen

Kristallgrau

#language

Eine leistungsstarke Open-Source- Bibliothek für Deep Learning, die auf JAX basiert. Flax bietet Funktionen für das Training von neuronalen Netzwerken sowie Methoden zur Leistungsbewertung.

Flachsformer

#language

Eine auf Flax basierende Open-Source-Transformer-Bibliothek, die hauptsächlich für Natural Language Processing und multimodale Forschung entwickelt wurde.

G

Generative AI

#language

#image

#generativeKI

Ein aufstrebendes transformatives Feld ohne formale Definition. Dennoch sind sich die meisten Experten einig, dass Generative-AI-Modelle folgende Inhalte erstellen („generieren“) können:

Komplex
kohärent
ursprünglich

Ein generatives KI-Modell kann beispielsweise anspruchsvolle Aufsätze oder Bilder erstellen.

Einige ältere Technologien, einschließlich LSTMs und RNNs, können auch eigene und kohärente Inhalte generieren. Einige Experten betrachten diese früheren Technologien als Generative AI, während andere der Meinung sind, dass echte Generative AI komplexere Ausgaben erfordert, als diese früheren Technologien liefern können.

Kontrast mit Prognose-ML

GPT (generativer vortrainierter Transformer)

#language

Eine Familie von Large Language Models, die auf Transformer basieren und von OpenAI entwickelt wurden.

GPT-Varianten können auf mehrere Modalitäten angewendet werden, darunter:

Bildgenerierung (z. B. ImageGPT)
Text-zu-Bild-Generierung (z. B. DALL-E).

H

KI-Halluzination

#language

Erstellung einer plausibel erscheinenden, aber sachlich falschen Ausgabe durch ein Generative-AI-Modell, das vorgibt, eine Behauptung über die reale Welt zu treffen. Ein Generative-AI-Modell, in dem behauptet wird, Barack Obama sei 1865 gestorben, ist beispielsweise eine Halluzination.

I

kontextbezogenes Lernen

#language

#generativeKI

Synonym für wenige Shot-Prompts.

L

LaMDA (Language Model for Dialogue Applications)

#language

Ein von Google entwickeltes Large Language Model auf der Grundlage von Transformer, das mit einem großen Dialog-Dataset trainiert wurde, das realistische dialogorientierte Antworten generieren kann.

LaMDA: Unsere bahnbrechende Unterhaltungstechnologie bietet einen Überblick.

Language Model

#language

Ein model, das die Wahrscheinlichkeit schätzt, mit der ein model oder eine Folge von Tokens in einer längeren Folge von Tokens auftritt.

Klicken Sie auf das Symbol, um weitere Hinweise anzuzeigen.

Auch wenn es widersprüchlich klingt, sind viele Modelle, die Text bewerten, keine Sprachmodelle. Textklassifizierungsmodelle und Modelle zur Sentimentanalyse sind beispielsweise keine Sprachmodelle.

Large Language Model

#language

Ein informeller Begriff ohne strikte Definition, der in der Regel ein Sprachmodell mit einer hohen Anzahl von Parametern bezeichnet. Einige Large Language Models enthalten über 100 Milliarden Parameter.

Klicken Sie auf das Symbol, um weitere Hinweise anzuzeigen.

Sie fragen sich vielleicht, ab wann ein Sprachmodell groß genug wird, um als Large Language Model bezeichnet zu werden. Derzeit gibt es keine vereinbarte Definitionszeile für die Anzahl der Parameter.

Die meisten aktuellen Large Language Models (z. B. GPT) basieren auf der Transformer-Architektur.

latenter Bereich

#language

Synonym für Raum einbetten.

LLM

#language

Abkürzung für Large Language Model.

LoRA

#language

#generativeKI

Abkürzung für Anpassungsfähigkeit bei niedrigem Rang

Anpassungsfähigkeit bei niedrigem Rang (LoRA)

#language

#generativeKI

Ein Algorithmus zum effizienten Abstimmen von Parametern, mit dem nur eine Teilmenge der Parameter eines Large Language Model verfeinert wird. LoRA bietet folgende Vorteile:

Sie erfolgt schneller als Verfahren, bei denen alle Parameter eines Modells abgestimmt werden müssen.
Reduziert die Rechenkosten für die Inferenz im abgestimmten Modell.

Bei einem mit LoRA abgestimmten Modell wird die Qualität der Vorhersagen beibehalten oder verbessert.

LoRA ermöglicht mehrere spezialisierte Versionen eines Modells.

M

Masked Language Model

#language

Ein Sprachmodell, das die Wahrscheinlichkeit vorhersagt, dass Kandidatentoken Lücken in einer Sequenz füllen. Ein maskiertes Language Model kann beispielsweise die Wahrscheinlichkeit berechnen, dass potenzielle Worte die Unterstreichung im folgenden Satz ersetzen:

Das ____ mit dem Hut ist zurück.

In der Literatur wird in der Regel die Zeichenfolge „MASK“ statt unterstrichen verwendet. Beispiel:

Die MASK im Hut ist wieder da.

Die meisten modernen maskierten Sprachmodelle sind bidirektional.

Meta-Learning

#language

Ein Teilbereich des maschinellen Lernens, mit dem ein Lernalgorithmus erkannt oder verbessert wird. Ein Meta-Lernsystem kann auch darauf abzielen, ein Modell so zu trainieren, dass es schnell eine neue Aufgabe aus einer kleinen Datenmenge oder aus Erfahrungen aus früheren Aufgaben lernt. Meta-Learning-Algorithmen versuchen im Allgemeinen, Folgendes zu erreichen:

Verbessern oder erlernen Sie manuell entwickelte Funktionen (z. B. einen Initialisierer oder einen Optimierer).
Daten- und recheneffizienter sein
Verbessern Sie die Generalisierung.

Meta-Learning ist mit wenigen Lerneinheiten verbunden.

Modalität

#language

Eine allgemeine Datenkategorie. Zahlen, Text, Bilder, Video und Audio sind beispielsweise fünf verschiedene Modalitäten.

Modellparallelität

#language

Eine Methode zum Skalieren von Training oder Inferenz, bei der verschiedene Teile eines model auf verschiedenen model angewendet werden. Die Modellparallelität ermöglicht Modelle, die zu groß für ein einzelnes Gerät sind.

Zur Implementierung der Modellparallelität geht ein System in der Regel so vor:

Das Modell wird in kleinere Teile zerlegt.
Verteilt das Training dieser kleineren Teile auf mehrere Prozessoren. Jeder Prozessor trainiert seinen eigenen Teil des Modells.
Die Ergebnisse werden kombiniert, um ein einzelnes Modell zu erstellen.

Modellparallelität verlangsamt das Training.

Siehe auch Datenparallelität.

Selbstaufmerksamkeit mit mehreren Kopfen

#language

Eine Erweiterung der Selbstaufmerksamkeit, bei der der Selbstaufmerkungsmechanismus für jede Position in der Eingabesequenz mehrmals angewendet wird.

Transformers hat Mehrkopf-Selbstaufmerksamkeit eingeführt.

multimodales Modell

#language

Ein Modell, dessen Ein- und/oder Ausgaben mehr als eine Modalität enthalten. Angenommen, ein Modell nimmt sowohl ein Bild als auch eine Bildunterschrift (zwei Modalitäten) als Features an und gibt eine Punktzahl aus, die angibt, wie angemessen die Bildunterschrift für das Bild ist. Die Eingaben dieses Modells sind multimodal und die Ausgabe unimodal.

N

Natural Language Understanding

#language

Feststellen von Absichten eines Nutzers auf der Grundlage dessen, was er eingegeben oder gesagt hat. Beispielsweise nutzt eine Suchmaschine Natural Language Understanding, um anhand der eingegebenen oder Äußerungen des Nutzers zu ermitteln, wonach der Nutzer sucht.

N-Gramm

#seq

#language

Eine geordnete Folge von n Wörtern. Zum Beispiel ist truly madly ein 2-Gramm. Da Reihenfolge relevant ist, ist madly Real ein anderes 2-Gramm als wirklich verrückt.

N	Name(n) für diese Art von N-Gramm	Beispiele
2	Bigram oder 2-Gramm	essen gehen, besuchen, zu Mittag essen, zu Abend essen
3	Trigram oder 3-Gramm	zu viel gegessen, drei blinde Mäuse, der Glockenton
4	4 Gramm	im Park spazieren gehen, im Wind staunen, der Junge aß Linsen

Viele Modelle für Natural Language Understanding beruhen auf N-Grammen, um das nächste Wort vorherzusagen, das der Nutzer eingeben oder sagen wird. Angenommen, ein Nutzer hat Three blind eingegeben. Ein NLU-Modell, das auf Trigrammen basiert, würde wahrscheinlich vorhersagen, dass der Nutzer als Nächstes Mäuse eintippen wird.

Stellen Sie N-Gramme mit Bag of Words (Bag of Words) gegenüber, bei denen es sich um ungeordnete Wortgruppen handelt.

NLU

#language

Abkürzung für Natural Language Understanding (Natursprachverständnis).

O

One-Shot Prompting

#language

#generativeKI

Eine Aufforderung mit einem Beispiel, das zeigt, wie das Large Language Model reagieren sollte. Die folgende Eingabeaufforderung enthält beispielsweise ein Beispiel für ein Large Language Model, das zeigt, wie eine Abfrage beantwortet werden sollte.

Bestandteile eines Prompts	Hinweise
`Was ist die offizielle Währung des angegebenen Landes?`	Die Frage, die das LLM beantworten soll.
`Frankreich: EUR`	Ein Beispiel:
`Indien:`	Die eigentliche Abfrage.

Vergleichen Sie One-Shot Prompts mit den folgenden Begriffen und stellen Sie sie gegenüber:

Zero-Shot-Prompts
wenige Aufnahmen

P

Parameter-effiziente Abstimmung

#language

#generativeKI

Eine Reihe von Techniken zur Feinabstimmung eines großen vortrainierten Language Model (PLM) effizienter als eine vollständige Feinabstimmung. Bei der Parameteroptimierung werden in der Regel weitaus weniger Parameter als eine vollständige Feinabstimmung optimiert. Im Allgemeinen ist damit jedoch ein Large Language Model möglich, das genauso gut (oder fast genauso gut) wie ein Large Language Model funktioniert, das auf vollständiger Feinabstimmung basiert.

Parametersparende Abstimmung vergleichen und gegenüberstellen mit:

Die Parameter-optimierte Abstimmung wird auch als parametereffiziente Feinabstimmung bezeichnet.

Rohrleitungen

#language

Eine Form der Modellparallelität, bei der die Verarbeitung eines Modells in aufeinanderfolgende Phasen unterteilt ist und jede Phase auf einem anderen Gerät ausgeführt wird. Während in einer Phase ein Batch verarbeitet wird, kann die vorherige Phase mit dem nächsten Batch weiterarbeiten.

Weitere Informationen finden Sie unter Gestaffeltes Training.

PLM

#language

#generativeKI

Abkürzung für vortrainiertes Sprachmodell

Positionscodierung

#language

Ein Verfahren zum Hinzufügen von Informationen zur Position eines Tokens in einer Sequenz zur Einbettung des Tokens. Transformer-Modelle verwenden die Positionscodierung, um die Beziehung zwischen verschiedenen Teilen der Sequenz besser zu verstehen.

Eine gängige Implementierung der positionalen Codierung verwendet eine Sinusoidfunktion. Genauer gesagt werden Frequenz und Amplitude der Sinusoidalfunktion durch die Position des Tokens in der Sequenz bestimmt. Mit diesem Verfahren kann ein Transformer-Modell lernen, verschiedene Teile der Sequenz basierend auf ihrer Position zu berücksichtigen.

vortrainiertes Modell

#language

#image

#generativeKI

Modelle oder Modellkomponenten (z. B. ein Einbettungsvektor), die bereits trainiert wurden. Manchmal geben Sie vortrainierte Einbettungsvektoren in ein neuronales Netzwerk ein. In anderen Fällen trainiert Ihr Modell die Einbettungsvektoren selbst, anstatt sich auf die vortrainierten Einbettungen zu verlassen.

Der Begriff vortrainiertes Language Model bezieht sich auf ein Large Language Model, das Vortraining durchlaufen hat.

Vortraining

#language

#image

#generativeKI

Erstes Training eines Modells mit einem großen Dataset. Einige vortrainierte Modelle sind ungeschickt und müssen in der Regel durch ein zusätzliches Training verfeinert werden. Beispielsweise können ML-Experten ein Large Language Model für ein umfangreiches Text-Dataset wie alle englischen Seiten in Wikipedia vorab trainieren. Nach dem Vorabtraining kann das resultierende Modell durch eine der folgenden Techniken weiter verfeinert werden:

Destillation
Feinabstimmung
Anpassung von Anleitungen
parametersparende Abstimmung
Einstellung von Aufforderungen

Prompt

#language

#generativeKI

Text, der als Eingabe in ein Large Language Model eingegeben wird, um das Modell so zu konditionieren, dass es sich auf ein bestimmtes Verhalten verhält. Aufforderungen können kurz oder beliebig lang sein (z. B. der gesamte Text eines Romans). Aufforderungen lassen sich in mehrere Kategorien einteilen, darunter die in der folgenden Tabelle gezeigten:

Aufforderungskategorie	Beispiel	Hinweise
Frage	`Wie schnell kann eine Taube fliegen?`
Anleitung	`Schreib ein lustiges Gedicht über Arbitrage.`	Eine Aufforderung, die das Large Language Model zu Maßnahmen auffordert.
Beispiel	`Übersetzen Sie Markdown-Code in HTML. Beispiel: Markdown: * Listeneintrag HTML: <ul> <li>Listeneintrag</li> </ul>`	Der erste Satz in diesem Beispiel-Prompt ist eine Anweisung. Der Rest des Prompts ist das Beispiel.
Rolle	`Erläutern Sie, warum das Gradientenverfahren beim Training von maschinellem Lernen zum Thema Physik verwendet wird.`	Der erste Teil des Satzes ist eine Anweisung. Der Satz „an einen Doktortitel in Physik“ ist die Rolle.
Teileingabe für den Abschluss des Modells	`Der Premierminister des Vereinigten Königreichs lebt in`	Eine teilweise Eingabe-Prompt kann entweder abrupt enden (wie in diesem Beispiel) oder mit einem Unterstrich enden.

Ein Generative-AI-Modell kann auf einen Prompt mit Text, Code, Bildern, Einbettungen, Videos usw. reagieren.

Prompt-basiertes Lernen

#language

#generativeKI

Eine Funktion bestimmter Modelle, die es ihnen ermöglichen, ihr Verhalten als Reaktion auf beliebige Texteingaben (Aufforderungen) anzupassen. Bei einem typischen Prompt-basierten Lernmodell reagiert ein Large Language Model auf eine Aufforderung mit dem Generieren von Text. Angenommen, ein Nutzer gibt die folgende Eingabeaufforderung ein:

Das dritte Newtonsche Gesetz zusammenfassen.

Ein Modell, das Prompt-basiertes Lernen ermöglicht, wird nicht speziell für die Beantwortung der vorherigen Aufforderung trainiert. Das Modell „weiß“ viel über Physik, viel über allgemeine Sprachregeln und darüber, was allgemein nützliche Antworten sind. Dieses Wissen reicht aus, um eine (hoffentlich) nützliche Antwort zu geben. Zusätzliches menschliches Feedback ("Diese Antwort war zu kompliziert." oder "Was ist eine Reaktion?") ermöglicht einigen Prompt-basierten Lernsystemen, den Nutzen ihrer Antworten nach und nach zu verbessern.

Prompt-Design

#language

#generativeKI

Synonym für Prompt Engineering.

Prompt Engineering

#language

#generativeKI

Die Kunst, Aufforderungen zu erstellen, die von einem Large Language Model die gewünschten Antworten erhalten. Menschen führen Prompt- Engineering durch. Das Schreiben gut strukturierter Prompts ist ein wesentlicher Bestandteil der Gewährleistung nützlicher Antworten von einem Large Language Model. Prompt Engineering hängt von vielen Faktoren ab, darunter:

Mit dem Dataset wird das Large Language Model vortrainiert und möglicherweise optimiert.
Die temperature und andere Decodierungsparameter, die das Modell zum Generieren von Antworten verwendet.

Weitere Informationen zum Schreiben hilfreicher Prompts finden Sie unter Einführung in den Prompt-Entwurf.

Prompt-Entwurf ist ein Synonym für Prompt Engineering.

Aufforderungsabstimmung

#language

#generativeKI

Ein Mechanismus zur effizienten Abstimmung von Parametern, der ein „Präfix“ erlernt, das das System der eigentlichen Eingabeaufforderung vorangestellt hat.

Eine Variante der Feinabstimmung von Aufforderungen – auch Präfixabstimmung genannt – besteht darin, das Präfix jeder Schicht voranzustellen. Im Gegensatz dazu wird bei der Feinabstimmung von Aufforderungen bei der meisten Einstellung nur der Eingabeebene ein Präfix hinzugefügt.

Klicken Sie auf das Symbol, um mehr über Präfixe zu erfahren.

Für die Feinabstimmung von Prompts ist das „Präfix“ (auch als „Soft Prompt“ bezeichnet) eine Handvoll erlernter, aufgabenspezifischer Vektoren, die den Texttoken-Einbettungen der tatsächlichen Aufforderung vorangestellt werden. Das System lernt den weichen Prompt, indem es alle anderen Modellparameter einfriert und eine Feinabstimmung für eine bestimmte Aufgabe durchführt.

R

Rollenaufforderung

#language

#generativeKI

Ein optionaler Teil eines Prompts, der eine Zielgruppe für die Antwort eines Generative AI-Modells angibt. Ohne Rollenaufforderung liefert ein Large Language Model eine Antwort, die für die Person, die die Fragen stellt, nützlich oder nicht nützlich sein kann. Mit einer Rollenaufforderung kann ein Large Language Model die Antwort auf eine Weise beantworten, die für eine bestimmte Zielgruppe geeigneter und hilfreicher ist. Beispielsweise ist der Teil der folgenden Aufforderungen fett formatiert:

Fasse diesen Artikel für einen Doktortitel in Wirtschaftswissenschaften zusammen.
Beschreibe, wie die Gezeiten für ein zehnjähriges Kind funktionieren.
Die Finanzkrise von 2008 erklären Sprechen Sie mit einem Kind oder einem Golden Retriever.

S

Selbstaufmerksamkeit

#language

Eine neuronale Netzwerkschicht, die eine Folge von Einbettungen (z. B. Tokeneinbettungen) in eine andere Folge von Einbettungen umwandelt. Jede Einbettung in der Ausgabesequenz wird erstellt, indem Informationen aus den Elementen der Eingabesequenz über einen attention-Mechanismus integriert werden.

Der self-Teil der Self-Aufmerksamkeit bezieht sich auf die Abfolge, die auf sich selbst achtet, nicht auf einen anderen Kontext. Selbstaufmerksamkeit ist einer der Hauptbausteine für Transformers. Sie verwendet Terminologie für die Wörterbuchsuche, z. B. "Abfrage", "Schlüssel" und "Wert".

Eine Selbstaufmerksamkeitsschicht beginnt mit einer Abfolge von Eingabedarstellungen, eine für jedes Wort. Die Eingabedarstellung für ein Wort kann eine einfache Einbettung sein. Für jedes Wort in einer Eingabesequenz bewertet das Netzwerk die Relevanz des Wortes für jedes Element in der gesamten Wortsequenz. Die Relevanzwerte bestimmen, wie stark die endgültige Darstellung des Wortes die Darstellungen anderer Wörter enthält.

Betrachten Sie zum Beispiel den folgenden Satz:

Das Tier ist die Straße nicht überquert, weil es zu müde war.

Die folgende Abbildung aus Transformer: A Novel Neural Network Architecture for Language Understanding zeigt das Aufmerksamkeitsmuster einer Selbstaufmerksamkeit für das Pronomen it, wobei die Dunkelheit jeder Zeile angibt, welchen Beitrag jedes Wort zur Darstellung beiträgt:

Der folgende Satz kommt zweimal vor: Das Tier ist die Straße nicht überquert, weil es zu müde war. Linien verbinden das Pronomen in einem Satz mit fünf Tokens (The, Tier, Street, it und Punkt) im anderen Satz. Die Linie zwischen dem Pronomen es und dem Wort „Tier“ ist am stärksten.

Die Ebene „Selbstaufmerksamkeit“ hebt Wörter hervor, die für „es“ relevant sind. In diesem Fall hat die Aufmerksamkeitsschicht gelernt, Wörter hervorzuheben, auf die sie sich beziehen könnte, und weist tier die höchste Gewichtung zu.

Bei einer Sequenz von n Tokens wandelt Self-attention eine Sequenz von Einbettungen n separate Male um, einmal an jeder Position in der Sequenz.

Weitere Informationen findest du unter Aufmerksamkeit und Selbstaufmerksamkeit mit mehreren Kopfen.

Histogramm: Sentimentanalyse

#language

Die Verwendung statistischer oder maschineller Lernalgorithmen, um die allgemeine Einstellung einer Gruppe – positiv oder negativ – gegenüber einer Dienstleistung, einem Produkt, einer Organisation oder einem Thema zu bestimmen. Beispielsweise kann ein Algorithmus mithilfe von Natural Language Understanding eine Sentimentanalyse für das Textfeedback aus einem Universitätskurs durchführen, um festzustellen, inwieweit Studenten der Kurs im Allgemeinen gefallen bzw. nicht gefallen hat.

Sequenz-zu-Sequenz-Aufgabe

#language

Eine Aufgabe, die eine Eingabesequenz von Tokens in eine Ausgabesequenz von Tokens konvertiert. Zwei beliebte Arten von Sequenz-zu-Sequenz-Aufgaben sind beispielsweise:

Übersetzer:
- Beispieleingabesequenz: „Ich liebe dich.“
- Beispielausgabesequenz: „Je t'aime.“
Fragen beantworten:
- Beispiel für eine Eingabesequenz: „Brauche ich mein Auto in New York City?“
- Beispiel für eine Ausgabesequenz: „Nein. Bitte lassen Sie Ihr Auto zu Hause.“

Skip-Gramm

#language

Ein N-Gramm, bei dem Wörter aus dem ursprünglichen Kontext weggelassen (oder „überspringen“) werden, sodass die N-Wörter möglicherweise nicht ursprünglich nebeneinander standen. Genauer gesagt ist ein „k-skip-n-gram“ ein N-Gramm, für das bis zu k Wörter übersprungen wurden.

Der schnelle braune Fuchs hat beispielsweise die folgenden 2 Gramm:

„die schnelle“
"schnelles Braun"
"brauner Fuchs"

„1-überspringen-2-gramm“ ist ein Wortpaar, in dem höchstens ein Wort zwischen ihnen steht. Daher hat „der schnell braune Fuchs“ die folgenden 2 Gramme, die man überspringen kann:

„der Braun“
„Quick Fox“

Außerdem sind alle 2-Gramme auch 1-überspringen-2-Gramme, da weniger als ein Wort übersprungen werden kann.

Mit Skip-Grammen können Sie den Kontext eines Wortes besser verstehen. Im Beispiel wurde „Fuchs“ in der Gruppe von 1-überspringen-2-Grammen direkt mit „schnell“ in Verbindung gebracht, aber nicht in der Menge der 2-Gramme.

Skip-Gramme helfen beim Trainieren von Worteinbettungsmodellen.

Vorläufige Einstellung von Prompts

#language

#generativeKI

Verfahren zur Abstimmung eines Large Language Model für eine bestimmte Aufgabe ohne ressourcenintensive Feinabstimmung. Anstatt alle Gewichtungen im Modell neu zu trainieren, wird bei der Feinabstimmung von weichen Prompts automatisch eine Aufforderung so angepasst, dass dasselbe Ziel erreicht wird.

Bei einer Aufforderung in Textform werden bei der Feinabstimmung von Aufforderungen in der Regel zusätzliche Tokeneinbettungen an die Aufforderung angehängt und die Eingabe wird durch Backpropagierung optimiert.

Eine „harte“ Eingabeaufforderung enthält tatsächliche Tokens anstelle von Tokeneinbettungen.

dünnbesetztes Feature

#language

#fundamentals

Ein Feature, dessen Werte überwiegend null oder leer sind. Beispiel: Ein Feature mit einem einzelnen Wert 1 und einer Million 0-Werten ist dünnbesetzt. Im Gegensatz dazu hat ein dichtes Feature Werte, die überwiegend nicht null oder leer sind.

Beim maschinellen Lernen gibt es erstaunlich viele Funktionen, die nur dünnbesetzt sind. Kategorische Merkmale sind in der Regel dünnbesetzte Merkmale. Beispielsweise könnte von den 300 möglichen Baumarten in einem Wald in einem einzelnen Beispiel nur ein Ahornbaum identifiziert werden. Oder unter den Millionen möglicher Videos in einer Videobibliothek könnte ein einzelnes Beispiel nur „Casablanca“ heißen.

In einem Modell stellen Sie dünnbesetzte Features in der Regel mit One-Hot-Codierung dar. Wenn die One-Hot-Codierung groß ist, können Sie für eine höhere Effizienz eine Einbettungsschicht über die One-Hot-Codierung legen.

dünnbesetzte Darstellung

#language

#fundamentals

Nur die Position(en) von Elementen ungleich null in einem dünnbesetzten Feature speichern.

Angenommen, ein kategoriales Feature namens species identifiziert die 36 Baumarten in einem bestimmten Wald. Nehmen wir weiter an, dass jedes Beispiel nur eine einzelne Art identifiziert.

Sie könnten einen One-Hot-Vektor verwenden, um die Baumarten in jedem Beispiel darzustellen. Ein One-Hot-Vektor enthält eine einzelne 1 (zur Darstellung der jeweiligen Baumart in diesem Beispiel) und 35 0s (um die 35 Baumarten darzustellen, die in diesem Beispiel nicht). Die One-Hot-Darstellung von maple könnte also in etwa so aussehen:

Ein Vektor, in dem die Positionen 0 bis 23 den Wert 0, Position 24 den Wert 1 und die Positionen 25 bis 35 den Wert 0 enthalten.

Alternativ würde bei einer dünnbesetzten Darstellung einfach die Position der jeweiligen Art identifiziert werden. Wenn sich maple auf Position 24 befindet, würde die dünnbesetzte Darstellung von maple einfach so aussehen:

Beachten Sie, dass die dünnbesetzte Darstellung viel kompakter ist als die One-Hot-Darstellung.

Klicken Sie auf das Symbol, um ein etwas komplexeres Beispiel anzuzeigen.

Angenommen, jedes Beispiel in Ihrem Modell muss die Wörter – aber nicht die Reihenfolge dieser Wörter – in einem englischen Satz darstellen. Englisch besteht aus etwa 170.000 Wörtern. Englisch ist also ein kategoriales Merkmal mit etwa 170.000 Elementen. Die meisten englischen Sätze enthalten einen sehr winzigen Bruchteil dieser 170.000 Wörter, sodass die Wörter in einem einzigen Beispiel mit hoher Wahrscheinlichkeit wenig Daten enthalten.

Betrachten Sie den folgenden Satz:

My dog is a great dog

Sie können eine Variante eines One-Hot-Vektors verwenden, um die Wörter in diesem Satz darzustellen. Bei dieser Variante können mehrere Zellen im Vektor einen Wert ungleich null enthalten. Außerdem kann in dieser Variante eine Zelle eine andere Ganzzahl enthalten. Obwohl die Wörter „my“, „is“, „a“ und „great“ nur einmal im Satz vorkommen, kommt das Wort „Hund“ zweimal vor. Wenn Sie diese Variante von One-Hot-Vektoren zur Darstellung der Wörter in diesem Satz verwenden,ergibt sich der folgende Vektor mit 170.000 Elementen:

Eine dünnbesetzte Darstellung desselben Satzes wäre einfach:

Klicken Sie auf das Symbol, wenn Sie unsicher sind.

Der Begriff „dünnbesetzte Darstellung“ verwirrt viele Menschen, da eine dünnbesetzte Darstellung selbst kein dünnbesetzter Vektor ist. Eine dünnbesetzte Darstellung ist eigentlich eine dichte Darstellung eines dünnbesetzten Vektors. Das Synonym Indexdarstellung ist etwas klarer als eine "dünnbesetzte Darstellung".

Gestaffeltes Training

#language

Taktik, bei der ein Modell in einer Abfolge von diskreten Phasen trainiert wird. Das Ziel kann entweder die Beschleunigung des Trainingsprozesses oder die Verbesserung der Modellqualität sein.

Hier sehen Sie eine Abbildung des Progressive-Stacking-Ansatzes:

Phase 1 enthält drei versteckte Ebenen, Phase 2 sechs versteckte Ebenen und Phase 3 12 versteckte Ebenen.
Phase 2 beginnt mit dem Training mit den Gewichtungen, die Sie in den drei verborgenen Schichten von Phase 1 gelernt haben. Phase 3 beginnt mit dem Training mit den erlernten Gewichten aus den 6 verborgenen Schichten von Phase 2.

Drei Phasen, die mit Phase 1, Phase 2 und Phase 3 beschriftet sind.
Jede Phase enthält eine andere Anzahl von Ebenen: Phase 1 enthält drei Ebenen, Phase 2 6 und Phase 3 12 Ebenen.
Die drei Ebenen aus Phase 1 werden zu den ersten drei Ebenen von Phase 2.
In ähnlicher Weise werden die sechs Ebenen aus Phase 2 zu den ersten sechs Ebenen von Phase 3.

Weitere Informationen finden Sie unter Pipeline.

Unterworttoken

#language

In Sprachmodellen ein Token, das ein Teilstring eines Wortes ist, bei dem es sich um das gesamte Wort handeln kann.

Ein Wort wie „itemize“ kann beispielsweise in die Stücke „item“ (Stammwort) und „ize“ (ein Suffix) aufgeteilt werden, die jeweils durch ein eigenes Token dargestellt werden. Durch die Aufteilung ungewöhnlicher Wörter in solche, sogenannte Unterwörter, können Sprachmodelle mit den am häufigsten verwendeten Bestandteilen des Wortes arbeiten, z. B. Präfixe und Suffixe.

Umgekehrt lassen sich gängige Wörter wie „fortlaufend“ nicht aufsplitten, sondern können durch ein einzelnes Token dargestellt werden.

T

T5

#language

Ein Text-zu-Text-Lernmodell, das 2020 von Google AI eingeführt wurde. T5 ist ein Encoder-Decoder-Modell, das auf der Transformer-Architektur basiert und mit einem extrem großen Dataset trainiert wurde. Er kann bei einer Vielzahl von Natural Language Processing-Aufgaben eingesetzt werden, z. B. beim Generieren von Text, Übersetzen von Sprachen und Beantworten von Fragen in natürlicher Sprache.

T5 wird nach den fünf Ts in „Text-to-Text Transfer Transformer“ benannt.

T5X

#language

Ein Open-Source-Framework für maschinelles Lernen, das zum Erstellen und Trainieren von großen NLP-Modellen (Natural Language Processing) entwickelt wurde. T5 wird auf der T5X-Codebasis implementiert, die auf JAX und Flax basiert.

Temperatur

#language

#image

#generativeKI

Ein Hyperparameter, der den Grad der Zufälligkeit einer Modellausgabe steuert. Bei höheren Temperaturen ist die Ausgabe zufälliger, bei niedrigeren Temperaturen ist die Ausgabe weniger zufällig.

Die Auswahl der besten Temperatur hängt von der spezifischen Anwendung und den bevorzugten Attributen der Modellausgabe ab. Beispielsweise würden Sie die Temperatur wahrscheinlich erhöhen, wenn Sie eine Anwendung erstellen, mit der Creatives generiert werden. Umgekehrt würden Sie wahrscheinlich die Temperatur senken, wenn Sie ein Modell erstellen, das Bilder oder Text klassifiziert, um die Genauigkeit und Konsistenz des Modells zu verbessern.

Die Temperatur wird häufig mit Softmax verwendet.

Textbereich

#language

Der Array-Index-Span, der einem bestimmten Unterabschnitt eines Textstrings zugeordnet ist. Das Wort good im Python-String s="Be good now" belegt beispielsweise die Textspanne von 3 bis 6.

Token

#language

In einem Sprachmodell die atomare Einheit, mit der das Modell trainiert und für die es Vorhersagen trifft. Ein Token hat in der Regel eines der folgenden Elemente:

ein Wort. Die Wortgruppe "Hunde wie Katzen" besteht beispielsweise aus drei Worttokens: "Hunde", "wie" und "Katzen".
ein Zeichen verwenden. Der Ausdruck "bike Fish" besteht beispielsweise aus neun Zeichentokens. Hinweis: Der leere Bereich zählt als eines der Tokens.
Unterwörtern – in denen ein einzelnes Wort ein einzelnes Token oder mehrere Tokens sein kann. Ein Unterwort besteht aus einem Stammwort, einem Präfix oder einem Suffix. In einem Sprachmodell, das Unterwörter als Tokens verwendet, könnte beispielsweise das Wort "dogs" als zwei Tokens betrachtet werden (das Stammwort "dog" und das Pluralsuffix "s"). Im selben Sprachmodell könnte das einzelne Wort „größer“ als zwei Unterwörter (das Stammwort „tall“ und das Suffix „er“) angezeigt werden.

In Domains außerhalb von Sprachmodellen können Tokens andere Arten von atomaren Einheiten darstellen. Im Bereich des maschinellen Sehens kann ein Token beispielsweise eine Teilmenge eines Bildes sein.

Transformer

#language

Eine von Google entwickelte neuronale Netzwerkarchitektur, die auf Selbstaufmerksamkeitsmechanismen stützt, um eine Folge von Eingabeeinbettungen in eine Folge von Ausgabeeinbettungen umzuwandeln, ohne auf Faltungen oder recurrent neuronale Netze zurückzugreifen. Ein Transformer kann als ein Stapel von Selbstaufmerksamkeitsschichten betrachtet werden.

Ein Transformer kann Folgendes enthalten:

einen Encoder
Decoder
Encoder und Decoder

Ein Encoder wandelt eine Sequenz von Einbettungen in eine neue Sequenz derselben Länge um. Ein Encoder umfasst N identische Schichten, von denen jede zwei Unterschichten enthält. Diese beiden Unterebenen werden auf jede Position der Einbettungssequenz der Eingabe angewendet und wandeln jedes Element der Sequenz in eine neue Einbettung um. Die erste Encoder-Unterebene aggregiert Informationen aus der gesamten Eingabesequenz. Die zweite Codierer-Unterebene wandelt die aggregierten Informationen in eine Ausgabeeinbettung um.

Ein Decoder wandelt eine Sequenz von Eingabeeinbettungen in eine Sequenz von Ausgabeeinbettungen um, wobei diese auch eine andere Länge haben kann. Ein Decoder umfasst außerdem n identische Schichten mit drei Unterschichten, von denen zwei den Encoder-Unterschichten ähneln. Die dritte Decoder-Unterebene verwendet die Ausgabe des Encoders und wendet den Self-Aufmerksamkeitsmechanismus an, um Informationen daraus zu erfassen.

Der Blogpost Transformer: A Novel Neural Network Architecture for Language Understanding bietet eine gute Einführung in Transformers.

Trigram

#seq

#language

Ein N-Gramm, in dem N=3 ist.

U

unidirektional

#language

Ein System, das nur den Text bewertet, der einem Zieltext vor ist. Im Gegensatz dazu wertet ein bidirektionales System sowohl den Text aus, der einem Zieltextabschnitt vorgeht als auch folgen. Weitere Informationen finden Sie unter bidirektionale Anwendungen.

Unidirektionales Sprachmodell

#language

Ein Sprachmodell, das seine Wahrscheinlichkeiten nur auf den Tokens stützt, die vor und nicht nach den Zieltoken(s) erscheinen. Kontrast mit dem bidirektionalen Sprachmodell

V

Variational Autoencoder (VAE)

#language

Ein Typ von Autoencoder, der die Diskrepanz zwischen Ein- und Ausgaben nutzt, um modifizierte Versionen der Eingaben zu generieren. Variationale Autoencoder sind nützlich für Generative AI.

VAEs basieren auf der Variationsinferenz: einer Methode zur Schätzung der Parameter eines Wahrscheinlichkeitsmodells.

W

Worteinbettung

#language

Darstellung jedes Wortes in einem Wortsatz innerhalb eines Einbettungsvektors, d. h. jedes Wort als Vektor von Gleitkommawerten zwischen 0,0 und 1,0 Wörter mit ähnlicher Bedeutung werden ähnlicher dargestellt als Wörter mit unterschiedlichen Bedeutungen. So würden beispielsweise Karotten, Verkäufer und Gurken relativ ähnlich dargestellt, was sich stark von den Darstellungen von Flugzeug, Sonnenbrille und Zahnpasta unterscheidet.

Z

Zero-Shot-Prompts

#language

#generativeKI

Eine Aufforderung, die kein Beispiel dafür bietet, wie das Large Language Model reagieren soll. Beispiel:

Bestandteile eines Prompts	Hinweise
`Was ist die offizielle Währung des angegebenen Landes?`	Die Frage, die das LLM beantworten soll.
`Indien:`	Die eigentliche Abfrage.

Das Large Language Model kann mit Folgendem antworten:

Rupie
INR
₹
Indische Rupie
Die Rupie
Indische Rupie

Alle Antworten sind richtig, auch wenn Sie vielleicht ein bestimmtes Format bevorzugen.

Vergleichen Sie Zero-Shot-Prompts mit den folgenden Begriffen und stellen Sie sie gegenüber:

One-Shot Prompting
wenige Aufnahmen