Diese Seite wurde von der Cloud Translation API übersetzt.

Large Language Models

Was ist ein Sprachmodell?

Ein Language Modelschätzt die Wahrscheinlichkeit, dass ein Token oder eine Tokenfolge in einer längeren Tokenfolge auftritt. Ein Token kann ein Wort, ein Unterwort (eine Teilmenge eines Wortes) oder auch ein einzelnes Zeichen sein.

Klicken Sie auf das Symbol, um mehr über Tokens zu erfahren.

Die meisten modernen Language Models werden durch Unterwörter tokenisiert, d. h. durch Blöcke Text mit semantischer Bedeutung. Die Blöcke können von einzelnen Zeichen wie Satzzeichen oder dem Genitiv-„s“ s bis hin zu ganzen Wörtern variieren. Präfixe und Suffixe können als separate Subwörter dargestellt werden. Das Wort unwatched könnte beispielsweise durch die folgenden drei Teilwörter dargestellt werden:

un (das Präfix)
watch (Stammverzeichnis)
ed (Suffix)

Das Wort Katzen kann durch die folgenden zwei Unterwörter dargestellt werden:

cat (das Stammverzeichnis)
s (Suffix)

Ein komplexeres Wort wie „Antidisetabilismus“ für die verschiedenen als sechs Unterwörter:

anti
dis
etablieren
ment
arisch / arisch
ISM

Die Tokenisierung ist sprachspezifisch. Die Anzahl der Zeichen pro Token unterscheidet sich daher je nach Sprache. Im Englischen entspricht ein Token ~4 Zeichen. Das sind etwa 3/4 eines Wortes, also 400 Tokens ~= 300 englische Wörter.

Tokens sind die atomare Einheit oder die kleinste Einheit der Sprachmodellierung.

Tokens werden jetzt auch auf maschinelles Sehen und Audiogenerierung.

Betrachten Sie den folgenden Satz und die Token, mit denen er vervollständigt werden könnte:

When I hear rain on my roof, I _______ in my kitchen.

Ein Sprachmodell bestimmt die Wahrscheinlichkeiten verschiedener Tokens oder Tokenfolgen, um die Lücke zu füllen. Beispiel: Die Wahrscheinlichkeitstabelle enthält einige mögliche Tokens und ihre Wahrscheinlichkeiten:

Probability	Token
9,4%	Suppe kochen
5,2 %	einen Wasserkocher aufwärmen
3,6 %	cower
2,5 %	Nickerchen
2,2 %	Relaxen

In einigen Situationen kann die Tokensequenz ein ganzer Satz sein, oder sogar einen ganzen Aufsatz.

Eine Anwendung kann die Wahrscheinlichkeitstabelle verwenden, um Vorhersagen zu treffen. Die Vorhersage kann die höchste Wahrscheinlichkeit (z. B. „Suppe kochen“) oder eine zufällige Auswahl aus Tokens mit einer Wahrscheinlichkeit über einem bestimmten Grenzwert sein.

Die Schätzung der Wahrscheinlichkeit dafür, was die Lücke in einer Textsequenz ausfüllt, kann auf komplexere Aufgaben ausgeweitet werden, einschließlich:

Text wird generiert.
Text von einer Sprache in eine andere übersetzen
Dokumente zusammenfassen

Durch die Modellierung der statistischen Muster von Tokens entwickeln moderne Sprachmodelle äußerst leistungsstarke interne Repräsentationen von Sprache und können plausible Sprache generieren.

N-Gramm-Sprachmodelle

N-Gramme sind geordnete Wortfolgen. zum Erstellen von Sprachmodellen, wobei N die Anzahl der Wörter in der Sequenz ist. Wenn N beispielsweise 2 ist, wird das N-Gramm als 2-Gramm (oder Bigram) bezeichnet. Wenn N 5 ist, wird das N-Gramm als 5-Gramm bezeichnet. Ausgehend von der folgenden Formulierung in einem Trainingsdokument:

you are very nice

Die resultierenden Zwei-Gramme sind:

Sie sind
sind sehr
sehr schön

Wenn N 3 ist, wird das N-Gramm als 3-Gramm (oder ein Trigramm). Bei derselben Wortgruppe Daraus ergibt sich Folgendes:

Sie sind sehr
sind sehr nett

Bei der Eingabe von zwei Wörtern kann ein auf 3Grammen basierendes Language Model vorhersagen, die Wahrscheinlichkeit des dritten Wortes. Nehmen wir zum Beispiel die folgenden beiden Wörter:

orange is

Ein Sprachmodell untersucht alle 3-Gramme, die aus seinem Training abgeleitet wurden. Korpus, die mit orange is beginnen, um das wahrscheinlichste dritte Wort zu bestimmen. Hunderte von 3 Gramm könnten mit den zwei Wörtern orange is beginnen, aber du kannst konzentrieren wir uns ausschließlich auf die beiden folgenden Möglichkeiten:

orange is ripe
orange is cheerful

Bei der ersten Möglichkeit (orange is ripe) handelt es sich um die orangefarbene Frucht, während bei der zweiten Möglichkeit (orange is cheerful) die Farbe Orange.

Kontext

Menschen können relativ lange Kontexte behalten. Bei der Wiedergabe von Akt 3 eines Stücks Wissen über die in Akt 1 eingeführten Zeichen zu behalten. Ähnlich macht Sie der Pointe eines langen Witzes zum Lachen, weil Sie sich an den Kontext aus der Einleitung des Witzes erinnern können.

In Language Models sind Kontext hilfreiche Informationen vor oder nach dem Zieltoken können. Kontext kann einem Sprachmodell helfen, zu bestimmen, ob „orange“ bezieht sich auf eine Zitrusfrucht oder eine Farbe.

Kontext kann einem Sprachmodell helfen, bessere Vorhersagen zu treffen. 3 Gramm genug Kontext? Leider ist der einzige Kontext ein 3-Gramm-Wort, sind die ersten beiden Wörter. Die beiden Wörter orange is bieten beispielsweise nicht genügend Kontext, damit das Sprachmodell das dritte Wort vorhersagen kann. Aufgrund von fehlendem Kontext machen Language Models, die auf 3-Grammen basieren, viele Fehler.

Längere N-Gramme bieten sicherlich mehr Kontext als kürzere N-Gramme. Mit zunehmender Anzahl von N nimmt jedoch das relative Vorkommen jeder Instanz ab. Wenn N sehr groß wird, hat das Sprachmodell normalerweise nur eine einzige von n Tokens, was bei der Verwendung der Vorhersage des Zieltokens.

Recurrent neuronale Netzwerke

Recurrent Neural Netzwerke mehr Kontext liefern als N-Gramme. Ein Recurrent Neural Network (RNN) ist eine Art von neuronalem Netzwerk, das anhand einer Tokenfolge trainiert wird. Ein rekurrentes neuronales Netzwerk kann aus jedem Wort ausgewählten Kontext nach und nach lernen (und lernen, ihn zu ignorieren). in einem Satz zusammenfassen, ähnlich wie beim Hören eines Sprechens. Ein großes rekurrentes neuronales Netzwerk kann Kontext aus einem Abschnitt mit mehreren Sätzen gewinnen.

Auch wenn rekuktive neuronale Netzwerke mehr Kontext lernen als N-Gramme, von nützlichen kontextabhängigen neuronalen Netzen erkennen, eingeschränkt. Recurrent Neural Networks bewerten Informationen „Token für Token“. Im Gegensatz dazu können Large Language Models – das Thema des nächsten Abschnitts – den gesamten Kontext auf einmal auswerten.

Beachten Sie, dass das Training recurrent neuronaler Netzwerke für lange Kontexte durch der verschwindende Farbverlauf

Übung: Wissen testen

Welches Sprachmodell liefert bessere Vorhersagen für englischen Text?

Ein Sprachmodell, das auf Sechsgrammen basiert
Ein Sprachmodell, das auf Fünfgrammen basiert

Die Antwort hängt von Umfang und Vielfalt der Schulung ab. festgelegt.

Wenn das Trainings-Dataset Millionen verschiedener Dokumente umfasst, das Modell, das auf 6 Gramm basiert, wahrscheinlich die Leistung des Modells übertrifft basierend auf 5 Gramm.

Das Sprachmodell basiert auf 6-Grammen.

Dieses Sprachmodell verfügt über mehr Kontext, aber wenn dieses Modell nicht mit vielen Dokumenten trainiert hat, werden die meisten selten sind.

Das Language Model, das auf 5-Grammen basiert.

Dieses Sprachmodell hat weniger Kontext, sodass es unwahrscheinlich ist, dass es das Sprachmodell auf der Grundlage von 6-Grammen übertrifft.

Hilfe

Zurück

Testen Sie Ihr Wissen (10 Min.)

Weiter

Was ist ein Large Language Model? (15 Min.)