Einführung in Large Language Models

Was ist ein Sprachmodell?

Ein Language Model schätzt die Wahrscheinlichkeit, dass ein Token oder eine Folge von Tokens innerhalb einer längeren Folge von Tokens auftritt. Ein Token kann ein Wort, ein Teil eines Wortes oder sogar ein einzelnes Zeichen sein.

Klicken Sie auf das Symbol, um mehr über Tokens zu erfahren.

Die meisten modernen Sprachmodelle tokenisieren nach Unterwörtern, d. h. nach Textblöcken mit semantischer Bedeutung. Die Chunks können unterschiedlich lang sein, von einzelnen Zeichen wie Satzzeichen oder dem Genitiv-s bis hin zu ganzen Wörtern. Präfixe und Suffixe werden möglicherweise als separate Unterwörter dargestellt. Das Wort unwatched (nicht angesehen) kann beispielsweise durch die folgenden drei Unterwörter dargestellt werden:

un (das Präfix)
Smartwatch (die Wurzel)
ed (das Suffix)

Das Wort cats (Katzen) kann durch die folgenden zwei Unterwörter dargestellt werden:

cat (die Wurzel)
s (das Suffix)

Ein komplexeres Wort wie „Antidisestablishmentarianism“ (deutsch: „Antidisestablishmentarianismus“) könnte als sechs Unterwörter dargestellt werden:

anti
dis
einrichten
ment
arian
ism

Die Tokenisierung ist sprachspezifisch. Die Anzahl der Zeichen pro Token variiert daher je nach Sprache. Im Englischen entspricht ein Token etwa vier Zeichen oder etwa drei Vierteln eines Wortes. 400 Tokens entsprechen also etwa 300 englischen Wörtern.

Tokens sind die kleinste Einheit des Sprachmodells.

Tokens werden jetzt auch erfolgreich auf Computer Vision und Audiogenerierung angewendet.

Sehen Sie sich den folgenden Satz und die Tokens an, die ihn vervollständigen könnten:

When I hear rain on my roof, I _______ in my kitchen.

Ein Sprachmodell bestimmt die Wahrscheinlichkeiten verschiedener Tokens oder Tokenfolgen, um die Lücke zu füllen. In der folgenden Wahrscheinlichkeitstabelle sind beispielsweise einige mögliche Tokens und ihre Wahrscheinlichkeiten aufgeführt:

Probability	Token
9,4%	Suppe kochen
5,2 %	einen Wasserkocher aufwärmen
3,6 %	kauern
2,5 %	Nickerchen
2,2 %	Relaxen

In einigen Fällen kann die Reihenfolge der Tokens ein ganzer Satz, ein Absatz oder sogar ein ganzer Essay sein.

Eine Anwendung kann die Wahrscheinlichkeitstabelle verwenden, um Vorhersagen zu treffen. Die Vorhersage kann die höchste Wahrscheinlichkeit haben (z. B. „Suppe kochen“) oder eine zufällige Auswahl aus Tokens mit einer Wahrscheinlichkeit sein, die einen bestimmten Schwellenwert überschreitet.

Die Wahrscheinlichkeit dafür, was die Lücke in einer Textsequenz füllt, kann auf komplexere Aufgaben ausgeweitet werden, darunter:

Text wird generiert.
Übersetzen von Texten in eine andere Sprache
Dokumente zusammenfassen

Durch die Modellierung der statistischen Muster von Tokens entwickeln moderne Sprachmodelle äußerst leistungsstarke interne Darstellungen von Sprache und können plausible Sprache generieren.

N-Gramm-Sprachmodelle

N-Gramme sind geordnete Wortfolgen, die zum Erstellen von Sprachmodellen verwendet werden. N ist die Anzahl der Wörter in der Folge. Wenn N beispielsweise 2 ist, wird das N-Gramm als 2-Gramm (oder Bigramm) bezeichnet. Wenn N 5 ist, wird das N-Gramm als 5-Gramm bezeichnet. Angenommen, in einem Trainingsdokument steht die folgende Formulierung:

you are very nice

Die resultierenden 2‑Gramme sind:

Sie
sind sehr
sehr schön

Wenn N = 3 ist, wird das N-Gramm als 3-Gramm (oder Trigramm) bezeichnet. Bei derselben Wortgruppe sind die resultierenden 3‑Gramme:

Sie sind sehr
sind sehr schön

Wenn zwei Wörter als Eingabe angegeben werden, kann ein Sprachmodell, das auf 3-Grammen basiert, die Wahrscheinlichkeit des dritten Worts vorhersagen. Nehmen wir beispielsweise die folgenden beiden Wörter an:

orange is

Ein Sprachmodell untersucht alle verschiedenen 3‑Gramme, die aus dem Trainingskorpus abgeleitet wurden und mit orange is beginnen, um das wahrscheinlichste dritte Wort zu ermitteln. Hunderte von 3‑Grammen könnten mit den beiden Wörtern orange is beginnen, aber Sie können sich auf die folgenden beiden Möglichkeiten konzentrieren:

orange is ripe
orange is cheerful

Die erste Möglichkeit (orange is ripe) bezieht sich auf die Frucht Orange, die zweite Möglichkeit (orange is cheerful) auf die Farbe Orange.

Kontext

Menschen können sich relativ lange Kontexte merken. Wenn Sie sich den dritten Akt eines Theaterstücks ansehen, wissen Sie noch, welche Charaktere im ersten Akt eingeführt wurden. Ebenso löst die Pointe eines langen Witzes Lachen aus, weil Sie sich an den Kontext aus der Einleitung des Witzes erinnern können.

In Sprachmodellen ist Kontext hilfreiche Information vor oder nach dem Ziel-Token. Der Kontext kann einem Sprachmodell helfen, zu bestimmen, ob sich „Orange“ auf eine Zitrusfrucht oder eine Farbe bezieht.

Kontext kann einem Sprachmodell helfen, bessere Vorhersagen zu treffen. Bietet ein 3-Gramm jedoch genügend Kontext? Leider bietet ein 3‑Gramm nur die ersten beiden Wörter als Kontext. Die beiden Wörter orange is reichen beispielsweise nicht aus, damit das Sprachmodell das dritte Wort vorhersagen kann. Aufgrund des fehlenden Kontextes machen Sprachmodelle, die auf 3‑Grammen basieren, viele Fehler.

Längere N-Gramme liefern sicherlich mehr Kontext als kürzere. Mit zunehmendem N nimmt jedoch das relative Vorkommen jeder Instanz ab. Wenn N sehr groß wird, enthält das Sprachmodell in der Regel nur eine einzelne Instanz für jedes Vorkommen von N Tokens, was für die Vorhersage des Ziel-Tokens nicht sehr hilfreich ist.

Recurrent Neural Networks

Rekurrente neuronale Netze liefern mehr Kontext als N-Gramme. Ein Recurrent Neural Network ist eine Art von neuronalem Netzwerk, das mit einer Sequenz von Tokens trainiert wird. Ein rekurrentes neuronales Netzwerk kann beispielsweise nach und nach ausgewählten Kontext aus jedem Wort in einem Satz lernen (und lernen, ihn zu ignorieren), ähnlich wie Sie es tun, wenn Sie jemandem zuhören. Ein großes rekurrentes neuronales Netzwerk kann Kontext aus einem Abschnitt mit mehreren Sätzen gewinnen.

Recurrent Neural Networks lernen zwar mehr Kontext als N-Gramme, aber die Menge an nützlichem Kontext, die sie intuitiv erfassen können, ist immer noch relativ begrenzt. Recurrent Neural Networks verarbeiten Informationen „Token für Token“. Im Gegensatz dazu können Large Language Models, die im nächsten Abschnitt behandelt werden, den gesamten Kontext auf einmal bewerten.

Das Trainieren von rekurrenten neuronalen Netzwerken für lange Kontexte ist durch das Problem des verschwindenden Gradienten eingeschränkt.

Übung: Wissen testen

Welches Sprachmodell liefert bessere Vorhersagen für englischen Text?

Ein Sprachmodell auf Grundlage von 6-Grammen
Ein auf 5‑Grammen basierendes Sprachmodell

Die Antwort hängt von der Größe und Vielfalt des Trainingssets ab.

Wenn das Trainingsset Millionen verschiedener Dokumente umfasst, wird das Modell, das auf 6‑Grammen basiert, wahrscheinlich besser abschneiden als das Modell, das auf 5‑Grammen basiert.

Das auf 6-Gramm basierende Sprachmodell.

Dieses Sprachmodell hat mehr Kontext, aber wenn es nicht mit vielen Dokumenten trainiert wurde, sind die meisten 6‑Gramme selten.

Das auf 5-Gramm basierende Sprachmodell.

Dieses Sprachmodell hat weniger Kontext, daher ist es unwahrscheinlich, dass es das Sprachmodell auf Grundlage von 6-Grammen übertrifft.

Hilfe

Zurück

Testen Sie Ihr Wissen (10 Min.)

Weiter

Was ist ein Large Language Model? (15 Min.)