Was ist ein Sprachmodell?
Ein Language Model schätzt die Wahrscheinlichkeit, dass ein Token oder eine Folge von Tokens innerhalb einer längeren Folge von Tokens auftritt. Ein Token kann ein Wort, ein Teil eines Wortes oder sogar ein einzelnes Zeichen sein.
Sehen Sie sich den folgenden Satz und die Tokens an, die ihn vervollständigen könnten:
When I hear rain on my roof, I _______ in my kitchen.
Ein Sprachmodell bestimmt die Wahrscheinlichkeiten verschiedener Tokens oder Tokenfolgen, um die Lücke zu füllen. In der folgenden Wahrscheinlichkeitstabelle sind beispielsweise einige mögliche Tokens und ihre Wahrscheinlichkeiten aufgeführt:
| Probability | Token |
|---|---|
| 9,4% | Suppe kochen |
| 5,2 % | einen Wasserkocher aufwärmen |
| 3,6 % | kauern |
| 2,5 % | Nickerchen |
| 2,2 % | Relaxen |
In einigen Fällen kann die Reihenfolge der Tokens ein ganzer Satz, ein Absatz oder sogar ein ganzer Essay sein.
Eine Anwendung kann die Wahrscheinlichkeitstabelle verwenden, um Vorhersagen zu treffen. Die Vorhersage kann die höchste Wahrscheinlichkeit haben (z. B. „Suppe kochen“) oder eine zufällige Auswahl aus Tokens mit einer Wahrscheinlichkeit sein, die einen bestimmten Schwellenwert überschreitet.
Die Wahrscheinlichkeit dafür, was die Lücke in einer Textsequenz füllt, kann auf komplexere Aufgaben ausgeweitet werden, darunter:
- Text wird generiert.
- Übersetzen von Texten in eine andere Sprache
- Dokumente zusammenfassen
Durch die Modellierung der statistischen Muster von Tokens entwickeln moderne Sprachmodelle äußerst leistungsstarke interne Darstellungen von Sprache und können plausible Sprache generieren.
N-Gramm-Sprachmodelle
N-Gramme sind geordnete Wortfolgen, die zum Erstellen von Sprachmodellen verwendet werden. N ist die Anzahl der Wörter in der Folge. Wenn N beispielsweise 2 ist, wird das N-Gramm als 2-Gramm (oder Bigramm) bezeichnet. Wenn N 5 ist, wird das N-Gramm als 5-Gramm bezeichnet. Angenommen, in einem Trainingsdokument steht die folgende Formulierung:
you are very nice
Die resultierenden 2‑Gramme sind:
- Sie
- sind sehr
- sehr schön
Wenn N = 3 ist, wird das N-Gramm als 3-Gramm (oder Trigramm) bezeichnet. Bei derselben Wortgruppe sind die resultierenden 3‑Gramme:
- Sie sind sehr
- sind sehr schön
Wenn zwei Wörter als Eingabe angegeben werden, kann ein Sprachmodell, das auf 3-Grammen basiert, die Wahrscheinlichkeit des dritten Worts vorhersagen. Nehmen wir beispielsweise die folgenden beiden Wörter an:
orange is
Ein Sprachmodell untersucht alle verschiedenen 3‑Gramme, die aus dem Trainingskorpus abgeleitet wurden und mit orange is beginnen, um das wahrscheinlichste dritte Wort zu ermitteln.
Hunderte von 3‑Grammen könnten mit den beiden Wörtern orange is beginnen, aber Sie können sich auf die folgenden beiden Möglichkeiten konzentrieren:
orange is ripe orange is cheerful
Die erste Möglichkeit (orange is ripe) bezieht sich auf die Frucht Orange, die zweite Möglichkeit (orange is cheerful) auf die Farbe Orange.
Kontext
Menschen können sich relativ lange Kontexte merken. Wenn Sie sich den dritten Akt eines Theaterstücks ansehen, wissen Sie noch, welche Charaktere im ersten Akt eingeführt wurden. Ebenso löst die Pointe eines langen Witzes Lachen aus, weil Sie sich an den Kontext aus der Einleitung des Witzes erinnern können.
In Sprachmodellen ist Kontext hilfreiche Information vor oder nach dem Ziel-Token. Der Kontext kann einem Sprachmodell helfen, zu bestimmen, ob sich „Orange“ auf eine Zitrusfrucht oder eine Farbe bezieht.
Kontext kann einem Sprachmodell helfen, bessere Vorhersagen zu treffen. Bietet ein 3-Gramm jedoch genügend Kontext? Leider bietet ein 3‑Gramm nur die ersten beiden Wörter als Kontext. Die beiden Wörter orange is reichen beispielsweise nicht aus, damit das Sprachmodell das dritte Wort vorhersagen kann.
Aufgrund des fehlenden Kontextes machen Sprachmodelle, die auf 3‑Grammen basieren, viele Fehler.
Längere N-Gramme liefern sicherlich mehr Kontext als kürzere. Mit zunehmendem N nimmt jedoch das relative Vorkommen jeder Instanz ab. Wenn N sehr groß wird, enthält das Sprachmodell in der Regel nur eine einzelne Instanz für jedes Vorkommen von N Tokens, was für die Vorhersage des Ziel-Tokens nicht sehr hilfreich ist.
Recurrent Neural Networks
Rekurrente neuronale Netze liefern mehr Kontext als N-Gramme. Ein Recurrent Neural Network ist eine Art von neuronalem Netzwerk, das mit einer Sequenz von Tokens trainiert wird. Ein rekurrentes neuronales Netzwerk kann beispielsweise nach und nach ausgewählten Kontext aus jedem Wort in einem Satz lernen (und lernen, ihn zu ignorieren), ähnlich wie Sie es tun, wenn Sie jemandem zuhören. Ein großes rekurrentes neuronales Netzwerk kann Kontext aus einem Abschnitt mit mehreren Sätzen gewinnen.
Recurrent Neural Networks lernen zwar mehr Kontext als N-Gramme, aber die Menge an nützlichem Kontext, die sie intuitiv erfassen können, ist immer noch relativ begrenzt. Recurrent Neural Networks verarbeiten Informationen „Token für Token“. Im Gegensatz dazu können Large Language Models, die im nächsten Abschnitt behandelt werden, den gesamten Kontext auf einmal bewerten.
Das Trainieren von rekurrenten neuronalen Netzwerken für lange Kontexte ist durch das Problem des verschwindenden Gradienten eingeschränkt.
Übung: Wissen testen
- Ein Sprachmodell auf Grundlage von 6-Grammen
- Ein auf 5‑Grammen basierendes Sprachmodell