Was ist ein Sprachmodell?
Ein Language Modelschätzt die Wahrscheinlichkeit, dass ein Token oder eine Tokenfolge in einer längeren Tokenfolge auftritt. Ein Token kann ein Wort, ein Unterwort (eine Teilmenge eines Wortes) oder auch ein einzelnes Zeichen sein.
Betrachten Sie den folgenden Satz und die Token, mit denen er vervollständigt werden könnte:
When I hear rain on my roof, I _______ in my kitchen.
Ein Sprachmodell bestimmt die Wahrscheinlichkeiten verschiedener Tokens oder Tokenfolgen, um die Lücke zu füllen. Beispiel: Die Wahrscheinlichkeitstabelle enthält einige mögliche Tokens und ihre Wahrscheinlichkeiten:
Probability | Token |
---|---|
9,4% | Suppe kochen |
5,2 % | einen Wasserkocher aufwärmen |
3,6 % | cower |
2,5 % | Nickerchen |
2,2 % | Relaxen |
In einigen Situationen kann die Tokensequenz ein ganzer Satz sein, oder sogar einen ganzen Aufsatz.
Eine Anwendung kann die Wahrscheinlichkeitstabelle verwenden, um Vorhersagen zu treffen. Die Vorhersage kann die höchste Wahrscheinlichkeit (z. B. „Suppe kochen“) oder eine zufällige Auswahl aus Tokens mit einer Wahrscheinlichkeit über einem bestimmten Grenzwert sein.
Die Schätzung der Wahrscheinlichkeit dafür, was die Lücke in einer Textsequenz ausfüllt, kann auf komplexere Aufgaben ausgeweitet werden, einschließlich:
- Text wird generiert.
- Text von einer Sprache in eine andere übersetzen
- Dokumente zusammenfassen
Durch die Modellierung der statistischen Muster von Tokens entwickeln moderne Sprachmodelle äußerst leistungsstarke interne Repräsentationen von Sprache und können plausible Sprache generieren.
N-Gramm-Sprachmodelle
N-Gramme sind geordnete Wortfolgen. zum Erstellen von Sprachmodellen, wobei N die Anzahl der Wörter in der Sequenz ist. Wenn N beispielsweise 2 ist, wird das N-Gramm als 2-Gramm (oder Bigram) bezeichnet. Wenn N 5 ist, wird das N-Gramm als 5-Gramm bezeichnet. Ausgehend von der folgenden Formulierung in einem Trainingsdokument:
you are very nice
Die resultierenden Zwei-Gramme sind:
- Sie sind
- sind sehr
- sehr schön
Wenn N 3 ist, wird das N-Gramm als 3-Gramm (oder ein Trigramm). Bei derselben Wortgruppe Daraus ergibt sich Folgendes:
- Sie sind sehr
- sind sehr nett
Bei der Eingabe von zwei Wörtern kann ein auf 3Grammen basierendes Language Model vorhersagen, die Wahrscheinlichkeit des dritten Wortes. Nehmen wir zum Beispiel die folgenden beiden Wörter:
orange is
Ein Sprachmodell untersucht alle 3-Gramme, die aus seinem Training abgeleitet wurden.
Korpus, die mit orange is
beginnen, um das wahrscheinlichste dritte Wort zu bestimmen.
Hunderte von 3 Gramm könnten mit den zwei Wörtern orange is
beginnen, aber du kannst
konzentrieren wir uns ausschließlich auf die beiden folgenden Möglichkeiten:
orange is ripe orange is cheerful
Bei der ersten Möglichkeit (orange is ripe
) handelt es sich um die orangefarbene Frucht,
während bei der zweiten Möglichkeit (orange is cheerful
) die Farbe
Orange.
Kontext
Menschen können relativ lange Kontexte behalten. Bei der Wiedergabe von Akt 3 eines Stücks Wissen über die in Akt 1 eingeführten Zeichen zu behalten. Ähnlich macht Sie der Pointe eines langen Witzes zum Lachen, weil Sie sich an den Kontext aus der Einleitung des Witzes erinnern können.
In Language Models sind Kontext hilfreiche Informationen vor oder nach dem Zieltoken können. Kontext kann einem Sprachmodell helfen, zu bestimmen, ob „orange“ bezieht sich auf eine Zitrusfrucht oder eine Farbe.
Kontext kann einem Sprachmodell helfen, bessere Vorhersagen zu treffen.
3 Gramm genug Kontext? Leider ist der einzige Kontext ein 3-Gramm-Wort,
sind die ersten beiden Wörter. Die beiden Wörter orange is
bieten beispielsweise nicht genügend Kontext, damit das Sprachmodell das dritte Wort vorhersagen kann.
Aufgrund von fehlendem Kontext machen Language Models, die auf 3-Grammen basieren, viele Fehler.
Längere N-Gramme bieten sicherlich mehr Kontext als kürzere N-Gramme. Mit zunehmender Anzahl von N nimmt jedoch das relative Vorkommen jeder Instanz ab. Wenn N sehr groß wird, hat das Sprachmodell normalerweise nur eine einzige von n Tokens, was bei der Verwendung der Vorhersage des Zieltokens.
Recurrent neuronale Netzwerke
Recurrent Neural Netzwerke mehr Kontext liefern als N-Gramme. Ein Recurrent Neural Network (RNN) ist eine Art von neuronalem Netzwerk, das anhand einer Tokenfolge trainiert wird. Ein rekurrentes neuronales Netzwerk kann aus jedem Wort ausgewählten Kontext nach und nach lernen (und lernen, ihn zu ignorieren). in einem Satz zusammenfassen, ähnlich wie beim Hören eines Sprechens. Ein großes rekurrentes neuronales Netzwerk kann Kontext aus einem Abschnitt mit mehreren Sätzen gewinnen.
Auch wenn rekuktive neuronale Netzwerke mehr Kontext lernen als N-Gramme, von nützlichen kontextabhängigen neuronalen Netzen erkennen, eingeschränkt. Recurrent Neural Networks bewerten Informationen „Token für Token“. Im Gegensatz dazu können Large Language Models – das Thema des nächsten Abschnitts – den gesamten Kontext auf einmal auswerten.
Beachten Sie, dass das Training recurrent neuronaler Netzwerke für lange Kontexte durch der verschwindende Farbverlauf
Übung: Wissen testen
- Ein Sprachmodell, das auf Sechsgrammen basiert
- Ein Sprachmodell, das auf Fünfgrammen basiert