Introduction to Large Language Models

Czym jest model językowy?

Model językowy szacuje prawdopodobieństwo wystąpienia tokena lub sekwencji tokenów w dłuższej sekwencji tokenów. Token może być słowem, podwyrazem (podzbiorem słowa) lub nawet pojedynczym znakiem.

Rozważ następujące zdanie i tokeny, które mogą je uzupełnić:

When I hear rain on my roof, I _______ in my kitchen.

Model językowy określa prawdopodobieństwo wystąpienia różnych tokenów lub sekwencji tokenów, które mogą uzupełnić tę lukę. Na przykład poniższa tabela prawdopodobieństwa zawiera niektóre możliwe tokeny i ich prawdopodobieństwa:

Prawdopodobieństwo Tokeny
9,4% ugotować zupę,
5,2% podgrzać czajnik,
3,6% czołgać się
2,5% drzemka,
2,2% odpoczynek

W niektórych sytuacjach sekwencja tokenów może być całym zdaniem, akapitem, a nawet całym wypracowaniem.

Aplikacja może używać tabeli prawdopodobieństwa do tworzenia prognoz. Prognoza może być tokenem o najwyższym prawdopodobieństwie (np. „ugotować zupę”) lub losowym wyborem spośród tokenów o prawdopodobieństwie większym niż określony próg.

Szacowanie prawdopodobieństwa, że w sekwencji tekstu w miejscu oznaczonym jako puste pole pojawi się określony wyraz, można rozszerzyć na bardziej złożone zadania, takie jak:

  • Generuję tekst.
  • tłumaczenie tekstu z jednego języka na inny;
  • streszczać dokumenty;

Modelując statystyczne wzorce tokenów, nowoczesne modele językowe tworzą niezwykle zaawansowane wewnętrzne reprezentacje języka i mogą generować wiarygodne wypowiedzi.

Modele językowe N-gramów

N-gramy to uporządkowane sekwencje słów używane do tworzenia modeli językowych, gdzie N to liczba słów w sekwencji. Jeśli na przykład N = 2, n-gram nazywa się 2-gramem (lub bigramem), a jeśli N = 5, n-gram nazywa się 5-gramem. Rozważmy to zdanie w dokumencie szkoleniowym:

you are very nice

Powstałe 2-gramy to:

  • jesteś
  • są bardzo
  • bardzo fajnie

Gdy N = 3, N-gram nazywa się 3-gramem (lub trigramem). W przypadku tego samego wyrażenia 3-gramy to:

  • jesteś bardzo
  • są bardzo miłe,

Model językowy oparty na 3-gramach może na podstawie 2 słów wejściowych przewidzieć prawdopodobieństwo wystąpienia trzeciego słowa. Na przykład w przypadku tych 2 słów:

orange is

Model językowy analizuje wszystkie różne 3-gramy pochodzące z korpusu treningowego, które zaczynają się od orange is, aby określić najbardziej prawdopodobne trzecie słowo. Setki 3-gramów mogą zaczynać się od 2 słów orange is, ale możesz skupić się tylko na tych 2 możliwościach:

orange is ripe
orange is cheerful

Pierwsza możliwość (orange is ripe) dotyczy pomarańczy jako owocu, a druga (orange is cheerful) – koloru pomarańczowego.

Kontekst

Ludzie mogą zapamiętywać stosunkowo długie konteksty. Podczas oglądania aktu 3 sztuki teatralnej pamiętasz postacie wprowadzone w akcie 1. Podobnie puenta długiego żartu wywołuje śmiech, ponieważ pamiętasz kontekst z jego wprowadzenia.

W modelach językowych kontekst to przydatne informacje przed lub po tokenie docelowym. Kontekst może pomóc modelowi językowemu określić, czy słowo „orange” odnosi się do owocu cytrusowego, czy do koloru.

Kontekst może pomóc modelowi językowemu w tworzeniu lepszych prognoz, ale czy 3-gram zapewnia wystarczający kontekst? Niestety jedyny kontekst, jaki zapewnia 3-gram, to pierwsze dwa słowa. Na przykład 2 słowa orange is nie zapewniają modelowi językowemu wystarczającego kontekstu, aby przewidzieć trzecie słowo. Z powodu braku kontekstu modele językowe oparte na 3-gramach popełniają wiele błędów.

Dłuższe n-gramy z pewnością zapewniają więcej kontekstu niż krótsze. Jednak wraz ze wzrostem N względna liczba wystąpień każdego elementu maleje. Gdy N jest bardzo dużą liczbą, model językowy ma zwykle tylko 1 wystąpienie każdego ciągu N tokenów, co nie jest zbyt pomocne w przewidywaniu tokena docelowego.

Rekurencyjne sieci neuronowe

Rekurencyjne sieci neuronowe zapewniają więcej kontekstu niż n-gramy. Rekurencyjna sieć neuronowa to rodzaj sieci neuronowej, która jest trenowana na sekwencji tokenów. Na przykład rekurencyjna sieć neuronowa może stopniowo uczyć się (i ignorować) wybranego kontekstu każdego słowa w zdaniu, podobnie jak Ty, gdy słuchasz, jak ktoś mówi. Duża rekurencyjna sieć neuronowa może uzyskać kontekst z fragmentu składającego się z kilku zdań.

Chociaż rekurencyjne sieci neuronowe uczą się więcej kontekstu niż n-gramy, ilość przydatnego kontekstu, który mogą wywnioskować, jest nadal stosunkowo ograniczona. Rekurencyjne sieci neuronowe oceniają informacje „token po tokenie”. Z kolei duże modele językowe, o których będzie mowa w następnej sekcji, mogą oceniać cały kontekst naraz.

Pamiętaj, że trenowanie rekurencyjnych sieci neuronowych w przypadku długich kontekstów jest ograniczone przez problem znikającego gradientu.

Ćwiczenie: sprawdź swoją wiedzę

Który model językowy lepiej prognozuje tekst w języku angielskim?
  • Model językowy oparty na 6-gramach
  • Model językowy oparty na 5-gramach
Odpowiedź zależy od wielkości i różnorodności zbioru treningowego.
Jeśli zbiór treningowy obejmuje miliony różnorodnych dokumentów, model oparty na 6-gramach prawdopodobnie będzie działać lepiej niż model oparty na 5-gramach.
Model językowy oparty na 6-gramach.
Ten model językowy ma więcej kontekstu, ale jeśli nie został wytrenowany na dużej liczbie dokumentów, większość 6-gramów będzie rzadka.
Model językowy oparty na 5-gramach.
Ten model językowy ma mniej kontekstu, więc raczej nie będzie lepszy od modelu językowego opartego na 6-gramach.