Duże modele językowe

Czym jest model językowy?

Model językowy ocenia prawdopodobieństwo wystąpienia tokenu lub sekwencji tokenów występujących w dłuższej sekwencji tokenów. Token może być słowem, słowem podrzędnym (podzbiorem słowa), a nawet pojedynczym znakiem.

Przeanalizuj to zdanie i tokeny, które mogą je dokończyć:

When I hear rain on my roof, I _______ in my kitchen.

Model językowy określa prawdopodobieństwo różnych tokenów lub przez sekwencję tokenów. Na przykład: tabela prawdopodobieństwa wskazuje kilka możliwych tokenów i ich prawdopodobieństw:

Probability, Tokeny
9,4% gotowanie zupy
5,2% podgrzej czajnik
3,6% Cower
2,5% drzemka
2,2% odpoczynek

W niektórych sytuacjach sekwencją tokenów może być całe zdanie, akapitu, a nawet cały wypracowanie.

Aplikacja może używać tabeli prawdopodobieństwa do prognozowania. Prognoza może być najwyższym prawdopodobieństwem (np. „gotować zupę”) lub losowym wyborem spośród tokenów o większym niż określony próg prawdopodobieństwie.

Oszacowanie prawdopodobieństwa tego, co wypełni puste miejsce w sekwencji tekstu, można rozszerzyć na bardziej złożone zadania, w tym:

  • Generuję tekst.
  • Tłumaczenie tekstu z jednego języka na inny.
  • Podsumowywanie dokumentów.

Dzięki modelowaniu wzorców statystycznych tokenów nowoczesne modele językowe tworzą bardzo zaawansowane wewnętrzne reprezentacje języka i mogą generować wiarygodne wypowiedzi.

modele językowe n-gram,

N-gramy to uporządkowane sekwencje słów używane do budowania modeli językowych, gdzie N to liczba słów w sekwencji. Na przykład gdy N to 2, n-gram nazywamy 2 gramami (lub bigram); gdy N to 5, n-gram to czyli 5 gramów. Zdanie w dokumencie dotyczącym szkolenia:

you are very nice

Wyniki 2-gramów:

  • jesteś
  • są bardzo
  • bardzo fajnie

Gdy N = 3, 3-gram nazywany jest 3-gramem (lub trigramem). W przypadku tego samego wyrażenia to 3 gramy:

  • jesteś bardzo
  • są bardzo miłe

Na podstawie 2 słów jako danych wejściowych model językowy oparty na 3-gramach może przewidzieć prawdopodobieństwo wystąpienia 3 słowa. Na przykład w przypadku tych 2 słów:

orange is

Aby określić najbardziej prawdopodobne trzecie słowo, model językowy analizuje wszystkie 3-gramy pochodzące z korpusu szkoleniowego, które zaczynają się od orange is. Setki 3 gramów mogą zaczynać się od dwóch słów orange is, ale możesz skupić się wyłącznie na dwóch możliwościach:

orange is ripe
orange is cheerful

Pierwsza możliwość (orange is ripe) dotyczy owocu pomarańczowego, a druga możliwość (orange is cheerful) dotyczy koloru pomarańczowy.

Kontekst

Ludzie mogą zachować stosunkowo długie konteksty. Podczas oglądania aktu 3 sztuki nie musisz znać postaci przedstawionych w akcie 1. Podobnie fraza długiego żartu rozśmieszyła Cię, bo pamiętasz kontekst od konfiguracji żartu.

W modelach językowych kontekst to przydatne informacje występujące przed lub po tokenie docelowym. Kontekst może pomóc modelowi językowemu określić, czy słowo „pomarańczowy” oznacza owoc cytrusowy lub kolor.

Kontekst może pomóc modelowi językowemu w generowaniu lepszych prognoz, ale 3 gramy zapewniają wystarczający kontekst? Jedynym kontekstem jest to pierwsze 2 słowa. Na przykład te 2 słowa orange is nie Zapewnij wystarczający kontekst, aby model językowy mógł przewidzieć trzecie słowo. Z powodu braku kontekstu modele językowe oparte na 3 gramach popełniają wiele błędów.

Dłuższe łańcuchy N-gramów z pewnością zapewniają więcej kontekstu niż krótsze łańcuchy N-gramów. Jednak wraz ze wzrostem wartości N względna częstotliwość występowania każdego wystąpienia maleje. Gdy N staje się bardzo duży, model językowy ma zwykle tylko 1 występowanie każdego z N tokenów, co nie jest zbyt przydatne do przewidywania tokena docelowego.

Sieci neuronowe rekurencyjne

Wielokrotne sieci neuronowe zapewniają więcej kontekstu niż N-gramy. Powracająca sieć neuronowa to rodzaj sieci neuronowej, która trenuje lub sekwencję tokenów. Na przykład rekurencyjna sieć neuronowa może stopniowo uczyć się (i uczyć się ignorować) wybranego kontekstu z każdego słowa w zdaniu, podobnie jak w przypadku słuchania ludzkiej mowy. Duża rekurencyjna sieć neuronowa może uzyskać kontekst z fragmentu składającego się z kilku zdań.

Chociaż powracające sieci neuronowe uczą się więcej kontekstu niż n-gramów, to użytecznych kontekstowych sieci neuronowych można intuicyjnie intuicyjnie z ograniczeniami. Sieci neuronowe z pętlą oceniają informacje „znak po znaku”. Z kolei duże modele językowe, które są tematem kolejnego akapitu, mogą analizować cały kontekst naraz.

Pamiętaj, że trenowanie cyklicznych sieci neuronowych w długich kontekstach jest ograniczone przez znikający gradient .

Ćwiczenie: sprawdź swoją wiedzę

Który model językowy pozwala lepiej prognozować tekst w języku angielskim?
  • model językowy oparty na 6-gramach.
  • model językowy oparty na 5-gramach;
Odpowiedź zależy od zakresu i różnorodności szkolenia. ustawiony.
Jeśli zbiór treningowy obejmuje miliony różnych dokumentów, model oparty na 6 gramach prawdopodobnie będzie na podstawie 5 gramów.
Model językowy oparty na 6-gramach.
Ten model językowy ma więcej kontekstu, ale jeśli nie został wytrenowany na podstawie wielu dokumentów, większość 6-gramów będzie rzadka.
Model językowy oparty na 5 gramach.
Ten model językowy ma mniej kontekstu, więc prawdopodobnie nie będzie lepszy od modelu językowego opartego na 6-gramach.