Wprowadzenie do modeli dużych języków

Dopiero poznajesz modele językowe lub duże modele językowe? Zapoznaj się z materiałami poniżej.

Co to jest model języka?

Model języka to model systemów uczących się, który ma na celu przewidywanie i generowanie języka zrozumiałego. Autouzupełnianie to np. model języka.

Działają one na podstawie oszacowania prawdopodobieństwa tokena lub sekwencji tokenów występujących w dłuższej sekwencji tokenów. Rozważ to zdanie:

When I hear rain on my roof, I _______ in my kitchen.

Jeśli zakładasz, że token jest słowem, model języka określa prawdopodobieństwo różnych słów lub sekwencji słów, które zastąpią ten podkreślenia. Model języka może na przykład określać następujące prawdopodobieństwo:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

„Sekwencją tokenów” może być całe zdanie lub seria zdań. Oznacza to, że model języka może obliczyć prawdopodobieństwo różnych całych zdań lub bloków tekstu.

Szacowanie prawdopodobieństwa następnego elementu z sekwencji jest przydatne dla wszystkich rodzajów elementów, takich jak generowanie tekstu, tłumaczenie języków i odpowiadanie na pytania.

Co to jest duży model językowy?

Modelowanie języka ludzkiego na dużą skalę jest wysoce złożone i wymaga dużo zasobów. Ścieżka docierania do obecnych możliwości modeli językowych i dużych modeli językowych trwa kilka dekad.

W miarę tworzenia i powiększania modeli wzrasta ich złożoność i skuteczność. Wczesne modele językowe mogą przewidywać prawdopodobieństwo pojedynczego słowa; nowoczesne modele językowe przewidują prawdopodobieństwo zdań, akapitów, a nawet całych dokumentów.

W ciągu ostatnich kilku lat w zaledwie kilka lat zwiększył się rozmiar i możliwości modeli języka, co skutkowało wzrostem ilości pamięci komputerowej, rozmiaru zbioru danych i mocy obliczeniowej, a także usprawnieniem technik modelowania dłuższych sekwencji tekstu.

Jak duże?

Definicja jest niejednoznaczna, ale używane jest określenie „duże” do określenia BERT (parametrów 110 M) i PaLM 2 (do 340 mld).

Parametry to waga nauczona przez model podczas trenowania. Służy do prognozowania następnego tokena w sekwencji. Wartość „Duży” może odnosić się do liczby parametrów w modelu lub do liczby słów w zbiorze danych.

Przekształcenia

Najważniejszym modelowaniem języka było wprowadzenie w 2017 roku transformacji – architektury zaprojektowanej pod kątem interesów. Pozwoliło to przetwarzać dłuższe sekwencje, skupiając się na najistotniejszej części wejściowej i rozwiązując problemy z pamięcią we wcześniejszych modelach.

Transformatory to najnowocześniejsza architektura przeznaczona do najróżniejszych modeli modeli języków, takich jak tłumacze.

Jeśli dane wejściowe to „Jestem dobrym psem”, tłumacz oparty na transformatorze przekształca dane wejściowe w dane wyjściowe „Je suis un bon chien”, czyli to samo zdanie po francusku.

Full Transformers składa się z kodera i dekodera. Koder konwertuje tekst wejściowy na pośredni, a dekoder konwertuje taki tekst na przydatny tekst.

Monitorowanie siebie

Transformatory w dużym stopniu bazują na koncepcji zwanej „uważaniem siebie”. Ta część dotyczy „koncentracji” każdego tokena w korpusie. W zasadzie w imieniu każdego tokena wejściowego zwracania uwagi zwraca się do nich pytanie: „Jaki znaczenie ma każdy z tych tokenów wejściowych dla ja?”. Aby uprościć sprawy, przyjmijmy, że każdy token to słowo, a pełny kontekst to jedno zdanie. Rozważ to zdanie:

Zwierzę nie przekroczyło ulicy, ponieważ było zmęczone.

W poprzednim zdaniu jest 11 słów, więc każde z nich zwraca uwagę na pozostałe 10 słów i zastanawia się, jak duże jest każde z nich. Zwróć uwagę na przykład na to, że zdanie zawiera zaimek it. Zaimki są często niejednoznaczne. Zaimek to zawsze oznacza ostatnią rzeczownik, ale w przykładowym zdaniu rzecz, której używa, dotyczy: zwierzęcia czy ulicy.

Mechanizm utrzymania uwagi określa trafność każdego słowa w pobliżu, w tym zaimku jego.

Jakie są przykładowe zastosowania LLM?

Reklamy LLM są bardzo skuteczne w opracowanych przez siebie zadaniach, które w odpowiedzi na wprowadzane zmiany generują najbardziej prawdopodobny tekst. Okazuje się też, że osiągają dobre wyniki w innych zadaniach, takich jak podsumowanie, odpowiedzi na pytania czy klasyfikacja tekstu. Nazywamy je uzyskanymi umiejętnościami. Zespoły LLM potrafią nawet rozwiązywać problemy matematyczne i pisać kod (ale zalecamy sprawdzanie ich pracy).

LM to świetne narzędzie do naśladowania wzorców mowy człowieka. Świetnie nadają się między innymi do łączenia informacji z różnymi stylami i tonami.

Są one jednak komponentami modeli, które nie służą tylko do generowania tekstu. Ostatnie LLM zostały użyte do budowania wzorców do wykrywania uczuć, klasyfikatorów toksyczności i generowania napisów do obrazów.

Uwagi dotyczące LLM

Takie duże modele nie mają wad.

Największe sieci LLM są drogie. Przeszkolenie się w ten sposób może trwać kilka miesięcy, w związku z czym zużywa mnóstwo zasobów.

Można je też zwykle wykorzystywać na inne potrzeby, np. jako cenne srebrne wykończenie.

Modele trenowania o zwiększonych bilionach parametrów tworzą wyzwania techniczne. Aby skoordynować przepływ z elementami i z powrotem, należy zastosować specjalną infrastrukturę i techniki programistyczne.

Istnieją sposoby na zminimalizowanie kosztów tych dużych modeli. 2 metody to wnioskowanie offline i destylacja.

Odchylenie może być problemem w przypadku bardzo dużych modeli i należy je brać pod uwagę podczas trenowania oraz wdrażania.

Ponieważ modele te są szkolone w języku ludzkim, może to wiązać się z wieloma potencjalnymi problemami etycznymi, w tym z niewłaściwym używaniem języka oraz stronniczością, płcią, religią i nie tylko.

Chcemy podkreślić, że w miarę jak te modele będą się powiększać i osiągać coraz lepsze wyniki, musisz skuteczniej rozumieć ich wady i minimalizować ich skutki. Dowiedz się więcej o podejściu Google do odpowiedzialnej sztucznej inteligencji.