Ta strona zawiera terminy z glosariusza Ocena języka. Aby wyświetlić wszystkie terminy w glosariuszu, kliknij tutaj.
O
uwaga
Mechanizm stosowany w sieci neuronowej, który wskazuje znaczenie określonego słowa lub jego części. Attention kompresuje ilość informacji, których model potrzebuje do przewidzenia następnego tokena/słowa. Typowy mechanizm uwagi może składać się z sumy ważonej i zbioru danych wejściowych, w której waga poszczególnych danych wejściowych jest obliczana przez inną część sieci neuronowej.
Zapoznaj się też z informacjami o samodzielności i samodzielnej koncentracji na wielu głowach, które są elementami składowymi przekształceń.
autokoder
System, który uczy się wyodrębniać najważniejsze informacje z danych wejściowych. Autokodery to połączenie kodera i dekodera. Autokodery opierają się na tym dwuetapowym procesie:
- Koder mapuje dane wejściowe na (zwykle) stratny format dolnego rozmiaru (średnio).
- Dekoder tworzy stratną wersję pierwotnych danych wejściowych, mapując format o niższych wymiarach na oryginalny, droższy format wejściowy.
Autokodery są w pełni trenowane przez dekoder, który stara się jak najwierniej odtworzyć pierwotne dane wejściowe z formatu pośredniego kodera. Format pośredni jest mniejszy (niższy) niż format oryginalny, dlatego autokoder jest zmuszony do uczenia się, jakie informacje są niezbędne, a dane wyjściowe nie będą więc identyczne z danymi wejściowymi.
Na przykład:
- Jeśli dane wejściowe mają postać grafiki, niedokładna kopia jest podobna do oryginalnej grafiki, ale nieco zmodyfikowana. Być może kopia niedokładna usuwa szum z oryginalnej grafiki lub wypełnia brakujące piksele.
- Jeśli dane wejściowe mają postać tekstu, autokoder wygeneruje nowy tekst, który naśladuje (ale nie imituje) oryginalny tekst.
Zobacz też różne autokodery.
model autoregresywny
model, który ustala prognozę na podstawie własnych wcześniejszych prognoz. Na przykład modele językowe korzystające z autoregresji prognozują następny token na podstawie wcześniej prognozowanych tokenów. Wszystkie duże modele językowe oparte na Transformer korzystają z automatycznej regresji.
W przeciwieństwie do tego modele obrazu oparte na GAN zwykle nie są autoregresywne, ponieważ generują obraz w ramach pojedynczego przejścia do przodu, a nie iteracyjnie. Niektóre modele generowania obrazów podlegają automatycznej regresji, ponieważ generują obrazy krok po kroku.
B
worek słów
Reprezentacja słów w wyrażeniu lub fragmencie, niezależnie od kolejności. Np. worek słów reprezentuje identycznie te 3 wyrażenia:
- pies podskakujący
- podskakuje psa
- pies skacze
Każde słowo jest mapowane w indeksie w wektorze powolnym, gdzie wektor ma swój indeks dla każdego słowa w słowniku. Na przykład wyrażenie pies skacze jest mapowane na wektor cech z wartościami innymi niż zero w 3 indeksach odpowiadających słowom the, pies i skomp. Wartość różna od zera może być dowolną z tych wartości:
- 1 oznacza obecność słowa.
- Liczba wystąpień danego słowa w torbie. Jeśli na przykład wyrażenie kasztanowy pies to pies z kasztanowy futrem, zarówno kasztanowy, jak i pies zostanie przedstawiony jako 2, a pozostałe słowa – jako 1.
- Inna wartość, na przykład logarytm liczby wystąpień słowa w torbie.
BERT (dwukierunkowe reprezentacje koderów z transformacji)
Architektura modelu reprezentowania tekstu. Wytrenowany model BeRT może działać jako część większego modelu przy klasyfikacji tekstu lub innych zadaniach systemów uczących się.
Oto cechy BERT:
- Wykorzystuje architekturę Transformer, więc wymaga samodzielnej uwagi.
- Używa części kodera Transformera. Zadaniem kodera jest prawidłowe reprezentowanie tekstu zamiast wykonywania konkretnego zadania, np. klasyfikacji.
- Jest dwukierunkowa.
- Wykorzystuje maskowanie do trenowania nienadzorowanego.
Wersje BERT:
Omówienie BERT znajdziesz w artykule Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language (Przetwarzanie języka naturalnego).
dwukierunkowy
Termin oznaczający system oceniający tekst, który przedstawia i postępuje po docelowej sekcji tekstu. Z kolei system jednokierunkowy ocenia tylko tekst, który przedstawia docelową sekcję tekstu.
Rozważmy na przykład model języka z maskowaniem, który musi określać prawdopodobieństwo użycia słowa lub słów reprezentujących podkreślenie w tym pytaniu:
Jakie jest _____ z Tobą?
Jednokierunkowy model językowy musiałby oprzeć swoje prawdopodobieństwo wyłącznie na podstawie kontekstu dostarczonego przez słowa „Co”, „jest” i „the”. W przeciwieństwie do tego dwukierunkowy model językowy może też uzyskać kontekst od „z” i „z Tobą”, co może pomóc w generowaniu lepszych prognoz.
dwukierunkowy model językowy
Model językowy określający prawdopodobieństwo, że dany token znajduje się w danej lokalizacji we fragmencie tekstu na podstawie poprzedniego i następnego tekstu.
Bigram
N-gram, w którym N=2.
BLEU (długofalowe badanie oceny dwujęzycznej)
Wynik od 0, 0 do 1, 0 włącznie, który wskazuje jakość tłumaczenia między 2 językami ludzkimi (na przykład między angielskim i rosyjskim). Wynik BLEU o wartości 1,0 oznacza tłumaczenie idealne, a wynik BLEU równy 0,0 wskazuje na kiepskie tłumaczenie.
C
przyczynowy model językowy
Synonim jednokierunkowego modelu językowego.
Zobacz Dwukierunkowy model językowy, aby porównać różne podejścia kierunkowe w modelowaniu języka.
podpowiedzi w łańcuchu myślowym
Technika inżynierii podpowiedzi, która zachęca duży model językowy (LLM) do szczegółowego wyjaśnienia powodów. Przyjrzyjmy się przykładowi poniższego zdania, zwracając szczególną uwagę na drugie zdanie:
Ile g siła może pracować kierowcy, który porusza się z prędkością od 0 do 100 km/h w 7 sekund? W odpowiedzi wyświetl wszystkie odpowiednie obliczenia.
Odpowiedź obiektu LLM prawdopodobnie:
- Pokaż sekwencję formuł fizycznych, umieszczając wartości 0, 60 i 7 w odpowiednich miejscach.
- Wyjaśnij, dlaczego wybrał te formuły i co oznaczają poszczególne zmienne.
Podpowiedzi w łańcuchu myślenia wymuszają na LLM wykonanie wszystkich obliczeń, co może prowadzić do uzyskania lepszej odpowiedzi. Ponadto polecenie łańcucha myślowego umożliwia użytkownikowi przejrzenie kroków podejmowanych przez model LLM w celu określenia, czy dana odpowiedź ma sens.
analiza okręgów wyborczych
Podzielenie zdania na mniejsze struktury gramatyczne („składniki”). Późniejsza część systemu ML, na przykład model rozumienia języka naturalnego, pozwala łatwiej przeanalizować składniki niż pierwotne zdanie. Weźmy na przykład to zdanie:
Mój kumpel zaadoptował dwa koty.
Parser okręgów wyborczych może podzielić to zdanie na te 2 komponenty:
- Mój przyjaciel to wyrażenie rzeczownikowe.
- adopcja dwóch kotów to wyrażenie z czasownika.
Składniki te można dalej dzielić na mniejsze części składowe. Na przykład wyrażenie czasownika
adoptowała dwa koty
można dodatkowo podzielić na:
- adopted to czasownik.
- dwa koty to kolejne wyrażenie.
rozkwit
Zdanie lub wyrażenie o niejednoznacznym znaczeniu. Kwitnące gwary powodują poważne problemy ze rozumieniem języka naturalnego. Na przykład nagłówek Czerwona taśma trzymająca wieżowiec przypomina rozkwit, ponieważ model NLU mógłby zinterpretować nagłówek dosłownie lub w sposób fikcyjny.
D
dekoder
Ogólnie rzecz biorąc, każdy system ML, który dokonuje konwersji z przetworzonej, zwartej lub wewnętrznej reprezentacji, na reprezentację bardziej nieprzetworzoną, rzadką lub zewnętrzną.
Dekodery są często składnikiem większego modelu, w którym są często sparowane z koderem.
W zadaniach sekwencyjnych z sekwencją dekoder rozpoczyna działanie od stanu wewnętrznego wygenerowanego przez koder, aby przewidywać kolejną sekwencję.
Definicję dekodera w architekturze Transformer znajdziesz w sekcji Transformer.
wyciszanie szumów
Typowe podejście do nauki samodzielnej, w którym:
Funkcja wyciszania szumów umożliwia naukę na podstawie przykładów bez etykiet. Pierwotny zbiór danych służy jako miejsce docelowe lub etykieta, a szumne dane jako dane wejściowe.
Niektóre modele języka z maskowaniem stosują wyciszanie szumów w ten sposób:
- Hałas jest sztucznie dodany do nieoznaczonego zdania przez maskowanie niektórych tokenów.
- Model próbuje przewidzieć oryginalne tokeny.
bezpośrednie podpowiedzi
Synonim prośby o zresetowanie hasła.
E
edytuj odległość
Pomiar podobieństwa dwóch ciągów tekstowych do siebie. W przypadku systemów uczących się edytowanie odległości jest przydatne, ponieważ jest proste i łatwe do obliczenia. Jest też skutecznym sposobem porównywania 2 ciągów znaków, o których wiemy, że są podobne, lub znajdowania podobnych ciągów.
Istnieje kilka definicji odległości edycji, z których każda korzysta z innych operacji na ciągach. Na przykład Odległość Levenshteina uwzględnia najmniejszą liczbę operacji usuwania, wstawiania i zastępowania.
Na przykład odległość Levenshteina między słowami „serce” i „rzutki” wynosi 3, ponieważ te 3 zmiany to najmniejsza liczba zmian, które powodowały zamianę jednego słowa w inne:
- serce → deart (zamień „h” na „d”)
- deart → dart (usuń „e”)
- rzutka → rzutki (wstaw literę „s”)
warstwa osadzania
Specjalna ukryta warstwa, która trenuje na wysokiej funkcji kategorialnej, aby stopniowo uczyć się osadzania wektorów niższego wymiaru. Warstwa osadzona pozwala sieci neuronowej trenować o wiele efektywniej niż tylko na podstawie wysokowymiarowych cech kategorialnych.
Przykładowo Ziemia obsługuje obecnie około 73 000 gatunków drzew. Załóżmy, że gatunki drzewa są cechą w Twoim modelu,więc warstwa wejściowa modelu zawiera jedno gorący wektor o długości 73 000 elementów.
Na przykład baobab
może wyglądać tak:
Tablica zawierająca 73 000 elementów jest bardzo długa. Jeśli nie dodasz do modelu warstwy osadzania, trenowanie będzie bardzo czasochłonne z powodu pomnożenia 72 999 zer. Możesz np. wybrać warstwę osadzania, by składała się z 12 wymiarów. W rezultacie warstwa osadzań stopniowo uczy się nowych wektorów osadzających dla poszczególnych gatunków drzew.
W niektórych sytuacjach szyfrowanie jest rozsądną alternatywą dla warstwy osadzania.
miejsce na umieszczenie
Mapa jest przyporządkowana przestrzeni wektorowej d – większej przestrzeni wektorowej. W idealnej sytuacji miejsce do umieszczenia zawiera strukturę, która pozwala na uzyskiwanie miarodajnych wyników matematycznych. Na przykład w idealnej przestrzeni osadzonych dodawanie i odejmowanie właściwości może pomóc w zadaniach analogicznych słów.
Iloczyn skalarny dwóch reprezentacji właściwościowych określa ich podobieństwo.
wektor osadzony
Ogólnie rzecz biorąc, jest to tablica liczb zmiennoprzecinkowych pobranych z dowolnej ukrytej warstwy, która opisuje dane wejściowe tej ukrytej warstwy. Często wektor osadzony to tablica liczb zmiennoprzecinkowych wytrenowanych w warstwie osadzonej. Załóżmy na przykład, że warstwa osadzona musi nauczyć się osadzania dla każdego z 73 000 gatunków drzew na Ziemi. Być może ta tablica jest wektorem osadzonym drzewa baobaba:
Wektor osadzony nie jest zbiorem losowych liczb. Warstwa osadzania określa te wartości przez trenowanie, podobnie jak sieć neuronowa zapamiętuje inne wagi podczas trenowania. Każdy element tablicy to ocena dotycząca pewnej charakterystyki gatunku drzew. Który element reprezentuje cechy konkretnych gatunków drzew? Ludzkość jest bardzo trudna do określenia.
Matematyczną cechą wektora osadzonego jest to, że podobne elementy mają podobne zestawy liczb zmiennoprzecinkowych. Na przykład podobne gatunki drzew mają bardziej podobny zestaw liczb zmiennoprzecinkowych niż odmienne gatunki drzew. Sekwoja i sekwoje są powiązanymi gatunkami drzew, więc mają bardziej podobny zestaw liczb zmiennoprzecinkowych niż sekwoje i palmy kokosowe. Liczby we wektorze osadzonym będą się zmieniać za każdym razem, gdy ponownie wytrenujesz model, nawet jeśli ponownie wytrenujesz model z identycznymi danymi wejściowymi.
koder
Ogólnie rzecz biorąc, każdy system ML, który przekształca reprezentację nieprzetworzoną, rozproszoną lub zewnętrzną, na reprezentację bardziej przetworzoną, gęstszą lub bardziej wewnętrzną.
Kodery są często składnikiem większego modelu, w którym są często sparowane z dekoderem. Niektóre Transformers łączą kodery z dekoderami, inne używają tylko kodera lub tylko dekodera.
Niektóre systemy używają danych wyjściowych kodera jako danych wejściowych do sieci klasyfikacji lub regresji.
W zadaniach sekwencyjnych z sekwencją koder pobiera sekwencję wejściową i zwraca stan wewnętrzny (wektor). Następnie dekoder wykorzystuje ten stan wewnętrzny do prognozowania następnej sekwencji.
Definicję kodera dla architektury Transformer znajdziesz w sekcji Transformer.
F
wyświetlanie kilku zdjęć
Komunikat zawierający więcej niż 1 (kilka) przykład pokazujący, jak powinien zareagować duży model językowy. Na przykład ten długi prompt zawiera 2 przykłady pokazujących, jak odpowiedzieć na zapytanie w dużym modelu językowym.
Elementy jednej wiadomości | Uwagi |
---|---|
Jaka jest oficjalna waluta wybranego kraju? | Pytanie, na które ma odpowiedzieć LLM. |
Francja: EUR | Przykład. |
Wielka Brytania: GBP | Inny przykład. |
Indie: | Faktyczne zapytanie. |
Prośby o kilka zdjęć na ogół dają bardziej pożądane wyniki niż prośby o zbieranie danych czy prośby jednorazowe. Jednak kilkukrotne wysyłanie wymaga długiego komunikatu.
Podpowiedzi w kilku krokach to forma szybkiej nauki stosowana w nauce opartej na prośbach.
Skrzypce
Biblioteka konfiguracji oparta na Pythonie, która ustawia wartości funkcji i klas bez inwazyjnego kodu i infrastruktury. W przypadku Pax i innych baz kodu systemów uczących się te funkcje i klasy reprezentują modele i trenowanie hiperparametrów.
W przypadku Fiddle bazy kodu systemów uczących się są zwykle podzielone na:
- Kod biblioteki, który definiuje warstwy i optymalizatory.
- Kod „klej” zbioru danych, który wywołuje biblioteki i łączy wszystko razem.
Fiddle przechwytuje strukturę wywołania kodu klejowego w nieocenionej i zmiennej formie.
dostrajanie
Drugie przejście trenowania dostosowane do konkretnego działania zostało wykonane na wytrenowanym modelu w celu doprecyzowania jego parametrów pod kątem określonego przypadku użycia. Na przykład pełna sekwencja trenowania w przypadku niektórych dużych modeli językowych wygląda tak:
- Ćwiczenie wstępne: wytrenuj duży model językowy przy użyciu ogromnego ogólnego zbioru danych, takiego jak wszystkie anglojęzyczne strony w Wikipedii.
- Dostrajanie: wytrenuj już wytrenowany model do wykonywania określonego zadania, na przykład odpowiadania na zapytania medyczne. Dostrajanie obejmuje zwykle setki lub tysiące przykładów związanych z konkretnym zadaniem.
W innym przykładzie pełna sekwencja trenowania w przypadku dużego modelu obrazu wygląda tak:
- Wstępne trenowanie: wytrenuj duży model obrazu z wykorzystaniem ogromnego ogólnego zbioru danych obrazów, np. wszystkich obrazów w witrynie Wikimedia Commons.
- Dostrajanie: wytrenuj już wytrenowany model do wykonania określonego zadania, takiego jak generowanie obrazów orek.
Wprowadzenie poprawek może obejmować dowolną kombinację następujących strategii:
- Modyfikowanie wszystkich parametrów już wytrenowanego modelu. Czasami nazywa się to pełnym dostrajaniem.
- Modyfikowanie tylko niektórych dotychczasowych parametrów wytrenowanego modelu (zwykle warstwy znajdujące się najbliżej warstwy wyjściowej) przy zachowaniu pozostałych parametrów bez zmian (zazwyczaj warstwy najbliższe warstwy wejściowej). Zobacz dostrajanie z wykorzystaniem parametrów.
- Dodanie większej liczby warstw, zwykle nad istniejącymi warstwami najbliżej warstwy wyjściowej.
Dostrajanie to forma nauki transferu. W związku z tym dostrajanie może wykorzystywać inną funkcję straty lub inny typ modelu niż te używane do trenowania już wytrenowanego modelu. Możesz na przykład dostroić już wytrenowany model dużego obrazu, aby uzyskać model regresji, który zwraca liczbę ptaków na obrazie wejściowym.
Porównaj dostrajanie tych terminów:
Len
Wydajna biblioteka typu open source do deep learningu oparta na technologii JAX. Flax udostępnia funkcje do trenowania sieci neuronowych oraz metody oceny ich wydajności.
Flaxformer
Biblioteka Transformer typu open source, oparta na Flax, przeznaczona przede wszystkim do przetwarzania języka naturalnego i badań wielomodalnych.
G
generatywna AI
Rozwijające się pole bez formalnej definicji. Mimo to większość ekspertów zgadza się, że modele generatywnej AI mogą tworzyć („generować”) treści, które:
- złożone
- spójny
- oryginał
Na przykład generatywny model AI może służyć do tworzenia wyszukanych wypracowań lub obrazów.
Niektóre wcześniejsze technologie, takie jak LSTM i RNN, również mogą generować oryginalne i spójne treści. Niektórzy eksperci uważają je za generatywną sztuczną inteligencję, a inni uważają, że prawdziwa generatywna sztuczna inteligencja wymaga bardziej złożonych wyników niż te, które oferują starsze technologie.
W przeciwieństwie do systemów uczących się prognozowanych.
GPT (generatywny, wytrenowany transformator)
Rodzina dużych modeli językowych opartych na Transformer, opracowanych przez OpenAI.
Warianty tagów GPT mogą mieć zastosowanie w wielu modalnościach, m.in.:
- generowanie obrazów (np. ImageGPT),
- zamiany tekstu na obraz (np. DALL-E).
H
halucynacje
Tworzenie przez model generatywnej AI wyników, które wydają się wiarygodne, lecz niepoprawne pod względem merytorycznym, które rzekomo mają na celu udowodnienie realnego świata. Na przykład generatywny model AI, w którym twierdzi, że Barack Obama zmarł w 1865 roku, jest halucynacyjny.
I
nauka w kontekście
Synonim wyrażenia kilka podpowiedzi.
L
LaMDA (model języka dla aplikacji dialogowych)
Oparty przez Transformer duży model językowy opracowany przez Google i wytrenowany na dużym zbiorze danych dialogowych, który może generować realistyczne odpowiedzi rozmowy.
W skrócie LaMDA: nasza przełomowa technologia do prowadzenia rozmów.
model języka
model, który ocenia prawdopodobieństwo wystąpienia model lub sekwencji tokenów w dłuższej kolejności.
duży model językowy
Nieformalny termin bez ścisłej definicji, który zwykle oznacza model językowy z dużą liczbą parametrów. Niektóre duże modele językowe zawierają ponad 100 miliardów parametrów.
P
model języka maskowanego
Model językowy, który przewiduje prawdopodobieństwo wypełnienia pustych miejsc w sekwencji przez tokeny kandydatów. Na przykład model języka maskowanego może obliczać prawdopodobieństwo zastąpienia podkreślenia w tym zdaniu:
____ w kapeluszu wróciła.
W literaturze zazwyczaj zamiast podkreślenia używa się ciągu znaków „MASK”. Na przykład:
W czapce wróciła „MASK”.
Większość nowoczesnych modeli języka z maskowaniem jest dwukierunkowa.
metauczenie się
Podzbiór systemów uczących się, który wykrywa lub ulepsza algorytm uczenia się. System metauczenia się może też trenować model tak, aby szybko nauczył się nowych zadań na podstawie niewielkiej ilości danych lub z doświadczenia zdobytego w poprzednich zadaniach. Algorytmy metauczenia się zwykle dążą do osiągnięcia tych celów:
- ulepszanie lub poznawanie ręcznie opracowanych funkcji (np. inicjatora lub optymalizatora);
- zwiększyć wydajność przetwarzania danych i mocy obliczeniowej;
- Lepiej uogólniać.
Meta-uczenie jest związane z kilkoma uczeniem się.
modalność
Ogólna kategoria danych. Np. liczby, tekst, obrazy, wideo i dźwięk to 5 różnych opcji.
równoległość modelu
Sposób skalowania trenowania lub wnioskowania, który umieszcza różne części jednego model na różnych model. Równoległość do modeli umożliwia korzystanie z modeli, które są zbyt duże, aby zmieścić się na jednym urządzeniu.
Aby wdrożyć równoległość do modelu, system zwykle wykonuje te czynności:
- Rozdziela model na mniejsze części.
- Rozprowadza trenowanie tych mniejszych części przez wiele procesorów. Każdy procesor trenuje własną część modelu.
- Łączy wyniki w celu utworzenia pojedynczego modelu.
Równoległość do modelu spowalnia trenowanie.
Zobacz też artykuł na temat równoległości z danymi.
koncentracja na wielu głowach
Rozszerzenie uwagi, które wielokrotnie stosuje mechanizm samodzielnego uważnego koncentrowania się na każdej pozycji w sekwencji wejściowej.
W Transformers wprowadzono samouczenie się na głowie.
model wielomodalny
Model, którego dane wejściowe lub wyjściowe zawierają więcej niż 1 modalność. Załóżmy na przykład, że jako funkcje użyto zarówno obrazu, jak i napisu tekstowego (dwie opcje), i zwracamy wynik wskazujący, w jakim stopniu napisy są dopasowane do obrazu. Dane wejściowe tego modelu są wielomodalne, a dane wyjściowe są jednomodalne.
N
rozumienie języka naturalnego
Określanie zamiarów użytkownika na podstawie tego, co wpisał lub powiedział. Na przykład wyszukiwarka używa języka naturalnego do określenia, czego szuka użytkownik, na podstawie tego, co wpisał lub powiedział.
N-gram
Uporządkowana sekwencja N słów. Na przykład słowo Naprawdę szalenie ma wartość 2 gramów. Ponieważ kolejność ma znaczenie, nieprawidłowo to coś innego niż serio szalony.
N | Nazwy dla tego rodzaju N-gramów | Przykłady |
---|---|---|
2 | bigram lub 2 gramy | iść, jechać, zjeść obiad, zjeść kolację |
3 | trygram lub 3 gramy | zjadłem zbyt dużo, trzy niewidome myszy, dzwonki |
4 | 4 gramy | spacer w parku, pył na wietrze, chłopiec zjadł soczewkę |
Wiele modeli rozumienia języka naturalnego wykorzystuje N gramów do przewidywania następnego słowa, które użytkownik wpisze lub powiedz. Załóżmy, że użytkownik wpisał trzy ślepy. Model NLU oparty na trygramach prawdopodobnie przewidziałby, że użytkownik kolejny raz wybierze myszy.
N-gramy różnią się od torby słów, które są nieuporządkowanymi zestawami słów.
NLU
Skrót od wyrażenia rozumienie języka naturalnego.
O
podpowiedzi jednorazowe
Komunikat zawierający jeden przykład pokazujący, jak powinien odpowiadać duży model językowy. Następujący prompt zawiera na przykład jeden przykład pokazujący, jak duży model językowy powinien odpowiadać na zapytanie.
Elementy jednej wiadomości | Uwagi |
---|---|
Jaka jest oficjalna waluta wybranego kraju? | Pytanie, na które ma odpowiedzieć LLM. |
Francja: EUR | Przykład. |
Indie: | Faktyczne zapytanie. |
Porównaj zrzuty ekranu z tymi terminami:
P
dostrajanie z wykorzystaniem parametrów
Zestaw technik do dostrajania dużego wytrenowanego modelu językowego (PLM) bardziej efektywnego niż pełne dostrajanie. Dostrajanie z wykorzystaniem parametrów zajmuje zwykle znacznie mniej parametrów niż pełne dostrajanie, ale na ogół powoduje utworzenie dużego modelu językowego, który działa równie dobrze (lub prawie tak samo dobrze) jak duży model językowy zbudowany z pełnego dostrajania.
Porównaj dostrajanie z wykorzystaniem parametrów za pomocą:
Dostrajanie z wykorzystaniem parametrów nazywane jest też dostrajaniem z wykorzystaniem parametrów.
potokowanie
Forma równoległości do modelu, w której przetwarzanie modelu jest podzielone na kolejne etapy, a każdy z nich jest wykonywany na innym urządzeniu. Podczas przetwarzania jednej wsadu na etapie poprzedni etap może działać w następnej.
Zobacz też szkolenie etapowe.
PLM
Skrót od wytrenowanego modelu językowego.
kodowanie pozycjonujące
Technika dodawania informacji o pozycji tokena w sekwencji do jego umieszczania. Modele transformacji używają kodowania pozycjonującego, aby lepiej zrozumieć relacje między różnymi częściami sekwencji.
Typowa implementacja kodowania pozycjonującego korzysta z funkcji sinusoidalnej. (a konkretnie częstotliwość i amplituda funkcji sinusoidalnej są określane przez pozycję tokena w sekwencji). Ta technika pozwala modelowi Transformera nauczyć się uwzględniać różne części sekwencji w zależności od ich pozycji.
wytrenowany model
modele lub komponenty modeli (np. wektor osadzony), które zostały już wytrenowane; Czasami przesyłasz wytrenowane wektory osadzone do sieci neuronowej. Innym razem model nie będzie korzystać z wytrenowanych wcześniej wektorów osadzonych, tylko trenuje wektory osadzone samodzielnie.
Termin wytrenowany model językowy odnosi się do dużego modelu językowego, który został wstępnie trenowany.
przedtrenowanie
Wstępne trenowanie modelu na dużym zbiorze danych. Niektóre wytrenowane modele to niezdarne olśniewacze i zwykle trzeba je dopracować przez dodatkowe trenowanie. Eksperci ds. systemów uczących się mogą na przykład wstępnie wytrenować duży model językowy na obszernym zbiorze danych tekstowych, takim jak wszystkie strony w języku angielskim w Wikipedii. Po wstępnym trenowaniu model wyników można doprecyzować za pomocą dowolnej z tych metod:
- destylacja
- dostrajanie
- dostrajanie instrukcji
- dostrajanie z uwzględnieniem parametrów
- dostrajanie próśb
prompt
Każdy tekst wpisany jako dane wejściowe do dużego modelu językowego, aby uwarunkować model tak, aby działał w określony sposób. Prompty mogą być krótkie, jak zdanie, lub dowolnie długie (np. cały tekst powieści). Potwierdzenia dzielą się na wiele kategorii, między innymi te wymienione w tej tabeli:
Kategoria promptu | Przykład | Uwagi |
---|---|---|
Question | Jak szybko gołębie potrafią latać? | |
Instrukcja | Napisz zabawny wiersz o arbitrażach. | Prośba z dużym modelem językowym, by coś zrobiła. |
Przykład | Przetłumacz kod Markdown na HTML. Na przykład:
Markdown: * element listy HTML: <ul> <li>element listy</li> </ul> |
Pierwsze zdanie w tym przykładzie to instrukcja. Pozostała część promptu to przykład. |
Rola | Wyjaśnij, dlaczego Obniżenie gradientowe jest używane podczas nauki systemów uczących się podczas studiów doktoranckich z fizyki. | Pierwsza część zdania to instrukcja, a wyrażenie „doktoranckiego z fizyki” – rolę. |
Częściowe dane wejściowe modelu | Premier Wielkiej Brytanii mieszka tutaj | Częściowa prośba o wprowadzenie danych może kończyć się nagle (jak w tym przykładzie) lub kończyć się podkreśleniem. |
Model generatywnej AI może odpowiedzieć na prośbę za pomocą tekstu, kodu, obrazów, elementów umieszczanych na stronie czy filmów – niemal wszystko.
uczenie się oparte na szybkich podpowiedziach
Zdolność określonych modeli, która pozwala im dostosowywać swoje działanie w odpowiedzi na dowolny wpisany tekst (prośby). W typowym modelu uczenia się opartym na promptach duży model językowy generuje tekst, odpowiadając na prompt. Załóżmy na przykład, że użytkownik wpisuje następujący prompt:
Streść III zasadę ruchomości Newtona.
Model zdolny do uczenia się na podstawie promptów nie jest specjalnie wytrenowany do odpowiadania na poprzedni prompt. Model „wie” raczej o wielu faktach o fizyce, ogólnych regułach językowych i o tym, co składa się na ogólnie przydatne odpowiedzi. Wiedza ta wystarczy, aby udzielić (mamy nadzieję) przydatnej odpowiedzi. Dodatkowe opinie użytkowników („Ta odpowiedź była zbyt skomplikowana” lub „Co to jest reakcja?”) umożliwiają niektórym systemom nauczania opartym na promptach stopniowe zwiększanie przydatności odpowiedzi.
projekt promptu
Synonim inżynierii powiadomień.
zespół inżynierski
Sztuka tworzenia próśb, które zwracają pożądane odpowiedzi z dużego modelu językowego. Ludzie zajmują się szybkimi inżynierami. Przygotowanie uporządkowanych promptów to klucz do zapewnienia użytecznych odpowiedzi z dużego modelu językowego. Szybkość działania zależy od wielu czynników, w tym:
- Zbiór danych używany do wstępnego trenowania i ewentualnie dostrajania dużego modelu językowego.
- Temperatura i inne parametry dekodowania, których model używa do generowania odpowiedzi.
Więcej informacji o tworzeniu pomocnych promptów znajdziesz w artykule Wprowadzenie do projektowania promptów.
Projektowanie promptów jest synonimem wyrażenia „szybki ruch”.
dostrajanie promptów
Mechanizm dostrajania efektywnego parametru, który uczy się „prefiksu”, który system dodaje do rzeczywistego komunikatu.
Jedną z odmianach dostrajania promptów – czasem nazywanym dostrajaniem prefiksów – jest dodanie prefiksu na początku każdej warstwy. Z kolei w większości przypadków dostrajanie promptów tylko dodaje prefiks do warstwy wejściowej.
R
prośby o dodanie roli
Opcjonalna część komunikatu, która określa grupę odbiorców odpowiedzi modelu generatywnej AI. Bez prośby o rolę duży model językowy pozwala uzyskać odpowiedź, która może (ale nie musi) być przydatna dla osoby zadającej pytanie. Dzięki podpowiedziom duży model językowy może udzielić odpowiedzi w sposób bardziej odpowiedni i przydatny dla określonej grupy odbiorców. Na przykład te prośby o rolę są pogrubione:
- Streść artykuł dla doktoratu w ekonomii.
- Opisz, jak działają pływy dla dziesięciolatka.
- Wyjaśnić kryzys finansowy z 2008 roku. Mów tak jak do małego dziecka lub do golden retrievera.
S
koncentracji na samopoznaniu (nazywanej również warstwą uwagi)
Warstwa sieci neuronowej, która przekształca sekwencję osadzania (np. token) w inną sekwencję umieszczania. Każde umieszczenie w sekwencji wyjściowej opiera się na integracji informacji z elementów sekwencji wejściowej za pomocą mechanizmu uwagi.
Samczęść zainteresowania odnosi się do sekwencji, która dotyczy samej siebie, a nie innego kontekstu. Samodzielna koncentracja jest jednym z głównych elementów Transformers. Terminologia opiera się na terminologii wyszukiwania w słowniku, takich jak „zapytanie”, „klucz” i „wartość”.
Warstwa skupienia uwagi zaczyna się od sekwencji reprezentacji wejściowych, po jednej dla każdego słowa. Dane wejściowe słowa mogą mieć postać prostego umieszczenia. Dla każdego słowa w sekwencji wejściowej sieć ocenia trafność słowa do każdego elementu w całej sekwencji słów. Oceny trafności określają, w jakim stopniu ostateczna reprezentacja słowa obejmuje wyobrażenia innych słów.
Oto na przykład to zdanie:
Zwierzak nie przeszedł przez ulicę, bo był zbyt zmęczony.
Ilustracja poniżej (z artykułu Transformer: A Novel Neural Network Architegraph for Language Understanding) przedstawia wzór uwagi dla zaimka it w warstwie uwagi użytkownika, przy czym odcień każdego wiersza wskazuje, w jakim stopniu poszczególne słowa przyczyniają się do przedstawienia:
Warstwa autouwagi podświetla słowa pasujące do „tego”. W tym przypadku warstwa uwagi nauczyła się wyróżniać słowa, które może się odnosić, przypisując największą wagę zwierzętowi.
W przypadku sekwencji n tokenów funkcja samodzielnej uwagi przekształca sekwencję reprezentacji właściwościowych n osobnych razy, po jednym na każdym miejscu w sekwencji.
Zapoznaj się też z informacjami na temat uwagi i samodzielnej uwagi.
analiza nastawienia
stosowanie algorytmów statystycznych lub algorytmów systemów uczących się do określania ogólnego podejścia grupy (pozytywnego lub negatywnego) do usługi, produktu, organizacji lub tematu. Na przykład, używając rozumienia języka naturalnego, algorytm może przeprowadzić analizę nastawienia na podstawie opinii tekstowych o kursie, aby określić, w jakim stopniu dany kurs się podobał lub nie podobał się studentom.
zadanie sekwencyjne
Zadanie, które konwertuje wejściową sekwencję tokenów na wyjściową sekwencję tokenów. Na przykład dwa popularne rodzaje zadań od sekwencji do sekwencji to:
- Tłumacze:
- Przykładowa sekwencja danych wejściowych: „Kocham Cię”.
- Przykładowa sekwencja danych wyjściowych: „Je t'aime”.
- Udzielenie odpowiedzi na pytanie:
- Przykładowa sekwencja danych wejściowych: „Czy będę potrzebować samochodu w Nowym Jorku?”.
- Przykładowa sekwencja wyników: „Nie. Zatrzymaj samochód w domu”.
obiekt rozproszony
Funkcja, której wartości są najczęściej puste lub równe zero. Na przykład cecha zawierająca 1 wartość i milion wartości 0 jest bardzo mała. W przeciwieństwie do funkcji cecha gęstość ma wartości, które w większości nie mają wartości 0 lub są puste.
W systemach uczących się zaskakująca liczba funkcji to jedynie niewielkie różnice. Funkcje kategorialne są zwykle ograniczone. Na przykład spośród 300 możliwych gatunków drzew w lesie jeden przykład może zidentyfikować tylko klon. Jeden z milionów filmów w bibliotece filmów może wskazać tylko „Casablanca”.
W modelu zazwyczaj reprezentujesz rzadkie funkcje za pomocą kodowania „one-hot”. Jeśli kodowanie jednorazowe jest bardzo skuteczne, możesz umieścić nad nim warstwę do umieszczenia.
rozproszona reprezentacja
Przechowywanie tylko pozycji elementów innych niż 0 w obiekcie rozproszonym.
Załóżmy na przykład, że funkcja kategorialna o nazwie species
identyfikuje 36 gatunków drzew w konkretnym lesie. Możesz dalej zakładać, że każdy przykład identyfikuje tylko jeden gatunek.
Możesz użyć wektorze 1 gorącego do reprezentowania gatunków drzew w każdym przykładzie.
Wektor „1 gorący” zawiera 1 1
(reprezentuje konkretne gatunki drzew w tym przykładzie) i 35 elementów 0
(czyli 35 gatunków drzew nie w tym przykładzie). Jednorazowa reprezentacja pola maple
może więc wyglądać mniej więcej tak:
Z kolei niewielka reprezentacja mogłaby po prostu zidentyfikować położenie konkretnych gatunków. Jeśli maple
znajduje się na pozycji 24, rzadkie przedstawienie maple
będzie wyglądać tak:
24
Reprezentacja rozproszona jest znacznie mniej zwięzła niż prezentacja tylko raz.
szkolenie etapowe
Taktyka trenowania modelu w sekwencji odrębnych etapów. Może to być przyspieszenie procesu trenowania lub uzyskanie lepszej jakości modelu.
Ilustracja przedstawiająca metodę progresywnego scalania została przedstawiona poniżej:
- Na etapie 1 – 3 ukryte, na etapie 2 – z 6 ukrytych, a na etapie 3 – na 12 ukrytych.
- Etap 2 rozpoczyna trening od ciężarów zdobytych w 3 ukrytych warstwach etapu 1. Etap 3 rozpoczyna trening od ciężarów zdobytych w 6 ukrytych warstwach etapu 2.
Zobacz też potokowanie potoków.
T
T5
Model przenoszenia nauczania za pomocą zamiany tekstu na tekst wprowadzony przez sztuczną inteligencję Google w 2020 roku. T5 to model kodera-dekodera oparty na architekturze Transformer, wytrenowany na bardzo dużym zbiorze danych. Pomaga w różnych zadaniach związanych z przetwarzaniem języka naturalnego, takich jak generowanie tekstu, tłumaczenie języków i odpowiadanie na pytania w formie konwersacyjnej.
Nazwa T5 pochodzi od pięciu liter T w „Transformerze transferu tekstu na tekst”.
T5X,
Platforma open source systemów uczących się zaprojektowana do tworzenia i trenowania dużych modeli przetwarzania języka naturalnego (NLP). Kod T5 jest zaimplementowany w bazie kodu T5X (opartej na technologii JAX i Flax).
temperatura
Hiperparametr, który kontroluje stopień losowości danych wyjściowych modelu. Wyższa temperatura oznacza więcej losowego wyjścia, a niższa – mniej losowych wyników.
Wybór najlepszej temperatury zależy od konkretnej aplikacji i pożądanych właściwości danych wyjściowych modelu. Możesz na przykład podnieść temperaturę podczas tworzenia aplikacji, która generuje dane wyjściowe kreacji. I na odwrót, najprawdopodobniej obniży temperaturę podczas tworzenia modelu, który klasyfikuje obrazy lub tekst, aby zwiększyć dokładność i spójność modelu.
Temperatura jest często używana z funkcją softmax.
zakres tekstu
Zakres indeksu tablicy powiązany z określoną podsekcją ciągu tekstowego.
Na przykład słowo good
w ciągu znaków Pythona s="Be good now"
zajmuje zakres od 3 do 6.
token
W modelu językowym jednostka atomowa, na której model się trenuje i na której tworzy prognozy. Token jest zwykle jednym z tych typów:
- np. wyrażenie „psy jak koty” składa się z 3 tokenów: „psy”, „podoba” i „koty”.
- znak, np. wyrażenie „ryba na rowerze” składa się z 9 znaków. (puste miejsce liczy się jako jeden z tokenów).
- podsłowa, w których pojedyncze słowo może być pojedynczym tokenem lub wieloma tokenami; Słowo podrzędne składa się ze słowa głównego, prefiksu lub sufiksu. Na przykład model językowy, który wykorzystuje słowa podrzędne jako tokeny, może uznać słowo „psy” za dwa tokeny (słowo główne „pies” i sufiks w liczbie mnogiej „s”). Ten sam model językowy może uznać, że pojedyncze słowo „wyższy” może zostać uznane za 2 słowa podrzędne (słowo główne „wysoki” i przyrostek „er”).
W domenach innych niż modele językowe tokeny mogą reprezentować inne rodzaje jednostek atomowych. Na przykład w przypadku rozpoznawania obrazów token może być podzbiorem obrazu.
Transformator
Opracowana przez Google architektura sieci neuronowej, która opiera się na mechanizmach samouczenia, aby przekształcać sekwencję osadzonych danych wejściowych w sekwencję osadzonych danych wyjściowych, nie korzystając z konwulacji ani powtarzających się sieci neuronowych. Transformer można porównać do stosu warstw, które wymagają uwagi.
Transformer może zawierać dowolny z tych elementów:
Koder przekształca sekwencję reprezentacji właściwościowych w nową sekwencję o tej samej długości. Koder zawiera N jednakowych warstw, z których każda zawiera 2 warstwy podrzędne. Te 2 warstwy podrzędne są stosowane w każdej pozycji wejściowej sekwencji umieszczania, przekształcając każdy element sekwencji w nowe umieszczenie. Pierwsza warstwa podrzędna kodera zbiera informacje z całej sekwencji wejściowej. Druga warstwa podrzędna kodera przekształca zagregowane informacje w umieszczone dane wyjściowe.
Dekoder przekształca sekwencję reprezentacji właściwości wejściowych w sekwencję reprezentacji danych wyjściowych, prawdopodobnie o innej długości. Dekoder zawiera też N identycznych warstw z 3 warstwami podrzędnymi, z których 2 są podobne do warstw podrzędnych kodera. Trzecia warstwa podrzędna dekodera pobiera informacje z danych wyjściowych kodera i wykorzystuje mechanizm samodzielnej uwagi.
Dobrym wprowadzeniem do Transformers jest post na blogu Transformer: A Novel Neural Network Architeural for Language Understanding.
trygram
N-gram, w którym N=3.
U
jednokierunkowo
System oceniający tylko tekst, który wyprzedza docelową sekcję tekstu. System dwukierunkowy ocenia natomiast tekst, który przedstawia i postępuje po docelowej sekcji tekstu. Więcej informacji znajdziesz w sekcji Dwukierunkowe.
jednokierunkowy model językowy
Model językowy, który opiera swoje prawdopodobieństwo wyłącznie na tokenach występujących przed, a nie po tokenach docelowych. Kontrast z dwukierunkowym modelem językowym.
V
autokoder odmiany (VAE)
Rodzaj autokodera, który wykorzystuje rozbieżności między danymi wejściowymi a danymi wyjściowymi do generowania zmodyfikowanych wersji danych wejściowych. Autokodery warunkowe są przydatne w przypadku generatywnej AI.
Wskaźniki VAE opierają się na wnioskowaniu zmiennym, czyli technikie szacowania parametrów modelu prawdopodobieństwa.
Ś
umieszczanie słów
Reprezentowanie każdego słowa w słowie ustawionym w wektorze osadzonym, czyli reprezentowanie każdego słowa jako wektoru liczby zmiennoprzecinkowej z zakresu od 0,0 do 1,0. Słowa o podobnym znaczeniu mają bardziej podobne reprezentacje niż słowa o innym znaczeniu. Na przykład marchew, seler i ogórki mają podobną reprezentację, która bardzo różni się od wyglądu samolotu, okularów przeciwsłonecznych czy pasty do zębów.
Z
monit o zero strzału
Komunikat, który nie pokazuje, jak ma odpowiadać duży model językowy. Na przykład:
Elementy jednej wiadomości | Uwagi |
---|---|
Jaka jest oficjalna waluta wybranego kraju? | Pytanie, na które ma odpowiedzieć LLM. |
Indie: | Faktyczne zapytanie. |
Duży model językowy może odpowiadać dowolnym z tych komunikatów:
- Rupia
- INR
- ₹
- Rupia indyjska
- rupia
- rupia indyjska
Wszystkie odpowiedzi są prawidłowe, ale możesz preferować konkretny format.
Porównaj prośbę o zerowanie z tymi terminami: