Słowniczek systemów uczących się: sprawdzanie języka

Ta strona zawiera terminy z glosariusza Ocena języka. Aby wyświetlić wszystkie terminy w glosariuszu, kliknij tutaj.

O

uwaga

#language

Mechanizm stosowany w sieci neuronowej, który wskazuje znaczenie określonego słowa lub jego części. Attention kompresuje ilość informacji, których model potrzebuje do przewidzenia następnego tokena/słowa. Typowy mechanizm uwagi może składać się z sumy ważonej i zbioru danych wejściowych, w której waga poszczególnych danych wejściowych jest obliczana przez inną część sieci neuronowej.

Zapoznaj się też z informacjami o samodzielności i samodzielnej koncentracji na wielu głowach, które są elementami składowymi przekształceń.

autokoder

#language
#image

System, który uczy się wyodrębniać najważniejsze informacje z danych wejściowych. Autokodery to połączenie kodera i dekodera. Autokodery opierają się na tym dwuetapowym procesie:

  1. Koder mapuje dane wejściowe na (zwykle) stratny format dolnego rozmiaru (średnio).
  2. Dekoder tworzy stratną wersję pierwotnych danych wejściowych, mapując format o niższych wymiarach na oryginalny, droższy format wejściowy.

Autokodery są w pełni trenowane przez dekoder, który stara się jak najwierniej odtworzyć pierwotne dane wejściowe z formatu pośredniego kodera. Format pośredni jest mniejszy (niższy) niż format oryginalny, dlatego autokoder jest zmuszony do uczenia się, jakie informacje są niezbędne, a dane wyjściowe nie będą więc identyczne z danymi wejściowymi.

Na przykład:

  • Jeśli dane wejściowe mają postać grafiki, niedokładna kopia jest podobna do oryginalnej grafiki, ale nieco zmodyfikowana. Być może kopia niedokładna usuwa szum z oryginalnej grafiki lub wypełnia brakujące piksele.
  • Jeśli dane wejściowe mają postać tekstu, autokoder wygeneruje nowy tekst, który naśladuje (ale nie imituje) oryginalny tekst.

Zobacz też różne autokodery.

model autoregresywny

#language
#image
#generatywna AI

model, który ustala prognozę na podstawie własnych wcześniejszych prognoz. Na przykład modele językowe korzystające z autoregresji prognozują następny token na podstawie wcześniej prognozowanych tokenów. Wszystkie duże modele językowe oparte na Transformer korzystają z automatycznej regresji.

W przeciwieństwie do tego modele obrazu oparte na GAN zwykle nie są autoregresywne, ponieważ generują obraz w ramach pojedynczego przejścia do przodu, a nie iteracyjnie. Niektóre modele generowania obrazów podlegają automatycznej regresji, ponieważ generują obrazy krok po kroku.

B

worek słów

#language

Reprezentacja słów w wyrażeniu lub fragmencie, niezależnie od kolejności. Np. worek słów reprezentuje identycznie te 3 wyrażenia:

  • pies podskakujący
  • podskakuje psa
  • pies skacze

Każde słowo jest mapowane w indeksie w wektorze powolnym, gdzie wektor ma swój indeks dla każdego słowa w słowniku. Na przykład wyrażenie pies skacze jest mapowane na wektor cech z wartościami innymi niż zero w 3 indeksach odpowiadających słowom the, pies i skomp. Wartość różna od zera może być dowolną z tych wartości:

  • 1 oznacza obecność słowa.
  • Liczba wystąpień danego słowa w torbie. Jeśli na przykład wyrażenie kasztanowy pies to pies z kasztanowy futrem, zarówno kasztanowy, jak i pies zostanie przedstawiony jako 2, a pozostałe słowa – jako 1.
  • Inna wartość, na przykład logarytm liczby wystąpień słowa w torbie.

BERT (dwukierunkowe reprezentacje koderów z transformacji)

#language

Architektura modelu reprezentowania tekstu. Wytrenowany model BeRT może działać jako część większego modelu przy klasyfikacji tekstu lub innych zadaniach systemów uczących się.

Oto cechy BERT:

Wersje BERT:

  • ALBERT, czyli akronim angielskiego terminu A Light BERT.
  • LaBSE.

Omówienie BERT znajdziesz w artykule Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language (Przetwarzanie języka naturalnego).

dwukierunkowy

#language

Termin oznaczający system oceniający tekst, który przedstawia i postępuje po docelowej sekcji tekstu. Z kolei system jednokierunkowy ocenia tylko tekst, który przedstawia docelową sekcję tekstu.

Rozważmy na przykład model języka z maskowaniem, który musi określać prawdopodobieństwo użycia słowa lub słów reprezentujących podkreślenie w tym pytaniu:

Jakie jest _____ z Tobą?

Jednokierunkowy model językowy musiałby oprzeć swoje prawdopodobieństwo wyłącznie na podstawie kontekstu dostarczonego przez słowa „Co”, „jest” i „the”. W przeciwieństwie do tego dwukierunkowy model językowy może też uzyskać kontekst od „z” i „z Tobą”, co może pomóc w generowaniu lepszych prognoz.

dwukierunkowy model językowy

#language

Model językowy określający prawdopodobieństwo, że dany token znajduje się w danej lokalizacji we fragmencie tekstu na podstawie poprzedniego i następnego tekstu.

Bigram

#seq
#language

N-gram, w którym N=2.

BLEU (długofalowe badanie oceny dwujęzycznej)

#language

Wynik od 0, 0 do 1, 0 włącznie, który wskazuje jakość tłumaczenia między 2 językami ludzkimi (na przykład między angielskim i rosyjskim). Wynik BLEU o wartości 1,0 oznacza tłumaczenie idealne, a wynik BLEU równy 0,0 wskazuje na kiepskie tłumaczenie.

C

przyczynowy model językowy

#language

Synonim jednokierunkowego modelu językowego.

Zobacz Dwukierunkowy model językowy, aby porównać różne podejścia kierunkowe w modelowaniu języka.

podpowiedzi w łańcuchu myślowym

#language
#generatywna AI

Technika inżynierii podpowiedzi, która zachęca duży model językowy (LLM) do szczegółowego wyjaśnienia powodów. Przyjrzyjmy się przykładowi poniższego zdania, zwracając szczególną uwagę na drugie zdanie:

Ile g siła może pracować kierowcy, który porusza się z prędkością od 0 do 100 km/h w 7 sekund? W odpowiedzi wyświetl wszystkie odpowiednie obliczenia.

Odpowiedź obiektu LLM prawdopodobnie:

  • Pokaż sekwencję formuł fizycznych, umieszczając wartości 0, 60 i 7 w odpowiednich miejscach.
  • Wyjaśnij, dlaczego wybrał te formuły i co oznaczają poszczególne zmienne.

Podpowiedzi w łańcuchu myślenia wymuszają na LLM wykonanie wszystkich obliczeń, co może prowadzić do uzyskania lepszej odpowiedzi. Ponadto polecenie łańcucha myślowego umożliwia użytkownikowi przejrzenie kroków podejmowanych przez model LLM w celu określenia, czy dana odpowiedź ma sens.

analiza okręgów wyborczych

#language

Podzielenie zdania na mniejsze struktury gramatyczne („składniki”). Późniejsza część systemu ML, na przykład model rozumienia języka naturalnego, pozwala łatwiej przeanalizować składniki niż pierwotne zdanie. Weźmy na przykład to zdanie:

Mój kumpel zaadoptował dwa koty.

Parser okręgów wyborczych może podzielić to zdanie na te 2 komponenty:

  • Mój przyjaciel to wyrażenie rzeczownikowe.
  • adopcja dwóch kotów to wyrażenie z czasownika.

Składniki te można dalej dzielić na mniejsze części składowe. Na przykład wyrażenie czasownika

adoptowała dwa koty

można dodatkowo podzielić na:

  • adopted to czasownik.
  • dwa koty to kolejne wyrażenie.

rozkwit

#language

Zdanie lub wyrażenie o niejednoznacznym znaczeniu. Kwitnące gwary powodują poważne problemy ze rozumieniem języka naturalnego. Na przykład nagłówek Czerwona taśma trzymająca wieżowiec przypomina rozkwit, ponieważ model NLU mógłby zinterpretować nagłówek dosłownie lub w sposób fikcyjny.

D

dekoder

#language

Ogólnie rzecz biorąc, każdy system ML, który dokonuje konwersji z przetworzonej, zwartej lub wewnętrznej reprezentacji, na reprezentację bardziej nieprzetworzoną, rzadką lub zewnętrzną.

Dekodery są często składnikiem większego modelu, w którym są często sparowane z koderem.

W zadaniach sekwencyjnych z sekwencją dekoder rozpoczyna działanie od stanu wewnętrznego wygenerowanego przez koder, aby przewidywać kolejną sekwencję.

Definicję dekodera w architekturze Transformer znajdziesz w sekcji Transformer.

wyciszanie szumów

#language

Typowe podejście do nauki samodzielnej, w którym:

  1. Szum jest sztucznie dodany do zbioru danych.
  2. model próbuje go usunąć.

Funkcja wyciszania szumów umożliwia naukę na podstawie przykładów bez etykiet. Pierwotny zbiór danych służy jako miejsce docelowe lub etykieta, a szumne dane jako dane wejściowe.

Niektóre modele języka z maskowaniem stosują wyciszanie szumów w ten sposób:

  1. Hałas jest sztucznie dodany do nieoznaczonego zdania przez maskowanie niektórych tokenów.
  2. Model próbuje przewidzieć oryginalne tokeny.

bezpośrednie podpowiedzi

#language
#generatywna AI

Synonim prośby o zresetowanie hasła.

E

edytuj odległość

#language

Pomiar podobieństwa dwóch ciągów tekstowych do siebie. W przypadku systemów uczących się edytowanie odległości jest przydatne, ponieważ jest proste i łatwe do obliczenia. Jest też skutecznym sposobem porównywania 2 ciągów znaków, o których wiemy, że są podobne, lub znajdowania podobnych ciągów.

Istnieje kilka definicji odległości edycji, z których każda korzysta z innych operacji na ciągach. Na przykład Odległość Levenshteina uwzględnia najmniejszą liczbę operacji usuwania, wstawiania i zastępowania.

Na przykład odległość Levenshteina między słowami „serce” i „rzutki” wynosi 3, ponieważ te 3 zmiany to najmniejsza liczba zmian, które powodowały zamianę jednego słowa w inne:

  1. serce → deart (zamień „h” na „d”)
  2. deart → dart (usuń „e”)
  3. rzutka → rzutki (wstaw literę „s”)

warstwa osadzania

#language
#fundamentals

Specjalna ukryta warstwa, która trenuje na wysokiej funkcji kategorialnej, aby stopniowo uczyć się osadzania wektorów niższego wymiaru. Warstwa osadzona pozwala sieci neuronowej trenować o wiele efektywniej niż tylko na podstawie wysokowymiarowych cech kategorialnych.

Przykładowo Ziemia obsługuje obecnie około 73 000 gatunków drzew. Załóżmy, że gatunki drzewa są cechą w Twoim modelu,więc warstwa wejściowa modelu zawiera jedno gorący wektor o długości 73 000 elementów. Na przykład baobab może wyglądać tak:

Tablica 73 tys. elementów. Pierwsze 6232 elementy mają wartość 0. Następny element ma wartość 1. Ostatnie 66 767 elementów ma wartość 0.

Tablica zawierająca 73 000 elementów jest bardzo długa. Jeśli nie dodasz do modelu warstwy osadzania, trenowanie będzie bardzo czasochłonne z powodu pomnożenia 72 999 zer. Możesz np. wybrać warstwę osadzania, by składała się z 12 wymiarów. W rezultacie warstwa osadzań stopniowo uczy się nowych wektorów osadzających dla poszczególnych gatunków drzew.

W niektórych sytuacjach szyfrowanie jest rozsądną alternatywą dla warstwy osadzania.

miejsce na umieszczenie

#language

Mapa jest przyporządkowana przestrzeni wektorowej d – większej przestrzeni wektorowej. W idealnej sytuacji miejsce do umieszczenia zawiera strukturę, która pozwala na uzyskiwanie miarodajnych wyników matematycznych. Na przykład w idealnej przestrzeni osadzonych dodawanie i odejmowanie właściwości może pomóc w zadaniach analogicznych słów.

Iloczyn skalarny dwóch reprezentacji właściwościowych określa ich podobieństwo.

wektor osadzony

#language

Ogólnie rzecz biorąc, jest to tablica liczb zmiennoprzecinkowych pobranych z dowolnej ukrytej warstwy, która opisuje dane wejściowe tej ukrytej warstwy. Często wektor osadzony to tablica liczb zmiennoprzecinkowych wytrenowanych w warstwie osadzonej. Załóżmy na przykład, że warstwa osadzona musi nauczyć się osadzania dla każdego z 73 000 gatunków drzew na Ziemi. Być może ta tablica jest wektorem osadzonym drzewa baobaba:

Tablica 12 elementów, z których każdy zawiera liczbę zmiennoprzecinkową od 0,0 do 1,0.

Wektor osadzony nie jest zbiorem losowych liczb. Warstwa osadzania określa te wartości przez trenowanie, podobnie jak sieć neuronowa zapamiętuje inne wagi podczas trenowania. Każdy element tablicy to ocena dotycząca pewnej charakterystyki gatunku drzew. Który element reprezentuje cechy konkretnych gatunków drzew? Ludzkość jest bardzo trudna do określenia.

Matematyczną cechą wektora osadzonego jest to, że podobne elementy mają podobne zestawy liczb zmiennoprzecinkowych. Na przykład podobne gatunki drzew mają bardziej podobny zestaw liczb zmiennoprzecinkowych niż odmienne gatunki drzew. Sekwoja i sekwoje są powiązanymi gatunkami drzew, więc mają bardziej podobny zestaw liczb zmiennoprzecinkowych niż sekwoje i palmy kokosowe. Liczby we wektorze osadzonym będą się zmieniać za każdym razem, gdy ponownie wytrenujesz model, nawet jeśli ponownie wytrenujesz model z identycznymi danymi wejściowymi.

koder

#language

Ogólnie rzecz biorąc, każdy system ML, który przekształca reprezentację nieprzetworzoną, rozproszoną lub zewnętrzną, na reprezentację bardziej przetworzoną, gęstszą lub bardziej wewnętrzną.

Kodery są często składnikiem większego modelu, w którym są często sparowane z dekoderem. Niektóre Transformers łączą kodery z dekoderami, inne używają tylko kodera lub tylko dekodera.

Niektóre systemy używają danych wyjściowych kodera jako danych wejściowych do sieci klasyfikacji lub regresji.

W zadaniach sekwencyjnych z sekwencją koder pobiera sekwencję wejściową i zwraca stan wewnętrzny (wektor). Następnie dekoder wykorzystuje ten stan wewnętrzny do prognozowania następnej sekwencji.

Definicję kodera dla architektury Transformer znajdziesz w sekcji Transformer.

F

wyświetlanie kilku zdjęć

#language
#generatywna AI

Komunikat zawierający więcej niż 1 (kilka) przykład pokazujący, jak powinien zareagować duży model językowy. Na przykład ten długi prompt zawiera 2 przykłady pokazujących, jak odpowiedzieć na zapytanie w dużym modelu językowym.

Elementy jednej wiadomości Uwagi
Jaka jest oficjalna waluta wybranego kraju? Pytanie, na które ma odpowiedzieć LLM.
Francja: EUR Przykład.
Wielka Brytania: GBP Inny przykład.
Indie: Faktyczne zapytanie.

Prośby o kilka zdjęć na ogół dają bardziej pożądane wyniki niż prośby o zbieranie danych czy prośby jednorazowe. Jednak kilkukrotne wysyłanie wymaga długiego komunikatu.

Podpowiedzi w kilku krokach to forma szybkiej nauki stosowana w nauce opartej na prośbach.

Skrzypce

#language

Biblioteka konfiguracji oparta na Pythonie, która ustawia wartości funkcji i klas bez inwazyjnego kodu i infrastruktury. W przypadku Pax i innych baz kodu systemów uczących się te funkcje i klasy reprezentują modele i trenowanie hiperparametrów.

W przypadku Fiddle bazy kodu systemów uczących się są zwykle podzielone na:

  • Kod biblioteki, który definiuje warstwy i optymalizatory.
  • Kod „klej” zbioru danych, który wywołuje biblioteki i łączy wszystko razem.

Fiddle przechwytuje strukturę wywołania kodu klejowego w nieocenionej i zmiennej formie.

dostrajanie

#language
#image
#generatywna AI

Drugie przejście trenowania dostosowane do konkretnego działania zostało wykonane na wytrenowanym modelu w celu doprecyzowania jego parametrów pod kątem określonego przypadku użycia. Na przykład pełna sekwencja trenowania w przypadku niektórych dużych modeli językowych wygląda tak:

  1. Ćwiczenie wstępne: wytrenuj duży model językowy przy użyciu ogromnego ogólnego zbioru danych, takiego jak wszystkie anglojęzyczne strony w Wikipedii.
  2. Dostrajanie: wytrenuj już wytrenowany model do wykonywania określonego zadania, na przykład odpowiadania na zapytania medyczne. Dostrajanie obejmuje zwykle setki lub tysiące przykładów związanych z konkretnym zadaniem.

W innym przykładzie pełna sekwencja trenowania w przypadku dużego modelu obrazu wygląda tak:

  1. Wstępne trenowanie: wytrenuj duży model obrazu z wykorzystaniem ogromnego ogólnego zbioru danych obrazów, np. wszystkich obrazów w witrynie Wikimedia Commons.
  2. Dostrajanie: wytrenuj już wytrenowany model do wykonania określonego zadania, takiego jak generowanie obrazów orek.

Wprowadzenie poprawek może obejmować dowolną kombinację następujących strategii:

  • Modyfikowanie wszystkich parametrów już wytrenowanego modelu. Czasami nazywa się to pełnym dostrajaniem.
  • Modyfikowanie tylko niektórych dotychczasowych parametrów wytrenowanego modelu (zwykle warstwy znajdujące się najbliżej warstwy wyjściowej) przy zachowaniu pozostałych parametrów bez zmian (zazwyczaj warstwy najbliższe warstwy wejściowej). Zobacz dostrajanie z wykorzystaniem parametrów.
  • Dodanie większej liczby warstw, zwykle nad istniejącymi warstwami najbliżej warstwy wyjściowej.

Dostrajanie to forma nauki transferu. W związku z tym dostrajanie może wykorzystywać inną funkcję straty lub inny typ modelu niż te używane do trenowania już wytrenowanego modelu. Możesz na przykład dostroić już wytrenowany model dużego obrazu, aby uzyskać model regresji, który zwraca liczbę ptaków na obrazie wejściowym.

Porównaj dostrajanie tych terminów:

Len

#language

Wydajna biblioteka typu open source do deep learningu oparta na technologii JAX. Flax udostępnia funkcje do trenowania sieci neuronowych oraz metody oceny ich wydajności.

Flaxformer

#language

Biblioteka Transformer typu open source, oparta na Flax, przeznaczona przede wszystkim do przetwarzania języka naturalnego i badań wielomodalnych.

G

generatywna AI

#language
#image
#generatywna AI

Rozwijające się pole bez formalnej definicji. Mimo to większość ekspertów zgadza się, że modele generatywnej AI mogą tworzyć („generować”) treści, które:

  • złożone
  • spójny
  • oryginał

Na przykład generatywny model AI może służyć do tworzenia wyszukanych wypracowań lub obrazów.

Niektóre wcześniejsze technologie, takie jak LSTM i RNN, również mogą generować oryginalne i spójne treści. Niektórzy eksperci uważają je za generatywną sztuczną inteligencję, a inni uważają, że prawdziwa generatywna sztuczna inteligencja wymaga bardziej złożonych wyników niż te, które oferują starsze technologie.

W przeciwieństwie do systemów uczących się prognozowanych.

GPT (generatywny, wytrenowany transformator)

#language

Rodzina dużych modeli językowych opartych na Transformer, opracowanych przez OpenAI.

Warianty tagów GPT mogą mieć zastosowanie w wielu modalnościach, m.in.:

  • generowanie obrazów (np. ImageGPT),
  • zamiany tekstu na obraz (np. DALL-E).

H

halucynacje

#language

Tworzenie przez model generatywnej AI wyników, które wydają się wiarygodne, lecz niepoprawne pod względem merytorycznym, które rzekomo mają na celu udowodnienie realnego świata. Na przykład generatywny model AI, w którym twierdzi, że Barack Obama zmarł w 1865 roku, jest halucynacyjny.

I

nauka w kontekście

#language
#generatywna AI

Synonim wyrażenia kilka podpowiedzi.

L

LaMDA (model języka dla aplikacji dialogowych)

#language

Oparty przez Transformer duży model językowy opracowany przez Google i wytrenowany na dużym zbiorze danych dialogowych, który może generować realistyczne odpowiedzi rozmowy.

W skrócie LaMDA: nasza przełomowa technologia do prowadzenia rozmów.

model języka

#language

model, który ocenia prawdopodobieństwo wystąpienia model lub sekwencji tokenów w dłuższej kolejności.

duży model językowy

#language

Nieformalny termin bez ścisłej definicji, który zwykle oznacza model językowy z dużą liczbą parametrów. Niektóre duże modele językowe zawierają ponad 100 miliardów parametrów.

P

model języka maskowanego

#language

Model językowy, który przewiduje prawdopodobieństwo wypełnienia pustych miejsc w sekwencji przez tokeny kandydatów. Na przykład model języka maskowanego może obliczać prawdopodobieństwo zastąpienia podkreślenia w tym zdaniu:

____ w kapeluszu wróciła.

W literaturze zazwyczaj zamiast podkreślenia używa się ciągu znaków „MASK”. Na przykład:

W czapce wróciła „MASK”.

Większość nowoczesnych modeli języka z maskowaniem jest dwukierunkowa.

metauczenie się

#language

Podzbiór systemów uczących się, który wykrywa lub ulepsza algorytm uczenia się. System metauczenia się może też trenować model tak, aby szybko nauczył się nowych zadań na podstawie niewielkiej ilości danych lub z doświadczenia zdobytego w poprzednich zadaniach. Algorytmy metauczenia się zwykle dążą do osiągnięcia tych celów:

  • ulepszanie lub poznawanie ręcznie opracowanych funkcji (np. inicjatora lub optymalizatora);
  • zwiększyć wydajność przetwarzania danych i mocy obliczeniowej;
  • Lepiej uogólniać.

Meta-uczenie jest związane z kilkoma uczeniem się.

modalność

#language

Ogólna kategoria danych. Np. liczby, tekst, obrazy, wideo i dźwięk to 5 różnych opcji.

równoległość modelu

#language

Sposób skalowania trenowania lub wnioskowania, który umieszcza różne części jednego model na różnych model. Równoległość do modeli umożliwia korzystanie z modeli, które są zbyt duże, aby zmieścić się na jednym urządzeniu.

Aby wdrożyć równoległość do modelu, system zwykle wykonuje te czynności:

  1. Rozdziela model na mniejsze części.
  2. Rozprowadza trenowanie tych mniejszych części przez wiele procesorów. Każdy procesor trenuje własną część modelu.
  3. Łączy wyniki w celu utworzenia pojedynczego modelu.

Równoległość do modelu spowalnia trenowanie.

Zobacz też artykuł na temat równoległości z danymi.

koncentracja na wielu głowach

#language

Rozszerzenie uwagi, które wielokrotnie stosuje mechanizm samodzielnego uważnego koncentrowania się na każdej pozycji w sekwencji wejściowej.

W Transformers wprowadzono samouczenie się na głowie.

model wielomodalny

#language

Model, którego dane wejściowe lub wyjściowe zawierają więcej niż 1 modalność. Załóżmy na przykład, że jako funkcje użyto zarówno obrazu, jak i napisu tekstowego (dwie opcje), i zwracamy wynik wskazujący, w jakim stopniu napisy są dopasowane do obrazu. Dane wejściowe tego modelu są wielomodalne, a dane wyjściowe są jednomodalne.

N

rozumienie języka naturalnego

#language

Określanie zamiarów użytkownika na podstawie tego, co wpisał lub powiedział. Na przykład wyszukiwarka używa języka naturalnego do określenia, czego szuka użytkownik, na podstawie tego, co wpisał lub powiedział.

N-gram

#seq
#language

Uporządkowana sekwencja N słów. Na przykład słowo Naprawdę szalenie ma wartość 2 gramów. Ponieważ kolejność ma znaczenie, nieprawidłowo to coś innego niż serio szalony.

N Nazwy dla tego rodzaju N-gramów Przykłady
2 bigram lub 2 gramy iść, jechać, zjeść obiad, zjeść kolację
3 trygram lub 3 gramy zjadłem zbyt dużo, trzy niewidome myszy, dzwonki
4 4 gramy spacer w parku, pył na wietrze, chłopiec zjadł soczewkę

Wiele modeli rozumienia języka naturalnego wykorzystuje N gramów do przewidywania następnego słowa, które użytkownik wpisze lub powiedz. Załóżmy, że użytkownik wpisał trzy ślepy. Model NLU oparty na trygramach prawdopodobnie przewidziałby, że użytkownik kolejny raz wybierze myszy.

N-gramy różnią się od torby słów, które są nieuporządkowanymi zestawami słów.

NLU

#language

Skrót od wyrażenia rozumienie języka naturalnego.

O

podpowiedzi jednorazowe

#language
#generatywna AI

Komunikat zawierający jeden przykład pokazujący, jak powinien odpowiadać duży model językowy. Następujący prompt zawiera na przykład jeden przykład pokazujący, jak duży model językowy powinien odpowiadać na zapytanie.

Elementy jednej wiadomości Uwagi
Jaka jest oficjalna waluta wybranego kraju? Pytanie, na które ma odpowiedzieć LLM.
Francja: EUR Przykład.
Indie: Faktyczne zapytanie.

Porównaj zrzuty ekranu z tymi terminami:

P

dostrajanie z wykorzystaniem parametrów

#language
#generatywna AI

Zestaw technik do dostrajania dużego wytrenowanego modelu językowego (PLM) bardziej efektywnego niż pełne dostrajanie. Dostrajanie z wykorzystaniem parametrów zajmuje zwykle znacznie mniej parametrów niż pełne dostrajanie, ale na ogół powoduje utworzenie dużego modelu językowego, który działa równie dobrze (lub prawie tak samo dobrze) jak duży model językowy zbudowany z pełnego dostrajania.

Porównaj dostrajanie z wykorzystaniem parametrów za pomocą:

Dostrajanie z wykorzystaniem parametrów nazywane jest też dostrajaniem z wykorzystaniem parametrów.

potokowanie

#language

Forma równoległości do modelu, w której przetwarzanie modelu jest podzielone na kolejne etapy, a każdy z nich jest wykonywany na innym urządzeniu. Podczas przetwarzania jednej wsadu na etapie poprzedni etap może działać w następnej.

Zobacz też szkolenie etapowe.

PLM

#language
#generatywna AI

Skrót od wytrenowanego modelu językowego.

kodowanie pozycjonujące

#language

Technika dodawania informacji o pozycji tokena w sekwencji do jego umieszczania. Modele transformacji używają kodowania pozycjonującego, aby lepiej zrozumieć relacje między różnymi częściami sekwencji.

Typowa implementacja kodowania pozycjonującego korzysta z funkcji sinusoidalnej. (a konkretnie częstotliwość i amplituda funkcji sinusoidalnej są określane przez pozycję tokena w sekwencji). Ta technika pozwala modelowi Transformera nauczyć się uwzględniać różne części sekwencji w zależności od ich pozycji.

wytrenowany model

#language
#image
#generatywna AI

modele lub komponenty modeli (np. wektor osadzony), które zostały już wytrenowane; Czasami przesyłasz wytrenowane wektory osadzone do sieci neuronowej. Innym razem model nie będzie korzystać z wytrenowanych wcześniej wektorów osadzonych, tylko trenuje wektory osadzone samodzielnie.

Termin wytrenowany model językowy odnosi się do dużego modelu językowego, który został wstępnie trenowany.

przedtrenowanie

#language
#image
#generatywna AI

Wstępne trenowanie modelu na dużym zbiorze danych. Niektóre wytrenowane modele to niezdarne olśniewacze i zwykle trzeba je dopracować przez dodatkowe trenowanie. Eksperci ds. systemów uczących się mogą na przykład wstępnie wytrenować duży model językowy na obszernym zbiorze danych tekstowych, takim jak wszystkie strony w języku angielskim w Wikipedii. Po wstępnym trenowaniu model wyników można doprecyzować za pomocą dowolnej z tych metod:

prompt

#language
#generatywna AI

Każdy tekst wpisany jako dane wejściowe do dużego modelu językowego, aby uwarunkować model tak, aby działał w określony sposób. Prompty mogą być krótkie, jak zdanie, lub dowolnie długie (np. cały tekst powieści). Potwierdzenia dzielą się na wiele kategorii, między innymi te wymienione w tej tabeli:

Kategoria promptu Przykład Uwagi
Question Jak szybko gołębie potrafią latać?
Instrukcja Napisz zabawny wiersz o arbitrażach. Prośba z dużym modelem językowym, by coś zrobiła.
Przykład Przetłumacz kod Markdown na HTML. Na przykład:
Markdown: * element listy
HTML: <ul> <li>element listy</li> </ul>
Pierwsze zdanie w tym przykładzie to instrukcja. Pozostała część promptu to przykład.
Rola Wyjaśnij, dlaczego Obniżenie gradientowe jest używane podczas nauki systemów uczących się podczas studiów doktoranckich z fizyki. Pierwsza część zdania to instrukcja, a wyrażenie „doktoranckiego z fizyki” – rolę.
Częściowe dane wejściowe modelu Premier Wielkiej Brytanii mieszka tutaj Częściowa prośba o wprowadzenie danych może kończyć się nagle (jak w tym przykładzie) lub kończyć się podkreśleniem.

Model generatywnej AI może odpowiedzieć na prośbę za pomocą tekstu, kodu, obrazów, elementów umieszczanych na stronie czy filmów – niemal wszystko.

uczenie się oparte na szybkich podpowiedziach

#language
#generatywna AI

Zdolność określonych modeli, która pozwala im dostosowywać swoje działanie w odpowiedzi na dowolny wpisany tekst (prośby). W typowym modelu uczenia się opartym na promptach duży model językowy generuje tekst, odpowiadając na prompt. Załóżmy na przykład, że użytkownik wpisuje następujący prompt:

Streść III zasadę ruchomości Newtona.

Model zdolny do uczenia się na podstawie promptów nie jest specjalnie wytrenowany do odpowiadania na poprzedni prompt. Model „wie” raczej o wielu faktach o fizyce, ogólnych regułach językowych i o tym, co składa się na ogólnie przydatne odpowiedzi. Wiedza ta wystarczy, aby udzielić (mamy nadzieję) przydatnej odpowiedzi. Dodatkowe opinie użytkowników („Ta odpowiedź była zbyt skomplikowana” lub „Co to jest reakcja?”) umożliwiają niektórym systemom nauczania opartym na promptach stopniowe zwiększanie przydatności odpowiedzi.

projekt promptu

#language
#generatywna AI

Synonim inżynierii powiadomień.

zespół inżynierski

#language
#generatywna AI

Sztuka tworzenia próśb, które zwracają pożądane odpowiedzi z dużego modelu językowego. Ludzie zajmują się szybkimi inżynierami. Przygotowanie uporządkowanych promptów to klucz do zapewnienia użytecznych odpowiedzi z dużego modelu językowego. Szybkość działania zależy od wielu czynników, w tym:

Więcej informacji o tworzeniu pomocnych promptów znajdziesz w artykule Wprowadzenie do projektowania promptów.

Projektowanie promptów jest synonimem wyrażenia „szybki ruch”.

dostrajanie promptów

#language
#generatywna AI

Mechanizm dostrajania efektywnego parametru, który uczy się „prefiksu”, który system dodaje do rzeczywistego komunikatu.

Jedną z odmianach dostrajania promptów – czasem nazywanym dostrajaniem prefiksów – jest dodanie prefiksu na początku każdej warstwy. Z kolei w większości przypadków dostrajanie promptów tylko dodaje prefiks do warstwy wejściowej.

R

prośby o dodanie roli

#language
#generatywna AI

Opcjonalna część komunikatu, która określa grupę odbiorców odpowiedzi modelu generatywnej AI. Bez prośby o rolę duży model językowy pozwala uzyskać odpowiedź, która może (ale nie musi) być przydatna dla osoby zadającej pytanie. Dzięki podpowiedziom duży model językowy może udzielić odpowiedzi w sposób bardziej odpowiedni i przydatny dla określonej grupy odbiorców. Na przykład te prośby o rolę są pogrubione:

  • Streść artykuł dla doktoratu w ekonomii.
  • Opisz, jak działają pływy dla dziesięciolatka.
  • Wyjaśnić kryzys finansowy z 2008 roku. Mów tak jak do małego dziecka lub do golden retrievera.

S

koncentracji na samopoznaniu (nazywanej również warstwą uwagi)

#language

Warstwa sieci neuronowej, która przekształca sekwencję osadzania (np. token) w inną sekwencję umieszczania. Każde umieszczenie w sekwencji wyjściowej opiera się na integracji informacji z elementów sekwencji wejściowej za pomocą mechanizmu uwagi.

Samczęść zainteresowania odnosi się do sekwencji, która dotyczy samej siebie, a nie innego kontekstu. Samodzielna koncentracja jest jednym z głównych elementów Transformers. Terminologia opiera się na terminologii wyszukiwania w słowniku, takich jak „zapytanie”, „klucz” i „wartość”.

Warstwa skupienia uwagi zaczyna się od sekwencji reprezentacji wejściowych, po jednej dla każdego słowa. Dane wejściowe słowa mogą mieć postać prostego umieszczenia. Dla każdego słowa w sekwencji wejściowej sieć ocenia trafność słowa do każdego elementu w całej sekwencji słów. Oceny trafności określają, w jakim stopniu ostateczna reprezentacja słowa obejmuje wyobrażenia innych słów.

Oto na przykład to zdanie:

Zwierzak nie przeszedł przez ulicę, bo był zbyt zmęczony.

Ilustracja poniżej (z artykułu Transformer: A Novel Neural Network Architegraph for Language Understanding) przedstawia wzór uwagi dla zaimka it w warstwie uwagi użytkownika, przy czym odcień każdego wiersza wskazuje, w jakim stopniu poszczególne słowa przyczyniają się do przedstawienia:

Następujące zdanie pojawia się dwukrotnie: „Zwierzę nie przeszło na ulicę, ponieważ było zbyt zmęczone”.  Linie łączą słowo „it” w jednym zdaniu z 5 tokenami („Zwierzę”, „Ulica”, „To” i kropka) w drugim zdaniu.  Linia między słowami „to” i „zwierzę” jest najsilniejsza.

Warstwa autouwagi podświetla słowa pasujące do „tego”. W tym przypadku warstwa uwagi nauczyła się wyróżniać słowa, które może się odnosić, przypisując największą wagę zwierzętowi.

W przypadku sekwencji n tokenów funkcja samodzielnej uwagi przekształca sekwencję reprezentacji właściwościowych n osobnych razy, po jednym na każdym miejscu w sekwencji.

Zapoznaj się też z informacjami na temat uwagi i samodzielnej uwagi.

analiza nastawienia

#language

stosowanie algorytmów statystycznych lub algorytmów systemów uczących się do określania ogólnego podejścia grupy (pozytywnego lub negatywnego) do usługi, produktu, organizacji lub tematu. Na przykład, używając rozumienia języka naturalnego, algorytm może przeprowadzić analizę nastawienia na podstawie opinii tekstowych o kursie, aby określić, w jakim stopniu dany kurs się podobał lub nie podobał się studentom.

zadanie sekwencyjne

#language

Zadanie, które konwertuje wejściową sekwencję tokenów na wyjściową sekwencję tokenów. Na przykład dwa popularne rodzaje zadań od sekwencji do sekwencji to:

  • Tłumacze:
    • Przykładowa sekwencja danych wejściowych: „Kocham Cię”.
    • Przykładowa sekwencja danych wyjściowych: „Je t'aime”.
  • Udzielenie odpowiedzi na pytanie:
    • Przykładowa sekwencja danych wejściowych: „Czy będę potrzebować samochodu w Nowym Jorku?”.
    • Przykładowa sekwencja wyników: „Nie. Zatrzymaj samochód w domu”.

obiekt rozproszony

#language
#fundamentals

Funkcja, której wartości są najczęściej puste lub równe zero. Na przykład cecha zawierająca 1 wartość i milion wartości 0 jest bardzo mała. W przeciwieństwie do funkcji cecha gęstość ma wartości, które w większości nie mają wartości 0 lub są puste.

W systemach uczących się zaskakująca liczba funkcji to jedynie niewielkie różnice. Funkcje kategorialne są zwykle ograniczone. Na przykład spośród 300 możliwych gatunków drzew w lesie jeden przykład może zidentyfikować tylko klon. Jeden z milionów filmów w bibliotece filmów może wskazać tylko „Casablanca”.

W modelu zazwyczaj reprezentujesz rzadkie funkcje za pomocą kodowania „one-hot”. Jeśli kodowanie jednorazowe jest bardzo skuteczne, możesz umieścić nad nim warstwę do umieszczenia.

rozproszona reprezentacja

#language
#fundamentals

Przechowywanie tylko pozycji elementów innych niż 0 w obiekcie rozproszonym.

Załóżmy na przykład, że funkcja kategorialna o nazwie species identyfikuje 36 gatunków drzew w konkretnym lesie. Możesz dalej zakładać, że każdy przykład identyfikuje tylko jeden gatunek.

Możesz użyć wektorze 1 gorącego do reprezentowania gatunków drzew w każdym przykładzie. Wektor „1 gorący” zawiera 1 1 (reprezentuje konkretne gatunki drzew w tym przykładzie) i 35 elementów 0 (czyli 35 gatunków drzew nie w tym przykładzie). Jednorazowa reprezentacja pola maple może więc wyglądać mniej więcej tak:

Wektor, w którym pozycje od 0 do 23 mają wartość 0, pozycja 24 ma wartość 1, a pozycje od 25 do 35 – wartość 0.

Z kolei niewielka reprezentacja mogłaby po prostu zidentyfikować położenie konkretnych gatunków. Jeśli maple znajduje się na pozycji 24, rzadkie przedstawienie maple będzie wyglądać tak:

24

Reprezentacja rozproszona jest znacznie mniej zwięzła niż prezentacja tylko raz.

szkolenie etapowe

#language

Taktyka trenowania modelu w sekwencji odrębnych etapów. Może to być przyspieszenie procesu trenowania lub uzyskanie lepszej jakości modelu.

Ilustracja przedstawiająca metodę progresywnego scalania została przedstawiona poniżej:

  • Na etapie 1 – 3 ukryte, na etapie 2 – z 6 ukrytych, a na etapie 3 – na 12 ukrytych.
  • Etap 2 rozpoczyna trening od ciężarów zdobytych w 3 ukrytych warstwach etapu 1. Etap 3 rozpoczyna trening od ciężarów zdobytych w 6 ukrytych warstwach etapu 2.

Trzy etapy: „Etap 1”, „Etap 2” i „Etap 3”.
          Każdy etap zawiera różną liczbę warstw: etap 1 zawiera 3 warstwy, etap 2 – 6 warstw, a etap 3 – 12.
          3 warstwy z etapu 1 stają się 3 pierwszymi warstwami etapu 2.
          Podobnie 6 warstw z etapu 2 stanie się pierwszymi 6 warstwami etapu 3.

Zobacz też potokowanie potoków.

T

T5

#language

Model przenoszenia nauczania za pomocą zamiany tekstu na tekst wprowadzony przez sztuczną inteligencję Google w 2020 roku. T5 to model kodera-dekodera oparty na architekturze Transformer, wytrenowany na bardzo dużym zbiorze danych. Pomaga w różnych zadaniach związanych z przetwarzaniem języka naturalnego, takich jak generowanie tekstu, tłumaczenie języków i odpowiadanie na pytania w formie konwersacyjnej.

Nazwa T5 pochodzi od pięciu liter T w „Transformerze transferu tekstu na tekst”.

T5X,

#language

Platforma open source systemów uczących się zaprojektowana do tworzenia i trenowania dużych modeli przetwarzania języka naturalnego (NLP). Kod T5 jest zaimplementowany w bazie kodu T5X (opartej na technologii JAX i Flax).

temperatura

#language
#image
#generatywna AI

Hiperparametr, który kontroluje stopień losowości danych wyjściowych modelu. Wyższa temperatura oznacza więcej losowego wyjścia, a niższa – mniej losowych wyników.

Wybór najlepszej temperatury zależy od konkretnej aplikacji i pożądanych właściwości danych wyjściowych modelu. Możesz na przykład podnieść temperaturę podczas tworzenia aplikacji, która generuje dane wyjściowe kreacji. I na odwrót, najprawdopodobniej obniży temperaturę podczas tworzenia modelu, który klasyfikuje obrazy lub tekst, aby zwiększyć dokładność i spójność modelu.

Temperatura jest często używana z funkcją softmax.

zakres tekstu

#language

Zakres indeksu tablicy powiązany z określoną podsekcją ciągu tekstowego. Na przykład słowo good w ciągu znaków Pythona s="Be good now" zajmuje zakres od 3 do 6.

token

#language

W modelu językowym jednostka atomowa, na której model się trenuje i na której tworzy prognozy. Token jest zwykle jednym z tych typów:

  • np. wyrażenie „psy jak koty” składa się z 3 tokenów: „psy”, „podoba” i „koty”.
  • znak, np. wyrażenie „ryba na rowerze” składa się z 9 znaków. (puste miejsce liczy się jako jeden z tokenów).
  • podsłowa, w których pojedyncze słowo może być pojedynczym tokenem lub wieloma tokenami; Słowo podrzędne składa się ze słowa głównego, prefiksu lub sufiksu. Na przykład model językowy, który wykorzystuje słowa podrzędne jako tokeny, może uznać słowo „psy” za dwa tokeny (słowo główne „pies” i sufiks w liczbie mnogiej „s”). Ten sam model językowy może uznać, że pojedyncze słowo „wyższy” może zostać uznane za 2 słowa podrzędne (słowo główne „wysoki” i przyrostek „er”).

W domenach innych niż modele językowe tokeny mogą reprezentować inne rodzaje jednostek atomowych. Na przykład w przypadku rozpoznawania obrazów token może być podzbiorem obrazu.

Transformator

#language

Opracowana przez Google architektura sieci neuronowej, która opiera się na mechanizmach samouczenia, aby przekształcać sekwencję osadzonych danych wejściowych w sekwencję osadzonych danych wyjściowych, nie korzystając z konwulacji ani powtarzających się sieci neuronowych. Transformer można porównać do stosu warstw, które wymagają uwagi.

Transformer może zawierać dowolny z tych elementów:

Koder przekształca sekwencję reprezentacji właściwościowych w nową sekwencję o tej samej długości. Koder zawiera N jednakowych warstw, z których każda zawiera 2 warstwy podrzędne. Te 2 warstwy podrzędne są stosowane w każdej pozycji wejściowej sekwencji umieszczania, przekształcając każdy element sekwencji w nowe umieszczenie. Pierwsza warstwa podrzędna kodera zbiera informacje z całej sekwencji wejściowej. Druga warstwa podrzędna kodera przekształca zagregowane informacje w umieszczone dane wyjściowe.

Dekoder przekształca sekwencję reprezentacji właściwości wejściowych w sekwencję reprezentacji danych wyjściowych, prawdopodobnie o innej długości. Dekoder zawiera też N identycznych warstw z 3 warstwami podrzędnymi, z których 2 są podobne do warstw podrzędnych kodera. Trzecia warstwa podrzędna dekodera pobiera informacje z danych wyjściowych kodera i wykorzystuje mechanizm samodzielnej uwagi.

Dobrym wprowadzeniem do Transformers jest post na blogu Transformer: A Novel Neural Network Architeural for Language Understanding.

trygram

#seq
#language

N-gram, w którym N=3.

U

jednokierunkowo

#language

System oceniający tylko tekst, który wyprzedza docelową sekcję tekstu. System dwukierunkowy ocenia natomiast tekst, który przedstawia i postępuje po docelowej sekcji tekstu. Więcej informacji znajdziesz w sekcji Dwukierunkowe.

jednokierunkowy model językowy

#language

Model językowy, który opiera swoje prawdopodobieństwo wyłącznie na tokenach występujących przed, a nie po tokenach docelowych. Kontrast z dwukierunkowym modelem językowym.

V

autokoder odmiany (VAE)

#language

Rodzaj autokodera, który wykorzystuje rozbieżności między danymi wejściowymi a danymi wyjściowymi do generowania zmodyfikowanych wersji danych wejściowych. Autokodery warunkowe są przydatne w przypadku generatywnej AI.

Wskaźniki VAE opierają się na wnioskowaniu zmiennym, czyli technikie szacowania parametrów modelu prawdopodobieństwa.

Ś

umieszczanie słów

#language

Reprezentowanie każdego słowa w słowie ustawionym w wektorze osadzonym, czyli reprezentowanie każdego słowa jako wektoru liczby zmiennoprzecinkowej z zakresu od 0,0 do 1,0. Słowa o podobnym znaczeniu mają bardziej podobne reprezentacje niż słowa o innym znaczeniu. Na przykład marchew, seler i ogórki mają podobną reprezentację, która bardzo różni się od wyglądu samolotu, okularów przeciwsłonecznych czy pasty do zębów.

Z

monit o zero strzału

#language
#generatywna AI

Komunikat, który nie pokazuje, jak ma odpowiadać duży model językowy. Na przykład:

Elementy jednej wiadomości Uwagi
Jaka jest oficjalna waluta wybranego kraju? Pytanie, na które ma odpowiedzieć LLM.
Indie: Faktyczne zapytanie.

Duży model językowy może odpowiadać dowolnym z tych komunikatów:

  • Rupia
  • INR
  • Rupia indyjska
  • rupia
  • rupia indyjska

Wszystkie odpowiedzi są prawidłowe, ale możesz preferować konkretny format.

Porównaj prośbę o zerowanie z tymi terminami: