Ta strona zawiera hasła z glosariusza modeli obrazów. Aby wyświetlić wszystkie terminy w glosariuszu, kliknij tutaj.
O
rzeczywistość rozszerzona
Technologia, która nakłada obraz wygenerowany komputerowo na widok użytkownika w rzeczywistości, uzyskując w ten sposób widok złożony.
autokoder
System, który uczy się wyodrębniać najważniejsze informacje z danych wejściowych. Autokodery to połączenie kodera i dekodera. Autokodery opierają się na tym dwuetapowym procesie:
- Koder mapuje dane wejściowe na (zwykle) stratny format dolnego rozmiaru (średnio).
- Dekoder tworzy stratną wersję pierwotnych danych wejściowych, mapując format o niższych wymiarach na oryginalny, droższy format wejściowy.
Autokodery są w pełni trenowane przez dekoder, który stara się jak najwierniej odtworzyć pierwotne dane wejściowe z formatu pośredniego kodera. Format pośredni jest mniejszy (niższy) niż format oryginalny, dlatego autokoder jest zmuszony do uczenia się, jakie informacje są niezbędne, a dane wyjściowe nie będą więc identyczne z danymi wejściowymi.
Na przykład:
- Jeśli dane wejściowe mają postać grafiki, niedokładna kopia jest podobna do oryginalnej grafiki, ale nieco zmodyfikowana. Być może kopia niedokładna usuwa szum z oryginalnej grafiki lub wypełnia brakujące piksele.
- Jeśli dane wejściowe mają postać tekstu, autokoder wygeneruje nowy tekst, który naśladuje (ale nie imituje) oryginalny tekst.
Zobacz też różne autokodery.
model autoregresywny
model, który ustala prognozę na podstawie własnych wcześniejszych prognoz. Na przykład modele językowe korzystające z autoregresji prognozują następny token na podstawie wcześniej prognozowanych tokenów. Wszystkie duże modele językowe oparte na Transformer korzystają z automatycznej regresji.
W przeciwieństwie do tego modele obrazu oparte na GAN zwykle nie są autoregresywne, ponieważ generują obraz w ramach pojedynczego przejścia do przodu, a nie iteracyjnie. Niektóre modele generowania obrazów podlegają automatycznej regresji, ponieważ generują obrazy krok po kroku.
B
ramka ograniczająca
Na zdjęciu współrzędne (x, y) prostokąta wokół ciekawego obszaru, np. psa na poniższym obrazie.
C
splot
Z dziedziny matematyki, mówiąc swobodnie, mieszanina dwóch funkcji. W systemach uczących się splot łączy filtr splotowy z matrycą danych wejściowych w celu trenowania wag.
W systemach uczących się termin „splot” odnosi się często do operacji splotowej lub warstwy splotowej.
Bez splotów algorytm systemów uczących się musiałby nauczyć się osobnej wagi każdej komórki w dużym tenisorze. Na przykład algorytm systemów uczących się trenowany na obrazach o rozdzielczości 2K × 2K byłby zmuszony do znalezienia 4 mln osobnych wag. Dzięki splotom algorytm systemów uczących się musi znaleźć wagi tylko każdej komórki w filtrze splotowym, co znacznie zmniejsza ilość pamięci potrzebnej do trenowania modelu. Po zastosowaniu filtra splotowego jest on po prostu replikowany w komórkach w taki sposób, że każda z nich jest mnożona przez filtr.
filtr splotowy
Jeden z 2 uczestników operacji splotowej. (Drugi użytkownik to wycinek macierzy danych wejściowych). Filtr splotowy to macierz, która ma taką samą ranking jak macierz danych wejściowych, ale mniejszy kształt. Na przykład w przypadku macierzy 28 x 28 filtrem może być dowolna macierz 2D mniejsza niż macierz 28 x 28.
W trakcie manipulacji fotograficznej wszystkie komórki w filtrze splotowym mają zwykle stały wzór zer i jedynek. W systemach uczących się filtry splotowe są zwykle wypełniane liczbami losowymi, a następnie sieć trenuje idealne wartości.
warstwa splotowa
Warstwa głębokiej sieci neuronowej, w której filtr splotowy przechodzi wzdłuż macierzy wejściowej. Rozważmy na przykład taki filtr splotowy 3 × 3:
Animacja poniżej przedstawia warstwę splotową składającą się z 9 operacji splotowych obejmujących macierz wejściowe 5 x 5. Zwróć uwagę, że każda operacja splotowa działa na innym wycinku macierzy 3 x 3. Otrzymana macierz 3 x 3 (po prawej) składa się z wyników 9 operacji splotowych:
splotowa sieć neuronowa
Sieć neuronowa, w której co najmniej 1 warstwa jest warstwą splotową. Typowa splotowa sieć neuronowa składa się z tych warstw:
Splotowe sieci neuronowe sprawdzały się przy rozwiązywaniu różnych problemów, takich jak rozpoznawanie obrazów.
operacja splotowa
Oto dwuetapowe działanie matematyczne:
- Mnożenie filtra splotowego i wycinka macierzy danych wejściowych. (Wycinek macierzy danych wejściowych ma taką samą pozycję i rozmiar jak filtr splotowy).
- Suma wszystkich wartości w wynikowej macierzy iloczynów.
Weźmy na przykład taką macierz wejściową 5 x 5:
A teraz wyobraź sobie taki filtr splotowy 2 x 2:
Każda operacja splotowa obejmuje pojedynczy wycinek macierzy wejściowej 2 x 2. Załóżmy na przykład, że używamy wycinka 2 x 2 w lewym górnym rogu macierzy danych wejściowych. Operacja splotu na tym wycinku wygląda więc tak:
Warstwa splotowa składa się z serii operacji splotowych, z których każda działa na innym wycinku macierzy wejściowej.
D
rozszerzanie danych
Sztuczne zwiększanie zakresu i liczby przykładów trenowania przez przekształcanie istniejących przykładów w celu utworzenia dodatkowych przykładów. Załóżmy na przykład, że obrazy są jedną z funkcji, ale zbiór danych nie zawiera wystarczającej liczby przykładów obrazów, aby model mógł nauczyć się przydatnych powiązań. Najlepiej dodać do zbioru danych wystarczającą liczbę obrazów oznaczonych etykietami, aby umożliwić prawidłowe trenowanie modelu. Jeśli to niemożliwe, rozszerzanie danych może powodować obracanie, rozciąganie i odbijanie każdego obrazu w celu utworzenia wielu wariantów oryginalnego zdjęcia. Z tego powodu można uzyskać wystarczającą ilość danych oznaczonych etykietami, aby umożliwić doskonałe trenowanie.
separowana splotowa sieć neuronowa (sepCNN)
Architektura splotowej sieci neuronowej oparta na technologii Inception, w której moduły Incepcji są zastępowane separatorami, które rozdzielają głęboko. Znana też jako Xception.
Możliwy dogłębny splot (skrócony również jako splot rozdzielający) umożliwia przekształcenie standardowego splotu 3D w 2 osobne operacje splotu, które są bardziej wydajne pod względem obliczeniowym: pierwszy splot głęboki, o głębokości 1 (n × n Obecnie 1), a następnie 1 x x bok o długości i szerokości – z długością i szerokością.
Więcej informacji znajdziesz w artykule Xception: deep learning with Depthwise Separable Convolutions.
Downsampling
Przeciążone hasło, które może oznaczać:
- Zmniejsz ilość informacji w cechach, aby efektywniej trenować model. Na przykład przed wytrenowaniem modelu rozpoznawania obrazów spróbkowanie obrazów w wysokiej rozdzielczości do formatu o niższej rozdzielczości.
- Szkolenie na nieproporcjonalnie niewielkim odsetku reprezentowanych grup klas w celu ulepszenia trenowania modeli w klasach niedostatecznie reprezentowanych. Na przykład w przypadku zbioru danych o zrównoważonym klasie modele zazwyczaj dużo uczą się o klasie większości, a za mało na temat klasy mniejszości. Opcja Downsampling pozwala zrównoważyć intensywność trenowania klas większości i mniejszości.
F
dostrajanie
Drugie przejście trenowania dostosowane do konkretnego działania zostało wykonane na wytrenowanym modelu w celu doprecyzowania jego parametrów pod kątem określonego przypadku użycia. Na przykład pełna sekwencja trenowania w przypadku niektórych dużych modeli językowych wygląda tak:
- Ćwiczenie wstępne: wytrenuj duży model językowy przy użyciu ogromnego ogólnego zbioru danych, takiego jak wszystkie anglojęzyczne strony w Wikipedii.
- Dostrajanie: wytrenuj już wytrenowany model do wykonywania określonego zadania, na przykład odpowiadania na zapytania medyczne. Dostrajanie obejmuje zwykle setki lub tysiące przykładów związanych z konkretnym zadaniem.
W innym przykładzie pełna sekwencja trenowania w przypadku dużego modelu obrazu wygląda tak:
- Wstępne trenowanie: wytrenuj duży model obrazu z wykorzystaniem ogromnego ogólnego zbioru danych obrazów, np. wszystkich obrazów w witrynie Wikimedia Commons.
- Dostrajanie: wytrenuj już wytrenowany model do wykonania określonego zadania, takiego jak generowanie obrazów orek.
Wprowadzenie poprawek może obejmować dowolną kombinację następujących strategii:
- Modyfikowanie wszystkich parametrów już wytrenowanego modelu. Czasami nazywa się to pełnym dostrajaniem.
- Modyfikowanie tylko niektórych dotychczasowych parametrów wytrenowanego modelu (zwykle warstwy znajdujące się najbliżej warstwy wyjściowej) przy zachowaniu pozostałych parametrów bez zmian (zazwyczaj warstwy najbliższe warstwy wejściowej). Zobacz dostrajanie z wykorzystaniem parametrów.
- Dodanie większej liczby warstw, zwykle nad istniejącymi warstwami najbliżej warstwy wyjściowej.
Dostrajanie to forma nauki transferu. W związku z tym dostrajanie może wykorzystywać inną funkcję straty lub inny typ modelu niż te używane do trenowania już wytrenowanego modelu. Możesz na przykład dostroić już wytrenowany model dużego obrazu, aby uzyskać model regresji, który zwraca liczbę ptaków na obrazie wejściowym.
Porównaj dostrajanie tych terminów:
G
generatywna AI
Rozwijające się pole bez formalnej definicji. Mimo to większość ekspertów zgadza się, że modele generatywnej AI mogą tworzyć („generować”) treści, które:
- złożone
- spójny
- oryginał
Na przykład generatywny model AI może służyć do tworzenia wyszukanych wypracowań lub obrazów.
Niektóre wcześniejsze technologie, takie jak LSTM i RNN, również mogą generować oryginalne i spójne treści. Niektórzy eksperci uważają je za generatywną sztuczną inteligencję, a inni uważają, że prawdziwa generatywna sztuczna inteligencja wymaga bardziej złożonych wyników niż te, które oferują starsze technologie.
W przeciwieństwie do systemów uczących się prognozowanych.
I
rozpoznawanie obrazów
Proces, który klasyfikuje obiekty, wzorce lub koncepcje występujące na obrazie. Rozpoznawanie obrazów jest też nazywane klasyfikacją obrazów.
Więcej informacji znajdziesz w artykule ML Practicum: klasyfikacja obrazów.
przecięcie współczynnika podobieństwa (IoU)
Punkt przecięcia dwóch zbiorów podzielonych przez ich sumę. W zadaniach wykrywania obrazów w systemach uczących się wartość IoU jest używana do pomiaru dokładności prognozowanej ramki ograniczającej modelu w odniesieniu do ramki ograniczającej ground-truth. W tym przypadku wartość podobieństwa dla 2 ramek to stosunek między nakładającym się obszarem a całkowitym obszarem, a jego wartości mieszczą się w zakresie od 0 (brak nakładania się przewidywanej ramki ograniczającej i ramki danych podstawowych) do 1 (przewidywana ramka ograniczająca i ramka ograniczająca danych podstawowych (ground truth) mają dokładnie takie same współrzędne).
Przykład na poniższym obrazie:
- Przewidywana ramka ograniczająca (współrzędne określające miejsce, w którym model ma znaleźć stolik nocny, jest zaznaczona na fioletowo).
- Ramka ograniczająca dane podstawowe (ground truth) (współrzędne określające położenie stołu nocnego na obrazie) jest zaznaczona na zielono.
W tym przypadku przecięcie ramek ograniczających na potrzeby prognozowania i danych podstawowych (ground truth) (poniżej po lewej) wynosi 1, a suma ramek ograniczających na potrzeby prognozowania i danych podstawowych (ground truth) (poniżej po prawej) wynosi 7, więc IoU wynosi \(\frac{1}{7}\).


K
kluczowe punkty
Współrzędne określonych obiektów na zdjęciu. Na przykład w przypadku modelu rozpoznawania obrazów, który odróżnia gatunki kwiatów, punktami kluczowymi mogą być środek każdego płatka, łodyga, prątka itd.
L
punkty orientacyjne
Synonim keypoints.
P
MNIST,
Zbiór danych w domenie publicznej skompilowany przez LeCun, Cortesa i Burgesa, zawierający 60 tys. obrazów,z których każdy pokazuje, jak ręcznie napisał człowiek w miejscach 0–9. Każdy obraz jest przechowywany w postaci tablicy liczb całkowitych 28 × 28, gdzie każda liczba całkowita to wartość w skali szarości z zakresu od 0 do 255 włącznie.
MNIST to kanoniczny zbiór danych dla systemów uczących się, często używany do testowania nowych metod. Więcej informacji znajdziesz w bazie danych MNIST cyfr odręcznych.
P
pulowanie
Zmniejszenie matrycy (lub macierzy) utworzonej przez wcześniejszą warstwę splotową do jej mniejszej matrycy. Łączenie zwykle obejmuje analizowanie maksymalnej lub średniej wartości ze zbioru danych. Załóżmy np., że mamy taką macierz 3 x 3:
Operacja łączenia, podobnie jak operacja splotowa, dzieli macierz na wycinki, a następnie przesuwa operację splotową według kroków. Załóżmy na przykład, że w ramach operacji łączenia tablicę splotową jest dzielona na wycinki o wymiarach 2 x 2 z krokiem 1 x 1. Jak widać na poniższym diagramie, wykonywane są 4 operacje łączenia. Wyobraź sobie, że każda operacja łączenia wybiera maksymalną wartość z 4 wycinków w tym wycinku:
Łączenie pomaga wyegzekwować niezmienność tłumaczeniową w macierzy danych wejściowych.
Zbieranie danych na potrzeby zastosowań związanych z rozpoznawaniem obrazów jest nazywane łączeniem przestrzennym. Aplikacje ciągów czasowych określają zwykle łączenie jako tymczasowe gromadzenie danych. W mniej formalny sposób łączenie jest często nazywane podpróbkowaniem lub próbkowaniem redukcji.
wytrenowany model
modele lub komponenty modeli (np. wektor osadzony), które zostały już wytrenowane; Czasami przesyłasz wytrenowane wektory osadzone do sieci neuronowej. Innym razem model nie będzie korzystać z wytrenowanych wcześniej wektorów osadzonych, tylko trenuje wektory osadzone samodzielnie.
Termin wytrenowany model językowy odnosi się do dużego modelu językowego, który został wstępnie trenowany.
przedtrenowanie
Wstępne trenowanie modelu na dużym zbiorze danych. Niektóre wytrenowane modele to niezdarne olśniewacze i zwykle trzeba je dopracować przez dodatkowe trenowanie. Eksperci ds. systemów uczących się mogą na przykład wstępnie wytrenować duży model językowy na obszernym zbiorze danych tekstowych, takim jak wszystkie strony w języku angielskim w Wikipedii. Po wstępnym trenowaniu model wyników można doprecyzować za pomocą dowolnej z tych metod:
- destylacja
- dostrajanie
- dostrajanie instrukcji
- dostrajanie z uwzględnieniem parametrów
- dostrajanie próśb
R
niewariancja rotacyjna
W przypadku problemu z klasyfikacją obrazów algorytm potrafi z powodzeniem klasyfikować obrazy nawet wtedy, gdy zmieni się orientacja obrazu. Algorytm może np. zidentyfikować rakietę tenisową niezależnie od tego, czy jest skierowana do góry, na bokiem czy w dół. Pamiętaj, że niezmienność w rotacji nie zawsze jest pożądana. Na przykład wartość 9 nie powinna zostać sklasyfikowana jako 9.
Zobacz też niezmienność translacji i niezmienność rozmiaru.
S
niezmienność rozmiaru
W przypadku problemu z klasyfikacją obrazów algorytm musi umieć klasyfikować obrazy nawet wtedy, gdy zmieni się ich rozmiar. Algorytm może np. zidentyfikować kota niezależnie od tego, czy użyje on 2 mln pikseli czy 200 tys. pikseli. Nawet najlepsze algorytmy klasyfikacji obrazów nadal mają praktyczne ograniczenia dotyczące niezmienności rozmiaru. Na przykład algorytm (lub człowiek) raczej nie sklasyfikuje poprawnie obrazu kota zajmującego tylko 20 pikseli.
Zobacz też niezmienność translacji i niezmienność rotacyjna.
pulowanie przestrzenne
Zobacz pulację.
stride
W operacji splotowej lub w puli delta każdego wymiaru kolejnej serii wycinków danych wejściowych. Na przykład ta animacja pokazuje krok (1,1) podczas operacji splotowej. Dlatego następny wycinek danych wejściowych rozpoczyna się 1 pozycję na prawo od poprzedniego. Gdy operacja dotrze do prawej krawędzi, następny wycinek zostanie przesunięty dokładnie w lewo, ale o jeden w dół.
Powyższy przykład pokazuje dwuwymiarowy krok. Jeśli macierz wejściowa jest trójwymiarowa, krok również będzie trójwymiarowy.
podpróbkowanie
Zobacz pulację.
T
temperatura
Hiperparametr, który kontroluje stopień losowości danych wyjściowych modelu. Wyższa temperatura oznacza więcej losowego wyjścia, a niższa – mniej losowych wyników.
Wybór najlepszej temperatury zależy od konkretnej aplikacji i pożądanych właściwości danych wyjściowych modelu. Możesz na przykład podnieść temperaturę podczas tworzenia aplikacji, która generuje dane wyjściowe kreacji. I na odwrót, najprawdopodobniej obniży temperaturę podczas tworzenia modelu, który klasyfikuje obrazy lub tekst, aby zwiększyć dokładność i spójność modelu.
Temperatura jest często używana z funkcją softmax.
niezmienność translacji
W przypadku problemu z klasyfikacją obrazów algorytm potrafi z powodzeniem klasyfikować obrazy nawet wtedy, gdy zmienia się pozycja obiektów na obrazie. Na przykład algorytm nadal może zidentyfikować psa, niezależnie od tego, czy znajdzie się on w środkowej części kadru, czy na jego lewym końcu.
Zobacz też niezmienność rozmiaru i niezmienność rotacji.