Słowniczek systemów uczących się: podstawy systemów uczących się

Ta strona zawiera terminy z glosariusza Podstawy systemów uczących się. Aby wyświetlić wszystkie terminy w glosariuszu, kliknij tutaj.

O

dokładność

#fundamentals

Liczba prawidłowych prognoz klasyfikacji podzielona przez łączną liczbę prognoz. Czyli:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Na przykład model, który dokonał 40 prawidłowych prognoz i 10 nieprawidłowych prognoz, będzie mieć dokładność:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasyfikacja binarna podaje określone nazwy różnych kategorii prawidłowych prognoz i nieprawidłowych prognoz. Zatem wzór na dokładność klasyfikacji binarnej wynosi taki:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

gdzie:

Porównaj dokładność z danymi dokładności i czułości.

funkcja aktywacji

#fundamentals

Funkcja, która pozwala sieciom neuronowym na poznawanie nieliniowych (złożonych) relacji między cechami a etykietą.

Popularne funkcje aktywacji to:

Wykresy funkcji aktywacyjnych nigdy nie są pojedynczymi liniami prostymi. Na przykład wykres funkcji aktywacji ReLU składa się z 2 linii prostych:

Wykres kartezjański podzielony na 2 wiersze. Pierwsza linia ma stałą wartość y równą 0 i biegnie wzdłuż osi X od -nieskończoności, 0 do 0, -0.
          Drugi wiersz zaczyna się od 0,0. Ta linia ma nachylenie o wartości +1, więc
          biegnie od 0,0 do +nieskończoności,+nieskończoności.

Wykres funkcji aktywacji sigmoidalnej wygląda tak:

Dwuwymiarowy, zakrzywiony wykres z wartościami x obejmującymi domenę – od nieskończoności do +dodatniej, a wartości y mieszczą się w zakresie od 0 do prawie 1. Gdy x wynosi 0, y ma wartość 0,5. Nachylenie krzywej jest zawsze dodatnie.Najwyższe nachylenie wynosi 0, 0,5 i stopniowo spada wraz ze wzrostem bezwzględnej wartości x.

sztuczna inteligencja

#fundamentals

Program lub model, który nie jest ludzki, służący do rozwiązywania złożonych zadań. Na przykład program lub model, który tłumaczy tekst, program lub model, który identyfikuje choroby na obrazach radiologicznych, wykazuje sztuczną inteligencję.

Systemy uczące się to podobszar sztucznej inteligencji. Jednak w ostatnich latach niektóre organizacje zaczęły używać zamiennie terminów sztuczna inteligencja i systemy uczące się.

AUC (obszar pod krzywą charakterystyki operacyjnej odbiornika)

#fundamentals

Liczba od 0,0 do 1,0 reprezentująca zdolność modelu klasyfikacji binarnej do oddzielania klas dodatnich od klas negatywnych. Im bliżej wartości AUC jest wartość 1,0, tym większa zdolność modelu do oddzielania klas od siebie.

Na przykład ta ilustracja przedstawia model klasyfikatora, który doskonale oddziela klasy pozytywne (zielone owale) od klas negatywnych (fioletowe prostokąty). Ten nierealistyczny model ma AUC 1,0:

Wiersz liczb z 8 przykładami pozytywnymi po jednej stronie i 9 przykładami negatywnymi po drugiej.

Ilustracja poniżej przedstawia wyniki modelu klasyfikatora, który wygenerował losowe wyniki. AUC tego modelu wynosi 0,5:

Wiersz liczb z 6 przykładami pozytywnymi i 6 przykładami negatywnymi.
          Przykłady są następujące: dodatnie, ujemne, dodatnie, dodatnie, ujemne, dodatnie, ujemne, dodatnie, dodatnie, ujemne.

Tak. AUC pierwszego modelu ma wartość AUC 0,5, a nie 0,0.

Większość modeli mieści się pośrodku dwóch skrajności. Na przykład poniższy model oddziela nieco plusy od negatywnych, dlatego ma AUC między 0,5 a 1,0:

Wiersz liczb z 6 przykładami pozytywnymi i 6 przykładami negatywnymi.
          Przykłady: negatywny, ujemny, ujemny, ujemny, dodatni, ujemny, dodatni, dodatni, ujemny, dodatni, dodatni.

AUC ignoruje wartość ustawioną na próg klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi klasyfikacji.

B

propagacja wsteczna

#fundamentals

Algorytm, który implementuje Obniżenie gradientu w sieciach neuronowych.

Trenowanie sieci neuronowej obejmuje wiele iteracji z następującym 2 przebiegiem cyklu:

  1. Podczas przekazywania dalej system przetwarza grupę przykładów, aby wygenerować prognozy. System porównuje każdą prognozę z każdą wartością atrybutu label. Różnica między prognozą a wartością etykiety wynosi w tym przykładzie strata. System agreguje straty dla wszystkich przykładów, aby obliczyć łączną stratę w bieżącym wsadzie.
  2. Podczas przejścia wstecznego (propagacji wstecznej) system zmniejsza straty, dostosowując wagi wszystkich neuronów we wszystkich warstwach ukrytych.

Sieci neuronowe często zawierają wiele neuronów w wielu ukrytych warstwach. Każdy z tych neuronów na różne sposoby przyczynia się do utraty wagi. Propagacja wsteczna określa, czy należy zwiększyć, czy zmniejszyć wagę poszczególnych neuronów.

Tempo uczenia się to mnożnik, który określa, w jakim stopniu każdy przebieg wsteczny zwiększa lub zmniejsza każdą wagę. Duże tempo uczenia się zwiększa lub zmniejsza każdą wagę bardziej niż małe tempo uczenia się.

W obliczeniach obliczeniowych wsteczna propagacja wdraża regułę łańcuchową rachunku różniczkowego. Oznacza to, że funkcja wsteczna oblicza częściową pochodną błędu w odniesieniu do każdego parametru. Więcej informacji znajdziesz w tym samouczku w ramach kursu dotyczącego awarii systemów uczących się.

Lata temu specjaliści od systemów uczących się musieli pisać kod, aby wdrożyć propagację wsteczną. Nowoczesne interfejsy API systemów uczących się, takie jak TensorFlow, implementują teraz propagację wsteczną. Uff...

wsad

#fundamentals

Zbiór przykładów używanych w ramach jednej iteracji trenowania. Rozmiar grupy określa liczbę przykładów w grupie.

W sekcji Epoka znajdziesz wyjaśnienie, jak wsad odnosi się do epoki.

wielkość wsadu

#fundamentals

Liczba przykładów w grupie. Jeśli na przykład rozmiar wsadu to 100, model przetwarza 100 przykładów na iteracja.

Oto popularne strategie dotyczące wielkości wsadu:

  • Stochastic Gradient Descent (SGD), w którym rozmiar wsadu wynosi 1.
  • full wsad, w którym rozmiar wsadu to liczba przykładów w całym zestawie do trenowania. Jeśli na przykład zbiór treningowy zawiera milion przykładów, rozmiar wsadu będzie równy milionom przykładów. Cały wsad to zwykle nieskuteczna strategia.
  • miniaturowa, w której rozmiar wsadu mieści się zwykle w zakresie od 10 do 1000. Najskuteczniejszą strategią jest zwykle miniseria.

uprzedzenia (etyka/uczciwość)

#fairness
#fundamentals

1. Używanie stereotypów, uprzedzeń lub faworyzowania względem innych rzeczy, osób lub grup. Uprzedzenia mogą wpływać na gromadzenie i interpretację danych, na konstrukcję systemu oraz na sposób, w jaki użytkownicy z niego korzystają. Przykłady tego rodzaju stronniczości:

2. Błąd systematyczny spowodowany procedurą próbkowania lub raportowania. Przykłady tego rodzaju stronniczości:

Nie należy go mylić z terminem tendencyjności w modelach systemów uczących się ani odchyleniami prognozy.

stronniczość (matematyka) lub tendencyjność

#fundamentals

Przecięcie lub odsunięcie od punktu początkowego. Tendencyjność to parametr w modelach systemów uczących się, który jest symbolowany przez:

  • b
  • T0

Na przykład odchylenie to wartość b w tej formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W prostej, dwuwymiarowej linii odchylenie oznacza po prostu „punkt przecięcia z osią y”. Na przykład odchylenie linii na ilustracji poniżej wynosi 2.

Wykres linii o nachyleniu równym 0,5 i odchylenia (punkt przecięcia z osią y) o wartości 2.

Tendencyjność istnieje, ponieważ nie wszystkie modele zaczynają się od punktu początkowego (0,0). Załóżmy na przykład, że wstęp do parku rozrywki kosztuje 2 EUR i dodatkowo 0,5 EUR za każdą godzinę pobytu klienta. Dlatego model mapujący całkowity koszt ma odchylenie równe 2, ponieważ najniższy koszt to 2 euro.

Uprzedzenia nie należy mylić z stronniczością w zakresie etyki i rzetelności ani z stronniczością prognoz.

klasyfikacja binarna

#fundamentals

Rodzaj zadania klasyfikacji, który przewiduje jedną z dwóch wzajemnie wykluczających się klas:

Na przykład te 2 modele systemów uczących się wykonują klasyfikację binarną:

  • Model określający, czy e-maile są uznawane za spam (klasa pozytywna) czy nie spam (klasa negatywna).
  • Model oceniający objawy medyczne w celu określenia, czy dana osoba cierpi na konkretną chorobę (klasa pozytywna) czy jej nie cierpi (klasa negatywna).

Porównaj z klasyfikacją wieloklasową.

Zobacz też regresja logistyczna i próg klasyfikacji.

zasobnik

#fundamentals

Przekształcanie pojedynczej funkcji w wiele funkcji binarnych zwanych zasobnikami lub pojemnikami, zwykle na podstawie zakresu wartości. Odcięta funkcja jest zwykle elementem ciągłym.

Na przykład zamiast przedstawiać temperaturę jako pojedynczy ciągły obiekt zmiennoprzecinkowy, możesz podzielić zakresy temperatur na odrębne zasobniki, takie jak:

  • <= 10 stopni Celsjusza to zasobnik „zimny”.
  • 11–24 stopnie Celsjusza to zasobnik „umiarkowany”.
  • >= 25 stopni Celsjusza to „ciepłe” zasobnik.

Model będzie traktować każdą wartość w tym samym segmencie i tak samo. Na przykład wartości 13 i 22 znajdują się w zasobniku umiarkowanych wartości, więc model traktuje je tak samo.

C

dane kategorialne

#fundamentals

Funkcje mające określony zestaw możliwych wartości. Weźmy na przykład cechę kategorialną o nazwie traffic-light-state, która może mieć tylko jedną z tych 3 wartości:

  • red
  • yellow
  • green

Dzięki przedstawieniu traffic-light-state jako funkcji kategorialnej model może poznać różne wpływy red, green i yellow na zachowanie kierowcy.

Funkcje kategorialne są czasami nazywane funkcjami odrębnymi.

W przeciwieństwie do danych liczbowych.

klasa

#fundamentals

Kategoria, do której może należeć etykieta. Na przykład:

Model klasyfikacji prognozuje klasę. W przeciwieństwie do tego model regresji przewiduje liczbę, a nie klasę.

model klasyfikacji

#fundamentals

model, którego prognozą jest model. Oto na przykład wszystkie modele klasyfikacji:

  • Model, który przewiduje język wejściowego zdania (francuski? Hiszpański? włoskiego?).
  • Model, który przewiduje gatunki drzew (Klon Oak? Baobab?).
  • Model, który przewiduje pozytywną lub negatywną klasę danego stanu medycznego.

W przeciwieństwie do tego modele regresji służą do prognozowania liczb, a nie klas.

Dwa typowe typy modeli klasyfikacji to:

próg klasyfikacji

#fundamentals

W klasyfikacji binarnej liczba od 0 do 1, która przekształca nieprzetworzone dane wyjściowe modelu regresji logistycznej w prognozę klasy pozytywnej lub klasy ujemne. Pamiętaj, że próg klasyfikacji to wartość wybierana przez człowieka, a nie wartość wybierana przez trenowanie modelu.

Model regresji logistycznej zwraca nieprzetworzoną wartość od 0 do 1. To:

  • Jeśli ta nieprzetworzona wartość jest większa niż próg klasyfikacji, przewidywana jest klasa pozytywna.
  • Jeśli ta nieprzetworzona wartość jest niższa od progu klasyfikacji, przewidywana jest klasa ujemna.

Załóżmy, że próg klasyfikacji wynosi 0,8. Jeśli nieprzetworzona wartość wynosi 0,9, model przewiduje klasę pozytywną. Jeśli nieprzetworzona wartość to 0,7, model przewiduje klasę ujemną.

Wybór progu klasyfikacji znacznie wpływa na liczbę wyników fałszywie pozytywnych i fałszywie negatywnych.

zbiór danych o niezrównoważonym klasie

#fundamentals

Zbiór danych dla problemu z klasyfikacją, w którym łączna liczba etykiet każdej klasy znacznie się różni. Weźmy na przykład zbiór danych z klasyfikacją binarną, w którym 2 etykiety są podzielone w ten sposób:

  • 1 000 000 wykluczających etykiet
  • 10 etykiet pozytywnych

Stosunek etykiet ujemnych do pozytywnych wynosi 100 000:1, więc jest to zbiór danych bez zrównoważenia klas.

W przeciwieństwie do tego poniższy zbiór danych nie jest zrównoważony pod względem klas, ponieważ stosunek etykiet ujemnych do pozytywnych jest względnie zbliżony do 1:

  • 517 etykiet wykluczających
  • 483 etykiety pozytywne

Wieloklasowe zbiory danych również mogą nie mieć zrównoważenia. Na przykład ten zbiór danych klasyfikacji wieloklasowej również nie jest zrównoważony, ponieważ jedna etykieta zawiera znacznie więcej przykładów niż pozostałe:

  • 1 000 000 etykiet z klasą „green”
  • 200 etykiet z klasą „fioletowy”,
  • 350 etykiet z klasą „orange”

Zobacz też entropję, klasę większości i klasę mniejszości.

przycinanie

#fundamentals

Technika radzenia sobie z wynikami odstającymi, która polega na wykonaniu jednej lub obu tych czynności:

  • Zmniejsz wartość parametru feature, które przekracza maksymalny próg, do tego maksymalnego progu.
  • Zwiększające się wartości cech, które są mniejsze od progu minimalnego, aż do tego minimalnego progu.

Załóżmy na przykład, że <0,5% wartości określonej cechy wykracza poza zakres 40–60. W takim przypadku możesz wykonać te czynności:

  • Przytnij wszystkie wartości ponad 60 (maksymalny próg) tak, aby uzyskać dokładnie 60.
  • Zmniejsz wszystkie wartości poniżej 40 (minimalnego progu) do dokładnie 40.

Wartości odstające mogą uszkodzić modele, powodując czasem przepełnienie wag podczas trenowania. Pewne odchylenia mogą też znacznie wpływać na dane takie jak dokładność. Powszechną techniką ograniczania uszkodzeń jest przycinania.

Podczas trenowania Przycinanie gradientów wymusza stosowanie wartości gradientu w wyznaczonym zakresie.

tablica pomyłek

#fundamentals

Tabela NxN, która podsumowuje liczbę prawidłowych i nieprawidłowych prognoz utworzonych przez model klasyfikacji. Oto przykładowa macierz pomyłek dla modelu klasyfikacji binarnej:

Guz (prognoza) Inne niż gumowe (prognoza)
Guz (ground truth) 18 (TP) 1 (FN)
Inne niż gum (ground truth) 6 (FP) 452 (TN)

Poprzednia tabela pomyłek zawiera te informacje:

  • Z 19 prognoz, w których danych ground truth stanowi Tumor, model poprawnie sklasyfikował 18 i nieprawidłowo sklasyfikował 1.
  • Spośród 458 prognoz, w których danych podstawowych (ground truth) znajdowało się poza guzem, model prawidłowo sklasyfikował 452 i nieprawidłowo sklasyfikował 6.

Tablica pomyłek związanych z klasyfikacją wieloklasową może pomóc w identyfikacji wzorców błędów. Oto przykładowa macierz pomyłek dla 3-klasowego modelu klasyfikacji wieloklasowej, który kategoryzuje 3 różne typy tęczówki (Virginica, Versicolor i Setosa). Kiedy dane podstawowe (ground truth) pochodziły z Virginica, tabela pomyłek wskazuje, że model był znacznie bardziej prawdopodobny do przewidzenia przez model Versicolor niż Setosa:

  Setosa (prognoza) Versicolor (przewidywana) Virginica (prognoza)
Setosa (ground truth) 88 12 0
Versicolor (ground truth) 6 141 7
Virginica (ground truth) 2 27 109

Kolejny przykład: tablica pomyłek może ujawnić, że model wytrenowany do rozpoznawania odręcznych cyfr ma tendencję do błędnego przewidywania liczby 9 zamiast 4 lub błędnego przewidywania liczby 1 zamiast 7.

Tablice pomyłek zawierają wystarczającą ilość informacji do obliczenia różnych wskaźników wydajności, w tym precyzji i czułości.

funkcja ciągła

#fundamentals

Funkcja liczby zmiennoprzecinkowej z nieskończonym zakresem możliwych wartości, takich jak temperatura czy waga.

Skontrastować wyróżnioną funkcję.

konwergencja

#fundamentals

Stan, w którym wartości straty zmieniają się bardzo nieznacznie lub nie zmieniają się wcale przy każdej iteracji. Na przykład ta krzywa straty sugeruje zbieżność przy około 700 iteracjach:

Wykres kartezjański. Oś X oznacza stratę. Oś Y to liczba iteracji trenowania. Podczas pierwszych kilku iteracji strata jest bardzo duża, ale gwałtownie spada. Po około 100 iteracjach wartość straty nadal maleje, ale znacznie stopniowo. Po około 700 iteracjach strata pozostaje bez zmian.

Model zbiega się, gdy dodatkowe trenowanie go nie poprawi.

W przypadku deep learning wartości strat mogą być stałe lub prawie takie same w wielu iteracjach, zanim w końcu malejąco. W dłuższym okresie ciągłych wartości strat można tymczasowo mieć fałszywe poczucie zbieżności.

Zobacz też Wcześniejsze zatrzymywanie.

D

DataFrame

#fundamentals

Popularny typ danych pandy do reprezentowania zbiorów danych w pamięci.

Element DataFrame przypomina tabelę lub arkusz kalkulacyjny. Każda kolumna w DataFrame ma nazwę (nagłówek), a każdy wiersz jest identyfikowany przez unikalny numer.

Każda kolumna w DataFrame ma strukturę jak tablica 2D, z tym że do każdej kolumny można przypisać własny typ danych.

Zapoznaj się też z oficjalną stroną z informacjami o pliku pandas.DataFrame.

zbiór danych lub zbiór danych

#fundamentals

Zbiór nieprzetworzonych danych, zwykle (ale nie tylko) uporządkowanych w jednym z tych formatów:

  • arkusz kalkulacyjny
  • plik w formacie CSV (wartości rozdzielone przecinkami);

modelowanie

#fundamentals

Sieć neuronowa zawierająca więcej niż 1 ukrytą warstwę.

Model głęboki jest też nazywany głęboką siecią neuronowa.

Kontrast z szerokim modelem.

obiekt o małej gęstości

#fundamentals

Funkcja, w której większość lub wszystkie wartości są inne niż zero. Zwykle jest to Tensor wartości zmiennoprzecinkowych. Na przykład poniższy 10-elementowy operator Tensor jest gęsty, ponieważ 9 jego wartości jest innych niż zero:

8 3 7 5 2 4 0 4 9 6

Kontrast z rozszerzoną funkcją.

głębokość

#fundamentals

Suma tych wartości w sieci neuronowej:

Na przykład sieć neuronowa z 5 ukrytymi warstwami i 1 warstwą wyjściową ma głębokość 6.

Zauważ, że warstwa wejściowa nie ma wpływu na głębię.

funkcja dyskretna

#fundamentals

Funkcja o skończonym zbiorze możliwych wartości. Na przykład cecha, której wartości mogą być tylko zwierzętami, warzywami lub minerałami, to cecha dyskretna (lub kategorialna).

Kontrast z funkcją ciągłą.

dynamiczny

#fundamentals

Coś wykonywanego często lub przez cały czas Terminy dynamiczny i online to synonimy w systemach uczących się. Oto typowe zastosowania elementów dynamicznych i online w systemach uczących się:

  • Model dynamiczny (lub model online) to model, który jest często lub stale ponownie trenowany.
  • Szkolenie dynamiczne (lub szkolenie online) to proces częstych lub ciągłego szkolenia.
  • Wnioskowanie dynamiczne (lub wnioskowanie online) to proces generowania prognoz na żądanie.

model dynamiczny

#fundamentals

model, który jest często (nawet stale) trenowany. Model dynamiczny to uczący się przez całe życie, który stale dostosowuje się do zmieniających się danych. Model dynamiczny nazywany jest też modelem online.

Kontrast z modelem statycznym.

E

wcześniejsze zatrzymywanie

#fundamentals

Metoda regularizacji, która obejmuje zakończenie trenowania przed spadkiem straty trenowania. We wczesnej fazie zatrzymywania celowo zatrzymujesz trenowanie modelu, gdy utrata w zbiorze danych do walidacji zacznie rosnąć, czyli gdy wydajność uogólnienia zacznie pogorszyć.

warstwa osadzania

#language
#fundamentals

Specjalna ukryta warstwa, która trenuje na wysokiej funkcji kategorialnej, aby stopniowo uczyć się osadzania wektorów niższego wymiaru. Warstwa osadzona pozwala sieci neuronowej trenować o wiele efektywniej niż tylko na podstawie wysokowymiarowych cech kategorialnych.

Przykładowo Ziemia obsługuje obecnie około 73 000 gatunków drzew. Załóżmy, że gatunki drzewa są cechą w Twoim modelu,więc warstwa wejściowa modelu zawiera jedno gorący wektor o długości 73 000 elementów. Na przykład baobab może wyglądać tak:

Tablica 73 tys. elementów. Pierwsze 6232 elementy mają wartość 0. Następny element ma wartość 1. Ostatnie 66 767 elementów ma wartość 0.

Tablica zawierająca 73 000 elementów jest bardzo długa. Jeśli nie dodasz do modelu warstwy osadzania, trenowanie będzie bardzo czasochłonne z powodu pomnożenia 72 999 zer. Możesz np. wybrać warstwę osadzania, by składała się z 12 wymiarów. W rezultacie warstwa osadzań stopniowo uczy się nowych wektorów osadzających dla poszczególnych gatunków drzew.

W niektórych sytuacjach szyfrowanie jest rozsądną alternatywą dla warstwy osadzania.

początek epoki : epoka

#fundamentals

Pełny przebieg trenowania obejmujący cały zbiór do trenowania w taki sposób, że każdy przykład został przetworzony tylko raz.

Epoka reprezentuje N/rozmiar grupy iteracji, gdzie N to łączna liczba przykładów.

Załóżmy na przykład, że:

  • Zbiór danych zawiera 1000 przykładów.
  • Rozmiar wsadu to 50 przykładów.

Dlatego pojedyncza epoka wymaga 20 iteracji:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

przykład

#fundamentals

Wartości 1 wiersza funkcji i prawdopodobnie etykiety. Przykłady w nauczaniu nadzorowanym dzielą się na 2 kategorie ogólne:

  • Przykład z etykietą składa się z co najmniej 1 funkcji i etykiety. Oznaczone przykłady są używane podczas trenowania.
  • Przykład bez etykiety zawiera co najmniej 1 funkcję, ale nie zawiera etykiety. Podczas wnioskowania są używane przykłady bez etykiet.

Załóżmy na przykład, że trenujesz model do określania wpływu warunków pogodowych na wyniki testów uczniów. Oto 3 przykłady z etykietami:

Funkcje Etykieta
Temperatura Wilgotność Ciśnienie Wynik testu
15 47 998 Prawidłowy
19 34 1020 Świetna
18 92 1012 Słaby

Oto 3 przykłady bez etykiet:

Temperatura Wilgotność Ciśnienie  
12 62 1014  
21 47 1017  
19 41 1021  

Wiersz zbioru danych jest zwykle nieprzetworzonym źródłem przykładu. Przykład składa się zwykle z podzbioru kolumn w zbiorze danych. Poza tym funkcje w przykładzie mogą też obejmować funkcje syntetyczne, takie jak krzyżówki cech.

F

wynik fałszywie negatywny (FN)

#fundamentals

Przykład, w którym model błędnie przewiduje klasę negatywną. Model przewiduje na przykład, że dany e-mail nie jest spamem (klasa negatywna), ale ten e-mail w rzeczywistości jest spamem.

fałszywie dodatnie (FP)

#fundamentals

Przykład, w którym model błędnie przewiduje klasę pozytywną. Model przewiduje na przykład, że dany e-mail jest spamem (klasą pozytywną), ale on w rzeczywistości nie jest spamem.

współczynnik wyników fałszywie pozytywnych (FPR)

#fundamentals

Odsetek rzeczywistych przykładów negatywnych, w przypadku których model błędnie oszacował klasę pozytywną. Ten wzór oblicza współczynnik wyników fałszywie pozytywnych:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Współczynnik wyników fałszywie dodatnich to oś X na krzywej charakterystyki operacyjnej odbiornika (ROC).

cecha [in context of machine learning]

#fundamentals

Zmienna wejściowa modelu systemów uczących się. Przykład zawiera co najmniej 1 funkcję. Załóżmy na przykład, że trenujesz model do określania wpływu warunków pogodowych na wyniki testów uczniów. W tabeli poniżej znajdziesz 3 przykłady, z których każdy zawiera 3 funkcje i 1 etykietę:

Funkcje Etykieta
Temperatura Wilgotność Ciśnienie Wynik testu
15 47 998 92
19 34 1020 84
18 92 1012 87

Kontrast z wartością label.

krzyż cech

#fundamentals

Funkcja syntetyczna utworzona przez cechy kategorialne lub zgrupowane jako „krzyżujące”.

Przeanalizujmy np. model „prognozowania nastroju”, który reprezentuje temperaturę w jednym z tych 4 grup:

  • freezing
  • chilly
  • temperate
  • warm

Przedstawia on także prędkość wiatru w jednym z 3 rodzajów:

  • still
  • light
  • windy

Bez przekrojów cech model liniowy trenuje niezależnie na każdy z siedmiu poprzednich zasobników. Dlatego model trenuje na przykład w trybie freezing niezależnie od trenowania, na przykład na windy.

Możesz też utworzyć funkcję krzyżową temperatury i prędkości wiatru. Ta funkcja syntetyczna miałaby 12 następujących wartości:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dzięki krzyżom model może poznać różnice nastrojów między freezing-windy dniem a freezing-still dniem.

Jeśli utworzysz funkcję syntetyczną z 2 elementów, z których każda ma wiele różnych segmentów, wynikowy krzyżyk cech będzie miał ogromną liczbę możliwych kombinacji. Jeśli na przykład jedna cecha ma 1000 zasobników, a druga 2000 zasobników, wynikowa cecha krzyżowa będzie mieć 2 000 000 zasobników.

Formalnie krzyżyk to iloczyn kartezjański.

Krzyże cech są używane najczęściej w modelach liniowych, a rzadko w sieciach neuronowych.

ekstrakcja wyróżników

#fundamentals
#TensorFlow

Proces, który składa się z tych etapów:

  1. Określanie, które cechy mogą być przydatne podczas trenowania modelu.
  2. Konwertowanie nieprzetworzonych danych ze zbioru danych na wydajne wersje tych funkcji.

Możesz na przykład stwierdzić, że temperature może być przydatną funkcją. Następnie możesz poeksperymentować z grupowaniem, aby zoptymalizować to, czego model może się uczyć na różnych zakresach temperature.

Inżynieria funkcji jest czasami nazywana wyodrębnianiem funkcji.

zbiór funkcji

#fundamentals

Grupa funkcji, na których trenuje model systemów uczących się. Na przykład kod pocztowy, rozmiar nieruchomości i stan nieruchomości mogą tworzyć prosty zestaw funkcji modelu, który prognozuje ceny nieruchomości.

wektor cech

#fundamentals

Tablica wartości funkcji feature stanowiąca przykład. Wektor cech jest wprowadzany podczas trenowania i podczas wnioskowania. Na przykład wektor cech w przypadku modelu z 2 oddzielnymi cechami może wyglądać tak:

[0.92, 0.56]

Cztery warstwy: warstwa wejściowa, dwie ukryte i jedna warstwa wyjściowa.
          Warstwa wejściowa zawiera 2 węzły, jeden z wartością 0,92, a drugi z wartością 0,56.

Każdy przykład podaje różne wartości wektora cech, więc w kolejnym przykładzie wektor cech może wyglądać tak:

[0.73, 0.49]

Inżynieria cech określa sposób przedstawiania cech w wektorze cech. Na przykład binarna cecha kategorialna z 5 możliwymi wartościami może być reprezentowana za pomocą kodowania „one-hot”. W tym przypadku część wektora cechy w określonym przykładzie składałaby się z 4 zer i pojedynczej wartości 1,0 w trzeciej pozycji w ten sposób:

[0.0, 0.0, 1.0, 0.0, 0.0]

W kolejnym przykładzie załóżmy, że model składa się z trzech cech:

  • binarna funkcja kategorialna z 5 możliwymi wartościami reprezentowanymi przez kodowanie jeden-hot-hot, np. [0.0, 1.0, 0.0, 0.0, 0.0]
  • kolejną binarną cechę kategorialną z 3 możliwymi wartościami reprezentowanymi przez kodowanie „1 z pamięci”, np. [0.0, 0.0, 1.0]
  • funkcję zmiennoprzecinkową, np. 8.3;

W tym przypadku wektor cech w każdym przykładzie byłby reprezentowany przez 9 wartości. Biorąc pod uwagę przykładowe wartości z poprzedniej listy, wektor cech będzie miał postać:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

pętla informacji zwrotnych

#fundamentals

W systemach uczących się sytuacja, w której prognozy modelu wpływają na dane treningowe tego lub innego modelu. Na przykład model polecający filmy będzie miał wpływ na filmy oglądane przez użytkowników, co będzie miało wpływ na kolejne modele rekomendacji filmów.

G

uogólnienie

#fundamentals

Zdolność modelu do generowania prawidłowych prognoz dotyczących nowych, wcześniej niewidocznych danych. Model, który można uogólnić, jest przeciwieństwem modelu, który jest zbyt dopasowany.

krzywa uogólnienia

#fundamentals

Wykres utraty trenowania i utraty weryfikacji jako funkcja liczby iteracji.

Krzywa uogólnienia może pomóc w wykryciu potencjalnego nadmiernego dopasowania. Na przykład ta krzywa uogólnienia sugeruje nadmierne dopasowanie, ponieważ utrata walidacji staje się znacznie większa niż strata trenowania.

Wykres kartezjański, na którym oś Y jest oznaczona jako „strata”, a oś X – „iteracje”. Pojawią się dwa wykresy. Jeden wykres pokazuje utratę trenowania, a drugi utratę walidacji.
          Oba wykresy zaczynają się podobnie, ale w końcu strata trenowania maleje znacznie niżej niż utrata walidacji.

spadek gradientowy

#fundamentals

Technika matematyczna pozwalająca zminimalizować straty. Stopniowo koryguje wagi i odchylenia, stopniowo znajdując najlepszą kombinację w celu zminimalizowania strat.

Przejście w formacie gradientowym jest starsze – znacznie starsze – niż systemy uczące się.

dane podstawowe (ground truth)

#fundamentals

Rzeczywistość.

Rzeczywistość, która faktycznie się wydarzyła.

Rozważmy na przykład model klasyfikacji binarnej, który prognozuje, czy student pierwszego roku studiów w ciągu 6 lat zakończy studia. Dane podstawowe w tym modelu dotyczą tego, czy dany uczeń ukończył edukację w ciągu 6 lat.

H

ukryta warstwa

#fundamentals

Warstwa w sieci neuronowej między warstwą wejściową (cechy) a warstwą wyjściową (prognozą). Każda ukryta warstwa składa się z co najmniej jednego neuronu. Na przykład ta sieć neuronowa zawiera 2 ukryte warstwy – pierwsza z 3 neuronami, a druga z 2 neuronami:

Cztery warstwy. Pierwsza warstwa to warstwa wejściowa zawierająca 2 obiekty. Druga warstwa to ukryta warstwa zawierająca 3 neurony. Trzecia warstwa to ukryta warstwa zawierająca 2 neurony. Czwarta warstwa jest warstwą wyjściową. Każdy obiekt ma 3 krawędzie, z których każda wskazuje inny neuron w drugiej warstwie. Każdy z neuronów w drugiej warstwie
 ma 2 krawędzie, z których każda wskazuje inny neuron w trzeciej warstwie. Każdy z neuronów w trzeciej warstwie zawiera 1 krawędź, z których każda wskazuje warstwę wyjściową.

Głęboka sieć neuronowa zawiera więcej niż 1 ukrytą warstwę. Na przykład poprzednia ilustracja przedstawia głęboką sieć neuronową, ponieważ model zawiera 2 ukryte warstwy.

hiperparametr

#fundamentals

Zmienne, które Ty lub usługa dostrajania hiperparametrówsą dostosowywane podczas kolejnych uruchomień trenowania modelu. Na przykład szybkość uczenia się jest hiperparametrem. Możesz ustawić tempo uczenia się na 0,01 przed jedną sesją treningową. Jeśli stwierdzisz, że 0,01 jest za wysokie, możesz ustawić tempo uczenia się na 0,003 na kolejną sesję treningową.

W przeciwieństwie do tego parametry to różne wagi i odchylenia, których model zdobywa podczas trenowania.

I

rozkłady niezależne i identyczne (i.i.d)

#fundamentals

Dane pobrane z niezmieniającego się rozkładu, w którym każda rysowana wartość nie zależy od wartości, które zostały już narysowane wcześniej. IID to idealny gaz dla systemów uczących się – przydatny konstrukt matematyczny, który jednak prawie nigdy nie występuje w prawdziwym świecie. Na przykład rozkład użytkowników strony internetowej może się zmieniać w krótkim przedziale czasu; to znaczy, że rozkład użytkowników nie zmienia się w tym krótkim okresie i odwiedziny jednej osoby są zwykle niezależne od innych. Jeśli jednak rozszerzysz ten okres, mogą pojawić się sezonowe różnice w liczbie użytkowników strony internetowej.

Zobacz też nonstationarity.

wnioskowanie

#fundamentals

W systemach uczących się proces tworzenia prognoz przez zastosowanie wytrenowanego modelu do przykładów bez etykiet.

Wnioskowanie ma nieco inne znaczenie w statystykach. Więcej informacji znajdziesz w artykule na temat wnioskowania statystycznego w Wikipedii.

warstwa wejściowa

#fundamentals

Warstwa sieci neuronowej, w której znajduje się wektor cech. Warstwa danych wejściowych zawiera przykłady trenowania lub wnioskowania. Na przykład warstwa wejściowa w tej sieci neuronowej składa się z 2 elementów:

Cztery warstwy: warstwa wejściowa, dwie ukryte i warstwa wyjściowa.

zrozumiałość

#fundamentals

Umiejętność objaśniania lub przedstawienia człowiekowi modelu systemów uczących się w zrozumiały sposób.

Na przykład większość modeli regresji liniowej jest wysoce interpretowalna. (Wystarczy tylko wziąć pod uwagę wytrenowane wagi poszczególnych cech). Lasy decyzyjne są również bardzo przejrzyste. Niektóre modele wymagają jednak zaawansowanych wizualizacji, aby można je było interpretować.

Do interpretowania modeli systemów uczących się możesz używać narzędzia Learning Interpretability Tool (LIT).

iteracja

#fundamentals

Pojedyncza aktualizacja parametrów modeluwag i odchylenia modelu podczas trenowania. Rozmiar grupy określa, ile przykładów przetwarza model w jednej iteracji. Jeśli na przykład rozmiar wsadu to 20, model przetwarza 20 przykładów, zanim dostosuje parametry.

Podczas trenowania sieci neuronowej jedna iteracja obejmuje te 2 przebiegi:

  1. Przekazywanie dalej w celu oceny straty w jednej wsadzie.
  2. Przejście wsteczne (propagacja wsteczna) umożliwiające dostosowanie parametrów modelu na podstawie utraty i tempa uczenia się.

L

Regularyzacja L0

#fundamentals

Rodzaj regularizacji, który nakłada na model całkowitą liczbę wag innych niż zero. Na przykład model mający 11 wag innych niż zero będzie miał wyższą karę niż podobny model mający 10 wag innych niż zero.

Regularyzacja L0 jest czasem określana jako regularizacja L0-norm.

Strata L1

#fundamentals

Funkcja straty, która oblicza wartość bezwzględną różnicy między rzeczywistymi wartościami etykiet a wartościami prognozowanymi przez model. Oto obliczenie straty L1 w przypadku grupy z 5 przykładów:

Rzeczywista wartość z przykładu Prognozowana wartość modelu Wartość bezwzględna delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = strata L1

Utrata L1 jest mniej wrażliwa na wyniki odstające niż L2 straty.

Średni błąd bezwzględny to średnia strata L1 na przykład.

Regularyzacja L1

#fundamentals

Rodzaj regularizacji, który powoduje nałożenie kar na wagi proporcjonalne do sumy wartości bezwzględnych wag. Regularyzacja L1 pomaga kierować wagi nieistotnych lub niemal nieistotnych cech do wartości dokładnie 0. Cecha o wadze 0 jest skutecznie usuwana z modelu.

Kontrast z regularizacją L2.

Strata L2

#fundamentals

Funkcja straty, która oblicza kwadrat różnicy między rzeczywistymi wartościami etykiet a wartościami prognozowanymi przez model. Oto obliczenie straty L2 w przypadku grupy z 5 przykładami:

Rzeczywista wartość z przykładu Prognozowana wartość modelu Kwadrat delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = strata L2

Z powodu podniesienia do kwadratu utrata L2 zwiększa wpływ wyjątków odstających. Oznacza to, że utrata L2 silniej reaguje na złe prognozy niż L1. Na przykład strata L1 dla poprzedniej partii wynosi 8, a nie 16. Zauważ, że jedna wartość odstająca jest korzystna dla 9 z 16.

Modele regresji zwykle używają straty L2 jako funkcji straty.

Średnia kwadratowa wartość błędu to średnia strata L2 na przykład. Kwadratowa strata to inna nazwa straty L2.

Regularyzacja L2

#fundamentals

Rodzaj regularizacji, który powoduje nakładanie kar na wagi proporcjonalne do sumy kwadratów tych wag. Regularyzacja L2 pomaga zwiększać wagi odstające (czyli takie, które mają duże wartości dodatnie lub niskie wartości ujemne) zbliżające się do 0, ale nie do 0. Cechy o wartościach bardzo zbliżonych do 0 pozostają w modelu, ale nie mają dużego wpływu na prognozę modelu.

Regularyzacja L2 zawsze poprawia uogólnienie w modelach liniowych.

Skontrastowanie względem regularizacji L1.

label

#fundamentals

W przypadku nadzorowanych systemów uczących się część „odpowiedź” lub „wynik” przykładu.

Każdy przykład z etykietą składa się z co najmniej 1 funkcji i etykiety. Na przykład w zbiorze danych do wykrywania spamu etykieta to prawdopodobnie „spam” lub „nie spam”. W zbiorze danych o deszczach etykieta może zawierać ilość deszczu opadającego w określonym okresie.

przykład z etykietą

#fundamentals

Przykład zawierający co najmniej 1 funkcję i etykietę. Na przykład ta tabela zawiera 3 przykłady oznaczone etykietami z modelu oceny autoreklam, każdy z trzema cechami i 1 etykietą:

Liczba sypialni Liczba łazienek Wiek gospodarstwa domowego Cena domowa (etykieta)
3 2 15 345 000 USD
2 1 72 179 000 USD
4 2 34 392 000 USD

W nadzorowanych systemach uczących się modele trenują na przykładach oznaczonych etykietami i generują prognozy na przykładach bez etykiet.

Skontrastowanie przykładu oznaczonego etykietami z przykładami bez etykiet.

lambda

#fundamentals

Synonim częstotliwości regularyzacji.

Lambda to przeciążone hasło. Skupiamy się na definicjach terminu w ramach regularizacji.

warstwa

#fundamentals

Zbiór neuronów w sieci neuronowej. Oto trzy typowe typy warstw:

Na przykład ta ilustracja przedstawia sieć neuronowa z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową. Warstwa wejściowa składa się z dwóch funkcji. Pierwsza ukryta warstwa składa się z 3 neuronów, a druga – z 2 neuronów. Warstwa wyjściowa składa się z jednego węzła.

W TensorFlow warstwy są także funkcjami Pythona, które przyjmują Tensory i opcje konfiguracyjne jako dane wejściowe i generują inne tensory jako dane wyjściowe.

tempo uczenia się

#fundamentals

Liczba zmiennoprzecinkowa, która informuje algorytm spadku gradientu, jak mocno dostosowywać wagi i odchylenia w przypadku każdej iteracji. Na przykład tempo uczenia się na poziomie 0,3 dostosowałoby wagi i odchylenia trzy razy mocniej niż tempo uczenia się wynoszące 0,1.

Tempo uczenia się to kluczowy hiperparametr. Jeśli ustawisz zbyt niskie tempo uczenia się, trenowanie będzie trwało zbyt długo. Jeśli ustawisz zbyt wysokie tempo uczenia się, spadek gradientowy często może mieć problemy z osiągnięciem konwencji.

jednostajne

#fundamentals

Związek między co najmniej 2 zmiennymi, który może być reprezentowany wyłącznie przez dodawanie i mnożenie.

Wykres relacji liniowej jest linią.

Kontrast z elementami nielinearnymi.

model liniowy

#fundamentals

model, który przypisuje 1 model do każdej model w celu generowania model. (Modele liniowe uwzględniają też odchylenia). W przeciwieństwie do sytuacji zależność między cechami a prognozami w modelach głębokich jest zasadniczo nieliniowa.

Modele liniowe są zwykle łatwiejsze w trenowaniu i łatwiejsze do interpretacji niż modele głębokie. Szczegółowe modele mogą jednak uczyć się złożonych relacji między cechami.

Regresja liniowa i regresja logistyczna to 2 rodzaje modeli liniowych.

regresja liniowa

#fundamentals

Typ modelu systemów uczących się, w którym spełnione są oba te warunki:

  • Jest to model liniowy.
  • Prognoza ma wartość zmiennoprzecinkową. (Jest to regresja część regresji liniowej).

Porównaj regresję liniową z regresją logistyczną. Określ też regresję kontrastu z klasyfikacją.

regresja logistyczna

#fundamentals

Rodzaj modelu regresji, który przewiduje prawdopodobieństwo. Modele regresji logistycznej mają te cechy:

  • Etykieta jest kategorialna. Termin regresja logistyczna zwykle odnosi się do binarnej regresji logistycznej, czyli modelu, który oblicza prawdopodobieństwa etykiet z 2 możliwymi wartościami. Rzadziej, czyli wielomianowa regresja logistyczna, oblicza prawdopodobieństwo dla etykiet z więcej niż 2 możliwymi wartościami.
  • Funkcja utraty podczas trenowania to Log Loss (Utrata logów). W przypadku etykiet z więcej niż 2 możliwymi wartościami możesz umieścić wiele jednostek logarytmicznych.
  • Model ma architekturę liniową, a nie głęboką sieć neuronową. Pozostała część tej definicji dotyczy jednak modeli szczegółowych, które prognozują prawdopodobieństwo w przypadku etykiet kategorialnych.

Rozważmy np. model regresji logistycznej, który oblicza prawdopodobieństwo, że wejściowy e-mail jest spamem lub nie jest spamem. Podczas wnioskowania załóżmy, że model przewiduje 0,72. Dlatego model szacuje:

  • 72% szans na to, że e-mail jest spamem
  • Prawdopodobieństwo, że e-mail nie jest spamem, wynosi 28%.

Model regresji logistycznej korzysta z tej architektury dwuetapowej:

  1. Model generuje nieprzetworzoną prognozę (y) przez zastosowanie funkcji liniowej cech wejściowych.
  2. Model używa tej nieprzetworzonej prognozy jako danych wejściowych dla funkcji sigmoidalnej, która konwertuje nieprzetworzoną prognozę na wartość z zakresu od 0 do 1 (wyłącznie).

Podobnie jak każdy model regresji, model regresji logistycznej przewiduje liczbę. Ta liczba zwykle staje się częścią modelu klasyfikacji binarnej w ten sposób:

  • Jeśli przewidywana liczba jest większa niż próg klasyfikacji, model klasyfikacji binarnej przewiduje klasę pozytywną.
  • Jeśli prognozowana liczba jest mniejsza niż wartość progowa klasyfikacji, model klasyfikacji plików binarnych przewiduje klasę ujemną.

Zapis straty

#fundamentals

Funkcja straty używana w regresji logicznej.

parametry logarytmiczne,

#fundamentals

Logarytm prawdopodobieństwa określonego zdarzenia.

przegrana

#fundamentals

Podczas trenowania modelu nadzorowanego jest to miara odległości od prognozy modelu od etykiety.

Funkcja straty oblicza stratę.

krzywa straty

#fundamentals

Wykres straty jako funkcja liczby iteracji trenowania. Na wykresie poniżej widać typową krzywą strat:

Wykres kartezjański przedstawiający straty i iteracje treningowe, który pokazuje szybki spadek straty w pierwszych iteracjach, po którym następuje stopniowy spadek, a następnie płaski nachylenie podczas ostatnich iteracji.

Krzywe straty pomagają określić, kiedy model jest konwertowany, czy zbyt dobrze dopasowany.

Krzywe straty mogą przedstawiać wszystkie te rodzaje strat:

Zobacz też krzywą generalizacji.

funkcja straty

#fundamentals

Podczas trenowania lub testowania funkcja matematyczna, która oblicza straty w postaci serii przykładów. Funkcja straty zwraca mniejszą stratę w przypadku modeli, które generują dobre prognozy, niż modeli, które generują błędne prognozy.

Celem trenowania jest zwykle zminimalizowanie strat, które zwraca funkcja utraty.

Istnieje wiele różnych rodzajów funkcji straty. Wybierz funkcję straty odpowiednią do typu modelu. Na przykład:

P

systemy uczące się

#fundamentals

Program lub system, który trenuje model na podstawie danych wejściowych. Wytrenowany model może generować przydatne prognozy na podstawie nowych (nigdy wcześniej niewidocznych) danych pochodzących z tego samego rozkładu, który został użyty do trenowania modelu.

Systemy uczące się odnoszą się również do dziedziny studiów związanych z tymi programami lub systemami.

klasa większości

#fundamentals

Często spotykana etykieta w zbiorze danych o zrównoważonym klasie. Na przykład w zbiorze danych zawierającym 99% etykiet negatywnych i 1% etykiet pozytywnych, etykiety ujemne są klasą większości.

W przeciwieństwie do klasy mniejszości.

minigrupa

#fundamentals

Niewielki, losowo wybrany podzbiór grupy przetworzonej w ramach jednej iteracji. Rozmiar grupy miniwsadu powinien zwykle wynosić od 10 do 1000 przykładów.

Załóżmy na przykład, że cały zestaw treningowy (pełna wsad) składa się z 1000 przykładów. Przyjmijmy, że rozmiar grupy każdej miniserii ustawiono na 20. Dlatego każda iteracja określa stratę w losowych 20 z 1000 przykładów, a następnie odpowiednio dostosowuje wagi i odchylenia.

Obliczenie strat w ramach miniserii jest znacznie wydajniejsze niż w przypadku wszystkich przykładów w całej grupie.

klasa mniejszościowa

#fundamentals

Rzadziej używana etykieta w zbiorze danych o zrównoważonym klasie. Na przykład w zbiorze danych zawierającym 99% etykiet negatywnych i 1% etykiet pozytywnych, etykiety pozytywne to klasa mniejszości.

W przeciwieństwie do klasy większości.

model

#fundamentals

Ogólnie rzecz biorąc, każdy konstrukt matematyczny, który przetwarza dane wejściowe i zwraca dane wyjściowe. Model to zbiór parametrów i struktur, które są potrzebne systemowi do generowania prognoz. W nadzorowanych systemach uczących się model wykorzystuje przykład jako dane wejściowe i określa prognozę jako dane wyjściowe. W nadzorowanych systemach uczących się modele nieco się różnią. Na przykład:

  • Model regresji liniowej składa się ze zbioru wag i odchylenia.
  • Model sieci neuronowej składa się z tych elementów:
    • Zestaw ukrytych warstw, z których każda zawiera co najmniej 1 neurony.
    • Wagi i odchylenia powiązane z każdym neuronem.
  • Model drzewa decyzyjnego składa się z tych elementów:
    • Kształt drzewa, czyli wzorzec łączenia warunków i liści.
    • Warunki i opuszczanie świata.

Możesz zapisywać i przywracać model oraz tworzyć jego kopie.

Nienadzorowane systemy uczące się generują też modele, zwykle funkcja, która jest w stanie zmapować przykład danych wejściowych na najbardziej odpowiedni klaster.

klasyfikacja wieloklasowa

#fundamentals

W uczeniu nadzorowanym występuje problem z klasyfikacją, w którym zbiór danych zawiera więcej niż 2 klasy etykiet. Na przykład etykiety w zbiorze danych Iris muszą należeć do jednej z tych 3 klas:

  • Tęczówka
  • Iris virginica
  • Przesłona versicolor

Model wytrenowany na zbiorze danych Iris, który prognozuje typ tęczówki w nowych przykładach, wykonuje klasyfikację wieloklasową.

Natomiast problemy z klasyfikacją, które odróżniają dokładnie 2 klasy, to modele klasyfikacji binarnej. Na przykład model e-maili, który przewiduje spam lub nie spam, jest modelem klasyfikacji binarnej.

W przypadku problemów z klastrem klasyfikacja wieloklasowa odnosi się do więcej niż 2 klastrów.

N

klasa wykluczająca

#fundamentals

W klasyfikacji binarnej jedna klasa jest określana jako dodatnia, a druga jako ujemna. Klasa pozytywna to przedmiot lub zdarzenie, dla którego testuje model, a klasa negatywna to klasa negatywna. Na przykład:

  • Negatywną klasą w badaniu medycznym może być „nie guz”.
  • Wykluczającą klasą w klasyfikatorze e-maili może być „nie spam”.

Kontrast z klasą pozytywną.

sieć neuronowa

#fundamentals

model zawierający co najmniej 1 model. Głęboka sieć neuronowa to typ sieci neuronowej zawierającej więcej niż 1 ukrytą warstwę. Na przykład poniższy diagram przedstawia głęboką sieć neuronową składającą się z 2 ukrytych warstw.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową.

Każdy neuron w sieci neuronowej łączy się ze wszystkimi węzłami w następnej warstwie. Na przykład na poprzednim diagramie można zauważyć, że każdy z 3 neuronów w pierwszej ukrytej warstwie oddzielnie łączy się z obydwoma neuronami w drugiej ukrytej warstwie.

Sieci neuronowe zaimplementowane na komputerach są czasami nazywane sztucznymi sieciami neuronowymi, aby odróżnić je od sieci neuronowych w mózgu i innych układach nerwowych.

Niektóre sieci neuronowe mogą naśladować bardzo złożone nieliniowe relacje między różnymi cechami i etykietą.

Zobacz też splotowe sieci neuronowe i cykliczna sieć neuronowa.

neuron

#fundamentals

W systemach uczących się jest to osobna jednostka w ukrytej warstwie sieci neuronowej. Każdy neuron wykonuje takie dwuetapowe działanie:

  1. Oblicza sumę ważoną wartości wejściowych pomnożonej przez odpowiadające im wagi.
  2. Przekazuje sumę ważoną jako dane wejściowe do funkcji aktywacji.

Neuron w pierwszej ukrytej warstwie przyjmuje dane wejściowe z wartości cech w warstwie wejściowej. Neuron znajdujący się w dowolnej ukrytej warstwie poza pierwszą przyjmuje dane wejściowe od neuronów z poprzedniej ukrytej warstwy. Na przykład neuron w drugiej ukrytej warstwie przyjmuje dane wejściowe od neuronów w pierwszej ukrytej warstwie.

Ilustracja poniżej przedstawia 2 neurony i ich dane wejściowe.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową. Wyróżniono 2 neurony: jeden w pierwszej ukrytej warstwie, a drugi w drugiej. Podświetlony neuron w pierwszej ukrytej warstwie otrzymuje dane wejściowe z obu cech w warstwie wejściowej. Podświetlony neuron w drugiej ukrytej warstwie otrzymuje dane wejściowe z każdego z 3 neuronów w pierwszej ukrytej warstwie.

Neuron w sieci neuronowej naśladuje zachowanie neuronów w mózgu i innych częściach układu nerwowego.

węzeł (sieć neuronowa)

#fundamentals

neuron w ukrytej warstwie.

nielinearna

#fundamentals

Związek między co najmniej 2 zmiennymi, którego nie można przedstawić tylko za pomocą dodawania i mnożenia. Relacja liniowa może być przedstawiona w postaci linii, a relacja nieliniowa nie. Rozważmy na przykład 2 modele, z których każdy odnosi się do jednej cechy z jedną etykietą. Model po lewej stronie jest liniowy, a po prawej – nieliniowy:

Dwa wątki. Jeden wykres jest linią, więc jest to relacja liniowa.
          Drugi wykres jest krzywą, więc jest to zależność nieliniowa.

brakstacjonarność

#fundamentals

Cecha, której wartości zmieniają się w ramach co najmniej jednego wymiaru, zwykle wraz z upływem czasu. Rozważmy na przykład te przykłady brakustacjonarności:

  • Liczba kostiumów kąpielowych sprzedawanych w danym sklepie zmienia się w zależności od sezonu.
  • Wielkość określonych owoców w konkretnym regionie wynosi zero przez większość roku, ale przez krótki czas jest bardzo duża.
  • Z powodu zmian klimatycznych średnia roczna temperatura się zmienia.

Kontrast ze stacjonarnością.

normalizacja

#fundamentals

Ogólnie rzecz biorąc, proces przekształcania rzeczywistego zakresu wartości zmiennej na standardowy zakres wartości taki jak:

  • Od -1 do +1
  • Od 0 do 1
  • rozkład normalny

Załóżmy na przykład, że rzeczywisty zakres wartości określonej cechy wynosi od 800 do 2400. W ramach inżynierii cech możesz normalizować rzeczywiste wartości do zakresu standardowego, np. od -1 do +1.

Normalizacja jest typowym zadaniem w inżynierii funkcji. Modele zwykle trenują szybciej (i generują lepsze prognozy), gdy wszystkie cechy liczbowe w wektorze cech mają mniej więcej taki sam zakres.

dane liczbowe

#fundamentals

Cechy przedstawione w postaci liczb całkowitych lub liczb rzeczywistych. Na przykład model wyceny domu prawdopodobnie reprezentuje rozmiar domu (w stopach kwadratowych lub metrach kwadratowych) jako dane liczbowe. Przedstawienie cechy w postaci danych liczbowych oznacza, że wartości cech są powiązane z etykietą matematycznie. To oznacza, że liczba metrów kwadratowych w domu jest prawdopodobnie w kontekście matematycznego związku z wartością domu.

Nie wszystkie liczby całkowite powinny być wartościami liczbowymi. Na przykład w niektórych częściach świata kody pocztowe są liczbami całkowitymi, ale w modelach nie należy podawać ich jako danych liczbowych. Wynika to z faktu, że kod pocztowy 20000 nie jest dwa razy (lub nawet połowę) mniejszy niż kod pocztowy 10 000. Ponadto chociaż różne kody pocztowe mogą być powiązane z różnymi wartościami nieruchomości, nie możemy zakładać, że wartości nieruchomości w kodzie pocztowym 20000 są dwukrotnie cenniejsze niż nieruchomości w kodzie pocztowym 10000. Kody pocztowe powinny być zamiast tego reprezentowane jako dane kategorialne.

Obiekty liczbowe są czasami nazywane funkcjami ciągłymi.

O

offline

#fundamentals

Synonim słowa statyczne.

wnioskowanie offline

#fundamentals

Proces modelu generującego grupę prognoz, a następnie zapisywania tych prognoz w pamięci podręcznej. Zamiast ponownie uruchamiać model, aplikacje mogą uzyskać dostęp do odpowiedniej prognozy z pamięci podręcznej.

Załóżmy na przykład, że model generuje lokalne prognozy pogody (prognozy) co 4 godziny. Po uruchomieniu modelu system zapisuje w pamięci podręcznej wszystkie lokalne prognozy pogody. Aplikacje pogodowe pobierają prognozy z pamięci podręcznej.

Takie wnioskowanie offline jest też nazywane wnioskowaniem statycznym.

W przeciwieństwie do wnioskowania online.

kodowanie One-hot

#fundamentals

Przedstawia dane kategorialne jako wektor, w którym:

  • Jeden element ma wartość 1.
  • Pozostałe elementy mają wartość 0.

Kodowanie „1 gorące” jest zwykle używane do reprezentowania ciągów znaków lub identyfikatorów, które mają ograniczony zbiór możliwych wartości. Załóżmy na przykład, że pewna cecha kategorialna o nazwie Scandinavia ma 5 możliwych wartości:

  • „Dania”
  • „Szwecja”
  • „Norwegia”
  • „Finlandia”
  • „Islandia”

Kodowanie „1-gorące” może reprezentować każdą z tych 5 wartości w następujący sposób:

country Wektor
„Dania” 1 0 0 0 0
„Szwecja” 0 1 0 0 0
„Norwegia” 0 0 1 0 0
„Finlandia” 0 0 0 1 0
„Islandia” 0 0 0 0 1

Dzięki kodowaniu „1 gotowe” model może nauczyć się różnych połączeń w zależności od każdego z 5 krajów.

Reprezentowanie cechy jako danych liczbowych jest alternatywą dla kodowania „1 gotowe”. Niestety numerowanie krajów skandynawskich nie jest dobrym rozwiązaniem. Rozważmy na przykład tę reprezentację liczbową:

  • „Dania” wynosi 0
  • „Szwecja” to 1
  • „Norwegia” to 2
  • „Finlandia” to 3
  • „Islandia” to 4

W przypadku kodowania numerycznego model interpretuje nieprzetworzone liczby matematycznie i próbuje na nich trenować. Islandia to w rzeczywistości nie dwa razy więcej niż coś w Norwegii, więc model doprowadziłby do dziwnych wniosków.

jeden vs. wszystkie

#fundamentals

Biorąc pod uwagę problem z klasyfikacją z klasami N, rozwiązanie składające się z N osobnych klasyfikatorów binarnych – 1 klasyfikator binarny dla każdego możliwego wyniku. Na przykład w modelu, który klasyfikuje przykłady jako zwierzęta, warzywa lub minerały, rozwiązanie „jeden/wszystko” zapewniłoby 3 osobne klasyfikatory binarne:

  • zwierzę vs. zwierzę
  • warzywa vs. niewarzywne
  • minerał zamiast mineralny

online

#fundamentals

Synonim dynamiczny.

wnioskowanie online

#fundamentals

generowanie prognoz na żądanie; Załóżmy na przykład, że aplikacja przekazuje dane wejściowe do modelu i wysyła żądanie prognozy. System wykorzystujący wnioskowanie online odpowiada na żądanie, uruchamiając model (i zwracając prognozę do aplikacji).

kontrast z zawnioskowaniem offline;

warstwa wyjściowa

#fundamentals

„Ostatnia” warstwa sieci neuronowej. Warstwa wyjściowa zawiera prognozę.

Ilustracja poniżej przedstawia małą głęboką sieć neuronową z warstwą wejściowej, 2 ukrytymi warstwami i warstwą wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową. Warstwa wejściowa składa się z dwóch funkcji. Pierwsza ukryta warstwa składa się z 3 neuronów, a druga – z 2 neuronów. Warstwa wyjściowa składa się z jednego węzła.

nadmierne dopasowanie

#fundamentals

Utworzenie model, który ściśle pasuje do model, tak że nie będzie on generować poprawnych prognoz na podstawie nowych danych.

Regularizacja może ograniczyć nadmierne dopasowanie. Trenowanie na dużym i zróżnicowanym zbiorze treningowym również może zmniejszyć nadmierne dopasowanie.

P

pandy

#fundamentals

Zorientowany na kolumny interfejs API do analizy danych oparty na numpy. Wiele platform systemów uczących się, w tym TensorFlow, obsługuje struktury danych panda jako dane wejściowe. Więcej informacji znajdziesz w dokumentacji pand.

parametr

#fundamentals

Wagi i odchylenia, których model uczy się podczas trenowania. Na przykład w modelu regresji liniowej parametry składają się z odchylenia (b) i wszystkich wag (w1, w2 itd.) według tej formuły:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Natomiast hiperparametr to wartości, które Ty (lub usługa zmieniająca hiperparametr) dostarcza do modelu. Na przykład szybkość uczenia się jest hiperparametrem.

klasa pozytywnych

#fundamentals

Zajęcia, w których testujesz.

Na przykład klasą pozytywną w modelu raka może być „guz”. Pozytywną klasą w klasyfikatorze e-maili może być „spam”.

W przeciwieństwie do klasy wykluczającej.

obróbka

#fairness
#fundamentals

Dostosowywanie danych wyjściowych modelu po jego uruchomieniu. Przetwarzanie końcowe może pomóc w egzekwowaniu ograniczeń dotyczących obiektywności bez konieczności modyfikowania modeli.

Można na przykład zastosować przetwarzanie końcowe do klasyfikatora binarnego, ustawiając taki próg klasyfikacji, aby utrzymywał równość możliwości w przypadku niektórych atrybutów. W tym celu należy sprawdzić, czy współczynnik prawdziwie dodatni jest taki sam dla wszystkich wartości tego atrybutu.

prognoza

#fundamentals

Dane wyjściowe modelu. Na przykład:

  • Prognozowanie modelu klasyfikacji binarnej jest klasą dodatnią lub ujemną.
  • W przypadku modelu klasyfikacji wieloklasowej prognoza to jedna klasa.
  • Prognoza modelu regresji liniowej ma postać liczby.

etykiety proxy

#fundamentals

Dane używane do szacowania etykiet, które nie są bezpośrednio dostępne w zbiorze danych.

Załóżmy na przykład, że musisz wytrenować model do prognozowania poziomu stresu pracowników. Zbiór danych zawiera wiele funkcji prognozowanych, ale nie zawiera etykiety Poziom stresu. Bez obaw, jako etykietę poziomu stresu wybierasz „wypadki w miejscu pracy”. W końcu pracownicy podatni na stres to więcej wypadków niż spokojni pracownicy. A może to robią? Być może liczba wypadków w miejscu pracy może wzrastać i opadać z wielu powodów.

W drugim przykładzie załóżmy, że chcesz, by etykieta czy pada? była wartością logiczną zbioru danych, ale zbiór danych nie zawiera danych o deszczach. Jeśli zdjęcia są dostępne, możesz ustawić zdjęcia osób z parasolami jako etykiety pośrednie mówiące o tym, czy pada? Czy to dobra etykieta? Jednak w niektórych kulturach ludzie częściej noszą parasole chroniące przed słońcem niż deszczem.

Etykiety serwera proxy są często niedoskonałe. W miarę możliwości wybieraj własne etykiety zamiast etykiet proxy. Jeśli jednak brakuje rzeczywistej etykiety, wybierz ją bardzo ostrożnie, wybierając najmniej najgorszą propozycję etykiety proxy.

R

oceniający

#fundamentals

Osoba, która dostarcza etykiety dla przykładów. „Annotator” to inna nazwa osoby oceniającej.

Prostokątna jednostka liniowa (ReLU)

#fundamentals

funkcję aktywacji, która działa tak:

  • Jeśli dane wejściowe mają wartość ujemną lub zero, wynik wynosi 0.
  • Jeśli dane wejściowe są dodatnie, dane wyjściowe są takie same.

Na przykład:

  • Jeśli dane wejściowe mają wartość -3, wynik wynosi 0.
  • Jeśli dane wejściowe to +3, dane wyjściowe to 3,0.

Oto fabuła ReLU:

Wykres kartezjański podzielony na 2 wiersze. Pierwsza linia ma stałą wartość y równą 0 i biegnie wzdłuż osi X od -nieskończoności, 0 do 0, -0.
          Drugi wiersz zaczyna się od 0,0. Ta linia ma nachylenie o wartości +1, więc
          biegnie od 0,0 do +nieskończoności,+nieskończoności.

ReLU to bardzo popularna funkcja aktywacyjna. Pomimo prostego działania ReLU nadal umożliwia sieci neuronowej poznawanie nieliniowych relacji między funkcjami a etykietą.

model regresji

#fundamentals

Po prostu model generujący prognozę liczbową. (W przeciwieństwie do tego model klasyfikacji generuje prognozę klas). Oto na przykład wszystkie modele regresji:

  • Model, który przewiduje wartość danego domu,np. 423 000 euro.
  • Model, który przewiduje długość życia określonego drzewa, na przykład 23,2 roku.
  • Model, który przewiduje ilość opadów, które spadnie w określonym mieście w ciągu najbliższych 6 godzin, np.na 0,18 cala.

Dwa typowe typy modeli regresji to:

  • Regresja liniowa, która znajduje linię, która najlepiej pasuje do wartości etykiet do funkcji.
  • regresja logistyczna, która generuje prawdopodobieństwo w przedziale od 0,0 do 1,0, które system zwykle mapuje na prognozę klasową;

Nie każdy model, który generuje prognozy liczbowe, jest modelem regresji. W niektórych przypadkach prognoza liczbowa jest w rzeczywistości modelem klasyfikacji, który ma w rzeczywistości liczbowe nazwy klas. Na przykład model, który prognozuje numeryczny kod pocztowy, jest modelem klasyfikacji, a nie regresji.

regularyzacja

#fundamentals

każdy mechanizm, który ogranicza nadmierne dopasowanie; Popularne rodzaje regularyzacji:

Regularizację można też zdefiniować jako zmniejszenie złożoności modelu.

współczynnik regularyzacji

#fundamentals

Liczba określająca względne znaczenie regularizacji podczas trenowania. Zwiększenie wskaźnika regularyzacji zmniejsza nadmierne dopasowanie, ale może zmniejszyć moc prognozującą modelu. I na odwrót – zmniejszenie lub pominięcie regularizacji natężenia ruchu sprzyja nadmiernemu dopasowaniu.

ReLU

#fundamentals

Skrót od wyrażenia Rectified Linear Unit (Poprawiona jednostka liniowa).

generacja rozszerzonego pobierania

#fundamentals

Architektura oprogramowania często używana w aplikacjach LLM (dużych modeli językowych). Oto kilka powodów, dla których generowanie z wykorzystaniem zbierania danych jest często kierowane do następujących powodów:

  • Zwiększanie dokładności faktów generowanych przez model
  • Zapewnienie modelu dostępu do wiedzy, której nie przeszkolono
  • Zmienianie wiedzy używanej przez model
  • Umożliwienie modelu cytowania źródeł

Załóżmy na przykład, że aplikacja z branży chemicznej używa interfejsu API PaLM do generowania podsumowań związanych z zapytaniami użytkowników. Gdy backend aplikacji odbierze zapytanie, backend najpierw wyszuka („pobiera”) dane, które są istotne dla zapytania użytkownika, dołączy („wzbogacone”) odpowiednie dane chemiczne do zapytania użytkownika i instruuje LLM, aby utworzył podsumowanie na podstawie dołączonych danych.

Krzywa charakterystyki operacyjnej odbiornika (ROC)

#fundamentals

Wykres współczynnika prawdziwie dodatniego i współczynnika wyników fałszywie pozytywnych dla różnych progów klasyfikacji w klasyfikacji binarnej.

Kształt krzywej ROC sugeruje zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Załóżmy na przykład, że model klasyfikacji binarnej doskonale oddziela klasy negatywne od klas pozytywnych:

Wiersz liczb z 8 pozytywnymi przykładami po prawej stronie i 7 przykładami negatywnymi po lewej.

Krzywa charakterystyki operacyjnej odbiornika (ROC) w przypadku poprzedniego modelu wygląda tak:

Krzywa charakterystyki operacyjnej odbiornika (ROC). Oś X to współczynnik fałszywie pozytywnych, a oś Y współczynnik prawdziwie dodatni. Krzywa ma odwrócony kształt litery L. Krzywa zaczyna się od (0,0; 0,0) i prowadzi prosto w górę do (0,0; 1,0). Następnie krzywa zmienia się od (0,0; 1,0) do (1,0; 1,0).

Ta ilustracja przedstawia natomiast nieprzetworzoną wartość regresji logistycznej w przypadku strasznego modelu, który nie potrafi oddzielić klas negatywnych od klas pozytywnych:

Wiersz liczb z klasami pozytywnymi i negatywnymi, które są całkowicie zmieszczone.

Krzywa charakterystyki operacyjnej odbiornika w tym modelu wygląda tak:

Krzywa charakterystyki operacyjnej odbiornika (ROC), która jest w rzeczywistości linią prostą od (0,0; 0,0) do (1,0; 1,0).

Tymczasem w świecie rzeczywistym większość modeli klasyfikacji binarnej do pewnego stopnia rozdziela klasy pozytywne i negatywne, ale zwykle nie jest to idealne. Zatem typowa krzywa charakterystyki operacyjnej odbiornika mieści się gdzieś pomiędzy dwoma skrajnościami:

Krzywa charakterystyki operacyjnej odbiornika (ROC). Oś X to współczynnik fałszywie pozytywnych, a oś Y współczynnik prawdziwie dodatni. Krzywa ROC jest zbliżona do niestabilnego łuku przecinającego punkty kompasu z zachodu na północ.

Punkt na krzywej charakterystyki operacyjnej odbiornika (ROC) najbliżej (0,0; 1,0) teoretycznie określa idealny próg klasyfikacji. Jednak na wybór idealnego progu kwalifikacji wpływa jednak kilka innych rzeczywistych problemów. Na przykład wyniki fałszywie negatywne powodują znacznie większy problem niż wyniki fałszywie pozytywnych.

Dane liczbowe o nazwie AUC łączą krzywą charakterystyki operacyjnej odbiornika (ROC) do pojedynczej wartości zmiennoprzecinkowej.

Średnia kwadratowa błędów (RMSE)

#fundamentals

Pierwiastek kwadratowy z średniego błędu kwadratowego.

S

funkcja sigmoid

#fundamentals

Funkcja matematyczna, która „wypycha” wartość wejściową do ograniczonego zakresu, zwykle od 0 do 1 lub -1 do +1. To oznacza, że można przekazać dowolną liczbę (dwa, milion, ujemne miliardy itd.) do sigmoidy. Wynik będzie nadal mieści się w ograniczonym zakresie. Wykres funkcji aktywacji sigmoidalnej wygląda tak:

Dwuwymiarowy, zakrzywiony wykres z wartościami x obejmującymi domenę – od nieskończoności do +dodatniej, a wartości y mieszczą się w zakresie od 0 do prawie 1. Gdy x wynosi 0, y ma wartość 0,5. Nachylenie krzywej jest zawsze dodatnie.Najwyższe nachylenie wynosi 0, 0,5 i stopniowo spada wraz ze wzrostem bezwzględnej wartości x.

Funkcja sigmoidalna ma kilka zastosowań w systemach uczących się, m.in.:

funkcja softmax

#fundamentals

Funkcja określająca prawdopodobieństwo dla każdej możliwej klasy w modelu klasyfikacji wieloklasowej. Suma prawdopodobieństwa wynosi dokładnie 1,0. Na przykład poniższa tabela pokazuje, jak model softmax rozkłada różne prawdopodobieństwa:

Grafika to... Probability,
pies .85
Cat .13
koń 0,02

Funkcja Softmax jest też nazywana pełnym modelem softmax.

kontrast z próbkowaniem kandydatów;

obiekt rozproszony

#language
#fundamentals

Funkcja, której wartości są najczęściej puste lub równe zero. Na przykład cecha zawierająca 1 wartość i milion wartości 0 jest bardzo mała. W przeciwieństwie do funkcji cecha gęstość ma wartości, które w większości nie mają wartości 0 lub są puste.

W systemach uczących się zaskakująca liczba funkcji to jedynie niewielkie różnice. Funkcje kategorialne są zwykle ograniczone. Na przykład spośród 300 możliwych gatunków drzew w lesie jeden przykład może zidentyfikować tylko klon. Jeden z milionów filmów w bibliotece filmów może wskazać tylko „Casablanca”.

W modelu zazwyczaj reprezentujesz rzadkie funkcje za pomocą kodowania „one-hot”. Jeśli kodowanie jednorazowe jest bardzo skuteczne, możesz umieścić nad nim warstwę do umieszczenia.

rozproszona reprezentacja

#language
#fundamentals

Przechowywanie tylko pozycji elementów innych niż 0 w obiekcie rozproszonym.

Załóżmy na przykład, że funkcja kategorialna o nazwie species identyfikuje 36 gatunków drzew w konkretnym lesie. Możesz dalej zakładać, że każdy przykład identyfikuje tylko jeden gatunek.

Możesz użyć wektorze 1 gorącego do reprezentowania gatunków drzew w każdym przykładzie. Wektor „1 gorący” zawiera 1 1 (reprezentuje konkretne gatunki drzew w tym przykładzie) i 35 elementów 0 (czyli 35 gatunków drzew nie w tym przykładzie). Jednorazowa reprezentacja pola maple może więc wyglądać mniej więcej tak:

Wektor, w którym pozycje od 0 do 23 mają wartość 0, pozycja 24 ma wartość 1, a pozycje od 25 do 35 – wartość 0.

Z kolei niewielka reprezentacja mogłaby po prostu zidentyfikować położenie konkretnych gatunków. Jeśli maple znajduje się na pozycji 24, rzadkie przedstawienie maple będzie wyglądać tak:

24

Reprezentacja rozproszona jest znacznie mniej zwięzła niż prezentacja tylko raz.

wektor rozproszony

#fundamentals

Wektor, którego wartości są najczęściej zerami. Zobacz też o niewielkiej ilości funkcji i rozdzielczość.

strata do kwadratu

#fundamentals

Synonim straty L2.

statyczne

#fundamentals

Coś, co zostało wykonane tylko raz, a nie cały czas. Terminy statyczne i offline to synonimy. Oto typowe zastosowania elementów statycznych i offline w systemach uczących się:

  • Model statyczny (lub model offline) to model wytrenowany raz, a następnie używany przez pewien czas.
  • Trenowanie statyczne (lub trenowanie offline) to proces trenowania modelu statycznego.
  • wnioskowanie statyczne (lub wnioskowanie offline) to proces, w którym model generuje jednocześnie grupę prognoz.

Kontrast z elementem dynamicznym.

wnioskowanie statyczne

#fundamentals

Synonim wnioskowania offline.

Stationarity

#fundamentals

Cecha, której wartości nie zmieniają się w przypadku co najmniej jednego wymiaru, zazwyczaj z upływem czasu. Na przykład funkcja, której wartości są mniej więcej takie same w 2021 i 2023 r., eksponuje stacjonarność.

W rzeczywistości bardzo niewiele cechuje stacjonarność. Nawet funkcje związane ze stabilnością (np. na poziomie morza) zmieniają się z upływem czasu.

Skontrastować niestacjonarność.

spadek gradientu stochastycznego (SGD)

#fundamentals

Algorytm gradientu malejącego, w którym rozmiar grupy wynosi 1. Inaczej mówiąc, SGD trenuje na jednym przykładzie wybieranym równomiernie z zestawu treningowego.

nadzorowane systemy uczące się

#fundamentals

Wytrenuj model z funkcji i odpowiadających im etykiet. Nadzorowane systemy uczące się przypominają uczenie się danego tematu przez badanie zestawu pytań i odpowiadających na nie odpowiedzi. Po opanowaniu dopasowywania pytań do odpowiedzi uczeń może następnie udzielać odpowiedzi na nowe (nieznane wcześniej) pytania na ten sam temat.

Porównaj z nienadzorowanymi systemami uczącymi się.

funkcja syntetyczna

#fundamentals

Cechę, która nie występuje wśród funkcji wejściowych, ale została utworzona z co najmniej 1 z nich. Metody tworzenia funkcji syntetycznych obejmują:

  • Grupowanie ciągłych obiektów w przedziały zakresów.
  • Tworzenie krzyżyków obiektów.
  • Mnożenie (lub dzielenie) jednej wartości cech przez wartości innych cech lub przez nią samą. Jeśli na przykład a i b są cechami wejściowymi, to przykłady cech syntetycznych są podane poniżej:
    • ab
    • a2
  • Zastosowanie funkcji transcendentalnej do wartości cechy. Jeśli np. właściwość c jest cechą wejściową, oto przykłady cech syntetycznych:
    • sin(c)
    • ln(c)

Funkcje tworzone samodzielnie przez normalizację lub skalowanie nie są uznawane za funkcje syntetyczne.

T

testowa utrata

#fundamentals

Dane reprezentujące stratę modelu w porównaniu z zbiorem testowym. Podczas tworzenia model starasz się zwykle zminimalizować straty w testach. Dzieje się tak dlatego, że niska utrata testu jest silniejszym sygnałem jakości niż niska utraty w trenowaniu lub niska utraty walidacji.

Duża przerwa między utratą testów a utratą trenowania lub walidacji czasami wskazuje na konieczność zwiększenia częstotliwości regularyzacji.

trenowanie

#fundamentals

Proces określania idealnych parametrów (wag i odchylenia) wchodzących w skład modelu. Podczas trenowania system odczytuje dane z przykładów i stopniowo dostosowuje parametry. Podczas trenowania każdy przykład jest wykonywany od kilku do miliardów razy.

z treningiem

#fundamentals

Dane reprezentujące stratę modelu podczas konkretnej iteracji trenowania. Załóżmy np., że funkcja straty to Średnia kwadratowa błędów. Być może w 10. iteracji może to być strata trenowania (średnia kwadratowa błędów) przy dziesiątej iteracji, a w setnej iteracji – 1,9.

Krzywa straty przedstawia stratę trenowania z liczbą iteracji. Krzywa straty zawiera następujące wskazówki dotyczące trenowania:

  • Spadek oznacza, że model się poprawia.
  • Styk w górę oznacza, że model się pogarsza.
  • Płaski spadek oznacza, że model osiągnął konwencję.

Na przykład tak wygląda nieco wymarzona krzywa straty:

  • Ostry spadek podczas początkowych iteracji, który oznacza szybką poprawę modelu.
  • Stopniowy spadek (ale wciąż w dół) do końca trenowania, który oznacza ciągłe ulepszanie modelu w nieco wolniejszym tempie niż podczas początkowych iteracji.
  • Płaski spadek pod koniec trenowania, który sugeruje zbieżność.

Wykres straty trenowania vs. iteracji. Ta krzywa straty zaczyna się stromym spadkiem. Nachylenie stopniowo się spłaszcza, aż spadnie do zera.

Choć utrata trenowania jest ważna, zobacz też uogólnienie.

zniekształcenie między trenowaniem a zastosowaniem praktycznym

#fundamentals

Różnica między wydajnością modelu podczas trenowania a wydajnością tego samego modelu podczas wyświetlania.

zestaw treningowy

#fundamentals

Podzbiór zbioru danych używanego do trenowania modelu.

Tradycyjnie przykłady w zbiorze danych są podzielone na te 3 różne podzbiory:

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład 1 przykład nie powinien należeć zarówno do zbioru treningowego, jak i do zbioru do walidacji.

Prawdziwie negatywne (TN)

#fundamentals

Przykład, w którym model prawidłowo przewiduje klasę negatywną. Model ustala na przykład, że dany e-mail nie jest spamem, a że nie jest spamem.

prawdziwie pozytywne (TP)

#fundamentals

Przykład, w którym model prawidłowo przewiduje klasę pozytywną. Model zakłada na przykład, że dana wiadomość e-mail jest spamem, a ta wiadomość to faktycznie spam.

Współczynnik wyników prawdziwie dodatnich (TPR)

#fundamentals

Synonim wycofania. Czyli:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Współczynnik wyników prawdziwie dodatnich to oś Y na krzywej charakterystyki operacyjnej odbiornika (ROC).

U

niedopasowane

#fundamentals

Utworzenie model o niskiej zdolności prognozowania, ponieważ model nie zdążył w pełni odzwierciedlić złożoności danych treningowych. Przyczyną niedopasowania może być wiele problemów, w tym:

przykład bez etykiety

#fundamentals

Przykład zawierający atrybut features, ale bez etykiety label. Na przykład tabela poniżej zawiera 3 przykłady bez etykiet z modelu wyceny autoreklamy, z których każdy ma 3 cechy, ale nie ma wartości nieruchomości:

Liczba sypialni Liczba łazienek Wiek gospodarstwa domowego
3 2 15
2 1 72
4 2 34

W nadzorowanych systemach uczących się modele trenują na przykładach oznaczonych etykietami i generują prognozy na przykładach bez etykiet.

W nauczaniu częściowo nadzorowanym i nienadzorowanym podczas trenowania używane są przykłady bez etykiet.

Skontrastowanie przykładu bez etykiety z przykładem z etykietą.

nienadzorowane systemy uczące się

#clustering
#fundamentals

Trenowanie model pod kątem znajdowania wzorców w zbiorze danych, zwykle bez etykiet.

Najpopularniejszym zastosowaniem nienadzorowanych systemów uczących się jest grupowanie danych w grupy podobnych przykładów. Na przykład nienadzorowany algorytm systemów uczących się może grupować utwory według różnych właściwości muzyki. Otrzymane w ten sposób klastry mogą przekazywać dane do innych algorytmów systemów uczących się (np. do usługi rekomendacji muzycznych). Grupowanie może być przydatne, gdy przydatnych etykiet nie ma lub jest ich niewiele. Na przykład w domenach takich jak przeciwdziałanie nadużyciom i oszustwom klastry mogą pomóc ludziom w lepszym zrozumieniu danych.

W przeciwieństwie do nadzorowanych systemów uczących się.

V

weryfikacja

#fundamentals

Wstępna ocena jakości modelu. Weryfikacja polega na porównaniu jakości prognoz modelu z zbiorem walidacji.

Zbiór do walidacji różni się od zbioru do trenowania, dlatego weryfikacja pomaga zapobiec nadmiernym dopasowaniu.

Ocena modelu względem zestawu weryfikacji możesz potraktować jako pierwszą rundę testowania, a porównać go z zbiorem testów jako drugą rundę testowania.

utrata walidacji

#fundamentals

Dane reprezentujące utratę modelu w zbiorze weryfikacji podczas określonej iteracji trenowania.

Zobacz też krzywą generalizacji.

zbiór do walidacji

#fundamentals

Podzbiór zbioru danych, który przeprowadza wstępną ocenę w porównaniu z wytrenowanym modelem. Zwykle najpierw porównujesz wytrenowany model z zbiorem do walidacji kilka razy, a następnie porównujesz go z zbiorem testowym.

Tradycyjnie dzieli się przykłady w zbiorze danych na te 3 różne podzbiory:

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład 1 przykład nie powinien należeć zarówno do zbioru treningowego, jak i do zbioru do walidacji.

Ś

weight

#fundamentals

Wartość, która model jest mnożona przez inną wartość. Trenowanie to proces ustalania idealnej wagi dla modelu. Wnioskowanie to proces używania nauczonych wag do prognozowania.

suma ważona

#fundamentals

Suma wszystkich odpowiednich wartości wejściowych pomnożona przez odpowiadające im wagi. Załóżmy na przykład, że dane wejściowe składają się z tych elementów:

wartość wejściowa waga wejściowa
2 -1.3
-1 0.6
3 0.4

Suma ważona wyniesie więc:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Suma ważona to argument wejściowy do funkcji aktywacji.

Z

Normalizacja wyników Z

#fundamentals

Metoda skalowania, która zastępuje nieprzetworzoną wartość cech wartością zmiennoprzecinkową reprezentującą liczbę standardowych odchyleń od średniej cechy. Rozważmy na przykład funkcję, której średnia wartość wynosi 800, a odchylenie standardowe wynosi 100. W tabeli poniżej pokazujemy, jak normalizacja wyników Z odwzorowuje nieprzetworzoną wartość na jej wynik Z:

Wartość nieprzetworzona wynik Z
800 0
950 +1,5
575 -2.25

Model systemów uczących się trenuje następnie na wynikach Z dla danej cechy, a nie na nieprzetworzonych wartościach.