Glosariusz systemów uczących się: podstawy ML

Ta strona zawiera hasła w glosariuszu ML Fundamentals. Aby uzyskać dostęp do wszystkich glosariuszy, kliknij tutaj.

A

dokładność

#fundamentals

Liczba poprawnych klasyfikacji prognoz podzielona przez łączną liczbę prognoz. Czyli:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Na przykład model, który przeprowadził 40 poprawnych prognoz i 10 nieprawidłowych prognoz, byłby dokładny:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasyfikacja binarna zawiera konkretne nazwy różnych kategorii poprawnych prognoz i nieprawidłowych prognoz. Wzór na klasyfikację plików binarnych wygląda więc tak:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

gdzie:

Porównaj dokładność z precyzją i czułością.

funkcja aktywacji

#fundamentals

Funkcja umożliwiająca sieci neuronowe uczenie się nieliniowych (złożonych) relacji między funkcjami a etykietą.

Popularne funkcje aktywacji:

Fabuły funkcji aktywacji nigdy nie są pojedynczym wierszem. Na przykład scena funkcji aktywacji ReLU składa się z dwóch prostych linii:

Wykres kartowy z 2 liniami. W pierwszym wierszu wartość y jest stała 0 wynosząca 0 – od 0 do 0.
          Drugi wiersz zaczyna się od 0,0. Ta linia ma nachylenie +1, więc ma zakres od 0,0 do +nieskończoności ++nieskończoność.

Wykres funkcji sigmoidowej aktywacji wygląda tak:

Dwuwymiarowy zakrzywiony wykres z wartościami x obejmującymi domenę -nieskończoność do +dodatniej, a wartości y obejmują zakres od 0 do prawie 1. Gdy x 0 to y, 0,5. Nachylenie krzywej zawsze jest dodatnie, a najwyższy spadek wynosi 0,0,5 i stopniowo zmniejsza się wraz ze wzrostem wartości x.

sztuczna inteligencja

#fundamentals

Program, który nie jest prowadzony przez człowieka, lub model pomagający w wykonywaniu złożonych zadań. Na przykład program lub model, który tłumaczy tekst, lub program albo model identyfikujący choroby na podstawie obrazów radiologicznych wykazują sztuczną inteligencję.

Forma systemów uczących się to podkategoria sztucznej inteligencji. Jednak w ostatnich latach niektóre organizacje coraz częściej używali w zamian terminów sztuczna inteligencja i systemy uczące się.

AUC (obszar pod krzywą ROC)

#fundamentals

Liczba z zakresu od 0,0 do 1,0 reprezentująca zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Im bliżej AUC do 1,0, tym model jest lepszy od modelu.

Poniższy przykład pokazuje model klasyfikujący, który całkowicie oddziela klasy pozytywne (zielone owady) od zajęć negatywnych (fioletowe prostokąty). Ten nierealistyczny model ma AUC 1,0:

Linie numeryczne z 8 pozytywnymi przykładami po jednej stronie i 9 przykładami negatywnymi po drugiej.

I na odwrót: poniższa ilustracja przedstawia wyniki modelu klasyfikatora, który wygenerował losowe wyniki. AUC ma wartość 0,5:

Linia liczbowa z 6 pozytywnymi przykładami i 6 przykładami negatywnymi.
          Sekwencja przykładów jest dodatnia, ujemna, negatywna, dodatnia, negatywna, negatywna, negatywna, ujemna, dodatnia, ujemna, ujemna.

Tak. Poprzedni model ma AUC o wartości 0,5, a nie 0,0.

Większość modeli znajduje się między tymi skrajnymi skrajnościami. Poniższy model w pewnym stopniu oddziela wyniki pozytywne od negatywnych i dlatego AUC ma wartość od 0, 5 do 1, 0:

Linia liczbowa z 6 pozytywnymi przykładami i 6 przykładami negatywnymi.
          Sekwencja przykładów jest ujemna, negatywna, negatywna, dodatnia, negatywna, dodatnia, dodatnia, ujemna, dodatnia, dodatnia.

AUC ignoruje dowolną wartość ustawioną dla progu klasyfikacji. AUC uwzględnia wszystkie możliwe progi klasyfikacji.

MLD

propagacja

#fundamentals

Algorytm implementujący zmianę gradientu w sieciach neuronowych.

Trenowanie sieci neuronowej obejmuje wiele iteracji tego dwucyklowego cyklu:

  1. Podczas przekazywania dalej system przetwarza grupę przykładów, by uzyskać prognozy. System porównuje każdą prognozę z wartością label. Różnica między prognozą a wartością etykiety to strata w tym przykładzie. System oblicza straty dla wszystkich przykładów, aby obliczyć całkowitą utratę bieżącej grupy.
  2. Podczas przebiegu zwrotnego (w odwrotnym propagacji) system zmniejsza stratę, dostosowując wagi wszystkich neuronów we wszystkich ukrytych warstwach.

Sieci neuronowe często zawierają wiele neuronów na wielu ukrytych warstwach. Każdy z tych neuronów przyczynia się do ogólnej straty. Rozpropagowanie wskazuje, czy należy zwiększać lub zmniejszać wagę poszczególnych neuronów.

Tempo uczenia się to mnożnik, który określa stopień, w jakim poszczególne ćwiczenia zwiększają lub zmniejszają wagę. Duży współczynnik uczenia się może spowodować zwiększenie lub zmniejszenie wagi.

W obliczu rachunku różniczkowe stosuje łańcuch rachunku. Oznacza to, że propagacja oblicza częściową pochodną błędu w odniesieniu do każdego parametru. Więcej informacji znajdziesz w tym samouczku w sekcji Machine Learning Crash Course.

Lata temu specjaliści ds. systemów uczących się musieli pisać kod, aby wdrożyć propagację. Nowoczesne interfejsy API systemów uczących się, takie jak TensorFlow, implementują propagację. Uff...

wsad

#fundamentals

Zbiór przykładów używanych w jednej iteracji. Rozmiar grupy określa liczbę przykładów w grupie.

Wyjaśnienie, jak dana partia odnosi się do epoki, znajdziesz w sekcji Epoka.

wielkość wsadu

#fundamentals

Liczba przykładów w grupie. Jeśli na przykład rozmiar wsadu wynosi 100, model przetwarza 100 przykładów na wersję.

Oto popularne strategie dotyczące grup:

  • Ziemia gradientowa (SGD), w której wielkość grupy wynosi 1.
  • pełną partię, w której rozmiar grupy to liczba przykładów w całym zestawie treningowym. Jeśli na przykład zbiór treningowy zawiera milion przykładów, wielkość wsadowa będzie wynosić milion przykładów. Pełna partia jest zwykle mało efektywną strategią.
  • mini-parts, w którym rozmiar partii to zazwyczaj od 10 do 1000; Zbiorcza kampania jest zwykle najskuteczniejsze.

uprzedzenia (etyka/uczciwość)

#fairness
#fundamentals

1. Stereotyzowanie, uprzedzenie lub faworyzowanie niektórych rzeczy, osób lub grup. Te odchylenia mogą wpływać na zbieranie i interpretację danych, na wygląd projektu oraz na interakcję użytkowników z systemem. Tego rodzaju uprzedzenia obejmują:

2. Błąd systematyczny wprowadzony za pomocą próbkowania lub raportowania. Tego rodzaju uprzedzenia obejmują:

Nie należy ich mylić z odchyleniami w modelach systemów uczących się ani z odchyleniem prognozy.

odchylenie (matematyka) lub termin odchylenia

#fundamentals

Przechwytywanie lub przesunięcie od punktu początkowego. Odchylenie to parametr modeli modeli systemów uczących się, który jest oznaczony symbolem:

  • B
  • W0

Na przykład odchylenie to znak b w tej formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W prostej dwuwymiarowej linii odchylenie oznacza po prostu „punkt przecięcia z osią y”. Na przykład odchylenie linii na poniższej ilustracji wynosi 2.

Wykres przedstawiający linię o nachyleniu 0,5 i odchylenie (y) 2.

Promowanie tendencyjności istnieje, ponieważ nie wszystkie modele zaczynają się od punktu początkowego (0,0). Załóżmy, że park rozrywki kosztuje 2 EUR i 0,5 EUR za każdą godzinę pobytu klienta. Dlatego model odwzorowania całkowitego kosztu ma odchylenie 2, ponieważ najniższy koszt to 2 euro.

Nie należy mylić tendencyjności w kwestii etyki i uczciwości oraz uprzedzeń.

klasyfikacja binarna

#fundamentals

Rodzaj zadania klasyfikacji, które przewiduje 1 z 2 wykluczonych zajęć:

Na przykład te 2 modele systemów uczących się wykonują klasyfikację binarną:

  • Model określający, czy e-maile są spamem (klasa pozytywna), czy nie spam (klasa negatywna).
  • Model, który ocenia objawy medyczne, aby ustalić, czy dana osoba ma określoną chorobę (pozytywną) lub nie ma tej choroby (klasa negatywna).

kontrast z klasyfikacją wieloklasową;

Zobacz też regresję logistyczną i próg klasyfikacji.

zbieranie

#fundamentals

Przekształcanie jednej funkcji w wiele funkcji binarnych zwanych zasobnikami lub binami, zwykle na podstawie zakresu wartości. Fragment ten jest zwykle funkcją ciągłą.

Na przykład zamiast przedstawiać temperaturę jako pojedynczą ciągłą zmiennoprzecinkową, możesz podzielić zakresy temperatur na odrębne dyski, takie jak:

  • <= 10 stopni Celsjusza to zasobnik „zimny”.
  • Na poziomie 11–24 stopni Celsjusza będzie „umiarkowany”.
  • >= 25 stopni Celsjusza będzie „ciepłym” pojemnikiem.

Model będzie traktować wszystkie wartości w tym samym zasobniku w taki sam sposób. Na przykład wartości 13 i 22 znajdują się w umiarkowanym zasobniku, więc model traktuje te dwie wartości tak samo.

C

dane kategorialne

#fundamentals

Funkcje mające określony zestaw możliwych wartości. Rozważmy na przykład kategorię kategoria o nazwie traffic-light-state, która może mieć tylko jedną z tych trzech możliwych wartości:

  • red
  • yellow
  • green

Model traffic-light-state jest reprezentowany przez funkcję kategoryczną, dzięki czemu może poznać wpływ red, green i yellow na zachowanie kierowcy.

Kategorie kategorialne są czasem nazywane odrębnymi funkcjami.

kontrast z danymi liczbowymi;

klasa

#fundamentals

Kategoria, do której może należeć etykieta. Na przykład:

Model klasyfikacji prognozuje klasę. Natomiast model regresji przewiduje liczbę, a nie klasę.

model klasyfikacji

#fundamentals

Model, którego prognoza to klasa. Przykładowe modele to:

  • Model, który przewiduje język wprowadzania (język francuski hiszpański? włoski?).
  • Model, który przewiduje gatunki drzew (klon? Dąb? Baobab?).
  • Model, który przewiduje dodatnią lub negatywną klasę choroby.

Natomiast modele regresji przewidują liczby zamiast klas.

Dwa typowe typy modeli klasyfikacji to:

próg klasyfikacji

#fundamentals

W klasyfikacji binarnej jest liczbą z zakresu od 0 do 1, która konwertuje nieprzetworzone dane wyjściowe modelu regresji logistycznej na prognozę klasy pozytywnej lub klasy ujemnej. Pamiętaj, że próg klasyfikacji to wartość wybierana przez człowieka, a nie wartość wyznaczona przez trenowanie modelu.

Model regresji logistycznej zwraca nieprzetworzoną wartość z zakresu od 0 do 1. To:

  • Jeśli ta nieprzetworzona wartość jest większa niż próg klasyfikacji, oznacza to, że klasa pozytywna jest przewidywana.
  • Jeśli ta nieprzetworzona wartość jest mniejsza niż próg klasyfikacji, klasa ujemna jest przewidywana.

Załóżmy na przykład, że próg klasyfikacji wynosi 0,8. Jeśli nieprzetworzona wartość wynosi 0,9, model prognozuje klasę dodatnią. Jeśli nieprzetworzona wartość wynosi 0,7, model prognozuje klasę ujemną.

Wybór progu klasyfikacji ma duży wpływ na liczbę fałszywych dopasowań i fałszywych wyników negatywnych.

niezrównoważony zbiór danych klasy

#fundamentals

Zbiór danych dotyczący problemu z klasyfikacją, w którym łączna liczba etykiet każdej klasy znacznie się różni. Rozważmy na przykład zbiór danych klasyfikacji binarnej, którego dwie etykiety są podzielone w ten sposób:

  • 1 000 000 etykiet negatywnych
  • 10 pozytywnych etykiet

Stosunek wartości negatywnych do dodatnich wynosi od 100 000 do 1, więc jest to zbiór danych niedostępny w klasie.

W przeciwieństwie do tego zbioru danych nie jest brak równoważenia klasy, ponieważ stosunek etykiet negatywnych do etykiet pozytywnych jest stosunkowo bliski 1:

  • 517 etykiet negatywnych
  • 483 etykiety pozytywne

Wieloklasowe zbiory danych mogą być również niedostępne. Na przykład następujący zbiór danych klasyfikacji wieloklasowej również nie jest klasa, ponieważ jedna etykieta ma znacznie więcej przykładów niż pozostałe:

  • 1 000 000 etykiet z klasą „green”
  • 200 etykiet z klasą „fioletowy”
  • 350 etykiet z klasą „pomarańczowy”

Zapoznaj się też z entropią, klasą główną i klasami mniejszości.

przycinanie

#fundamentals

Technika obsługi wyjątków polegająca na wykonaniu jednej lub obu tych czynności:

  • Zmniejszenie wartości funkcji większej niż maksymalny powoduje osiągnięcie progu.
  • Zwiększanie wartości cech mniejszych niż minimalny próg do tego progu.

Załóżmy na przykład, że <0,5% wartości danej funkcji wykracza poza zakres 40–60. W takim przypadku możesz wykonać te czynności:

  • Wytnij wszystkie wartości powyżej 60 (maksymalny próg) na dokładnie 60.
  • Przytnij wszystkie wartości poniżej 40 (minimalny próg), aby uzyskać dokładnie 40.

Wartości odstające mogą uszkodzić modele, a czasami wagi mogą powodować przeciążenie podczas trenowania. Niektóre wartości odstające mogą też znacznie spowalniać dane, takie jak dokładność. Zacinanie jest częstym sposobem ograniczania szkód.

Przycinanie gradientu wymusza wartości gradientu w wyznaczonym zakresie podczas trenowania.

tablica pomyłek

#fundamentals

Tabela NxN podsumowująca liczbę prawidłowych i nieprawidłowych prognoz wykonanych przez model klasyfikacji. Rozważ na przykład tę tablicę pomyłek w modelu klasyfikacji binarnej:

Guz (prognoza) Informacyjne (bez prognozy)
Guz (ground truth) 18 (TP) 1 (FN)
Intuicyjne (ground truth) 6 FP 452 TN

Poprzednia tablica pomyłek przedstawia te informacje:

  • Z 19 prognoz, w których ground truth było Tumorem, model poprawnie sklasyfikował 18 i nieprawidłowo sklasyfikował 1.
  • Ze 458 prognoz, w których przypadku dane podstawowe były prawdziwe, modele 452 prawidłowo sklasyfikowały 452, ale nieprawidłowo sklasyfikowały 6.

Tablica nieporozumień dotyczących klasyfikacji wieloklasowej może pomóc Ci wykryć wzorce błędów. Rozważmy np. poniższą tablicę pomyłek w przypadku trzyklasowego modelu klasyfikacji, który klasyfikuje 3 różne typy tęczówki (Virginia, Versicolor i Setosa). Gdy prawdziwa obserwacja obejmowała Wirginię, tablica pomyłek wskazuje, że model prawdopodobnie był błędnie przewidujący Versicolor niż Setosa:

  Setosa (prognoza) Versicolor (prognoza) Wirginia (prognoza)
Setosa (ground truth) 88 12 0
Versicolor (ground truth) 6 141 7
Wirginia (ground truth) 2 27 109

Jeszcze inny przykład: tablica pomyłek może wskazywać, że model wytrenowany do rozpoznawania cyfr odręcznych zwykle przez pomyłkę przewidzi 9 zamiast 4, lub może błędnie przewidzieć 1 zamiast 7.

Tablica pomyłek zawierają wystarczającą ilość informacji, aby obliczyć różne dane dotyczące skuteczności, w tym precyzję i czułość.

funkcja ciągła

#fundamentals

Funkcja zmiennoprzecinkowa o nieskończonym zakresie możliwych wartości, takich jak temperatura lub waga.

kontrast z wyjątkową funkcją;

połączenie

#fundamentals

Stan osiągany, gdy wartości strat zmieniają się bardzo lub bardzo wraz z każdą iteracją. Na przykład ta krzywa straty sugeruje złożenie w około 700 iteracjach:

Karteza Oś X to utrata. Oś Y to liczba iteracji trenowania. Utrata jest bardzo wysoka w okresie pierwszych kilku iteracji, ale znacznie spada. Po zastosowaniu około 100 iteracji strata nadal maleje, ale znacznie rośnie. Po około 700 iteracjach strata pozostaje płaska.

Model łączy się, gdy dodatkowe trenowanie nie poprawia modelu.

W przypadku głębokiego uczenia się wartości utraty są czasem stałe lub niemal w wielu przypadkach, zanim w końcu zostaną zmniejszone. W długim okresie stałych strat możesz przez pewien czas odczuwać błędne poczucie zbieżności.

Zobacz też wcześniejsze zatrzymanie.

R

[struktura] DataFrame

#fundamentals

Popularny typ danych panda reprezentujący zbiory danych w pamięci.

DataFrame jest podobna do tabeli lub arkusza kalkulacyjnego. Każda kolumna w usłudze DataFrame ma nazwę (nagłówek), a każdy wiersz jest identyfikowany przez unikalną liczbę.

Każda kolumna w usłudze DataFrame ma strukturę typu 2D, z wyjątkiem każdej kolumny można przypisać jej własny typ danych.

Zobacz też oficjalną stronę z pandas.DataFrame.

zbiór danych lub zbiór danych

#fundamentals

Zbiór nieprzetworzonych danych, zwykle (ale nie tylko) uporządkowanych w jednym z tych formatów:

  • arkusz kalkulacyjny
  • plik w formacie CSV (wartości rozdzielone przecinkami),

model głęboki

#fundamentals

Sieć neuronowa zawierająca więcej niż 1 ukrytą warstwę.

Głęboki model jest też nazywany głęboką siecią neuronową.

kontrast z szerokim modelem.

gęsta funkcja

#fundamentals

Funkcja, w której większość lub wszystkie wartości są niezerowe, zwykle Tensor z wartościami zmiennoprzecinkowymi. Na przykład ten 10 element Tensor jest gęsty, ponieważ 9 jego wartości jest niezerowe:

8 3 7 5 2 4 0 4 9 6

kontrast z funkcją rzadko;

głębia

#fundamentals

Suma w sieci neuronowej:

Na przykład sieć neuronowa z 5 ukrytymi warstwami i 1 warstwą wyjściową ma 6 głębokości.

Zwróć uwagę, że warstwa danych wejściowych nie wpływa na głębokość wpływu.

pojedyncza funkcja

#fundamentals

Funkcja z ograniczonym zestawem możliwych wartości. Na przykład cecha, której wartości mogą być tylko zoo, warzywa lub mineralna, to odrębny (lub kategoria) element.

kontrast z funkcją ciągłą;

dynamiczny

#fundamentals

wykonywanego często lub w sposób ciągły. Terminy dynamiczny i online to synonimy systemów uczących się. Oto typowe zastosowania dynamicznych i online systemów uczących się:

  • Model dynamiczny (model online) to model, który trenowany jest często i stale.
  • Szkolenie dynamiczne (lub szkolenie online) to proces przeprowadzany często lub w sposób ciągły.
  • Dynamiczne wnioskowanie (lub wnioskowanie online) to proces generowania prognoz na żądanie.

model dynamiczny

#fundamentals

Model, który jest często przeszkolony (nawet w trybie ciągłym). Model dynamiczny to „uczenie się przez całe życie”, które stale dostosowuje się do zmieniających się danych. Model dynamiczny jest też nazywany modelem online.

kontrast z modelem statycznym;

E

wcześniejsze zatrzymanie

#fundamentals

Metoda regularizacji, która obejmuje zakończenie trenowania przed zmniejszeniem trenowania. Z wyprzedzeniem przestajesz trenować model, gdy utrata zbioru danych do weryfikacji zacznie rosnąć, czyli gdy ogólność pogorszy się.

warstwa do umieszczenia na stronie

#language
#fundamentals

Specjalna ukryta warstwa, która uczy się w wysokiej wymiarze kategorii, aby stopniowo dostosowywać wektor do umieszczania wymiarów. Warstwa osadzania umożliwia sieci neuronowej trenowanie znacznie efektywniej niż trenowanie wyłącznie wielowymiarowej funkcji kategorialnej.

Na przykład Ziemia obsługuje obecnie około 73 000 gatunków drzew. Załóżmy, że gatunki drzew są funkcją w Twoim modelu,dlatego warstwa wejściowa modelu zawiera wektorowe gorące 73 000 elementów. Na przykład baobab może mieć taką postać:

Tablica 73 000 elementów. Pierwsze 6232 elementy mają wartość 0. Następny element zawiera wartość 1. Ostatnie 66 767 elementów ma wartość zero.

Tablica 73 tys. elementów jest bardzo długa. Jeśli nie dodasz warstwy do modelu, trenowanie będzie bardzo czasochłonne z powodu mnożenia 72 999 zer. Możesz też wybrać warstwę umieszczania, która składa się z 12 wymiarów. W ten sposób warstwa osadzania będzie stopniowo uczyć się nowego wektora dla każdego gatunku drzew.

W niektórych przypadkach dobrym rozwiązaniem może być szyfrowanie.

początek epoki : epoka

#fundamentals

Pełny proces trenowania obejmujący cały zestaw treningowy, tak aby każdy przykład został przetworzony jeden raz.

Epoka reprezentuje N/rozmiar grupy treningów, gdzie N to łączna liczba przykładów.

Załóżmy na przykład, że:

  • Zbiór danych zawiera 1000 przykładów.
  • Rozmiar grupy to 50 przykładów.

Dlatego jedna epoka wymaga 20 iteracji:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Przykład

#fundamentals

Wartości w jednym wierszu cech oraz etykiety. Przykłady nadzorowanej nauki dzielą się na 2 kategorie ogólne:

  • Przykład z etykietą składa się z co najmniej 1 funkcji i etykiety. Przykładowe etykiety są używane podczas trenowania.
  • Przykład bez etykiety składa się z co najmniej 1 funkcji, ale nie ma etykiety. Podczas wnioskowania używane są przykłady bez etykiet.

Załóżmy, że trenujesz model, aby określić wpływ warunków pogodowych na wyniki egzaminów uczniów. Oto 3 przykłady oznaczone etykietami:

Funkcje Etykieta
Temperatura Wilgotność Ciśnienie Wynik testu
15 47 998 Dobrej jakości
19 34 1020 Świetny
18 92 1012 Słaby

Oto 3 przykłady bez etykiety:

Temperatura Wilgotność Ciśnienie  
12 62 1014a  
21 47 1017  
19 41 1021  

Wiersz zbioru danych jest zwykle nieprzetworzonym źródłem przykładu. Przykład: zwykle składa się z podzbioru kolumn w zbiorze danych. Funkcje w przykładzie mogą też obejmować funkcje syntetyczne, takie jak krzyże funkcji.

Pt

fałszywie negatywne (FN)

#fundamentals

Przykład, w którym model błędnie prognozuje klasę negatywną. Na przykład model przewiduje, że dany e-mail nie jest spamem (klasa negatywna), ale faktycznie jest nim spam.

wyniki fałszywie pozytywne (FP)

#fundamentals

Przykład, w którym model błędnie prognozuje pozytywną klasę. Na przykład model przewiduje, że dany e-mail to spam (klasa pozytywna), ale ten e-mail nie jest w rzeczywistości spamem.

współczynnik wyników fałszywie pozytywnych (FPR)

#fundamentals

Odsetek rzeczywistych przykładów negatywnych, w przypadku których model przez pomyłkę prognozował pozytywną klasę. Ta formuła oblicza współczynnik wyników fałszywie pozytywnych:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Współczynnik wyników fałszywie dodatnich to oś X na wykrzywionej krzywej ROC.

cecha [in context of machine learning]

#fundamentals

Zmienna wejściowa do modelu systemów uczących się. Przykład obejmuje co najmniej 1 funkcję. Załóżmy na przykład, że trenujesz model, aby określić wpływ warunków pogodowych na wyniki testów uczniów. W tabeli poniżej znajdziesz 3 przykłady, z których każdy zawiera 3 funkcje i 1 etykietę:

Funkcje Etykieta
Temperatura Wilgotność Ciśnienie Wynik testu
15 47 998 92
19 34 1020 84
18 92 1012 87

kontrast z etykietą;

krzyżyk cech

#fundamentals

Funkcja syntetyczna złożona z funkcji „wielokrotnego podziału” na kategoryczne lub zgrupowane.

Rozważmy np. model „prognozowania nastrojów”, który przedstawia temperaturę w jednym z tych 4 zasobników:

  • freezing
  • chilly
  • temperate
  • warm

A także prędkość wiatru w jednym z 3 zasobników:

  • still
  • light
  • windy

Bez krzyżowania cech model liniowy trenuje niezależnie od każdego z pozostałych 7 różnych zasobników. Model trenuje np. freezing niezależnie od trenowania windy.

Możesz też utworzyć funkcję dotyczącą temperatury i prędkości wiatru. Ta funkcja syntetyczna może mieć następujące 12 możliwych wartości:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dzięki krzyżom fabularnym model może nauczyć się różnic między nastrojem od freezing-windy do freezing-still dnia.

Jeśli utworzysz funkcję syntetyczną z 2 obiektów, z których każda ma wiele różnych zasobników, wynikowy wynik funkcji krzyżowej będzie miał ogromną liczbę możliwych kombinacji. Jeśli na przykład jedna funkcja ma 1000 zasobników, a druga ma 2000 zasobników, w wyniku funkcji krzyżowej powstało 2 000 000 zasobników.

Krzyż formalny to produkt kartezjański.

Krzyże funkcji są najczęściej używane w modelach liniowych i rzadko są stosowane w sieciach neuronowych.

ekstrakcja wyróżników

#fundamentals
#TensorFlow

Proces, który obejmuje następujące kroki:

  1. Określenie, które funkcje mogą być przydatne przy trenowaniu modelu.
  2. Konwersja nieprzetworzonych danych ze zbioru danych do wydajnych wersji tych funkcji.

Może się na przykład okazać, że temperature jest przydatna. Możesz też poeksperymentować z zasobnikiem, aby zoptymalizować informacje, które model może uzyskać z różnych zakresów temperature.

Inżynieria cech to czasem wyodrębnianie funkcji.

zbiór funkcji

#fundamentals

Grupa funkcjiTwoich systemów uczących się modelu, który je uczy. Na przykład kod pocztowy, rozmiar nieruchomości i warunek właściwości mogą składać się na prosty zestaw funkcji modelu prognozujących ceny nieruchomości.

wektor funkcji

#fundamentals

Tablica wartości feature składających się z przykładu. Wektor funkcji jest wprowadzany podczas trenowania i podczas wnioskowania. Wektorem cech dla modelu z 2 oddzielnymi cechami może być:

[0.92, 0.56]

4 warstwy: warstwa wejściowa, 2 ukryte warstwy i 1 warstwa danych wyjściowych.
          Warstwa wejściowa zawiera 2 węzły: jeden zawierający wartość 0,92, a drugi – wartość 0,56.

Każdy przykład podaje inne wartości wektora cech, więc wektor kolejnego cech może wyglądać tak:

[0.73, 0.49]

Inżynieria cech określa sposób reprezentowania cech wektora cech. Na przykład binarna cecha kategoria z 5 możliwymi wartościami może być reprezentowana przez kodowanie jednorazowe. W tym przypadku część wektora funkcji w danym przykładzie powinna zawierać 4 zera i pojedynczy 1,0 w trzeciej pozycji w ten sposób:

[0.0, 0.0, 1.0, 0.0, 0.0]

Inny przykład: załóżmy, że Twój model składa się z 3 funkcji:

  • binarna funkcja kategorialna z 5 możliwymi wartościami reprezentowanymi przez kodowanie na ciepło; na przykład: [0.0, 1.0, 0.0, 0.0, 0.0]
  • kolejna binarna funkcja kategoryczna z 3 możliwymi wartościami reprezentowanymi przez kodowanie z jedną ręką, na przykład: [0.0, 0.0, 1.0]
  • funkcji zmiennoprzecinkowej, na przykład: 8.3.

W tym przypadku wektor każdego cechy będzie reprezentowany przez dziewięć wartości. Biorąc pod uwagę przykładowe wartości z poprzedniej listy, wektorem cech będzie:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

pętla informacji zwrotnych

#fundamentals

W przypadku systemów uczących się sytuacja, w której prognozy modelu wpływają na dane treningowe tego samego lub innego modelu. Na przykład model polecający będzie wpływać na wyświetlane filmy, które będą miały wpływ na kolejne modele rekomendowane.

G

uogólnienie

#fundamentals

Model umożliwiający przewidywanie poprawnych danych dotyczących nowych, wcześniej niewidocznych danych. Model, który można uogólniać, jest przeciwieństwem modelu dopasowującego.

krzywa generalizacji

#fundamentals

Wykres utraty treningowej i utraty weryfikacji jako funkcji liczby iteracji.

Krzywa uogólnienia może pomóc w wykrywaniu możliwego dopasowania. Na przykład ta krzywa uogólnienia sugeruje dopasowanie zbyt duże, ponieważ utrata weryfikacji jest znacznie wyższa niż utrata trenowania.

Wykres kartograficzny, gdzie oś Y jest oznaczona etykietą „strata”, a oś X – „iteracje”. Pojawią się 2 działki. Jeden z wykresów wskazuje na stratę trenowania, a inny na walidację.
          Oba fazy rozpoczynają się podobnie, ale strata trenowania z czasem spada znacznie poniżej poziomu walidacji.

spadek gradientu

#fundamentals

Technika matematyczna minimalizująca stratę. Obniżenie gradientu koryguje stopniowo wagi i odchylenia, aby stopniowo znaleźć najlepszą kombinację i minimalizować stratę.

Pochodzenie gradientu jest znacznie starsze, znacznie starsze niż systemy uczące się.

ground truth,

#fundamentals

Reality show.

Rzeczywistość.

Rozważmy na przykład model klasyfikacji binarnej, który przewiduje, czy uczeń w pierwszym roku uniwersyteckim ukończy studia w ciągu 6 lat. Zasadowa wiedza na temat tego modelu polega na tym, czy dany uczeń ukończył studia w ciągu 6 lat.

H

ukryta warstwa

#fundamentals

Warstwa w sieci neuronowej między warstwą danych wejściowych (funkcje) a warstwą wyników (prognozą). Każda ukryta warstwa składa się z co najmniej jednego neuronu. Na przykład ta sieć neuronowa zawiera 2 ukryte warstwy – pierwszą z 3 neuronami i 2 z 2 neuronami:

Cztery warstwy. Pierwsza warstwa jest warstwą wejściową zawierającą 2 funkcje. Druga warstwa jest ukrytą warstwą zawierającą 3 neurony. Trzecia warstwa jest ukrytą warstwą zawierającą 2 neurony. Czwarta warstwa jest warstwą danych wyjściowych. Każda cecha
 ma 3 krawędzie, z których każdy wskazuje na drugi neuron w drugiej warstwie. Każdy neuron w drugiej warstwie ma 2 krawędzie, z których każdy prowadzi do innego neuronu w trzeciej warstwie. Każdy neuron w trzeciej warstwie zawiera jedną krawędź, z których każdy wskazuje warstwę wyjściową.

Głęboka sieć neuronowa zawiera więcej niż 1 ukrytą warstwę. Na przykład poprzedzona jest ilustracja głębokiej sieci neuronowej, ponieważ model zawiera dwie ukryte warstwy.

hiperparametr

#fundamentals

Zmienne, które Ty lub usługa dostrajania hiperparametrów dostosowujesz podczas kolejnych uruchomień modelu. Na przykład nauka tempa jest hiperparametrem. Możesz ustawić tempo uczenia się na 0,01 przed jedną sesją treningową. Jeśli stwierdzisz, że 0,01 jest za duże, możesz ustawić tempo uczenia się na 0,003 podczas następnej sesji szkoleniowej.

Natomiast parametry to różne wagi i odchylenie, których model się uczy podczas trenowania.

I

niezależnie i równomiernie rozmieszczone

#fundamentals

Dane pobrane z dystrybucji, która się nie zmienia, i gdzie każda wartość rysowana nie zależy od wartości pobranych wcześniej. Jest to idealny gaz oparty na systemach uczących się. Jest to przydatny matematyczny konstrukt, który jednak w praktyce nie znajduje się w rzeczywistości. Na przykład rozkład użytkowników na stronę internetową w krótkim okresie może oznaczać, że rozkład się nie zmienia w tym krótkim czasie, a wizyta jednej osoby zasadniczo nie zależy od wizyt innej osoby. Jeśli jednak wydłużysz ten przedział czasu, mogą pojawić się sezonowe różnice w liczbie osób odwiedzających stronę internetową.

Zobacz też niestabilność.

wnioskowanie

#fundamentals

W przypadku systemów uczących się proces tworzenia prognoz przez zastosowanie wytrenowanego modelu do przykładów bez etykiet.

Wnioski mają nieco inne znaczenie w statystykach. Więcej informacji na ten temat znajdziesz w artykule w Wikipedii dotyczącym statystyk statystycznych.

warstwa danych wejściowych

#fundamentals

Warstwa sieci neuronowej, która zawiera wektor funkcji. Oznacza to, że w warstwie wejściowej znajdują się przykłady treningów i wnioskowania. Warstwa wejściowa w tej sieci neuronowej składa się z 2 funkcji:

4 warstwy: warstwa wejściowa, 2 ukryte warstwy i warstwa danych wyjściowych.

czytelność

#fundamentals

Umiejętność wyjaśnienia lub przedstawienia argumentów modelu ML w zrozumiały sposób.

Na przykład większość modeli regresji liniowej można łatwo zinterpretować. Trzeba jedynie sprawdzić wagi wytrenowane dla każdej cechy. Lasy decyzyjne można łatwo interpretować. Niektóre modele wymagają jednak wyrafinowanej wizualizacji, aby można było je zinterpretować.

iteracja

#fundamentals

Pojedyncza aktualizacja parametrów modeluwag i odchylenia – podczas trenowania. Rozmiar grupy określa liczbę przykładów przetwarzanych przez model w pojedynczej iteracji. Jeśli np. rozmiar wsadu wynosi 20, model przetwarza 20 przykładów przed dostosowaniem parametrów.

Podczas trenowania sieci neuronowej jedna iteracja obejmuje następujące 2 procesy:

  1. Przekaż dalej, aby ocenić stratę w pojedynczej wsadzie.
  2. Przebieg zwrotny (backpropagacja), który umożliwia dostosowanie parametrów modelu na podstawie straty i tempa uczenia się.

L

Regularyzacja L0

#fundamentals

Rodzaj regularizacji, który powoduje karanie całkowitej liczby 0% w modelu niezerowym. Na przykład model z 11 niezerowymi wagami byłby ukarany więcej niż podobny model, który miałby 10 wag.

Regularyzacja L0 jest czasami nazywana regularnością L-norm.

Utrata 1

#fundamentals

funkcji utraty, która oblicza wartość bezwzględną różnicy między rzeczywistymi wartościami label i wartościami prognozowanymi przez model. Oto przykład obliczania utraty 1 za grupę 5 przykładów:

Rzeczywista wartość przykładu Prognozowana wartość modelu Wartość bezwzględna delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = strata 1

strata L1 jest mniej czuła na wyjątki niż L2 strata.

Błąd bezwzględny to średnia strata L1 1 na przykład.

Regularizacja L1

#fundamentals

Rodzaj regularizacji, który powoduje nałożenie kar na wagi proporcjonalnie do sumy wartości bezwzględnej. Regularyzacja L1 sprawia, że wagi nieistotnych lub niemal nieprzydatnych funkcji są dokładne. Funkcja o wadze 0 jest usuwana z modelu.

Kontrast z L2 regularnej.

L2 utrata

#fundamentals

funkcji utraty, która oblicza kwadrat różnicy między wartościami label a wartościami prognozowanymi przez model. Oto przykład obliczania utraty L2 dla grupy 5 przykładów:

Rzeczywista wartość przykładu Prognozowana wartość modelu Kwadrat delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = strata L2

Ze względu na kwadraty strata L2 zwiększa wpływ wyjątków. Oznacza to, że strata L2 lepiej reaguje na złe prognozy niż L1 strata. Na przykład strata L1 dla poprzedniej partii będzie wynosić 8, a nie 16. Zwróć uwagę, że jedna odstająca wartość odpowiada 9 z 16.

Modele regresji korzystają zwykle z funkcji utraty L2 jako utraty.

Błąd średniokwadratowy to średnia utrata L2 na przykład. Kwadratowa utrata to inna nazwa straty L2.

Regularizacja L2

#fundamentals

Rodzaj regularizacji, który powoduje nałożenie kar na wagi proporcjonalne do sumy kwadratów wag. Regularyzacja L2 pomaga uzyskać wyjątkowe wagi (wysoka wartość dodatnia lub niska) bliższe 0, ale niezupełnie podobnym wynikom. Funkcje o wartościach bardzo zbliżonych do zera pozostają w modelu, ale nie mają dużego wpływu na prognozę modelu.

Regularyzacja L2 zawsze poprawia ogólną ogólną modelę liniową.

Kontrast z L1 regularnej.

label

#fundamentals

W przypadku nadzorowanych systemów uczących się fragment „answer” lub „wynik” przykładu.

Każdy przykład z etykietą składa się z co najmniej 1 funkcji i etykiety. Na przykład w zbiorze danych do wykrywania spamu etykieta będzie prawdopodobnie „spam” lub „nie spam”. W zbiorze danych opadach deszczu etykieta może oznaczać ilość opadów deszczu w danym okresie.

przykład z etykietą

#fundamentals

Przykład zawierający co najmniej 1 funkcję i etykietę. Na przykład ta tabela zawiera 3 oznaczone etykietami przykłady modelu domu, z których każdy ma 3 cechy i 1 etykietę:

Liczba sypialni Liczba łazienek Wiek w domu Cena domu (etykieta)
3 2 15 345 000 zł
2 1 72 179 000 zł
4 2 34 392 000 zł

W nadzorowanych systemach uczących się modele trenują na przykładach oznaczonych etykietami i prognozują je na przykładach bez etykiet.

kontrast z przykładem z etykietami i przykładami bez etykiety;

Lambda

#fundamentals

Synonim współczynnika regularności.

Lambda to termin przeciążony. W tym miejscu skupiamy się na definicji terminu w ramach regularizacji.

warstwa

#fundamentals

Zestaw neuronów w sieci neuronowej. Trzy najczęstsze typy warstw:

Poniższa ilustracja przedstawia sieć neuronową z 1 warstwą danych wejściowych, 2 ukrytymi warstwami i 1 warstwą wyników:

Sieć neuronowa z 1 warstwą danych wejściowych, 2 ukrytymi warstwami i 1 warstwą danych wyjściowych. Warstwa wejściowa składa się z 2 funkcji. Pierwsza ukryta warstwa składa się z 3 neuronów, a drugi z 2 neuronów. Warstwa wyjściowa składa się z jednego węzła.

W TensorFlow warstwy to również funkcje Pythona, które wykorzystują tensory i opcje konfiguracji jako dane wejściowe i generują inne tensory jako dane wyjściowe.

tempo uczenia się

#fundamentals

Liczba zmiennoprzecinkowa, która informuje o tym, jak silnie dostosować wagę i odchylenie przy każdym iteracji dla algorytmu obniżenia gradientu. Na przykład współczynnik uczenia się równy 0,3 korygujeby wagę i tendencyjność 3 razy bardziej niż w przypadku współczynnika 0,1.

Tempo uczenia się jest kluczowym hiperparametrem. Jeśli ustawisz zbyt niski wskaźnik uczenia się, trenowanie będzie trwało zbyt długo. Jeśli ustawisz zbyt wysoki współczynnik uczenia się, migracja z gradientem często będzie powodować problemy z osiągnięciem zbieżności.

model liniowy

#fundamentals

Model, który przypisuje 1 wagę na funkcję, aby przygotować prognozy. (Modele liniowe uwzględniają też odchylenie). Natomiast relacja funkcji z prognozami w modelach głębokich jest zasadniczo nielinearna.

Modele liniowe są zwykle łatwiejsze do trenowania i zinterpretowane niż modele głębokie. Modele głębokie mogą jednak poznawać złożone związki między funkcjami.

Regresja liniowa i regresja logistyczna to 2 typy modeli liniowych.

jednostajne

#fundamentals

Relacja między co najmniej 2 zmiennymi, którą można przedstawić wyłącznie za pomocą mnożenia i dodawania.

Wykres liniowy jest linią.

kontrast z nielinią,

regresja liniowa

#fundamentals

Rodzaj modelu systemów uczących się, w którym spełnione są oba te warunki:

  • Model to model liniowy.
  • Prognoza jest wartością zmiennoprzecinkową. (To jest część regresji regresji liniowej).

kontrast z regresją liniową za pomocą regresji logistycznej; Regresja kontrastuje też za pomocą klasyfikacji.

regresja logistyczna

#fundamentals

Rodzaj modelu regresji, który prognozuje prawdopodobieństwo. Modele regresji logistycznej mają te cechy:

  • Etykieta jest kategorialna. Termin regresji logistycznej zwykle odnosi się do binarnej regresji logistycznej, czyli modelu, który oblicza prawdopodobieństwo etykiet z 2 możliwymi wartościami. Rzadziejszy wariant, wielomianowa regresja logistyczna, oblicza prawdopodobieństwo etykiet, które mają więcej niż 2 możliwe wartości.
  • Funkcja utraty podczas trenowania to Log Lost (Utrata logów). (W przypadku etykiet z więcej niż 2 wartościami można umieścić równolegle wiele jednostek utraty logów).
  • Model ma architekturę liniową, a nie głęboką sieć neuronową. Pozostała część tej definicji dotyczy też głębokich modeli, które przewidują prawdopodobieństwo etykiet kategorii.

Rozważmy na przykład model regresji logistycznej, który oblicza prawdopodobieństwo, że dany adres e-mail jest spamem, czy nie spamem. W założeniu, że model przewiduje 0,72. Model szacuje:

  • Prawdopodobieństwo, że e-mail zostanie uznany za spam, wynosi 72%.
  • 28% szans na to, że e-mail nie jest spamem.

Model regresji logistycznej wykorzystuje tę 2-etapową architekturę:

  1. Model generuje nieprzetworzoną prognozę (y), stosując funkcję liniową funkcji wejściowych.
  2. Model wykorzystuje nieprzetworzoną prognozę jako dane wejściowe dla funkcji sigmoidowej, która konwertuje nieprzetworzoną prognozę na wartość z zakresu od 0 do 1 (wyłącznie).

Podobnie jak każdy model regresji, model regresji logistycznej przewiduje liczbę. Numer zazwyczaj staje się jednak częścią modelu klasyfikacji binarnej w następujący sposób:

  • Jeśli prognozowana liczba jest większa niż próg klasyfikacji, model klasyfikacji binarnej przewiduje klasę pozytywną.
  • Jeśli prognozowana liczba jest mniejsza niż próg klasyfikacji, model klasyfikacji binarnej przewiduje klasę ujemną.

Zapisz utratę

#fundamentals

Funkcja utraty danych używana w regresji logistycznej.

zapisy

#fundamentals

Logarytm prawdopodobieństwa danego zdarzenia.

przegrana

#fundamentals

Podczas trenowania modelu nadzorowanego jest miarą tego, jak daleko znajduje się prognoza modelu od jego etykiety.

Funkcja straty oblicza stratę.

krzywa strat

#fundamentals

Wykres straty jako funkcji liczby iteracji trenowania. Ten wykres przedstawia typową krzywą straty:

Kartezyjny wykres straty i powtarzania iteracji, ukazujący nagły spadek liczby początkowych iteracji, a następnie stopniowy spadek, a następnie płaski wykres podczas ostatnich iteracji.

Krzywe utraty mogą pomóc w określeniu, kiedy model zbiega lub dopasowuje.

Krzywe straty mogą wytyczać wszystkie te typy strat:

Zobacz też krzywą uogólnienia.

funkcja utraty

#fundamentals

Podczas trenowania lub testowania funkcji matematycznej, która oblicza utratę grupy przykładów. Funkcja straty zwraca niższą stratę w przypadku modeli, które tworzą dobre prognozy, niż modele, które generują nieprawidłowe prognozy.

Celem trenowania jest zwykle zminimalizowanie straty spowodowanej przez funkcję utraty.

Istnieje wiele różnych funkcji utraty. Wybierz odpowiednią funkcję utraty dla danego typu modelu, który tworzysz. Na przykład:

P

systemy uczące się

#fundamentals

Program lub system, który wytrenuje model na podstawie danych wejściowych. Wytrenowany model może wykonywać przydatne prognozy na podstawie nowych danych (nigdy wcześniej nie) dostępnych na podstawie tej samej dystrybucji, której użyto do trenowania modelu.

Systemy uczące się dotyczą także dziedzin nauki tych programów lub systemów.

zajęcia większości

#fundamentals

Bardziej powszechna etykieta w zbiorze danych niezrównoważonym klasą. Jeśli na przykład zbiór danych zawiera etykiety ujemne na poziomie 99% i etykiety pozytywne na poziomie 1%, klasy ujemne są większością.

kontrast z klasą mniejszości;

minigrupa

#fundamentals

Wybrany losowo podzbiór grupy przetworzonej w jednej iteracji. Wielkość grupy minigrupy to zwykle od 10 do 1000 przykładów.

Załóżmy na przykład, że cały zbiór treningowy (cała grupa) zawiera 1000 przykładów. Załóżmy też, że ustawiasz rozmiar grupy każdej małej grupy na 20. Każda iteracja określa stratę na 20 losów spośród 1000 przykładów, a następnie odpowiednio dostosowuje wagi i odchylenia.

Znacznie łatwiej jest obliczyć stratę w przypadku małej partii niż utratę wszystkich przykładów z całej grupy.

zajęcia mniejszości

#fundamentals

Rzadziej używana etykieta w zbiorach danych niezrównoważonych. Jeśli na przykład zbiór danych zawiera etykiety wykluczające (99%) i etykiety pozytywne (1%), etykiety pozytywne są klasą mniejszości.

kontrast z klasą większość,

model

#fundamentals

Ogólnie każdy konstrukcja matematyczna, która przetwarza dane wejściowe i zwraca dane wyjściowe. Wyrażony w modelu model to zbiór parametrów i struktury potrzebnych do prognozowania prognoz. W przypadku nadzorowanych systemów uczących się model przyjmuje przykład jako dane wejściowe i na podstawie wyników otrzymuje prognozę. W nadzorowanej wersji systemów uczących się modele nieco się różnią. Na przykład:

  • Model regresji liniowej składa się z zestawu wag i odchylenia.
  • Model sieci neuronowych składa się z:
    • Zestaw ukrytych warstw, z których każda zawiera co najmniej 1 neuron.
    • Waga i odchylenie powiązane z każdym neuronem.
  • Model drzew decyzyjnych składa się z:
    • Kształt drzewa, czyli wzór, w którym łączą się warunki i listy.
    • Warunki i opuszcza.

Możesz zapisywać, przywracać modele oraz tworzyć ich kopie.

Nienadzorowane systemy uczące się generują też modele, zwykle funkcję, która mapuje przykładowy przykład na najbardziej odpowiedni klaster.

klasyfikacja wieloklasowa

#fundamentals

W przypadku uczenia nadzorowanego problem z klasyfikacją polega na tym, że zbiór danych zawiera więcej niż 2 klasy etykiet. Na przykład etykiety w zbiorze danych Iris muszą należeć do jednej z tych trzech klas:

  • Iris Setosa,
  • Iris Virginica
  • Kolor tęczówki

Model wytrenowany na zbiorze danych Iris do prognozowania typu tępy w nowych przykładach przeprowadza klasyfikację wieloklasową.

Natomiast problemy z klasyfikacją odróżniające dokładnie te 2 klasy to binarne modele klasyfikacji. Na przykład model e-mailowy, który przewiduje, że jest spam, czy nie spam, jest binarnym modelem klasyfikacji.

W przypadku problemów z klastrami klasyfikacja wieloklasowa odnosi się do więcej niż 2 klastrów.

N

klasa negatywna

#fundamentals

W klasyfikacji binarnej jedna klasa jest uznawana za pozytywną, a druga za wykluczającą. Klasa pozytywna to to, co jest testowane przez model, a klasa ujemna to kolejna możliwość. Na przykład:

  • Negatywny wynik testu medycznego może mieć postać „nie jest guzem”.
  • Wykluczona klasa w klasyfikatorze e-maili może być „nie spam”.

kontrast z klasami pozytywnymi;

sieć neuronowa

#fundamentals

Model zawierający co najmniej 1 ukrytą warstwę. Głęboka sieć neuronowa to typ sieci neuronowych zawierającej więcej niż jedną ukrytą warstwę. Na przykład ten diagram pokazuje głęboką sieć neuronową z 2 ukrytymi warstwami.

Sieć neuronowa z warstwą danych wejściowych, 2 ukrytymi warstwami i warstwą danych wyjściowych.

Każdy neuron w sieci neuronowej łączy się ze wszystkimi węzłami w następnej warstwie. Na przykład na diagramie powyżej zwróć uwagę, że każda z 3 neuronów w pierwszej ukrytej warstwie łączy się z obiema neuronami w drugiej ukrytej warstwie.

Sieci neuronowe zaimplementowane na komputerach są czasami określane jako sztuczne sieci neuronowe w celu odróżniania ich od sieci neuronowych występujących w mózgach i innych systemach nerwowych.

Niektóre sieci neuronowe mogą naśladować bardzo złożone nieliniowe relacje między różnymi funkcjami i etykietą.

Zobacz też sprzętowa sieć neuronowa i odwrotna sieć neuronowa.

neuron,

#fundamentals

W przypadku systemów uczących się unikalna jednostka w ukrytej warstwie sieci neuronowej. Każdy neuron wykonuje to działanie dwuetapowe:

  1. Oblicza sumę ważoną wartości wejściowych pomnożoną przez odpowiadające im wagi.
  2. Przekazuje sumę ważoną jako dane wejściowe do funkcji aktywacji.

Neuron w pierwszej ukrytej warstwie akceptuje dane wejściowe z wartości cech w warstwie wejściowej. Neuron z każdej ukrytej warstwy powyżej pierwszej może przyjmować dane z neuronów z poprzedniej ukrytej warstwy. Na przykład neuron w drugiej ukrytej warstwie akceptuje dane wejściowe z neuronów w pierwszej ukrytej warstwie.

Poniższa ilustracja przedstawia 2 neurony i ich dane wejściowe.

Sieć neuronowa z warstwą danych wejściowych, 2 ukrytymi warstwami i warstwą danych wyjściowych. Wyróżnione są 2 neurony: jeden w pierwszej ukrytej warstwie, a drugi w drugiej. Wyróżniony neuron w pierwszej ukrytej warstwie odbiera dane wejściowe z obu funkcji w warstwie wejściowej. Wyróżniony neuron w drugiej ukrytej warstwie odbiera dane wejściowe z każdego z 3 neuronów w pierwszej ukrytej warstwie.

Neuron w sieci neuronowej naśladuje zachowanie neuronów w mózgach i innych częściach układu nerwowego.

węzeł (sieć neuronowa)

#fundamentals

Neuron w ukrytej warstwie.

nieliniowa

#fundamentals

Związek między co najmniej 2 zmiennymi, którego nie można przedstawić wyłącznie przez mnożenie lub dodawanie. Relację liniową można przedstawić jako wiersz. Relacja nielinearna nie może być reprezentowana jako linia. Rozważmy na przykład 2 modele, z których każdy ma związek z jedną cechą. Po lewej model jest liniowy, a po prawej – nieliniowy:

Dwa wątki. Jeden wykres przedstawia linię, dlatego jest to relacja liniowa.
          Druga faza jest krzywą, więc jest to relacja nieliniowa.

brak analogii

#fundamentals

Funkcja, której wartości zmieniają się w 1 lub kilku wymiarach, zwykle w czasie. Weźmy na przykład takie przykłady:

  • Liczba strojów kąpielowych sprzedawanych w danym sklepie zależy od sezonu.
  • Ilość określonych owoców zbieranych w danym regionie wynosi zero przez większą część roku, ale jest duża przez krótki czas.
  • Z powodu zmian klimatycznych średnia roczna temperatura ulega zmianom.

kontrast z stacjonarnością.

normalizacja

#fundamentals

Ogólnie mówiąc, proces przekształcania rzeczywistego zakresu wartości zmiennej w standardowy zakres, na przykład:

  • Od -1 do +1
  • Od 0 do 1
  • rozkład normalny

Załóżmy, że rzeczywisty zakres wartości danej funkcji wynosi od 800 do 2400. W ramach inżynierii cech możesz znormalizować rzeczywiste wartości do standardowego zakresu, takiego jak od -1 do +1.

Normalizacja to częste zadanie inżynierii cech. Modele są zazwyczaj trenowane szybciej (i zapewniają dokładniejsze prognozy), gdy każda cecha liczbowa w wektorze cech ma mniej więcej taki sam zakres.

dane liczbowe

#fundamentals

Funkcje przedstawione jako liczby całkowite lub liczby rzeczywiste. Na przykład model wyceny domu może reprezentować rozmiar domu (w stopach kwadratowych lub metrów kwadratowych) jako dane liczbowe. Przedstawienie cechy jako danych liczbowych wskazuje, że wartości cechy są powiązane z etykietą zgodnie z matematyką. To znaczy, że liczba metrów kwadratowych w domu ma prawdopodobnie związek z wartością domu.

Nie wszystkie liczby całkowite powinny mieć postać liczbową. Na przykład kody pocztowe w niektórych częściach świata są liczbami całkowitymi. Jednak w modelach nie można podawać liczb całkowitych w postaci kodów liczbowych. Dzieje się tak, ponieważ kod pocztowy 20000 nie jest 2-krotnie (lub połowę) tak samo potężny jak kod pocztowy równy 10 000. Mimo że różne kody pocztowe odpowiadają za różne wartości nieruchomości, nie możemy zakładać, że wartości nieruchomości w kodzie pocztowym 20 000 są dwukrotnie większe niż w przypadku kodu pocztowego 10 000. Zamiast tego kody pocztowe powinny być reprezentowane przez dane kategorialne.

Funkcje liczbowe są czasem nazywane funkcjami stałymi.

O

offline

#fundamentals

Synonim słowa static.

wnioskowanie offline

#fundamentals

Proces modelu generującego grupę prognoz, a następnie zapisywanie (zapisywanie) tych prognoz w pamięci podręcznej. Dzięki temu aplikacje mogą uzyskać dostęp do żądanego prognozy z pamięci podręcznej, zamiast ponownie uruchamiać model.

Weźmy na przykład model, który co 4 godziny generuje lokalne prognozy pogody (prognozy). Po uruchomieniu każdego modelu system zapisuje w pamięci podręcznej wszystkie lokalne prognozy pogody. Aplikacje pogodowe pobierają prognozy z pamięci podręcznej.

Wnioski offline nazywane są też statycznym wnioskowaniem.

w przeciwieństwie do wnioskowania online;

kodowanie 1-hot

#fundamentals

Dane kategorialne jako wektor, w którym:

  • Jeden element ma wartość 1.
  • Wszystkie pozostałe elementy mają wartość 0.

Kodowanie gorące jest zwykle używane do reprezentowania ciągów znaków lub identyfikatorów, które mają ograniczony zbiór możliwych wartości. Załóżmy na przykład, że określona funkcja kategorialna o nazwie Scandinavia ma pięć możliwych wartości:

  • „Dania”
  • „Szwecja”
  • „Norwegia”
  • „Finlandia”
  • „Islandia”

Kodowanie 1 gorącego może reprezentować każdą z 5 wartości w ten sposób:

country Wektor
„Dania” 1 0 0 0 0
„Szwecja” 0 1 0 0 0
„Norwegia” 0 0 1 0 0
„Finlandia” 0 0 0 1 0
„Islandia” 0 0 0 0 1

Dzięki kodowaniu gorącemu model może uczyć się różnych połączeń w poszczególnych 5 krajach.

Reprezentowanie funkcji jako danych liczbowych jest alternatywą dla kodowania jednorazowego. Niestety przedstawienie państw skandynawskich w liczbach nie jest dobrym rozwiązaniem. Rozważ na przykład taki obraz liczbowy:

  • „Dania” to 0
  • „Szwecja” to 1
  • „Norwegia” to 2
  • „Finlandia” ma 3 lata
  • „Islandia” ma 4 lata

W przypadku kodowania numerycznego model interpretowałby nieprzetworzone dane matematyczne i próbowałby je wytrenować. Islandia nie jest jednak tak dwukrotnie równa (Norwegii) jak Norwegia, dlatego model może wyciągnąć dziwne wnioski.

jeden kontra wszystkie

#fundamentals

Biorąc pod uwagę problem klasyfikacji z klasami N, rozwiązanie składa się z osobnych klasyfikatorów binarnych, czyli jednego klasyfikatora binarnego dla każdego możliwego wyniku. Biorąc pod uwagę model klasyfikujący przykłady jako zwierzę, warzywa lub minerały, rozwiązanie typu jeden w stosunku do wszystkich zapewniłoby te trzy osobne klasyfikatory binarne:

  • zwierzę, a nie zwierzę
  • warzywa a warzywa
  • mineralne a nie mineralne

online

#fundamentals

Synonim dynamic.

wnioskowanie online

#fundamentals

Generowanie prognoz na żądanie. Załóżmy na przykład, że aplikacja przekazuje dane wejściowe do modelu i wysyła żądanie prognozy. System używający wnioskowania online odpowiada na żądanie przez uruchomienie modelu (i zwrócenie prognozy do aplikacji).

kontrast z wnioskowaniem offline;

warstwa wyjściowa

#fundamentals

Warstwa „końcowa” sieci neuronowej. Warstwa wyjściowa zawiera prognozę.

Ilustracja przedstawiająca małą głęboką sieć neuronową z warstwą danych wejściowych, 2 ukrytymi warstwami i warstwą danych wyjściowych:

Sieć neuronowa z 1 warstwą danych wejściowych, 2 ukrytymi warstwami i 1 warstwą danych wyjściowych. Warstwa wejściowa składa się z 2 funkcji. Pierwsza ukryta warstwa składa się z 3 neuronów, a drugi z 2 neuronów. Warstwa wyjściowa składa się z jednego węzła.

nadmierne dopasowanie

#fundamentals

Utworzenie modelu zgodnego z danymi treningowymi, który powoduje, że nie jest w stanie trafnie przewidywać nowych danych.

Regularność może zmniejszyć nadmierne obciążenie. Trening na dużym i różnorodnym zbiorze treningowym również może zmniejszyć zbyt intensywny trening.

P

pandy

#fundamentals

Zbudowany na podstawie interfejsu pypy interfejs API do analizy danych z uwzględnieniem kolumn. Wiele platform systemów uczących się, w tym TensorFlow, obsługuje struktury danych panda jako dane wejściowe. Więcej informacji znajdziesz w dokumentacji dotyczącej Panda.

parametr

#fundamentals

wagi i odchylenia, jakie model uczy się podczas trenowania. Na przykład w modelu regresji liniowej parametry obejmują odchylenie (b) i wszystkie wagi (w1, w2 itd.) w formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Natomiast hiperparametr to wartości, które Ty (lub usługa obracania hiperparametrów) przekazujesz do modelu. Na przykład częstotliwość nauki jest hiperparametrem.

zajęcia pozytywne

#fundamentals

Klasa, której dotyczy test.

Na przykład klasy pozytywne w modelu raka mogą mieć postać „guz”. Klasa pozytywna w klasyfikatorze e-maili może być „spam”.

kontrast z klasami ujemnymi,

przetwarzanie końcowe

#fairness
#fundamentals

Dostosowywanie danych wyjściowych modelu po uruchomieniu. Przetwarzanie końcowe może służyć do egzekwowania ograniczeń uczciwości bez konieczności modyfikowania modeli.

Można na przykład zastosować przetwarzanie klasyfikatora binarnego do klasyfikatora binarnego, ustawiając próg klasyfikacji w taki sposób, aby równość szans była utrzymywana dla niektórych atrybutów przez sprawdzenie, czy rzeczywisty współczynnik dodatnich jest taki sam dla wszystkich wartości tego atrybutu.

prognoza

#fundamentals

Dane wyjściowe modelu. Na przykład:

  • Prognozowanie modelu klasyfikacji binarnej jest zarówno klasą pozytywną, jak i negatywną.
  • Prognoza modelu klasyfikacji wieloklasowej to jedna klasa.
  • Prognozowanie modelu regresji liniowej jest liczbą.

etykiety serwera proxy

#fundamentals

Dane używane do przybliżania etykiet, które nie są dostępne bezpośrednio w zbiorze danych.

Załóżmy na przykład, że musisz wytrenować model do prognozowania poziomu stresu pracowników. Zbiór danych zawiera wiele funkcji prognozowanych, ale nie zawiera etykiety Poziom stresu. Bez obaw, wybierasz „wypadki w miejscu pracy” jako etykietę pośredniczącą na poziomie stresu. W końcu pracownicy są bardziej podatni na sytuację, niż mniej stresujący. Czy też? Wypadki w miejscu pracy mogą regularnie rosnąć i maleć z wielu powodów.

Po drugie, załóżmy, że chcesz wybrać deszcz? jako etykietę wartości logicznej zbioru danych, ale nie zawiera on danych o deszczu. Jeśli zdjęcia są dostępne, możesz określić zdjęcia osób przewożących parasole w ramach etykiety czy pada? Czy to dobra etykieta serwera proxy? Prawdopodobnie w niektórych kulturach nosi się parasole, aby chronić się przed słońcem niż deszczem.

Etykiety serwera proxy często są niedoskonałe. Jeśli to możliwe, wybieraj rzeczywiste etykiety. Jeśli brakuje etykiety rzeczywistej, wybieraj ją bardzo ostrożnie, wybierając tę, która jest najmniej szkodliwa.

R

osoba oceniająca

#fundamentals

Osoba dostarczająca etykiety dla przykładów. „Adnotator” to inna nazwa osoby oceniającej.

Prosta jednostka liniowa (ReLU)

#fundamentals

funkcję aktywacji o następującym działaniu:

  • Jeśli dane wejściowe są ujemne lub zero, dane wyjściowe mają wartość 0.
  • Jeśli dane wejściowe są dodatnie, dane wyjściowe są takie same.

Na przykład:

  • Jeśli dane wejściowe mają wartość -3, dane wyjściowe wynoszą 0.
  • Jeśli dane wejściowe mają wartość +3, wynik będzie 3,0.

Oto fabuła Relu:

Wykres kartowy z 2 liniami. W pierwszym wierszu wartość y jest stała 0 wynosząca 0 – od 0 do 0.
          Drugi wiersz zaczyna się od 0,0. Ta linia ma nachylenie +1, więc ma zakres od 0,0 do +nieskończoności ++nieskończoność.

ReLU to bardzo popularna funkcja aktywacyjna. Pomimo tego, że nie jest to proste, ta funkcja pomaga sieci neuronowej w nauce nielinearnych relacji między funkcjami a etykietą.

model regresji

#fundamentals

Nieformalnie, który generuje prognozy liczbowe. (Z kolei model klasyfikacji generuje prognozę klasy). Na przykład wszystkie modele regresji:

  • Model, który przewiduje wartość danego domu,np. 423 000 euro.
  • Model, który przewiduje czas życia danego drzewa, np.23,2 roku.
  • Model, który przewiduje wielkość opadów deszczu w określonym mieście w ciągu najbliższych 6 godzin, np.0,18 cala.

Dwa typowe typy modeli regresji:

  • Regresja liniowa, która znajduje linię, która najlepiej pasuje do wartości etykiet z cechami.
  • Regresja logistyczna, która generuje prawdopodobieństwo między 0,0 a 1,0, które system zwykle mapuje na prognozę klasy.

Nie każdy model, który zwraca prognozy liczbowe, jest modelem regresji. W niektórych przypadkach prognoza liczbowa jest po prostu modelem klasyfikacji, który ma liczbowe nazwy klas. Na przykład model prognozujący liczbowy kod pocztowy to model klasyfikacji, a nie regresja.

regularyzacja

#fundamentals

Dowolny mechanizm, który zmniejsza nadmiarowe. Popularne rodzaje regularnej konserwacji obejmują:

Regularność można też definiować jako kara za złożoność modelu.

współczynnik regularności

#fundamentals

Liczba określająca względne znaczenie regularizacji podczas trenowania. Zwiększenie szybkości normalizacji spowoduje zmniejszenie nadmiernego obciążenia, ale może zmniejszyć moc prognozowaną przez model. I na odwrót – zmniejszenie lub pominięcie współczynnika regularności zwiększa nadmierne wykorzystanie.

RELU

#fundamentals

Skrót od Proktowana jednostka liniowa.

Krzywa ROC (odbiornika)

#fundamentals

Wykres przedstawiający współczynnik wyników dodatnich i fałszywy odsetek wyników fałszywie pozytywnych dla różnych progów klasyfikacji w klasyfikacji binarnej.

Kształt krzywej ROC sugeruje, że model binarny klasyfikacji może oddzielić klasy pozytywne od klas negatywnych. Załóżmy na przykład, że model klasyfikacji binarnej całkowicie oddziela wszystkie klasy negatywne od wszystkich klas pozytywnych.

Linia liczbowa z 8 przykładami pozytywnych po prawej stronie i 7 wykluczających przykładów po lewej stronie.

Krzywa ROC poprzedniego modelu wygląda tak:

Krzywa ROC. Oś X przedstawia odsetek wyników fałszywie pozytywnych, a oś Y – odsetek wyników prawdziwie pozytywnych. Krzywa ma odwrotny kształt. Krzywa rozpoczyna się od (0,0,0,0) i prosto do (0,0,1,0). Następnie krzywa przechodzi od (0,0;1,0) do (1,0,1,0).

Poniższa ilustracja przedstawia nieprzetworzone wartości regresji logistycznej dla strasznego modelu, który nie może w ogóle oddzielić zajęć negatywnych od klas pozytywnych:

Linia liczbowa z pozytywnymi przykładami i wykluczającymi klasami w całości zintegrowana.

Krzywa ROC dla tego modelu wygląda tak:

Krzywa ROC, która jest w rzeczywistości linią prostą od (0,0;0,0) do (1,0,1,0).

Tymczasem w rzeczywistości większość modeli klasyfikacji binarnej do pewnego stopnia rozdziela pozytywne i negatywne klasy, ale zwykle nie do końca się to udaje. Oto typowa krzywa ROC znajduje się między dwoma ekstremalnymi punktami:

Krzywa ROC. Oś X przedstawia odsetek wyników fałszywie pozytywnych, a oś Y – odsetek wyników prawdziwie pozytywnych. Krzywa ROC jest zbliżona do trzęsącego się łuku biegnącego przez punkty na kompasie od zachodu do północy.

Punkt na krzywej ROC najbliższy (0,0,1,0) teoretycznie określa idealny próg klasyfikacji. Jednak na wybór idealnego progu klasyfikacji wpływa jednak kilka innych rzeczywistych problemów. Na przykład fałszywe trafienia mogą mieć znacznie większy wpływ niż fałszywie pozytywne.

Dane liczbowe o nazwie AUC podsumowują krzywą ROC w postaci pojedynczej liczby zmiennoprzecinkowej.

Logarytmiczna średnia kwadratowa błędów (RMSE)

#fundamentals

Pierwiastek kwadratowy z błędu kwadratowego.

S

funkcja sigmoid

#fundamentals

Funkcja matematyczna, która „ściska” wartość wejściową do ograniczonego zakresu – zazwyczaj od 0 do 1 lub od -1 do +1. Oznacza to, że do sigmoidy możesz przekazać dowolną liczbę (2, milion, minus miliard), a dane wyjściowe pozostaną w ograniczonym zakresie. Wykres funkcji sigmoidowej aktywacji wygląda tak:

Dwuwymiarowy zakrzywiony wykres z wartościami x obejmującymi domenę -nieskończoność do +dodatniej, a wartości y obejmują zakres od 0 do prawie 1. Gdy x 0 to y, 0,5. Nachylenie krzywej zawsze jest dodatnie, a najwyższy spadek wynosi 0,0,5 i stopniowo zmniejsza się wraz ze wzrostem wartości x.

Funkcja sigmoidowa ma wiele zastosowań systemów uczących się, w tym:

funkcja softmax

#fundamentals

Funkcja określająca prawdopodobieństwo dla każdej możliwej klasy w wieloklasowym modelu klasyfikacji. Suma prawdopodobieństw wynosi dokładnie 1,0. Poniższa tabela pokazuje, jak funkcja softmax rozdziela różne prawdopodobieństwa:

Obraz to... Probability,
pies 0,85
kot 0,13
koń 0,02

Softmax to też pełna softmax.

W przeciwieństwie do próbkowania kandydatów.

słaba funkcja

#language
#fundamentals

Funkcja, której wartości to w większości zero lub pusta wartość. Na przykład dokładna liczba funkcji zawierających 1 wartość lub milion 0 jest niewystarczająca. Natomiast funkcja gęsta zawiera wartości, które zwykle nie są puste ani puste.

W systemach uczących się zaskakująca jest liczba rzadko używanych funkcji. Funkcje kategorialne są zwykle rzadko używane. Na przykład wśród 300 możliwych gatunków drzew w lesie może być tylko 1 drzewo klonowe. Spośród milionów możliwych filmów w bibliotece wideo pojedynczy przykład może oznaczać po prostu „Casablanca”.

W modelu modele na małą skalę odpowiadają zwykle kodowaniu jednorazowemu. Jeśli duże kodowanie jest duże, możesz dodać do niego warstwę osadzania, która zwiększa wydajność.

skrajna reprezentacja

#language
#fundamentals

Przechowywanie tylko pozycji elementów niezerowych w rozproszonej funkcji.

Załóżmy na przykład, że kategoria kategoria species określa 36 gatunków drzew w określonym lesie. Zakładamy też, że każdy przykład wskazuje tylko jeden gatunek.

W każdym z tych przykładów można użyć wektora jednorazowego. Wektor jednogorący będzie zawierać 1 typ 1 (aby reprezentować konkretne gatunki drzew w tym przykładzie) i 35 0 (przedstawiając w tym przykładzie 35 gatunków drzew nie). Wspólna reprezentacja maple może więc wyglądać mniej więcej tak:

Wektor, w którym pozycje 0–23 mają wartość 0, pozycja 24 – wartość 1, a pozycje 25–35 – wartość 0.

Słaba reprezentacja poszczególnych gatunków określa natomiast pozycję poszczególnych gatunków. Jeśli maple ma pozycję 24., rzadsze przedstawienie wartości maple będzie wyglądać tak:

24

Niewielka reprezentacja jest o wiele bardziej kompaktowa niż jedno przedstawione przedstawienie.

rozproszony obraz

#fundamentals

Wektor, którego wartości to w większości zera. Zapoznaj się też z informacjami na temat funkcji parzystej i nienaruszenia.

strata kwadratowa

#fundamentals

Synonim L2 straty.

statyczne

#fundamentals

Czytanie odbywa się jeden raz, a nie w sposób ciągły. Terminy statyczny i offline to synonimy. Oto typowe zastosowania stanów i offline w systemach uczących się:

  • model statyczny (czyli model offline) to model wytrenowany raz, a potem używany przez jakiś czas.
  • Trenowanie statyczne (lub trenowanie offline) to proces trenowania modelu statycznego.
  • Stalność wnioskowana (lub wnioskowanie offline) to proces, w którym model generuje grupę prognoz jednocześnie.

kontrast z wartością dynamiczną.

wnioskowanie statyczne

#fundamentals

Synonim wnioskowania offline.

nieruchomość

#fundamentals

Funkcja, której wartości nie zmieniają się w co najmniej jednym wymiarze, zwykle w czasie. Na przykład cecha, której wartości wyglądają mniej więcej w 2021 i 2023 roku, są takie same.

W rzeczywistości niewiele elementów ma nieruchomość. Nawet funkcje, które są podobne do stabilności (np. poziomu morza), zmieniają się w czasie.

kontrast z brakiem zgodności,

gradient gradientowy stoch (SGD)

#fundamentals

Algorytm zmiany gradientu, w którym jest dostępny rozmiar grupy. Innymi słowy, SGD trenuje na pojedynczym przykładzie wybranym losowo w zestawie treningowym.

nadzorowane systemy uczące się

#fundamentals

Wytrenuj model z funkcji i odpowiadające im etykiety. Nadzorowane systemy uczące się odpowiadają analizowanemu procesowi uczenia się przez badanie pytań i odpowiadających na nie odpowiedzi. Po opanowaniu mapowania pytań i odpowiedzi uczeń może udzielić odpowiedzi na nowe (nigdy wcześniej) pytania dotyczące tego samego tematu.

Porównaj z nienadzorowanymi systemami uczącymi się.

funkcja syntetyczna

#fundamentals

Funkcja, która nie znajduje się wśród cech wejściowych, ale została utworzona za pomocą co najmniej 1 z nich. Metody tworzenia funkcji syntetycznych obejmują:

  • Zasobnik funkcji ciągłej w zasobnikach zakresów.
  • Tworzenie krzyży funkcji.
  • Pomnóż (lub dziel) jedną wartość cechy przez inne wartości cech lub samodzielnie. Jeśli na przykład właściwości wejściowe to a i b, to są to przykłady funkcji syntetycznych:
    • AB
    • A2
  • Stosowanie funkcji transcendenta do wartości cechy. Jeśli na przykład c jest funkcją wejściową, przykłady funkcji syntetycznych:
    • sin(c)
    • ln(c)

Funkcje utworzone samodzielnie przez normalizację lub skalowanie nie są uznawane za funkcje syntetyczne.

T

strata testowa

#fundamentals

Wskaźnik reprezentujący stratę modelu względem zbioru testowego. Zwykle podczas tworzenia modelu starasz się zminimalizować straty podczas testowania. Wynika to z faktu, że niska wartość testu oznacza silniejszy sygnał niż niska przegrana podczas trenowania lub niska utracona weryfikacja.

Duża luka między utratą testów a utratą podczas trenowania lub walidacji może czasem oznaczać, że musisz zwiększyć częstotliwość normalizacji.

trenowanie

#fundamentals

Proces określania idealnych parametrów (wag i odchylenia) tworzących model. Podczas trenowania system odczytuje przykłady i stopniowo dostosowuje parametry. W szkoleniach wykorzystywany jest każdy przykład w dowolnych miejscach – od kilku razy do miliardów razy.

utrata treningu

#fundamentals

Wskaźnik reprezentujący stratę modelu podczas konkretnej iteracji trenowania. Załóżmy na przykład, że funkcja utraty to Mean Square Square Błąd. Być może strata trenowania (średnia błąd kwadratowy) dla 10. iteracji wynosi 2.2, a strata trenowania dla 100. iteracji to 1.9.

Krzywa straty obrazuje straty trenowania w porównaniu z liczbą iteracji. Krzywa straty zawiera następujące wskazówki dotyczące trenowania:

  • Spadek świadczy o tym, że model jest ulepszany.
  • Spadek w górę wskazuje, że model pogarsza się.
  • Płaski wykres oznacza, że model osiągnął zbieg.

Na przykład w przemyślany sposób krzywa straty pokazuje:

  • W początkowych iteracjach stromy spadek to sygnał, że model jest szybki.
  • Stopniowe zmniejszanie (chociaż wciąż spadające) nachylenie do chwili zakończenia nauki, co sugeruje dalsze ulepszanie modelu w wolniejszym tempie niż w początkowych iteracjach.
  • Płaski stok w kierunku zakończenia trenowania, który sugeruje zbieżność.

Wykres straty trenowania i iteracji. Krzywa straty zaczyna się od stromyego zbocza. Nachylenie stopniowo rośnie w dół.

Utrata trenowania jest ważna, ale warto też wziąć pod uwagę uogólnienie.

zniekształcenie między trenowaniem a zastosowaniem praktycznym

#fundamentals

Różnica między skutecznością modelu podczas trenowania a wydajnością tego samego modelu podczas wyświetlania.

zestaw treningowy

#fundamentals

Podzbiór zbioru danych używany do trenowania modelu.

Tradycyjnie przykłady w zbiorze danych są podzielone na 3 różne podzbiory:

Najlepiej, gdyby każdy przykład zbioru danych należał do jednego z poprzednich podzbiorów. Jeden przykład nie powinien należeć zarówno do zbioru treningowego, jak i zbioru do weryfikacji.

true true (TN)

#fundamentals

Przykład, w którym model prawidłowo prognozuje klasę negatywną. Model zakłada na przykład, że dany e-mail nie jest spamem, a taki e-mail w rzeczywistości nie jest spamem.

wynik prawdziwie pozytywny (TP)

#fundamentals

Przykład, w którym model prawidłowo prognozuje klasę pozytywną. Model zakłada na przykład, że dany e-mail to spam, a ten e-mail naprawdę jest spamem.

współczynnik wyników prawdziwie pozytywnych (TPR)

#fundamentals

Synonim czułości. Czyli:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Współczynnik prawdziwie pozytywnych to oś y na wykrzywie ROC.

U

niedopasowane

#fundamentals

Generowanie modelu o niskiej wydajności prognostycznej, ponieważ nie w pełni wychwycił złożoności danych treningowych. Wiele problemów może skutkować niedopasowaniem danych, m.in.:

przykład bez etykiety

#fundamentals

Przykład zawierający funkcje, ale bez etykiety. Na przykład w tabeli poniżej znajdują się 3 przykłady etykiet bez etykiety domu, z których każdy ma 3 funkcje, ale bez wartości domu:

Liczba sypialni Liczba łazienek Wiek w domu
3 2 15
2 1 72
4 2 34

W nadzorowanych systemach uczących się modele trenują na przykładach oznaczonych etykietami i prognozują je na przykładach bez etykiet.

W przypadku nadzorowania nienadzorowanego i nienadzorowanego podczas trenowania używane są nieoznaczone etykietami przykłady.

kontrast z przykładem bez etykiety za pomocą przykładu z etykietą.

systemy uczące się bez nadzoru

#clustering
#fundamentals

Wytrenuj model, aby znaleźć wzorce w zbiorze danych, zwykle bez etykiety.

Najczęstszym zastosowaniem nienadzorowanych systemów uczących się jest gromadzenie danych z klastra w grupy podobnych przykładów. Na przykład nienadzorowany algorytm systemów uczących się może gromadzić utwory na podstawie różnych właściwości muzyki. Otrzymane klastry mogą stać się danymi wejściowymi do innych algorytmów systemów uczących się (np. do usługi rekomendacji muzyki). Grupowanie może pomóc w przypadku braku przydatnych etykiet lub ich braku. W domenach takich jak zapobieganie nadużyciom i oszustwom klastry mogą pomóc ludziom lepiej zrozumieć dane.

w przeciwieństwie do nadzorowanych systemów uczących się;

V

weryfikacja

#fundamentals

Wstępna ocena jakości modelu. Weryfikacja porównuje jakość prognoz modelu z zestawem do weryfikacji.

Zestaw weryfikacji różni się od zestawu treningowego, więc weryfikacja pomaga chronić go przed nadmiernym dopasowaniem.

Możesz porównać model z zestawem weryfikacji w ramach pierwszej rundy testowania, a w drugiej – zbiór testowy.

utrata walidacji

#fundamentals

Wskaźnik reprezentujący stratę modelu z zestawu do weryfikacji podczas konkretnej próby trenowania.

Zobacz też krzywą uogólnienia.

zbiór weryfikacji

#fundamentals

Podzbiór zbioru danych, który przeprowadza wstępną ocenę wyszkolonego modelu. Zazwyczaj wytrenowany model porównuje się ze zestawem do weryfikacji kilka razy przed oceną zestawu testowego.

Tradycyjnie dzielimy przykłady w zbiorze danych na 3 różne podzbiory:

Najlepiej, gdyby każdy przykład zbioru danych należał do jednego z poprzednich podzbiorów. Jeden przykład nie powinien należeć zarówno do zbioru treningowego, jak i zbioru do weryfikacji.

Ś

weight

#fundamentals

Wartość, która jest mnożona przez inną wartość modelu. Trenowanie to proces określania idealnych wag modelu. Wniosek to proces wykorzystywania nauczonych wag do prognozowania.

suma ważona

#fundamentals

Suma wszystkich odpowiednich wartości wejściowych pomnożona przez ich odpowiednie wagi. Załóżmy na przykład, że odpowiednie dane wejściowe zawierają:

wartość wejściowa waga wejściowa
2 -1,3
-1 0,6
3 0,4

Suma ważona jest więc:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Suma ważona to argument wejściowy do funkcji aktywacji.

Z

Normalizacja wyniku Z

#fundamentals

Metoda skalowania, która zastępuje nieprzetworzoną wartość funkcji wartością zmiennoprzecinkową, reprezentującą liczbę odchyleń standardowych od średniej cechy. Rozważmy na przykład funkcję, której średnia wynosi 800, a której odchylenie standardowe to 100. W tabeli poniżej pokazujemy, jak normalizacja wyniku Z jest mapowana na nieprzetworzoną wartość na wynik Z:

Wartość nieprzetworzona Wskaźnik Z
800 0
950 +1,5
575 -2,25

Model systemów uczących się trenuje wyniki Z dla tej funkcji, a nie na podstawie nieprzetworzonych wartości.