Ta strona została przetłumaczona przez Cloud Translation API.

Słowniczek systemów uczących się: podstawy systemów uczących się

Ta strona zawiera podstawowe pojęcia z glosza. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.

A

dokładność

#fundamentals

#Dane

Liczba poprawnych prognoz podzielona przez łączną liczbę prognoz. Czyli:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Na przykład model, który trafnie przewidział 40 wartości i 10 wartości błędnie, miałby dokładność:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasyfikacja binarna umożliwia nadawanie konkretnych nazw różnym kategoriom prawidłowych prognoz i nieprawidłowych prognoz. Formuła dokładności w przypadku klasyfikacji binarnej:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

gdzie:

TP to liczba wyników prawdziwie pozytywnych (poprawnych prognoz).
TN to liczba wyników prawdziwie negatywnych (poprawne prognozy).
FP to liczba wyników fałszywie pozytywnych (nieprawidłowych prognoz).
FN to liczba wyników fałszywie negatywnych (nieprawidłowych prognoz).

Porównaj dokładność z precyzjością i czułością.

Kliknij ikonę, aby uzyskać szczegółowe informacje o dokładności i zbiorach danych z niezrównoważonymi klasami.

W niektórych sytuacjach dokładność jest wartościowym wskaźnikiem, ale w innych może wprowadzać w błąd. Należy pamiętać, że do oceny modeli klasyfikacji, które przetwarzają zbiory danych z niezrównoważonym rozkładem klas, zwykle nie nadaje się dokładności.

Załóżmy na przykład, że w danym mieście subtropikalnym śnieg pada tylko 25 dni w wieku. Ponieważ dni bez śniegu (klasa negatywna) znacznie przeważają dni ze śniegiem (klasa pozytywna), zbiór danych o śniegu dla tego miasta jest niezrównoważony pod względem klas. Wyobraź sobie model klasyfikacji binarnej, który ma przewidywać, czy danego dnia będzie padać śnieg, czy nie. Zamiast tego codziennie przewiduje „brak śniegu”. Ten model jest bardzo dokładny, ale nie ma zdolności przewidywania. W tabeli poniżej podano podsumowanie wyników 100 lat prognoz:

Kategoria	Liczba
PP	0
TN	36499
FP	0
FN	25

Dokładność tego modelu jest więc następująca:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Chociaż dokładność na poziomie 99,93% wydaje się bardzo imponująca, model w ogóle nie ma zdolności przewidywania.

Precyzja i czułość są zwykle bardziej przydatnymi wskaźnikami niż dokładność do oceny modeli wytrenowanych na zbiorach danych z niezrównowagą klas.

Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane z nimi dane z cyklu „Crash course” o systemach uczących się.

funkcja aktywacji

#fundamentals

Funkcja, która umożliwia sieciom neuronowym uczenie się nieliniowych (złożonych) relacji między cechami a etykietą.

Popularne funkcje aktywacji:

ReLU
Sigmoid

Wykresy funkcji aktywacji nigdy nie są prostymi liniami prostymi. Na przykład wykres funkcji aktywacyjnej ReLU składa się z dwóch linii prostych:

Wykres kartezjański 2 linii. Pierwsza linia ma stałą wartość y równą 0, biegnącą wzdłuż osi x od –nieskończoności,0 do 0,-0.
Druga linia zaczyna się od 0,0. Ma ona nachylenie +1, więc biegnie od (0,0) do (nieskończoność,nieskończoność).

Wykres funkcji aktywacji sigmoidalnej wygląda tak:

Dwowymiarowy wykres krzywej z wartościami x w zakresie od -nieskończoności do +dodatnich, a wartościami y w zakresie od prawie 0 do prawie 1. Gdy x = 0, y = 0,5. Nachylenie krzywej jest zawsze dodatnie, przy czym największe jest przy x równym 0,05, a z wzrostem bezwzględnej wartości x stopniowo maleje.

Kliknij ikonę, aby zobaczyć przykład.

W sieci neuronowej funkcje aktywacyjne manipulują ważoną sumą wszystkich danych wejściowych neurona. Aby obliczyć sumę ważoną, neuron sumuje iloczyny odpowiednich wartości i wag. Załóżmy na przykład, że dane wejściowe przekazywane do neuronu zawierają:

wartość wejściowa	waga wejściowa
2	-1,3
-1	0,6
3	0,4

Suma ważona jest więc równa:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Załóżmy, że projektant tej sieci neuronowej wybierze funkcję sigmoidalną jako funkcję aktywacji. W takim przypadku neuron oblicza funkcję sigmoidalną o wartości -2,0, która wynosi około 0,12. Dlatego neuron przekazuje wartość 0,12 (a nie -2,0) do następnej warstwy sieci neuronowej. Poniższy rysunek przedstawia odpowiednią część procesu:

Więcej informacji znajdziesz w artykule Neural networks: Activation functions (Neural networks: funkcje aktywacyjne) z cyklu Crash Course z machine learning.

sztuczna inteligencja

#fundamentals

program lub model, który potrafi wykonywać złożone zadania. Na przykład program lub model, który tłumaczy tekst, lub program lub model, który identyfikuje choroby na podstawie obrazów radiologicznych, wykorzystuje sztuczną inteligencję.

Formalnie uczenie maszynowe jest poddziedziną sztucznej inteligencji. Jednak w ostatnich latach niektóre organizacje zaczęły używać terminów sztuczna inteligencja i uczenie maszynowe zamiennie.

AUC (obszar pod krzywą ROC)

#fundamentals

#Dane

Liczba z zakresu od 0,0 do 1,0 reprezentująca zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Im bliższa 1,0 jest wartość AUC, tym większa zdolność modelu do oddzielania klas od siebie.

Na przykład na ilustracji poniżej widać model klasyfikacji, który doskonale oddziela pozytywne klasy (zielone owalne pola) od negatywnych (fioletowe prostokąty). Ten nierealistycznie idealny model ma AUC 1,0:

Po jednej stronie osi liczbowej znajduje się 8 pozytywnych przykładów, a po drugiej – 9 negatywnych.

Natomiast na ilustracji poniżej widać wyniki modelu klasyfikacji, który generował losowe wyniki. Ten model ma AUC 0,5:

Linia liczbowa z 6 pozytywnymi i 6 negatywnymi przykładami.
Kolejność przykładów to pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny.

Tak, poprzedni model ma AUC 0,5, a nie 0,0.

Większość modeli znajduje się gdzieś pomiędzy tymi dwoma skrajnościami. Na przykład model poniżej w pewnym stopniu oddziela wyniki pozytywne od negatywnych, dlatego AUC wynosi od 0,5 do 1,0:

Linia liczbowa z 6 pozytywnymi i 6 negatywnymi przykładami.
Kolejność przykładów to: negatywny, negatywny, negatywny, negatywny, pozytywny, negatywny, pozytywny, pozytywny, negatywny, pozytywny, pozytywny.

AUC ignoruje dowolną wartość ustawioną dla progu klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi kwalifikacji.

Kliknij ikonę, aby dowiedzieć się więcej o zależności między krzywą AUC a krzywą ROC.

AUC to obszar pod krzywą ROC. Na przykład krzywa ROC dla modelu, który doskonale oddziela wyniki pozytywne od negatywnych, wygląda tak:

AUC to obszar szarego regionu na ilustracji powyżej. W tym nietypowym przypadku obszar jest po prostu długością szarego regionu (1,0) pomnożoną przez szerokość szarego regionu (1,0). W związku z tym iloczyn 1,0 i 1,0 daje AUC dokładnie równy 1,0, czyli najwyższy możliwy wynik AUC.

Natomiast krzywa ROC w przypadku modelu klasyfikacji, który nie jest w stanie w ogóle oddzielić klas, wygląda tak: Powierzchnia tego szarego obszaru wynosi 0,5.

Bardziej typowa krzywa ROC wygląda mniej więcej tak:

Ręczne obliczanie pola pod tą krzywą byłoby żmudne, dlatego program zwykle oblicza większość wartości AUC.

Kliknij ikonę, aby uzyskać bardziej formalną definicję AUC.

AUC to prawdopodobieństwo, że model klasyfikacji będzie bardziej pewny, że losowo wybrany przykład pozytywny jest rzeczywiście pozytywny, niż że losowo wybrany przykład negatywny jest pozytywny.

Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.

B

propagacja wsteczna

#fundamentals

Algorytm, który stosuje spadkowy gradient w sieciach neuronowych.

Trenowanie sieci neuronowej obejmuje wiele iteracji w ramach tego 2-etapowego cyklu:

Podczas przesyłania do przodu system przetwarza partię przykładów, aby uzyskać prognozy. System porównuje każdą prognozę z każdą wartością etykiety. Różnica między prognozą a wartością etykiety to strata w danym przykładzie. System agreguje straty dla wszystkich przykładów, aby obliczyć łączną stratę dla bieżącego zbioru danych.
Podczas przesłaniania wstecznego (backpropagation) system zmniejsza straty przez dostosowanie wag wszystkich neuronów we wszystkich warstwach ukrytych.

Sieci neuronowe często zawierają wiele neuronów na wielu warstwach ukrytych. Każdy z tych neuronów w inny sposób wpływa na ogólną stratę. Wsteczna propagacja określa, czy zwiększyć czy zmniejszyć wagi zastosowane do poszczególnych neuronów.

Tempo uczenia się to mnożnik, który kontroluje stopień, w jakim każda iteracja wsteczna zwiększa lub zmniejsza każdą wagę. Duże tempo uczenia się będzie zwiększać lub zmniejszać każdą wagę bardziej niż małe tempo uczenia się.

W języku matematyki propagacja wsteczna implementuje regułę łańcuszkową. Oznacza to, że propagacja wsteczna oblicza częściową pochodną błędu względem każdego parametru.

Jeszcze kilka lat temu praktycy uczenia maszynowego musieli pisać kod, aby zaimplementować propagację wsteczną. Nowoczesne interfejsy API uczenia maszynowego, takie jak Keras, implementują teraz wsteczną propagację za Ciebie. Uff...

Więcej informacji znajdziesz w sekcji Sieci neuronowe w szybkim szkoleniu z uczenia maszynowego.

wsad

#fundamentals

Zestaw przykładów użytych w jednej iteracji. Rozmiar partii określa liczbę przykładów w partii.

Informacje o związku zbioru z epoką znajdziesz w sekcji epoka.

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

wielkość wsadu

#fundamentals

Liczba przykładów w partii. Jeśli na przykład rozmiar partii wynosi 100, model przetwarza 100 przykładów na iterację.

Oto popularne strategie dotyczące rozmiaru wsadu:

Stochastyczny spadek wzdłuż gradientu (SGD), w którym rozmiar partii wynosi 1.
pełny wsad, w którym rozmiar wsadu to liczba przykładów w całym zbiorze treningowym; Jeśli np. zbiór treningowy zawiera milion przykładów, rozmiar partii będzie wynosił milion przykładów. Strategia polegająca na użyciu pełnej partii jest zwykle nieskuteczna.
minipartyjnych, w których rozmiar partii mieści się zwykle w zakresie od 10 do 1000. Strategia minipartii jest zwykle najskuteczniejsza.

Więcej informacji znajdziesz w tych artykułach:

Produkcyjne systemy ML: wnioskowanie statyczne a dynamiczne w szybkim szkoleniu z uczenia maszynowego.
Poradnik dotyczący doboru parametrów sieci neuronowych

uprzedzenie (etyka/sprawiedliwość)

#responsible

#fundamentals

1. Tworzenie stereotypów lub faworyzowanie określonych rzeczy, ludzi lub grup względem innych. Te uprzedzenia mogą wpływać na zbieranie i interpretowanie danych, projektowanie systemu oraz sposób, w jaki użytkownicy z nim współpracują. Formy tego rodzaju uprzedzenia:

2. Błąd systematyczny wprowadzony przez procedury próbkowania lub raportowania. Formy tego rodzaju uprzedzenia:

Nie należy mylić tego pojęcia z terminem „bias” w modelach uczenia maszynowego ani z uprzedzeniem prognozy.

Więcej informacji znajdziesz w sekcji Uczciwość: rodzaje uprzedzeń z Kursu intensywnego na temat uczenia maszynowego.

uprzedzenie (matematyka) lub wyraz uprzedzenia

#fundamentals

Przecięcie lub przesunięcie od punktu początkowego. Uprzedzenie to parametr w modelach uczenia maszynowego, który jest symbolizowany przez jedną z tych wartości:

b
w₀

Na przykład wartość przesunięcia to b w tej formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W przypadku prostej linii dwuwymiarowej nachylenie oznacza po prostu „współrzędna y”. Na przykład na ilustracji poniżej nachylenie linii wynosi 2.

Wykres linii o nachyle 0,5 i współczynniku (współrzędnej y) równym 2.

Występuje ona, ponieważ nie wszystkie modele zaczynają się od punktu wyjścia (0,0). Załóżmy na przykład, że wstęp do parku rozrywki kosztuje 2 euro, a za każdą dodatkową godzinę pobytu klient płaci dodatkowo 0,5 euro. Dlatego model mapujący łączny koszt ma odchylenie 2, ponieważ najniższy koszt wynosi 2 euro.

Uprzedzeń nie należy mylić z uprzedzeniami dotyczącymi etyki i obiektywności ani z uprzedzeniami dotyczącymi prognozowania.

Więcej informacji znajdziesz w sekcji Regresja liniowa w Szybkim szkoleniu z uczenia maszynowego.

klasyfikacja binarna

#fundamentals

Typ zadania klasyfikacji, które przewiduje jedną z 2 wzajemnie wykluczających się klas:

klasa wyników pozytywnych
klasa wyników negatywnych.

Na przykład 2 systemy uczące się wykonują poniższe zadania klasyfikacji binarnej:

Model, który określa, czy wiadomości e-mail są spamem (klasa pozytywna) czy nie są spamem (klasa negatywna).
Model, który ocenia objawy medyczne, aby określić, czy dana osoba ma konkretną chorobę (klasa pozytywna) czy nie (klasa negatywna).

Porównaj z klasyfikacją wieloklasową.

Zobacz też tematy regresja logistyczna i wartość progowa klasyfikacji.

Więcej informacji znajdziesz w sekcji Klasyfikacja w szybkim szkoleniu z uczenia maszynowego.

skategoryzowanie w przedziałach

#fundamentals

Przekształcanie pojedynczej cechy w wiele cech binarnych zwanych zasobnikami lub binarnymi, zwykle na podstawie zakresu wartości. Funkcja pocięta jest zwykle ciągła.

Na przykład zamiast przedstawiać temperaturę jako pojedynczą ciągłą cechę zmiennoprzecinkową, możesz podzielić zakresy temperatur na oddzielne zbiory, takie jak:

< 10 stopni Celsjusza to „zimno”.
11–24 stopnie Celsjusza to zakres „umiarkowany”.
>= 25 stopni Celsjusza to zakres „ciepły”.

Model będzie traktować wszystkie wartości w tym samym zbiorze w identyczny sposób. Na przykład wartości 13 i 22 znajdują się w worku z umiarkowanym klimatem, więc model traktuje te 2 wartości tak samo.

Kliknij ikonę, aby dodać dodatkowe notatki.

Jeśli temperatura jest reprezentowana jako cecha ciągła, model traktuje ją jako jedną cechę. Jeśli reprezentujesz temperaturę za pomocą 3 grup, model traktuje każdą z nich jako osobną cechę. Oznacza to, że model może uczyć się oddzielnych relacji każdego zbiornika do etykiety. Na przykład model regresji liniowej może uczyć się oddzielnych wag dla każdego zbioru.

Zwiększanie liczby puli powoduje komplikowanie modelu przez zwiększanie liczby relacji, które model musi się nauczyć. Na przykład zbiory „zimno”, „umiarkowanie” i „ciepło” to w istocie 3 osobne cechy, na których model może się uczyć. Jeśli zdecydujesz się dodać jeszcze 2 zasośniki (np. mróz i upał), model będzie musiał się teraz uczyć na podstawie 5 osobnych cech.

Skąd wiesz, ile puli utworzyć i jakie powinny być zakresy poszczególnych puli? Odpowiedzi zwykle wymagają sporej ilości eksperymentowania.

Więcej informacji znajdziesz w sekcji Dane liczbowe: zagregowanie danych w szybkim szkoleniu z uczenia maszynowego.

C

dane kategorialne

#fundamentals

Cechy o określonym zbiorze możliwych wartości. Rozważmy na przykład cechę kategorialną o nazwie traffic-light-state, która może mieć jedną z tych 3 możliwych wartości:

red
yellow
green

Dzięki temu, że traffic-light-state jest reprezentowana jako cecha kategorialna, model może się uczyć o różnym wpływie zmiennych red, green i yellow na zachowanie kierowcy.

Funkcje kategorialne są czasami nazywane funkcjami dyskretnymi.

Kontrastuje z danymi liczbowymi.

Więcej informacji znajdziesz w sekcji Praca z danymi kategorialnymi w Kursie intensywnym z systemami uczącymi się.

klasa

#fundamentals

Kategoria, do której może należeć etykieta. Na przykład:

W binarnym modelu klasyfikacji, który wykrywa spam, te 2 klasy mogą być oznaczone jako spam i nie spam.
W modelu klasyfikacji wieloklasowej służącym do identyfikowania ras psów klasy mogą być pudle, beagle, mops itd.

Model klasyfikacji prognozuje klasę. Z kolei model regresji prognozuje liczbę, a nie klasę.

Więcej informacji znajdziesz w sekcji Klasyfikacja w szybkim szkoleniu z uczenia maszynowego.

model klasyfikacji

#fundamentals

Model, którego prognoza to klasa. Na przykład wszystkie modele klasyfikacji:

Model, który przewiduje język zdania wejściowego (francuski? Hiszpański? włoski).
Model, który przewiduje gatunek drzewa (Maple? Dąb? Baobab?).
Model, który prognozuje klasę pozytywną lub negatywną dla określonego stanu medycznego.

Z kolei modele regresji prognozują liczby, a nie klasy.

Dostępne są 2 popularne typy modeli klasyfikacji:

binarna klasyfikacja
klasyfikacja wieloklasowa

próg klasyfikacji

#fundamentals

W przypadku klasyfikacji binarnej liczba z zakresu od 0 do 1, która przekształca wynik nieprzetworzony modelu regresji logistycznej w prognozę klasy pozytywnej lub klasy negatywnej. Pamiętaj, że próg klasyfikacji to wartość wybrana przez człowieka, a nie przez trenowanie modelu.

Model regresji logistycznej zwraca wartość surową z zakresu od 0 do 1. Następnie:

Jeśli ta wartość jest większa od progu klasyfikacji, prognozowana jest klasa pozytywna.
Jeśli ta wartość jest niższa od progu klasyfikacji, przewidywana jest klasa negatywna.

Załóżmy na przykład, że próg klasyfikacji wynosi 0,8. Jeśli wartość nieprzetworzona wynosi 0,9, model prognozuje klasę pozytywną. Jeśli wartość surowa wynosi 0,7, model przewiduje klasę negatywną.

Wybór progu klasyfikacji ma duży wpływ na liczbę wyników fałszywie pozytywnych i wyników fałszywie negatywnych.

Kliknij ikonę, aby dodać dodatkowe notatki.

Wraz z rozwojem modeli i zbiorów danych inżynierowie czasami zmieniają próg klasyfikacji. Gdy zmienia się próg klasyfikacji, prognozy klasyfikacji pozytywnej mogą nagle stać się klasyfikacjami negatywnymi i odwrotnie.

Rozważmy na przykład binarny model klasyfikacji służący do prognozowania chorób. Załóżmy, że w pierwszym roku system działa:

Wartość nieprzetworzona w przypadku konkretnego pacjenta to 0,95.
Próg klasyfikacji wynosi 0,94.

Dlatego system diagnozuje klasę pozytywną. (Pacjentka łapie oddech) „O nie! Jestem chory!)

Rok później wartości mogą wyglądać tak:

Nieprzetworzona wartość dla tego samego pacjenta wynosi 0,95.
Próg klasyfikacji zmienia się na 0,97.

Dlatego system zaklasyfikuje teraz tego pacjenta jako pacjenta z ujemnym wynikiem. ("Happy day! Nie jestem chory.") Ten sam pacjent. Inna diagnoza.

Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.

klasyfikator

#fundamentals

Nieformalne określenie modelu klasyfikacji.

zbiór danych z niezrównoważonymi klasami

#fundamentals

Zbiór danych do problemu klasyfikacji, w którym łączna liczba etykiet w każdej klasie różni się znacznie. Rozważmy na przykład zbiór danych do klasyfikacji binarnej, w którym 2 etykiety są podzielone w ten sposób:

1 000 000 etykiet negatywnych
10 etykiet pozytywnych

Stosunek etykiet negatywnych do pozytywnych wynosi 100 000 do 1, więc jest to zbiór danych z niezrównowagą klas.

Natomiast ten zbiór danych nie jest niezrównoważony pod względem klas, ponieważ stosunek etykiet negatywnych do etykiet pozytywnych jest stosunkowo zbliżony do 1:

517 etykiet negatywnych
483 etykiety pozytywne

Zbiory danych z wieloma klasami mogą też być niezrównoważone pod względem klas. Na przykład ten zbiór danych do klasyfikacji wieloklasowej jest również niezrównoważony pod względem klas, ponieważ jedna etykieta ma znacznie więcej przykładów niż pozostałe 2:

1 000 000 etykiet z klasą „green”
200 etykiet z klasą „purple”
350 etykiet z klasą „pomarańczowy”

Zobacz też entropię, klasę większości i klasę mniejszości.

przycinanie

#fundamentals

Technika obsługi wartości odstające polegająca na:

Obniżanie wartości cechy, które są wyższe niż maksymalny próg, do tego maksymalnego progu.
zwiększanie wartości cech, które są poniżej minimalnego progu, do tego minimalnego progu;

Załóżmy na przykład, że mniej niż 0,5% wartości danej cechy wypada poza zakres 40–60. W takim przypadku możesz:

Wszystkie wartości powyżej 60 (maksymalny próg) są przycinane do 60.
Wszystkie wartości poniżej 40 (minimalny próg) są przycinane do 40.

Wartości odstające od reszty mogą uszkodzić modele, czasami powodując przepełnienie wag podczas trenowania. Niektóre wartości odstające mogą też znacznie zaburzać wskaźniki takie jak trafność. Przycinanie to powszechna technika ograniczania uszkodzeń.

Odcięcie gradientu wymusza wartości gradientu w określonym zakresie podczas trenowania.

Więcej informacji znajdziesz w sekcji Dane liczbowe: normalizacja z Kursu intensywnego na temat uczenia maszynowego.

tablica pomyłek

#fundamentals

Tabela N × N, która podsumowuje liczbę poprawnych i niepoprawnych prognoz modelu klasyfikacji. Rozważmy na przykład tę tablicę pomyłek dla modelu dwumiantowej klasyfikacji:

	Nowotwór (prognoza)	Nienowotworowe (prognozy)
Nowotwór (dane podstawowe)	18 (TP)	1 (FN)
Nienowotworowe (dane podstawowe)	6 (FP)	452 (TN)

Powyższa tablica pomyłek pokazuje:

Spośród 19 prognoz, w których dane podstawowe to „Nowotwór”, model prawidłowo zaklasyfikował 18 z nich, a jedną błędnie.
Spośród 458 prognoz, w których przypadku dane podstawowe wskazywały, że nie ma guza, model prawidłowo sklasyfikował 452 z nich, a nieprawidłowo 6.

Tablica pomyłek dla problemu wieloklasowej klasyfikacji może pomóc w identyfikacji wzorców błędów. Rozważ na przykład tę macierz błędów dla 3-klasowego modelu klasyfikacji wieloklasowej, który kategoryzuje 3 różne rodzaje irysów (Virginica, Versicolor i Setosa). Gdy dane podstawowe to „Virginica”, tablica pomyłek pokazuje, że model znacznie częściej błędnie przewidywał „Versicolor” niż „Setosa”:

	Setosa (prognoza)	Versicolor (prognoza)	Virginica (prognoza)
Setosa (dane podstawowe)	88	12	0
Versicolor (dane podstawowe)	6	141	7
Virginica (dane podstawowe)	2	27	109

Innym przykładem może być macierz błędów, która może ujawnić, że model wytrenowany do rozpoznawania odręcznie wpisanych cyfr często błędnie przewiduje 9 zamiast 4 lub 1 zamiast 7.

Matryc konfuzji zawiera wystarczającą ilość informacji do obliczenia różnych wskaźników skuteczności, w tym precyzji i czułości.

ciągła funkcja

#fundamentals

Właściwość o typie zmiennopozycyjnym z nieskończonym zakresem możliwych wartości, np. temperatura lub waga.

W przeciwieństwie do funkcji dyskretnej.

zbieżność

#fundamentals

Stan osiągnięty, gdy wartości strat zmieniają się bardzo mało lub wcale w przypadku każdej iteracji. Na przykład na krzywej utraty funkcji celu widać, że zbieżność następuje po około 700 iteracjach:

Wykres kartezjański. Oś X to utrata. Oś Y to liczba iteracji trenowania. Straty są bardzo wysokie w ciągu pierwszych kilku iteracji, ale gwałtownie spadają. Po około 100 iteracjach utrata nadal maleje, ale znacznie wolniej. Po około 700 iteracjach strata pozostaje na stałym poziomie.

Model zbiera się, gdy dodatkowe trenowanie nie poprawia jego wyników.

W deep learningu wartości strat czasami pozostają stałe lub prawie stałe przez wiele iteracji, zanim w końcu zaczną maleć. W przypadku długiego okresu stałej wartości utraty możesz mieć chwilowo fałszywe wrażenie zbieżności.

Zobacz też wczesne zatrzymanie.

Więcej informacji znajdziesz w sekcji Modele – krzywe zbieżności i strat w Kursie intensywnym z systemów uczenia się.

D

[struktura] DataFrame

#fundamentals

Popularny typ danych pandas służący do reprezentowania zbiorów danych w pamięci.

DataFrame jest podobny do tabeli lub arkusza kalkulacyjnego. Każda kolumna DataFrame ma nazwę (nagłówek), a każdy wiersz jest identyfikowany za pomocą unikalnego numeru.

Każda kolumna w ramach DataFrame jest sformatowana jak tablica dwuwymiarowa, z tą różnicą, że każdej kolumnie można przypisać własny typ danych.

Zobacz też oficjalną stronę referencyjną pakietu pandas.DataFrame.

zbiór danych

#fundamentals

Zbiór danych nieprzetworzonych, zwykle (ale nie zawsze) uporządkowanych w jednym z tych formatów:

arkusz kalkulacyjny
plik w formacie CSV (wartości rozdzielone przecinkami),

model głęboki

#fundamentals

Sieci neuronowej zawierającej więcej niż 1 ukryty poziom.

Model głęboki to także głęboka sieć neuronowa.

Porównaj z modelem szerokim.

gęsta funkcja

#fundamentals

Cecha, w której większość lub wszystkie wartości są różne od 0, zwykle tensor wartości zmiennoprzecinkowych. Na przykład ten 10-elementowy tensor jest gęsty, ponieważ 9 jego wartości jest niezerowych:

W odróżnieniu od rzadkiej funkcji.

głębokość

#fundamentals

Suma tych wartości w sieci neuronowej:

liczba ukrytych warstw,
liczba warstw wyjściowych, która zwykle wynosi 1.
liczba warstw wektorów dystrybucyjnych,

Na przykład sieć neuronowa z 5 warstwami ukrytymi i 1 warstwą wyjściową ma głębokość 6.

Zwróć uwagę, że warstwa wejściowa nie wpływa na głębokość.

funkcja dyskretna

#fundamentals

cecha z ograniczonym zbiorem możliwych wartości. Na przykład cecha, której wartościami mogą być tylko zwierzę, warzywo lub minerał, jest cecha dyskretna (czyli kategorialna).

W odróżnieniu od funkcji ciągłej.

dynamiczny

#fundamentals

coś, co jest wykonywane często lub stale; W uczeniu maszynowym terminy dynamiczny i online są synonimami. Oto najczęstsze zastosowania dynamicznego i internetowego uczenia maszynowego:

Model dynamiczny (lub model online) to model, który jest często lub stale ponownie trenowany.
Szkolenie dynamiczne (lub szkolenie online) to proces szkolenia, który odbywa się często lub nieprzerwanie.
Wyrażenie wniosków dynamicznych (lub wnioskowanie online) to proces generowania prognoz na żądanie.

model dynamiczny

#fundamentals

model, który jest często (a nawet stale) ponownie trenowany. Model dynamiczny to „uczeń przez całe życie”, który stale dostosowuje się do zmieniających się danych. Model dynamiczny to inaczej model online.

Kontrast z modelem statycznym.

E

wczesne zatrzymanie

#fundamentals

Metoda regularyzacji, która polega na zakończeniu treningu przed zakończeniem zmniejszania się straty w treningu. W przypadku wczesnego zatrzymania celowo przerywasz trenowanie modelu, gdy strata na zbiorze danych do weryfikacji zaczyna się zwiększać, czyli gdy generalyzacja staje się mniej skuteczna.

Kliknij ikonę, aby dodać dodatkowe notatki.

Wczesne zatrzymanie może wydawać się nielogiczne. Przecież żądanie wstrzymania treningu modelu, gdy straty wciąż się zmniejszają, może być podobne do żądania od szefa kuchni, aby przestał gotować, zanim deser zostanie w pełni upieczony. Jednak zbyt długie trenowanie modelu może prowadzić do nadmiernego dopasowania. Oznacza to, że jeśli trenujesz model zbyt długo, może on tak dobrze dopasować się do danych treningowych, że nie będzie w stanie trafnie prognozować nowych przykładów.

warstwa wektora dystrybucyjnego,

#language

#fundamentals

Specjalny warstwę ukrytą, która trenuje na podstawie cechy kategorialnej o dużej wymiarowości, aby stopniowo uczyć się wektora embeddingu o mniejszej wymiarowości. Warstwę embeddingu można wykorzystać do trenowania sieci neuronowej w o wiele bardziej wydajny sposób niż przy użyciu samej cechy wielowymiarowej.

Na przykład Earth obsługuje obecnie około 73 tys. gatunków drzew. Załóżmy, że gatunek drzewa jest atrybutem w Twoim modelu,więc warstwa wejściowa modelu zawiera wektor typu „jeden-gorący o długości 73 000 elementów. Na przykład baobab może być przedstawione w ten sposób:

Tablica 73 tys. elementów. Pierwsze 6232 elementy mają wartość 0. Następny element zawiera wartość 1. Ostatnie 66 767 elementów ma wartość zero.

Tablica o 73 tys. elementów jest bardzo długa. Jeśli nie dodasz do modelu warstwy embeddingu, trenowanie zajmie bardzo dużo czasu z powodu mnożenia 72 999 zer. Możesz wybrać warstwę z 12 wymiarami. W konsekwencji warstwa embeddingu będzie stopniowo uczyć się nowego wektora embeddingu dla każdego gatunku drzewa.

W niektórych sytuacjach zaszyfrowanie może być odpowiednią alternatywą dla warstwy umieszczania.

Więcej informacji znajdziesz w sekcji Embeddings w szybkim szkoleniu z uczenia maszynowego.

początek epoki : epoka

#fundamentals

pełne trenowanie całego zbioru treningowego, w którym każdy przykład został przetworzony raz;

Jedna epoka to N/rozmiar wsadu iteracji treningowych, gdzie N to łączna liczba przykładów.

Załóżmy na przykład, że:

Zbiór danych zawiera 1000 przykładów.
Wielkość wsadu to 50 przykładów.

Dlatego jedna epoka wymaga 20 iteracji:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

przykład

#fundamentals

wartości jednego wiersza cechy i ewentualnie etykiety; Przykłady w nauce nadzorowanej można podzielić na 2 ogólne kategorie:

Znakowane przykłady zawierają co najmniej 1 cechę i etykietę. Oznaczone etykietami przykłady są używane podczas trenowania.
Nieoznaczony przykład zawiera co najmniej 1 cechę, ale nie ma etykiety. Przykłady bez etykiet są używane podczas wnioskowania.

Załóżmy na przykład, że trenujesz model, aby określić wpływ warunków pogodowych na wyniki egzaminów uczniów. Oto 3 oznaczone przykłady:

Funkcje			Etykieta
Temperatura	wilgotność,	Ciśnienie	Wynik testu
15	47	998	Dobry
19	34	1020	Świetna
18	92	1012	Niska

Oto 3 przykłady bez etykiet:

Temperatura	wilgotność,	Ciśnienie
12	62	1014
21	47	1017
19	41	1021

Wiersz zbioru danych jest zwykle źródłem danych nieprzetworzonych. Oznacza to, że przykład zwykle składa się z podzbioru kolumn w zbiorze danych. Ponadto funkcje w przykładzie mogą obejmować funkcje syntetyczne, takie jak krzyżowanie funkcji.

Więcej informacji znajdziesz w sekcji Nadzorowane uczenie maszynowe w kursie Wprowadzenie do systemów uczących się.

F

wynik fałszywie negatywny (FN),

#fundamentals

#Dane

Przykład, w którym model błędnie przewiduje klasę negatywną. Na przykład model przewiduje, że dana wiadomość e-mail nie jest spamem (klasa negatywna), ale okazuje się, że jest to spam.

fałszywie pozytywny (FP).

#fundamentals

#Dane

Przykład, w którym model błędnie prognozuje klasę pozytywną. Na przykład model przewiduje, że dana wiadomość e-mail jest spamem (klasa pozytywna), ale w rzeczywistości tak nie jest.

Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.

współczynnik wyników fałszywie pozytywnych (FPR);

#fundamentals

#Dane

Odsetek rzeczywistych przykładów negatywnych, dla których model błędnie przewidział klasę pozytywną. Odsetek wyników fałszywie dodatnich oblicza się za pomocą tego wzoru:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Współczynnik wyników fałszywie pozytywnych to oś X na krzywej ROC.

Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.

cecha [in context of machine learning]

#fundamentals

Zmienna wejściowa modelu uczenia maszynowego. Przykład składa się z co najmniej jednej funkcji. Załóżmy na przykład, że trenujesz model, aby określić wpływ warunków pogodowych na wyniki egzaminów uczniów. W tabeli poniżej znajdziesz 3 przykłady, z których każdy zawiera 3 funkcje i 1 etykietę:

Funkcje			Etykieta
Temperatura	wilgotność,	Ciśnienie	Wynik testu
15	47	998	92
19	34	1020	84
18	92	1012	87

Kontrast z etykietą.

Więcej informacji znajdziesz w sekcji Nauczanie nadzorowane w kursie Wprowadzenie do systemów uczących się.

funkcja krzyżowa

#fundamentals

Cecha syntetyczna utworzona przez „przecięcie” cech kategorialnych lub zbiorzonych.

Weźmy na przykład model „prognozowania nastroju”, który przedstawia temperaturę w jednym z tych 4 zakresów:

freezing
chilly
temperate
warm

I reprezentuje prędkość wiatru w jednym z tych 3 zakresów:

still
light
windy

Bez krzyżowania cech model liniowy trenuje niezależnie w przypadku każdego z 7 poprzednich różnych zbiorów. Model trenuje na przykład na danych freezing niezależnie od danych windy.

Możesz też utworzyć funkcję krzyżową temperatury i prędkości wiatru. Ta syntetyczna cecha miałaby 12 możliwych wartości:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Dzięki skrzyżowaniu cech model może uczyć się różnic w nastroju między dniem freezing-windy a freezing-still.

Jeśli utworzysz funkcję syntetyczną na podstawie 2 funkcji, z których każda ma wiele różnych zbiorników, otrzymana funkcja krzyżowa będzie miała ogromną liczbę możliwych kombinacji. Jeśli na przykład jedna cecha ma 1000 segmentów, a druga – 2000 segmentów, to ich iloczyn ma 2 000 000 segmentów.

Formalnie krzyż jest iloczynem kartezjańskim.

Krzyżowanie cech jest używane głównie w przypadku modeli liniowych i rzadko w przypadku sieci neuronowych.

Więcej informacji znajdziesz w sekcji Dane kategoryczne: krzyżowanie cech w Szybkim szkoleniu z uczenia maszynowego.

ekstrakcja wyróżników

#fundamentals

#TensorFlow

Proces obejmujący te kroki:

Określanie, które cechy mogą być przydatne podczas trenowania modelu.
konwertowanie nieprzetworzonych danych ze zbioru danych na wydajne wersje tych funkcji;

Możesz na przykład uznać, że temperature może być przydatną funkcją. Następnie możesz eksperymentować z bucketingiem, aby zoptymalizować to, czego model może się nauczyć z różnych zakresów temperature.

Inżynieria cech jest czasami nazywana wyodrębnianiem cech lub tworzeniem cech.

Kliknij ikonę, aby wyświetlić dodatkowe informacje o TensorFlow.

W TensorFlow inżynieria cech często oznacza konwertowanie wpisów w pliku dziennika w postaci nieprzetworzonych danych do buforów protokołów tf.Example. Zobacz też funkcję tf.Transform.

Więcej informacji znajdziesz w sekcji Dane liczbowe: jak model przetwarza dane za pomocą wektorów cech z Kursu intensywnego z uczenia maszynowego.

zestaw cech

#fundamentals

Grupa funkcji, na podstawie których trenowany jest model systemów uczących się. Na przykład prosty zbiór cech dla modelu, który przewiduje ceny mieszkań, może składać się z kodu pocztowego, wielkości i stanu nieruchomości.

wektor cech

#fundamentals

Tablica wartości cechy, która zawiera przykład. Wektor cech jest podawany podczas treningu i podczas wyciągania wniosków. Na przykład wektor cech w przypadku modelu z 2 cechami dyskretnymi może wyglądać tak:

[0.92, 0.56]

4 warstwy: warstwa wejściowa, 2 warstwy ukryte i jedna warstwa wyjściowa.
Warstwa wejściowa zawiera 2 węzły: jeden z wartością 0,92, a drugi z wartością 0,56.

Każdy przykład podaje różne wartości wektora cech, więc wektor cech w następnym przykładzie może wyglądać tak:

[0.73, 0.49]

Przygotowanie danych określa, jak reprezentować cechy w wektorze cech. Na przykład dwuwartościowa cecha kategorialna z 5 możliwymi wartościami może być reprezentowana za pomocą kodowania 1-hot. W tym przypadku część wektora cech w przypadku konkretnego przykładu składałaby się z 4 zer i 1 wartości 1, 0 na 3.pozycji, jak pokazano poniżej:

[0.0, 0.0, 1.0, 0.0, 0.0]

Innym przykładem może być model składający się z 3 cech:

binarna cecha kategorialna o pięciu możliwych wartościach reprezentowanych za pomocą kodowania „jeden z wielu”; na przykład: [0.0, 1.0, 0.0, 0.0, 0.0]
kolejna dwuwartościowa cecha kategorialna o 3 możliwych wartościach reprezentowanych za pomocą kodowania 1 z n, np.: [0.0, 0.0, 1.0]
funkcja zmiennoprzecinkowa, np. 8.3.

W tym przypadku wektor cech każdego przykładu będzie reprezentowany przez 9 wartości. Na podstawie przykładowych wartości z poprzedniej listy wektor cech wyglądałby tak:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Więcej informacji znajdziesz w sekcji Dane liczbowe: jak model przetwarza dane za pomocą wektorów cech z Kursu intensywnego z uczenia maszynowego.

pętla informacji zwrotnych

#fundamentals

W uczeniu maszynowym sytuacja, w której prognozy modelu wpływają na dane treningowe tego samego modelu lub innego modelu. Na przykład model polecający filmy będzie wpływać na filmy, które widzą użytkownicy, a to z kolei będzie wpływać na kolejne modele rekomendacji filmów.

Więcej informacji znajdziesz w sekcji Produkcyjne systemy ML: pytania do zastanowienia się w Kursie intensywnym z uczenia maszynowego.

G

uogólnianie

#fundamentals

Zdolność modelu do trafnego przewidywania nowych, wcześniej niewidzianych danych. Model, który może uogólniać, jest przeciwieństwem modelu nadmiernie dopasowującego.

Kliknij ikonę, aby dodać dodatkowe notatki.

Model trenujesz na przykładach z treningowego zbioru danych. W konsekwencji model uczy się specyfiki danych w zbiorze treningowym. Ogólnie rzecz biorąc, chodzi o to, czy Twój model może dobrze prognozować na przykładach, które nie znajdują się w zbiorze treningowym.

Aby zachęcić do uogólniania, regularyzacja pomaga modelowi trenować mniej dokładnie w stosunku do osobliwości danych w zbiorze treningowym.

Więcej informacji znajdziesz w sekcji Ogólnienie w szybkim szkoleniu z uczenia maszynowego.

krzywa generalizacji

#fundamentals

Wykres straty na etapie trenowania i straty na etapie walidacji w funkcji liczby iteracji.

Krzywa generalizacji może pomóc w wykryciu możliwego nadmiernego dopasowania. Na przykład krzywa generalizacji sugeruje przetrenowanie, ponieważ strata weryfikacyjna staje się ostatecznie znacznie większa niż strata podczas trenowania.

Wykres kartezjański, na którym oś Y ma etykietę „strata”, a oś X – „iteracje”. Pojawiają się 2 wykresy. Jeden wykres pokazuje stratę podczas trenowania, a drugi – stratę podczas weryfikacji.
Oba wykresy zaczynają się podobnie, ale strata podczas trenowania w końcu spada znacznie poniżej straty podczas walidacji.

Więcej informacji znajdziesz w sekcji Ogólnienie w szybkim szkoleniu z uczenia maszynowego.

spadku wzdłuż gradientu

#fundamentals

Technika matematyczna służąca do minimalizowania strat. Metoda gradientu stochastycznego iteracyjnie dostosowuje wagi i uśrednienia, stopniowo znajdując najlepszą kombinację, która pozwoli zminimalizować straty.

Metoda gradientu stochastycznego jest starsza – znacznie, znacznie starsza – niż uczenie maszynowe.

Więcej informacji znajdziesz w artykule Regresja liniowa: metoda gradientu stochastycznego z Kursu intensywnego na temat uczenia się maszynowego.

dane podstawowe (ground truth)

#fundamentals

Reality

Co faktycznie się wydarzyło.

Rozważmy na przykład model dwuklasowej klasyfikacji, który przewiduje, czy student pierwszego roku studiów ukończy je w ciągu 6 lat. Dane podstawowe dla tego modelu to informacje o tym, czy dany uczeń ukończył studia w ciągu 6 lat.

Kliknij ikonę, aby dodać dodatkowe notatki.

Jakość modelu oceniamy na podstawie danych podstawowych. Dane podstawowe nie zawsze są jednak w pełni wiarygodne. Oto przykłady potencjalnych niedoskonałości w danych referencyjnych:

Czy w przypadku przykładu ukończenia studiów możemy z pewnością stwierdzić, że dane dotyczące ukończenia studiów są zawsze prawidłowe? Czy prowadzenie dokumentacji przez uczelnię jest bezbłędne?
Załóżmy, że etykieta to wartość zmiennoprzecinkowa zmierzona przez instrumenty (np. barometry). Jak możemy mieć pewność, że każdy instrument jest skalibrowany w identyczny sposób lub że każde odczyt zostało uzyskane w tych samych okolicznościach?
Jeśli etykieta zależy od ludzkiej opinii, jak możemy mieć pewność, że każdy weryfikator ocenia zdarzenia w ten sam sposób? Aby zapewnić spójność, czasami eksperci weryfikują treści.

H

warstwa ukryta

#fundamentals

Warstwa w sieci neuronowej między warstwą wejściową (cechy) a warstwą wyjściową (prognoza). Każda warstwa ukryta składa się z co najmniej 1 neurona. Na przykład ta sieć neuronowa zawiera 2 ukryte warstwy:

Głęboka sieć neuronowa zawiera więcej niż 1 warstwę ukrytą. Na przykład poprzednia ilustracja przedstawia głęboką sieć neuronową, ponieważ model zawiera 2 warstwy ukryte.

Więcej informacji znajdziesz w artykule Neural networks: Nodes and hidden layers z cyklu Crash Course z machine learningu.

hiperparametr

#fundamentals

zmienne, które Ty lub usługa dostrajania hiperparametrówdostosowujesz podczas kolejnych sesji trenowania modelu. Na przykład tempo uczenia się jest hiperparametrem. Przed pierwszą sesją treningową możesz ustawić szybkość uczenia się na 0,01. Jeśli uznasz, że 0,01 jest zbyt wysoką wartością, możesz ustawić szybkość uczenia się na 0,003 w następnej sesji treningowej.

Natomiast parametry to różne wagi i uprzedzenia, których model uczy się podczas trenowania.

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

I

niezależne i identycznie rozłożone (i.i.d)

#fundamentals

Dane pochodzące z rozkładu, który się nie zmienia, a każda z wylosowanych wartości nie zależy od wcześniej wylosowanych wartości. IID to gaz doskonały w uczeniu maszynowym – przydatna konstrukcja matematyczna, która w rzeczywistych warunkach występuje bardzo rzadko. Na przykład w krótkim przedziale czasu rozkład wizyt na stronie internetowej może być niezależny od identyfikatora, co oznacza, że rozkład nie zmienia się w tym krótkim przedziale czasu, a wizyta jednej osoby jest zazwyczaj niezależna od wizyty innej osoby. Jeśli jednak rozszerzysz ten przedział czasu, mogą pojawić się sezonowe różnice w liczbie odwiedzających stronę.

Zobacz też niestacjonarność.

wnioskowanie

#fundamentals

W uczeniu maszynowym proces tworzenia prognoz polegający na zastosowaniu wytrenowanego modelu do przykładów bez etykiet.

W statystyce wnioskowanie ma nieco inne znaczenie. Więcej informacji znajdziesz w artykule na temat wnioskowania statystycznego w Wikipedii.

Aby poznać rolę wnioskowania w systemie uczenia nadzorowanego, zapoznaj się z uczeniem nadzorowanym w Kursie wprowadzającym do uczenia maszynowego.

warstwa wejściowa

#fundamentals

Warstwa sieci neuronowej, która przechowuje wektory cech. Oznacza to, że warstwa wejściowa dostarcza przykładów do trenowania lub wyciągania wniosków. Na przykład warstwa wejściowa w tej sieci neuronowej składa się z 2 elementów:

4 warstwy: warstwa wejściowa, 2 warstwy ukryte i warstwa wyjściowa.

interpretowalność

#fundamentals

Umiejętność wyjaśniania lub przedstawiania rozumowania modelu ML w zrozumiały sposób.

Na przykład większość modeli regresji liniowej jest łatwa do interpretacji. (wystarczy spojrzeć na wytrenowane wagi dla każdej cechy). Lasy decyzyjne są też bardzo czytelne. Interpretowalność niektórych modeli wymaga jednak rozbudowanej wizualizacji.

Do interpretowania modeli ML możesz użyć narzędzia do analizowania interpretowalności (LIT).

iteracja

#fundamentals

Pojedyncza aktualizacja parametrów modelu (wag i uprzedzeń) podczas treningu. Wielkość wsadu określa, ile przykładów model przetwarza w ramach jednej iteracji. Jeśli na przykład rozmiar partii wynosi 20, model przetwarza 20 przykładów, zanim dostosuje parametry.

Podczas trenowania sieci neuronowej pojedyncza iteracja obejmuje 2 przebiegi:

Przejście do przodu w celu oszacowania utraty na jednym zbiorze danych.
Przejście wstecz (wsteczne propagowanie) w celu dostosowania parametrów modelu na podstawie utraty i tempo uczenia się.

Więcej informacji znajdziesz w sekcji Wstęp do ścieżki gradientowej w Szybkim szkoleniu z uczenia maszynowego.

L

Regularyzacja L₀

#fundamentals

Typ regularyzacji, która nakłada kary na łączną liczbę niezerowych wag w modelu. Na przykład model z 11 wartościami wag niezerowych byłby obciążony większą karą niż podobny model z 10 wartościami wag niezerowych.

Regularyzacja L₀ jest czasami nazywana regularyzacją normy L0.

Kliknij ikonę, aby dodać dodatkowe notatki.

_{Regularyzacja L₀ jest zwykle niepraktyczna w przypadku dużych modeli, ponieważ powoduje, że trenowanie staje się problemem optymalizacji wklęsłym.}

Straty L₁

#fundamentals

#Dane

Funkcja strat, która oblicza bezwzględną wartość różnicy między rzeczywistymi wartościami etykiety a wartościami prognozowanymi przez model. Oto na przykład obliczenie utraty L₁ w partii składającej się z 5 przykładów:

Rzeczywista wartość przykładu	Prognozowana wartość modelu	Wartość bezwzględna delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁

Strata L₁ jest mniej wrażliwa na wartości wyizolowane niż strata L₂.

Średni bezwzględny błąd to średnia utrata informacji L₁ na przykład.

Aby wyświetlić formalny zapis matematyczny, kliknij ikonę.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

gdzie:

$n$ to liczba przykładów.
$y$ to rzeczywista wartość etykiety.
$\hat{y}$ to wartość prognozowana przez model dla $y$.

Więcej informacji znajdziesz w sekcji Regresja liniowa: funkcja utrata w Kursie intensywnym z systemów uczących się.

Regularyzacja L₁

#fundamentals

Typ regularyzacji, która nakłada kary na wagi proporcjonalnie do ich sumy wartości bezwzględnych. Regularyzacja L₁ pomaga doprowadzić wagi nieistotnych lub mało istotnych cech do dokładnie 0. Cecha o wadze 0 zostaje skutecznie usunięta z modelu.

Porównaj z regularyzacją _L2.

Strata L₂

#fundamentals

#Dane

Funkcja strat, która oblicza kwadrat różnicy między rzeczywistymi wartościami etykiety a wartościami prognozowanymi przez model. Oto na przykład obliczenie strat L₂ dla partii składającej się z 5 przykładów:

Rzeczywista wartość przykładu	Prognozowana wartość modelu	Kwadrat delty
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂

Ze względu na kwadratowanie strata L₂ wzmacnia wpływ wartości odstających. Oznacza to, że strata L₂ reaguje silniej na złe prognozy niż strata L₁. Na przykład strata L₁ w poprzednim zbiorze wynosiłaby 8 zamiast 16. Zwróć uwagę, że 9 z 16 wyników to wartości odstające.

Modele regresji zwykle używają funkcji utraty L₂ jako funkcji utraty.

Wartość błędu średniokwadratowego to średnia strata funkcji L₂ na przykład. Strata kwadratowa to inna nazwa straty L₂.

Aby wyświetlić formalny zapis matematyczny, kliknij ikonę.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

gdzie:

$n$ to liczba przykładów.
$y$ to rzeczywista wartość etykiety.
$\hat{y}$ to wartość prognozowana przez model dla $y$.

Więcej informacji znajdziesz w artykule Logistyczna regresja: funkcja utraty i regularyzacja z Kursu intensywnego z machine learningu.

Regularyzacja L₂

#fundamentals

Rodzaj regularyzacji, która nakłada kary na wagi proporcjonalnie do sumy kwadratów tych wag. Regularyzacja L₂ pomaga zbliżyć wagi wartości odstających (czyli te o wysokich dodatnich lub niskich ujemnych wartościach) do 0, ale nie doprowadzi ich do dokładnej wartości 0. Cechy o wartościach bardzo zbliżonych do 0 pozostają w modelu, ale nie mają większego wpływu na jego prognozy.

Regularyzacja L₂ zawsze poprawia uogólnianie w modelach liniowych.

Porównaj z regularyzacją _L1.

Aby dowiedzieć się więcej, zapoznaj się z tematem nadmierne dopasowanie: regularyzacja L2 w szybkim szkoleniu z uczenia maszynowego.

etykieta

#fundamentals

W uczeniu nadzorowanym jest to część „odpowiedź” lub „wynik” przykładu.

Każdy oznaczony przykład składa się z co najmniej 1 cechy i etykiety. Na przykład w zbiorze danych do wykrywania spamu etykieta będzie prawdopodobnie „spam” lub „nie spam”. W przypadku zbioru danych o opadach atmosferycznych etykietą może być ilość opadów w okresie.

Więcej informacji znajdziesz w artykule Nadzorowane uczenie maszynowe w sekcji Wprowadzenie do systemów uczących się.

przykład z oznaczeniem

#fundamentals

Przykład zawierający co najmniej jedną cechę i etykietę. Na przykład w tabeli poniżej znajdują się 3 oznaczone przykłady z modelu wyceny domu, z których każdy ma 3 cechy i 1 etykietę:

Liczba sypialni	Liczba łazienek	Wiek domu	Cena domu (etykieta)
3	2	15	345 tys. USD
2	1	72	179 000 USD
4	2	34	392 000 USD

W nadzorowanym uczeniu maszynowym modele są trenowane na przykładach z oznacznikami i wydają prognozy na podstawie przykładów bez oznaczeń.

Porównanie przykładu z oznaczonymi etykietami i bez nich.

Więcej informacji znajdziesz w artykule Nadzorowane uczenie maszynowe w sekcji Wprowadzenie do systemów uczących się.

lambda

#fundamentals

Synonim stawki legalizacji.

Lambda to przeciążony termin. Tutaj skupiamy się na definicji tego terminu w kontekście regularyzacji.

warstwa

#fundamentals

Zbiór neuronów w sieci neuronowej. 3 najczęstsze typy warstw:

Warstwę wejściową, która zawiera wartości wszystkich cechowań.
Co najmniej 1 ukrytych warstw, które znajdują nieliniowe zależności między funkcjami a etykietą.
warstwa wyjściowa, która dostarcza prognozy.

Na przykład ilustracja poniżej przedstawia sieć neuronową z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową. Warstwa wejściowa składa się z 2 cech. Pierwsza ukryta warstwa składa się z 3 neuronów, a druga – z 2 neuronów. Warstwa wyjściowa składa się z pojedynczego węzła.

W TensorFlow warstwy to też funkcje Pythona, które przyjmują jako dane wejściowe tensory i inne opcje konfiguracji, a jako dane wyjściowe zwracają inne tensory.

tempo uczenia się

#fundamentals

Liczba zmiennoprzecinkowa, która informuje algorytm gradientu prostego, jak silnie dostosowywać wagi i uśrednienia na każdej itracji. Na przykład szybkość uczenia się 0,3 będzie wpływać na wagi i przechylenia 3 razy silniej niż szybkość uczenia się 0,1.

Tempo uczenia się to kluczowy hiperparametr. Jeśli ustawisz zbyt niski współczynnik nauki, proces uczenia się potrwa zbyt długo. Jeśli tempo uczenia się jest zbyt wysokie, metoda gradientu prostego często ma problemy z osiągnięciem konwergencji.

Kliknij ikonę, aby uzyskać bardziej matematyczne wyjaśnienie.

Podczas każdej iteracji algorytm gradientu prostego mnoży szybkość uczenia przez gradient. Uzyskany produkt nazywa się stopniem gradientu.

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

jednostajne

#fundamentals

Związek między co najmniej 2 zmiennymi, który można przedstawić wyłącznie za pomocą dodawania i mnożenia.

Wykres zależności liniowej to linia.

Kontrast z nonlinear.

model liniowy

#fundamentals

Model przypisuje wagę na każdą cechę, aby tworzyć prognozy. (modele liniowe uwzględniają też uprzedzenie). Natomiast związek cech z prognozami w modelach głębokich jest zazwyczaj nieliniowy.

Modele liniowe są zwykle łatwiejsze do wytrenowania i bardziej zrozumiałe niż modele głębokie. Modele głębokie mogą jednak uczyć się złożonych relacji między cechami.

Regresja liniowa i regresja logistyczna to 2 typy modeli liniowych.

Aby zobaczyć obliczenia, kliknij ikonę.

Model liniowy ma postać:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

gdzie:

y' to nieprzetworzona prognoza. (W przypadku niektórych rodzajów modeli liniowych ta surowa prognoza zostanie dodatkowo zmodyfikowana. Przykładem może być regresja logistyczna.
b to uprzedzenie.
w to waga, więc w₁ to waga pierwszej funkcji, w₂ to waga drugiej funkcji itd.
x to cecha, więc x₁ to wartość pierwszej cechy, x₂ to wartość drugiej cechy itd.

Na przykład, gdy model liniowy dla 3 cech uczy się tych wartości średnich i wag:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Dlatego przy 3 cechach (x₁, x₂ i x₃) model liniowy do generowania każdej prognozy używa tej zależności:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Załóżmy, że przykład zawiera te wartości:

x₁ = 4
x₂ = –10
x₃ = 5

Po podaniu tych wartości w formule otrzymasz prognozę dla tego przykładu:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Modele liniowe to nie tylko modele, które do tworzenia prognoz używają tylko równania liniowego, ale też szerszy zestaw modeli, które używają równania liniowego jako jednego z komponentów formuły służącej do tworzenia prognoz. Na przykład regresja logistyczna przetwarza wstępną prognozę (y') w postprocesie, aby uzyskać ostateczną wartość prognozy z zakresu od 0 do 1.

regresja liniowa

#fundamentals

Typ modelu uczenia maszynowego, który spełnia oba te warunki:

Model jest liniowy.
Prognoza jest liczbą zmiennoprzecinkową. (jest to część dotycząca regresji w ramach regresji liniowej).

Porównaj regresję liniową z regresją logistyczną. Porównaj regresję z klasyfikacją.

Więcej informacji znajdziesz w sekcji Regresja liniowa w Szybkim szkoleniu z uczenia maszynowego.

regresja logistyczna

#fundamentals

Typ modelu regresji, który prognozuje prawdopodobieństwo. Modele regresji logistycznej mają te cechy:

Etykieta jest kategoryczna. Termin „regresja logistyczna” zwykle odnosi się do binarnej regresji logistycznej, czyli modelu, który oblicza prawdopodobieństwa dla etykiet o 2 możliwych wartościach. Mniej popularna wielomianowa regresja logistyczna oblicza prawdopodobieństwa dla etykiet o większej liczbie możliwych wartości.
Funkcja utraty podczas trenowania to logarytmiczna utrata. (w przypadku etykiet z większą liczbą niż 2 możliwe wartości można umieścić równolegle kilka jednostek utraty logarytmicznej).
Model ma architekturę liniową, a nie jest głęboką siecią neuronową. Pozostała część tej definicji dotyczy jednak również głębokich modeli, które przewidują prawdopodobieństwa dla etykiet kategorycznych.

Rozważmy na przykład model regresji logistycznej, który oblicza prawdopodobieństwo, że podany e-mail jest spamem lub nie jest spamem. Podczas wnioskowania model przewiduje wartość 0, 72. Dlatego model szacuje:

72% szans, że e-mail jest spamem.
28% szans, że e-mail nie jest spamem.

Model regresji logistycznej korzysta z tej 2-etapowej architektury:

Model generuje prognozę wstępną (y') przez zastosowanie funkcji liniowej cech wejściowych.
Model używa tej prognozy nieprzetworzonej jako danych wejściowych do funkcji sigmoidalnej, która konwertuje tę prognozę nieprzetworzoną na wartość z zakresu od 0 do 1.

Podobnie jak każdy model regresji, model regresji logistycznej przewiduje liczbę. Jednak liczba ta zwykle staje się częścią modelu klasyfikacji binarnej w ten sposób:

Jeśli prognozowana liczba jest większa od progu klasyfikacji, model klasyfikacji binarnej prognozuje klasę pozytywną.
Jeśli przewidywana liczba jest mniejsza od progu klasyfikacji, model klasyfikacji binarnej przewiduje klasę negatywną.

Więcej informacji znajdziesz w sekcji Regresja logistyczna w Szybkim szkoleniu z uczenia maszynowego.

Logarytmiczna funkcja straty

#fundamentals

Funkcja utraty stosowana w binarnej regresji logistycznej.

Aby zobaczyć obliczenia, kliknij ikonę.

Strata logarytmiczna jest obliczana według tego wzoru:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

gdzie:

$(x,y)\in D$ to zbiór danych zawierający wiele przykładów z oznaczoną etykietą, które są $(x,y)$ parami.
$y$ to etykieta w oznaczonym przykładzie. Ponieważ jest to regresja logistyczna, każda wartość parametru $y$ musi wynosić 0 lub 1.
$y'$ to prognozowana wartość (z zakresu od 0 do 1, obustronnie otwartego) na podstawie zbioru cech w parametrze $x$.

Więcej informacji znajdziesz w sekcji Regresja logistyczna: funkcja utraty i regularyzacja z Kursu intensywnego na temat uczenia maszynowego.

log-odds

#fundamentals

Logarytm prawdopodobieństwa wystąpienia danego zdarzenia.

Aby zobaczyć obliczenia, kliknij ikonę.

Jeśli zdarzenie ma podwójną wartość prawdopodobieństwa, kurs to stosunek prawdopodobieństwa powodzenia (p) do prawdopodobieństwa niepowodzenia (1-p). Załóżmy na przykład, że dane zdarzenie ma 90% prawdopodobieństwo powodzenia i 10% prawdopodobieństwo niepowodzenia. W tym przypadku współczynnik jest obliczany w ten sposób:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Logarytm szans to po prostu logarytm szans. Zgodnie z konwencją termin „logatrytm” odnosi się do logaritmu naturalnego, ale logarytm może mieć dowolną podstawę większą od 1. Zgodnie z zasadami logarytmiczne prawdopodobieństwo w naszym przykładzie wynosi:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Funkcja logarytmiczna jest odwrotnością funkcji sigmoidalnej.

przegrana

#fundamentals

#Dane

Podczas treningu modelu nadzorowanego mierzy się, jak daleko prognoza modelu odbiega od etykiety.

Funkcja utraty oblicza stratę.

Więcej informacji znajdziesz w sekcji Regresja liniowa: funkcja utraty w Kursie intensywnym z systemów uczących się.

krzywa utraty

#fundamentals

Wykres straty jako funkcji liczby iteracji. Na wykresie poniżej widać typową krzywą strat:

Graficzny wykres strat w zależności od iteracji treningu, na którym widać szybki spadek strat w przypadku początkowych iteracji, a potem stopniowy spadek i płaską krzywą w przypadku ostatnich iteracji.

Krzywe straty mogą pomóc w określeniu, kiedy model zbiera dane lub nadmiernie dopasowuje się.

Krzywe strat mogą przedstawiać wszystkie te typy strat:

strata na etapie treningu
utrata walidacji
test loss

Zobacz też krzywą generalizacji.

Więcej informacji znajdziesz w części Nadmiarowe dopasowanie: interpretowanie krzywych utraty z Kursu intensywnego na temat uczenia maszynowego.

funkcja utraty

#fundamentals

#Dane

Podczas trenowania lub testowania funkcja matematyczna, która oblicza straty na partii przykładów. Funkcja straty zwraca mniejszą stratę w przypadku modeli, które dobrze przewidują, niż w przypadku modeli, które źle przewidują.

Celem trenowania jest zwykle minimalizowanie straty zwracanej przez funkcję straty.

Istnieje wiele różnych rodzajów funkcji strat. Wybierz odpowiednią funkcję utraty dla rodzaju budowanego modelu. Na przykład:

L₂ (lub średnia kwadratowa błędu) jest funkcją utraty w przypadku regresji liniowej.
Strata logarytmiczna to funkcja straty w regresji logistycznej.

M

systemy uczące się

#fundamentals

To programy lub systemy, które trenowały model na podstawie danych wejściowych. Wytrenowany model może tworzyć przydatne prognozy na podstawie nowych (wcześniej nieużywanych) danych pobranych z tego samego rozkładu co dane użyte do trenowania modelu.

Uczenie maszynowe odnosi się też do dziedziny nauki związanej z tymi programami lub systemami.

Więcej informacji znajdziesz w szkoleniu Wprowadzenie do systemów uczących się.

klasa większościowa

#fundamentals

Więcej informacji zawiera sekcja opisująca typowe błędy. Na przykład w przypadku zbioru danych zawierającego 99% etykiet negatywnych i 1% etykiet pozytywnych etykiety negatywne stanowią większość.

Porównaj z klasą mniejszościową.

Więcej informacji znajdziesz w sekcji Zbiory danych: niesymetryczne zbiory danych w Kursie intensywnym z systemów uczenia się.

mini-batch

#fundamentals

Mały, losowo wybrany podzbiór partii przetworzonej w jednej itracji. Rozmiar minipartii zwykle wynosi od 10 do 1000 przykładów.

Załóżmy na przykład, że cały zbiór treningowy (pełna partia) składa się ze 1000 przypadków. Załóżmy też, że wielkość partii każdej minipartii wynosi 20. Dlatego w każdej iteracji określamy stratę dla 20 losowych przykładów spośród 1000 dostępnych, a następnie odpowiednio dostosowujemy wagi i uświadczenia.

Wyliczenie strat na mini-składzie jest znacznie wydajniejsze niż obliczenie strat na wszystkich przykładach w pełnym składzie.

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

klasa mniejszości

#fundamentals

Etykieta występująca rzadziej w zbiorze danych z niezrównoważonymi klasami. Na przykład w przypadku zbioru danych zawierającego 99% etykiet negatywnych i 1% etykiet pozytywnych etykiety pozytywne stanowią klasę mniejszościową.

Porównaj z klasą większości.

Kliknij ikonę, aby dodać dodatkowe notatki.

Zbiór treningowy z milionem przykładów brzmi imponująco. Jeśli jednak klasa mniejszości jest słabo reprezentowana, nawet bardzo duży zestaw treningowy może okazać się niewystarczający. Nie skupiaj się na łącznej liczbie przykładów w zbiorze danych, ale na liczbie przykładów w klasie mniejszości.

Jeśli Twój zbiór danych nie zawiera wystarczającej liczby przykładów klasy mniejszości, rozważ użycie próbkowania z wykluczeniem (definicja w drugim punkcie), aby uzupełnić klasę mniejszości.

Więcej informacji znajdziesz w sekcji Zbiory danych: niesymetryczne zbiory danych w Kursie intensywnym z systemów uczenia się.

model

#fundamentals

Ogólnie rzecz biorąc, każda konstrukcja matematyczna, która przetwarza dane wejściowe i zwraca dane wyjściowe. Inaczej mówiąc, model to zestaw parametrów i struktury, które są potrzebne systemowi do tworzenia prognoz. W nadzorowanym uczeniu maszynowym model otrzymuje przykład jako dane wejściowe i wyprowadza prognozę jako dane wyjściowe. W uczeniu nadzorowanym modele różnią się nieco od siebie. Na przykład:

Model regresji liniowej składa się z zestawu wag i błędu zastępczego.
Model sieci neuronowej składa się z tych elementów:
- Zbiór ukrytych warstw, z których każda zawiera co najmniej neuron.
- Wagi i błądy związane z każdym neuronem.
Model drzewa decyzyjnego składa się z tych elementów:
- Kształt drzewa, czyli wzór, w którym warunki i liście są połączone.
- Warunki i liście.

Możesz zapisać model, przywrócić go lub utworzyć jego kopie.

Nienadzorowane uczenie maszynowe generuje też modele, zwykle funkcję, która może odwzorować przykład wejściowy na najbardziej odpowiedni klaster.

Kliknij ikonę, aby porównać funkcje algebraiczne i funkcje programistyczne z modelami uczenia maszynowego.

Modelem może być funkcja algebraiczna, np.

  f(x, y) = 3x -5xy + y² + 17

Poprzednia funkcja mapuje wartości wejściowe (x i y) na dane wyjściowe.

Podobnie funkcja programistyczna, taka jak ta, jest też modelem:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Wywołujący przekazuje argumenty do poprzedzającej funkcji Pythona, a ta generuje dane wyjściowe (za pomocą instrukcji return).

Chociaż głęboka sieć neuronowa ma bardzo odmienną strukturę matematyczną niż funkcja algebraiczna lub programistyczna, nadal przyjmuje dane wejściowe (przykład) i zwraca dane wyjściowe (prognozę).

Programista ręcznie koduje funkcję programowania. Model uczenia maszynowego stopniowo uczy się optymalnych parametrów podczas automatycznego trenowania.

klasyfikacja wieloklasowa

#fundamentals

W nauce nadzorowanej problem klasyfikacji, w którym zbiór danych zawiera więcej niż 2 klasy etykiet. Na przykład etykiety w zbiorze danych Iris muszą należeć do jednej z tych trzech klas:

Iris setosa
Iris virginica
Iris versicolor

Model wytrenowany na zbiorze danych Iris, który prognozuje typ kwiatu na podstawie nowych przykładów, wykonuje klasyfikację wieloklasową.

Z kolei problemy klasyfikacji, które rozróżniają dokładnie 2 klasy, to binarne modele klasyfikacji. Na przykład model e-maila, który przewiduje spam lub nie spam, jest modelem klasyfikacji binarnej.

W problemach z klasteringiem klasyfikacja wieloklasowa odnosi się do więcej niż 2 klas.

Więcej informacji znajdziesz w artykule Neural networks: Multi-class classification (Neural networks: multi-class classification) z cyklu Crash Course on Machine Learning.

N

klasa wyników negatywnych

#fundamentals

#Dane

W przypadku klasyfikacji binarnej jedna klasa jest określana jako pozytywna, a druga jako ujemna. Klasa pozytywna to rzecz lub zdarzenie, które model testuje, a klasa negatywna to inna możliwość. Na przykład:

Klasa negatywna w teście medycznym może być oznaczona jako „nie nowotwór”.
Klasa negatywna w modelu klasyfikacji może oznaczać „nie spam”.

Porównaj z klasą wyników pozytywnych.

sieć neuronowa

#fundamentals

Model zawierający co najmniej 1 ukrytą warstwę. Głęboka sieć neuronowa to rodzaj sieci neuronowej, która zawiera więcej niż jedną warstwę ukrytą. Na przykład ten diagram przedstawia głęboką sieć neuronową z 2 ukrytymi warstwami.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową.

Każdy neuron w sieci neuronowej łączy się ze wszystkimi węzłami na następnej warstwie. Na przykład na diagramie powyżej widać, że każdy z 3 neuronów na pierwszej warstwie ukrytej jest osobno połączony z obu neuronami na drugiej warstwie ukrytej.

Sieci neuronowe zaimplementowane na komputerach są czasami nazywane sztucznymi sieciami neuronowymi, aby odróżnić je od sieci neuronowych występujących w mózgu i innych układach nerwowych.

Niektóre sieci neuronowe mogą naśladować bardzo złożone zależności nieliniowe między różnymi cechami a etykietą.

Zobacz też splotową sieć neuronową i powtarzalną sieć neuronową.

Więcej informacji znajdziesz w sekcji Sieci neuronowe w szybkim szkoleniu z uczenia maszynowego.

neuron

#fundamentals

W uczeniu maszynowym: odrębna jednostka w warstwie ukrytej sieci neuronowej. Każdy neuron wykonuje tę czynność dwuetapową:

Oblicza sumę ważona wartości wejściowych pomnożoną przez odpowiadające im wagi.
Przekazuje sumę ważoną jako dane wejściowe do funkcji aktywacyjnej.

Neuron w pierwszym ukrytym warstwie przyjmuje dane wejściowe z wartości cech w warstwie wejściowej. Neuron w dowolnej warstwie ukrytej poza pierwszą przyjmuje dane wejściowe od neuronów w poprzedniej warstwie ukrytej. Na przykład neuron w 2. warstwie ukrytej przyjmuje dane wejściowe od neuronów w 1. warstwie ukrytej.

Na ilustracji poniżej zaznaczono 2 neurony i ich wejścia.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową. Wyróżniono 2 neurony: jeden na pierwszej ukrytej warstwie i jeden na drugiej ukrytej warstwie. Zaznaczony neuron w pierwszej warstwie ukrytej otrzymuje dane wejściowe z obu cech na warstwie wejściowej. Wyróżniony neuron w 2. warstwie ukrytej otrzymuje dane wejściowe od każdego z 3 neuronów w 1. warstwie ukrytej.

Neuron w sieci neuronowej naśladuje działanie neuronów w mózgu i innych częściach układu nerwowego.

węzeł (sieć neuronowa)

#fundamentals

Neuron w ukrytej warstwie.

Więcej informacji znajdziesz w sekcji Sieci neuronowe w szybkim szkoleniu z uczenia maszynowego.

nonlinear

#fundamentals

Związek między co najmniej 2 zmiennymi, którego nie można przedstawić wyłącznie za pomocą dodawania i mnożenia. Linearna relacja może być przedstawiona w postaci linii, a nielinearna nie może być przedstawiona w postaci linii. Rozważmy na przykład 2 modele, z których każdy łączy jedną cechę z jedną etykietą. Model po lewej stronie jest liniowy, a model po prawej – nieliniowy:

2 wykresy. Jeden wykres jest linią, więc jest to zależność liniowa.
Drugi wykres jest krzywą, więc jest to związek nieliniowy.

W Kursie intensywnym z uczenia maszynowego zapoznaj się z artykułem Neural networks: Nodes and hidden layers (Neural networks: Nodes and hidden layers), aby eksperymentować z różnymi rodzajami funkcji nieliniowych.

niestałość

#fundamentals

Cecha, której wartości zmieniają się w ramach co najmniej 1 wymiaru, zwykle czasu. Oto przykłady niestałości:

Liczba strojów kąpielowych sprzedawanych w danym sklepie zmienia się w zależności od sezonu.
Ilość danego owocu zebranego w danym regionie przez większość roku wynosi 0, ale w krótkim okresie jest duża.
Z powodu zmian klimatu średnie temperatury roczne się zmieniają.

W odróżnieniu od stałości.

normalizacja

#fundamentals

Ogólnie rzecz biorąc, jest to proces konwertowania rzeczywistego zakresu wartości zmiennej na standardowy zakres wartości, np.:

-1 do +1
Od 0 do 1
Z-wyniki (w przybliżeniu od -3 do +3)

Załóżmy na przykład, że rzeczywisty zakres wartości danej cechy wynosi od 800 do 2400. W ramach tworzenia cech możesz znormalizować rzeczywiste wartości do standardowego zakresu, np. –1 do +1.

Normalizacja to typowe zadanie w ramach tworzenia cech. Modele zwykle trenują szybciej (i wydają lepsze prognozy), gdy każda cecha liczbowa w wektorze cech ma mniej więcej ten sam zakres.

Zobacz też normalizację według wyniku z testu Z.

Więcej informacji znajdziesz w sekcji Dane liczbowe: normalizacja z Kursu intensywnego na temat uczenia maszynowego.

dane liczbowe

#fundamentals

Cechy reprezentowane jako liczby całkowite lub rzeczywiste. Na przykład model wyceny domu prawdopodobnie przedstawia wielkość domu (w stopach kwadratowych lub metrach kwadratowych) jako dane liczbowe. Przedstawienie cechy jako danych liczbowych wskazuje, że wartości tej cechy mają matematyczny związek z etykietą. Oznacza to, że liczba metrów kwadratowych domu prawdopodobnie ma pewien związek matematyczny z wartością domu.

Nie wszystkie dane całkowite powinny być reprezentowane jako dane liczbowe. Na przykład kody pocztowe w niektórych częściach świata są liczbami całkowitymi, ale nie należy ich przedstawiać w modelach jako danych liczbowych. Dzieje się tak, ponieważ kod pocztowy 20000 nie jest dwa razy (ani o połowę) mniej skuteczny niż kod pocztowy 10000. Co więcej, chociaż różne kody pocztowe są powiązane z różnymi wartościami nieruchomości, nie możemy zakładać, że wartości nieruchomości w kodach pocztowych 20000 są dwukrotnie wyższe niż wartości nieruchomości w kodach pocztowych 10000. Kody pocztowe powinny być zamiast tego reprezentowane jako dane kategoryczne.

Cechy liczbowe są czasami nazywane ciągłymi cechami.

Więcej informacji znajdziesz w sekcji Praca z danymi liczbowymi w Kursie intensywnym z machine learningu.

O

offline

#fundamentals

Synonim statycznej.

wnioskowanie offline

#fundamentals

Proces generowania przez model zbioru prognoz, a następnie zapisywania ich w pamięci podręcznej. Aplikacje mogą wtedy korzystać z wywnioskowanej prognozy z pamięci podręcznej zamiast ponownie uruchamiać model.

Weźmy na przykład model, który generuje prognozy pogody lokalne (prognozy) co 4 godziny. Po każdej sesji trenowania system przechowuje w pamięci podręcznej wszystkie lokalne prognozy pogody. Aplikacje pogodowe pobierają prognozy z pamięci podręcznej.

Wnioskowanie offline jest też nazywane wnioskowaniem statycznym.

W przeciwieństwie do wniosków online.

Więcej informacji znajdziesz w sekcji Produkcyjne systemy ML: statystyczne i dynamiczne wnioskowanie z Kursu intensywnego z uczenia maszynowego.

kodowanie 1 z n

#fundamentals

Przedstawianie danych kategorialnych jako wektora, w którym:

Jeden element ma wartość 1.
Wszystkie pozostałe elementy mają wartość 0.

Kodowanie jednoelementowe jest często używane do reprezentowania ciągów znaków lub identyfikatorów, które mają skończony zbiór możliwych wartości. Załóżmy na przykład, że dana cecha kategorialna o nazwie Scandinavia ma 5 możliwych wartości:

„Dania”
„Szwecja”
„Norwegia”
„Finlandia”
„Islandia”

Kodowanie one-hot może reprezentować każdą z tych 5 wartości w ten sposób:

kraj	Wektor
„Dania”	1	0	0	0	0
„Szwecja”	0	1	0	0	0
„Norwegia”	0	0	1	0	0
„Finlandia”	0	0	0	1	0
„Islandia”	0	0	0	0	1

Dzięki kodowaniu one-hot model może uczyć się różnych połączeń na podstawie każdego z tych 5 krajów.

Reprezentowanie cechy jako danych liczbowych to alternatywa dla kodowania 1 z n. Niestety reprezentowanie krajów skandynawskich za pomocą liczb nie jest dobrym pomysłem. Weź pod uwagę tę postać liczbową:

„Dania” to 0
„Sweden” to 1
„Norway” to 2
„Finlandia” to 3
„Islandia” to 4

W przypadku kodowania liczbowego model interpretuje liczby w sposób matematyczny i próbuje się na nich trenować. Jednak Islandia nie jest w rzeczywistości dwa razy większa (ani półtora raza mniejsza) od Norwegii, więc model doszedłby do dziwnych wniosków.

Więcej informacji znajdziesz w artykule Dane kategoryczne: słownik i kodowanie jednowymiarowe z cyklu samouczków z machine learningu.

jeden na wszystkich

#fundamentals

Rozwiązanie problemu klasyfikacji z N klasami składa się z N oddzielnych klasyfikatorów binarnych – po jednym dla każdego możliwego wyniku. Na przykład w przypadku modelu, który klasyfikuje przykłady jako zwierzęta, warzywa lub minerały, rozwiązanie typu jeden-przeciwko-wszystkim zapewniłoby te 3 osobne klasyfikatory binarne:

zwierzę vs. nie-zwierzę
warzywa a nie-warzywa
mineral versus not mineral

online

#fundamentals

Synonim dynamiczny.

wnioskowanie online

#fundamentals

generowanie prognoz na żądanie. Załóżmy, że aplikacja przekazuje dane wejściowe do modelu i wysyła żądanie prognozy. System korzystający z wnioskowania online odpowiada na żądanie, uruchamiając model (i zwracając prognozę do aplikacji).

W przeciwieństwie do offline inference.

Więcej informacji znajdziesz w sekcji Produkcyjne systemy ML: statystyczne i dynamiczne wnioskowanie z Kursu intensywnego z uczenia maszynowego.

warstwa wyjściowa

#fundamentals

„Ostateczna” warstwa sieci neuronowej. Warstwy wyjściowe zawierają prognozę.

Ilustracja poniżej przedstawia małą głęboką sieć neuronową z warstwą wejściową, 2 warstwami ukrytymi i warstwą wyjściową:

nadmierne dopasowanie

#fundamentals

Tworzenie modelu, który jest tak dopasowany do danych treningowych, że nie jest w stanie generować prawidłowych prognoz na podstawie nowych danych.

Regulizacja może ograniczyć nadmierne dopasowanie. Trenowanie na dużym i zróżnicowanym zbiorze treningowym może też zmniejszyć nadmierne dopasowanie.

Kliknij ikonę, aby dodać dodatkowe notatki.

Nadmierne dopasowanie to jak ścisłe trzymanie się zaleceń tylko ulubionego nauczyciela. Prawdopodobnie odniesiesz sukces na zajęciach prowadzonych przez tego nauczyciela, ale możesz „przetrenować” swoje umiejętności i nie odnieść sukcesu na innych zajęciach. Dzięki radom różnych nauczycieli lepiej dostosujesz się do nowych sytuacji.

Więcej informacji znajdziesz w sekcji nadmierne dopasowanie w Szybkim szkoleniu z uczenia maszynowego.

P

pandy

#fundamentals

Interfejs API do analizy danych ukierunkowanej na kolumny, zbudowany na bazie biblioteki numpy. Wiele platform uczenia maszynowego, w tym TensorFlow, obsługuje struktury danych pandas jako dane wejściowe. Więcej informacji znajdziesz w dokumentacji pandas.

parametr

#fundamentals

wagi i błędy, których model uczy się podczas treningu. Na przykład w przypadku modelu regresji liniowej parametry to współczynnik błędu (b) i wszystkie wagi (w₁, w₂ itd.) w formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Natomiast hiperparametry to wartości, które Ty (lub usługa dostrajania hiperparametrów) podajesz do modelu. Przykładem hiperparametru jest tempo uczenia się.

klasa wyników pozytywnych

#fundamentals

#Dane

Zajęcia, których dotyczy test.

Na przykład klasa pozytywna w modelu dotyczącym raka może być „guz”. Klasa pozytywna w modelu klasyfikacji e-maila może być „spamem”.

Porównaj z klasą wyników negatywnych.

Kliknij ikonę, aby dodać dodatkowe notatki.

Termin poziom pozytywny może być mylący, ponieważ „pozytywny” wynik wielu testów jest często niepożądany. Na przykład klasa pozytywna w przypadku wielu testów medycznych odpowiada guzom lub chorobom. Ogólnie rzecz biorąc, lekarz powinien powiedzieć: „Gratulacje! Wyniki testu były negatywne”. Niezależnie od tego klasa pozytywna to zdarzenie, które test próbuje znaleźć.

Testujesz jednocześnie pozytywne i negatywne klasy.

przetwarzanie końcowe

#responsible

#fundamentals

Dostosowywanie danych wyjściowych modelu po jego uruchomieniu. Przetwarzanie wsteczne może służyć do egzekwowania ograniczeń sprawiedliwości bez modyfikowania samych modeli.

Można na przykład zastosować przetwarzanie wsteczne do klasyfikatora binarnego, ustawiając wartość progową klasyfikacji, która zapewnia równość szans w przypadku danego atrybutu. W tym celu należy sprawdzić, czy wartość TPR jest taka sama dla wszystkich wartości tego atrybutu.

prognoza

#fundamentals

Dane wyjściowe modelu. Na przykład:

Prognoza modelu klasyfikacji binarnej to albo klasa pozytywna, albo negatywna.
Prognoza modelu klasyfikacji wieloklasowej to jedna klasa.
Prognoza modelu regresji liniowej jest liczbą.

etykiety proxy

#fundamentals

Dane używane do przybliżonego określania etykiet, które nie są dostępne bezpośrednio w zbiorze danych.

Załóżmy na przykład, że musisz wytrenować model do prognozowania poziomu stresu pracowników. Twój zbiór danych zawiera wiele funkcji predykcyjnych, ale nie zawiera etykiety o nazwie poziom stresu. Nieustraszony, wybierasz „wypadki w miejscu pracy” jako etykietę zastępczą dla poziomu stresu. W końcu pracownicy pod wpływem silnego stresu mają więcej wypadków niż pracownicy zachowujący spokój. Czy tak jest? Może wypadki przy pracy faktycznie wzrastają i maleją z różnych powodów.

Drugi przykład: zakładamy, że chcesz, aby etykietą logiczną w przypadku Twojego zbioru danych była wartość czy pada deszcz?, ale Twój zbiór danych nie zawiera danych o opadach. Jeśli masz zdjęcia, możesz użyć zdjęć przedstawiających osoby z parasolami jako etykiety zastępczej dla pytania czy pada deszcz?. Czy to odpowiednia etykieta zastępcza? Być może, ale w niektórych kulturach ludzie częściej noszą parasole, aby chronić się przed słońcem, a nie przed deszczem.

Etykiety zastępcze są często niedoskonałe. Jeśli to możliwe, wybieraj etykiety rzeczywiste zamiast etykiet zastępczych. Jeśli jednak nie ma etykiety, wybierz etykietę zastępczą bardzo ostrożnie, wybierając tę, która jest najmniej zła.

Więcej informacji znajdziesz w sekcji Zbiory danych: etykiety w szybkim szkoleniu z uczenia maszynowego.

R

RAG

#fundamentals

Skrót od generowanie wspomagane wyszukiwaniem.

weryfikator

#fundamentals

Osoba, która tworzy etykiety dla przykładów. „Anotantorzy” to inna nazwa oceniających.

Więcej informacji znajdziesz w sekcji Dane kategoryczne: typowe problemy w Kursie intensywnym z systemów uczących się.

Wyprostowana jednostka liniowa (ReLU)

#fundamentals

funkcja aktywacji o takim działaniu:

Jeśli dane wejściowe są ujemne lub równe 0, dane wyjściowe mają wartość 0.
Jeśli dane wejściowe są dodatnie, wynik jest równy danym wejściowym.

Na przykład:

Jeśli wartość wejściowa to -3, wynik to 0.
Jeśli dane wejściowe to +3, wynik to 3,0.

Oto wykres funkcji ReLU:

ReLU jest bardzo popularną funkcją aktywacji. Pomimo prostego działania ReLU umożliwia sieci neuronowej uczenie się nieliniowych relacji między cechami a oznacznikiem.

model regresji

#fundamentals

Nieformalnie: model, który generuje prognozę liczbową. (model klasyfikacji generuje natomiast prognozę klasy). Na przykład wszystkie modele regresji:

Model, który prognozuje wartość domu w euro,np. 423 000.
Model, który prognozuje długość życia danego drzewa w latach, na przykład 23,2.
Model, który prognozuje ilość opadów w calach w okresie najbliższych 6 godzin w danym mieście, np.0,18.

Dostępne są 2 popularne typy modeli regresji:

Regresja liniowa, która znajduje linię, która najlepiej dopasowuje wartości etykiet do cech.
Regresja logistyczna, która generuje prawdopodobieństwo z przedziału od 0,0 do 1,0, które system zwykle mapuje na prognozę klasy.

Nie każdy model, który generuje prognozy liczbowe, jest modelem regresji. W niektórych przypadkach prognoza liczbowa to tak naprawdę model klasyfikacji, który ma nazwy klas w postaci liczb. Na przykład model, który prognozuje liczbowy kod pocztowy, jest modelem klasyfikacji, a nie regresji.

regularyzacja

#fundamentals

Każdy mechanizm, który zmniejsza nadmierne dopasowanie. Popularne typy regularyzacji:

Regulacja L₁
L₂ uogólnianie
regularyzacja polegająca na pomijaniu
wczesne zatrzymywanie (nie jest to formalna metoda regularyzacji, ale może skutecznie ograniczyć nadmierne dopasowanie);

Regularyzację można też zdefiniować jako karę za złożoność modelu.

Kliknij ikonę, aby dodać dodatkowe notatki.

Regularyzacja jest nieintuicyjna. Zwiększanie regularyzacji zwykle zwiększa stratę podczas trenowania, co jest mylące, ponieważ celem jest przecież minimalizowanie straty podczas trenowania.

Nie. Celem nie jest minimalizowanie straty podczas trenowania. Celem jest uzyskiwanie doskonałych wyników w przypadku przykładów rzeczywistych. Co ciekawe, mimo że zwiększanie regularyzacji zwiększa stratę treningową, zwykle pomaga modelom w lepszym przewidywaniu przykładów z rzeczywistego świata.

Więcej informacji znajdziesz w sekcji Nadmiarowe dopasowanie: złożoność modelu z Kursu intensywnego na temat uczenia maszynowego.

współczynnik regularyzacji

#fundamentals

Liczba określająca względne znaczenie regularyzacji podczas trenowania. Zwiększenie współczynnika regularyzacji zmniejsza nadmierne dopasowanie, ale może też zmniejszyć zdolność modelu do przewidywania. Z kolei zmniejszenie lub pominięcie współczynnika regularyzacji zwiększa ryzyko przetrenowania.

Aby zobaczyć obliczenia, kliknij ikonę.

Współczynnik regularyzacji jest zwykle oznaczany grecką literą lambda. Z poniższego uproszczonego równania strat widać wpływ parametru lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

gdzie regularyzacja to dowolny mechanizm regularyzacji, w tym:

Regulacja L₁
L₂ uogólnianie

Aby dowiedzieć się więcej, zapoznaj się z tematem nadmierne dopasowanie: regularyzacja L2 w szybkim szkoleniu z uczenia maszynowego.

ReLU

#fundamentals

Skrót od Rectified Linear Unit.

generowanie wspomagane wyszukiwaniem (RAG)

#fundamentals

Technika polepszania jakości danych wyjściowych dużego modelu językowego (LLM) poprzez ich powiązanie ze źródłami wiedzy wyodrębnionymi po wytrenowaniu modelu. RAG zwiększa dokładność odpowiedzi LLM, zapewniając wytrenowanemu modelowi dostęp do informacji pobranych z zaufanych baz wiedzy lub dokumentów.

Typowe powody korzystania z generowania wspomaganego przez wyszukiwanie to:

Zwiększenie zgodności z faktami odpowiedzi generowanych przez model.
Dawanie modelowi dostępu do wiedzy, na której nie był trenowany.
Zmiana wiedzy, której używa model.
Umożliwienie modelowi cytowania źródeł.

Załóżmy na przykład, że aplikacja do chemii korzysta z interfejsu PaLM API do generowania podsumowań dotyczących zapytań użytkowników. Gdy backend aplikacji otrzyma zapytanie, wykona te czynności:

Wyszukuje („pobiera”) dane pasujące do zapytania użytkownika.
Dodaje („rozszerza”) odpowiednie dane chemiczne do zapytania użytkownika.
Instrukcja dla modelu LLM, aby utworzył podsumowanie na podstawie dołączonych danych.

Krzywa ROC (charakterystyka operacyjna odbiornika)

#fundamentals

#Dane

Wykres przedstawiający wynik prawdziwie pozytywny w porównaniu z wynikiem fałszywie pozytywnym dla różnych progów klasyfikacji w przypadku klasyfikacji binarnej.

Kształt krzywej ROC sugeruje, że model klasyfikacji binarnej jest w stanie oddzielać klasy pozytywne od negatywnych. Załóżmy na przykład, że binarny model klasyfikacji doskonale oddziela wszystkie klasy negatywne od wszystkich klas pozytywnych:

Linia liczb z 8 pozytywnymi przykładami po prawej stronie i 7 ujemnymi po lewej stronie.

Krzywa ROC dla poprzedniego modelu wygląda tak:

Krzywa ROC Na osi X jest współczynnik wyników fałszywie pozytywnych, a na osi Y współczynnik wyników prawdziwie pozytywnych. Krzywa ma kształt odwróconej litery L. Krzywa zaczyna się w punkcie (0,0) i prosto wznosi się do punktu (0,1). Następnie krzywa przechodzi z (0,0,1,0) do (1,0,1,0).

Natomiast na ilustracji poniżej pokazano nieobrobione wartości regresji logistycznej w przypadku kiepskiego modelu, który w ogóle nie potrafi odróżnić klas negatywnych od klas pozytywnych:

Linia liczbowa z pozytywnymi przykładami i negatywnymi klasami
całkowicie pomieszanymi.

Krzywa ROC dla tego modelu wygląda tak:

Krzywa ROC, która jest w istocie linią prostą od (0,0) do (1,1).

W prawdziwym życiu większość modeli klasyfikacji binarnej w pewnym stopniu oddziela klasy pozytywne i negatywne, ale zwykle nie robi tego w doskonały sposób. Krzywa ROC zwykle znajduje się gdzieś pomiędzy tymi dwoma skrajnościami:

Krzywa ROC Na osi X jest współczynnik wyników fałszywie pozytywnych, a na osi Y współczynnik wyników prawdziwie pozytywnych. Krzywa ROC jest przybliżeniem krzywej wstrząsanej przechodzącej przez kierunki kompasu od zachodu do północy.

Punkt na krzywej ROC najbliższy punktowi (0,0,1,0) teoretycznie wskazuje idealny próg klasyfikacji. Wybór optymalnego progu klasyfikacji zależy jednak od kilku innych rzeczywistych problemów. Może na przykład okazać się, że fałszywie wyniki negatywne są znacznie bardziej uciążliwe niż fałszywie pozytywne.

Dane liczbowe o nazwie AUC podsumowują krzywą ROC do jednej wartości zmiennoprzecinkowej.

Średnia kwadratowa błędów (RMSE)

#fundamentals

#Dane

Pierwiastek kwadratowy z błędu średniokwadratowego.

S

funkcja sigmoid

#fundamentals

Funkcja matematyczna, która „ściska” wartość wejściową w ograniczonym zakresie, zazwyczaj od 0 do 1 lub od –1 do +1. Oznacza to, że możesz podać dowolną liczbę (2, milion, minus miliard itd.) jako argument funkcji sigmoidalnej, a wynik nadal będzie mieścił się w zakresie ograniczonym. Wykres funkcji aktywacji sigmoidalnej wygląda tak:

Funkcja sigmoidalna ma wiele zastosowań w uczeniu maszynowym, m.in.:

Konwertowanie nieprzetworzonych danych wyjściowych modelu regresji logistycznej lub regresji wielomianowej na prawdopodobieństwo.
W niektórych sieciach neuronowych pełni funkcję funkcji aktywacji.

Aby zobaczyć obliczenia, kliknij ikonę.

Funkcja sigmoidalna dla liczby wejściowej x ma postać:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

W uczeniu maszynowym x to zwykle suma ważona.

funkcja softmax

#fundamentals

Funkcja określająca prawdopodobieństwa dla każdej możliwej klasy w modelu klasyfikacji wieloklasowej. Prawdopodobieństwo musi łącznie wynosić dokładnie 1,0. Na przykład w tabeli poniżej widać, jak softmax rozkłada różne prawdopodobieństwa:

Obraz jest...	Prawdopodobieństwo
pies	0,85
kot	0,13
koń	0,02

Funkcja softmax jest też nazywana pełną funkcją softmax.

Porównaj z próbkowaniem kandydatów.

Aby zobaczyć obliczenia, kliknij ikonę.

Równanie softmax ma postać:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

gdzie:

$\sigma_i$ to wektor wyjściowy. Każdy element wektora wyjściowego określa prawdopodobieństwo tego elementu. Suma wszystkich elementów wektora wyjściowego wynosi 1,0. Wektor wyjściowy zawiera taką samą liczbę elementów jak wektor wejściowy, czyli $z$.
$z$ to wektor wejściowy. Każdy element wektora wejściowego zawiera wartość zmiennoprzecinkową.
$K$ to liczba elementów wektora wejściowego (i wyjściowego).

Załóżmy na przykład, że wektor wejściowy ma postać:

[1.2, 2.5, 1.8]

Dlatego softmax oblicza mianownik w ten sposób:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Dlatego prawdopodobieństwo softmax dla każdego elementu wynosi:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Wektor wyjściowy ma więc postać:

$$\sigma = [0.154, 0.565, 0.281]$$

Suma 3 elementów w $\sigma$ wynosi 1,0. Uff...

Więcej informacji znajdziesz w artykule Neural networks: Multi-class classification (Neural networks: multi-class classification) z cyklu Crash Course on Machine Learning.

rozproszona cecha

#language

#fundamentals

Cecha, której wartości są w większości równe 0 lub puste. Na przykład cecha zawierająca pojedynczą wartość 1 i milion wartości 0 jest rzadka. Natomiast gęsta cecha ma wartości, które w większości nie są równe 0 ani puste.

W uczeniu maszynowym zaskakująco wiele cech jest cech rzadkich. Funkcje kategorialne są zwykle rzadkie. Na przykład z 300 możliwych gatunków drzew w lesie pojedynczy przykład może zidentyfikować tylko klon. Albo spośród milionów filmów w bibliotece filmów jeden może być oznaczony jako „Casablanca”.

W modelu rzadkie cechy są zwykle reprezentowane za pomocą kodowania 1 z n. Jeśli kodowanie 1 z n jest duże, możesz umieścić na nim warstwę wektora dystrybucyjnego, aby zwiększyć wydajność.

rozproszona reprezentacja

#language

#fundamentals

przechowywanie tylko pozycji elementów o wartości niezerowej w funkcji rzadkiej;

Załóżmy na przykład, że zmienna jakościowa o nazwie species identyfikuje 36 gatunków drzew w danym lesie. Załóżmy też, że każdy przykład dotyczy tylko jednego gatunku.

W każdym przykładzie gatunek drzewa można reprezentować za pomocą wektora typu one-hot. Wektor jednoelementowy zawierałby 1 element 1 (reprezentujący dany gatunek drzewa w tym przykładzie) i 35 elementów 0 (reprezentujących 35 gatunków drzew nie w tym przykładzie). Reprezentacja jednoelementowa maple może wyglądać tak:

Wektor, w którym pozycje 0–23 mają wartość 0, pozycja 24 ma wartość 1, a pozycje 25–35 mają wartość 0.

Inną możliwością jest skąpa reprezentacja, która po prostu wskazuje pozycję danego gatunku. Jeśli maple znajduje się w pozycji 24, rzadka reprezentacja maple będzie wyglądać tak:

Zwróć uwagę, że rzadka reprezentacja jest znacznie bardziej zwarta niż reprezentacja jednoelementowa.

Kliknij ikonę, aby wyświetlić nieco bardziej złożony przykład.

Załóżmy, że każdy przykład w Twoim modelu musi reprezentować słowa w zdarzeniu w języku angielskim (ale nie ich kolejność). Język angielski składa się z około 170 tys. słów, więc jest to cecha kategorialna z około 170 tys. elementów. Większość zdań w języku angielskim używa bardzo małej części tych 170 tys. słów, więc zbiór słów w pojedynczym przykładzie z pewnością będzie zawierał rzadkie dane.

Rozważ zdanie:

My dog is a great dog

Do reprezentowania słów w tym zdaniu możesz użyć wariantu wektora one-hot. W tym wariancie wiele komórek wektora może zawierać wartość różną od zera. Ponadto w tym wariancie komórka może zawierać liczbę całkowitą inną niż 1. Chociaż słowa „mój”, „jest”, „a” i „świetny” występują tylko raz w tym zdaniu, słowo „pies” występuje 2 razy. Użycie tej wersji wektorów typu one-hot do reprezentowania słów w tym zdaniu daje wektor o 170 tys. elementach:

Rozrzedzielcza reprezentacja tego samego zdania wyglądałaby tak:

Jeśli nie masz pewności, kliknij ikonę.

Termin „rzadka reprezentacja” wprowadza wiele osób w konsternację, ponieważ sama rzadka reprezentacja nie jest rzadkim wektorem. Rozrzeźbiona reprezentacja jest w istocie gęstą reprezentacją rozrzeźbionego wektora. Synonim reprezentacja indeksu jest nieco bardziej zrozumiały niż „reprezentacja rzadka”.

Więcej informacji znajdziesz w sekcji Praca z danymi kategorialnymi w Kursie intensywnym z systemów uczących się.

wektor rozproszony

#fundamentals

Wektor, którego wartości są w większości równe 0. Zobacz też tematy rzadkie i rzadkość.

strata kwadratowa

#fundamentals

#Dane

Synonim utraty poziomu ₂.

statyczne

#fundamentals

coś, co jest wykonywane raz, a nie stale; Terminy statyczny i offline są synonimami. Oto najczęstsze zastosowania statycznej i offlineowej pamięci w uczeniu maszynowym:

Model statyczny (lub model offline) to model wytrenowany raz, a następnie używany przez pewien czas.
Trenowanie statyczne (lub trenowanie offline) to proces trenowania modelu statycznego.
Wnioskowanie statyczne (lub wnioskowanie offline) to proces, w którym model generuje zbiorczy zestaw prognoz naraz.

Kontrast z dynamiczną.

wnioskowanie statyczne

#fundamentals

Synonim offline inference.

stacjonarność

#fundamentals

Cecha, której wartości nie zmieniają się w przypadku co najmniej 1 wymiaru, zwykle czasu. Na przykład cecha, której wartości są mniej więcej takie same w 2021 i 2023 roku, jest stacjonarna.

W rzeczywistych warunkach bardzo niewiele cechy wykazują stacjonarność. Nawet cechy kojarzone ze stabilnością (np. poziom morza) zmieniają się z czasem.

W odróżnieniu od niestacjonarności.

stochastyczny spadek wzdłuż gradientu (SGD),

#fundamentals

algorytm spadku gradientu, w którym rozmiar partii wynosi 1; Innymi słowy, SGD trenuje na podstawie pojedynczego przykładu wybranego losowo z równą częstotliwością z zbioru treningowego.

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

nadzorowane uczenie maszynowe

#fundamentals

Trenowanie modelu na podstawie cech i odpowiadających im etykiet. Uczenie nadzorowane jest podobne do uczenia się danego tematu przez studiowanie zestawu pytań i odpowiednich odpowiedzi. Po opanowaniu mapowania pytań i odpowiedzi uczeń może udzielać odpowiedzi na nowe (nigdy wcześniej nierozwiązane) pytania dotyczące tego samego tematu.

Porównaj z nienadzorowanym uczeniem maszynowym.

Więcej informacji znajdziesz w sekcji Nauczanie nadzorowane w Kursie wprowadzającym do ML.

funkcja syntetyczna

#fundamentals

Cecha, która nie występuje w śród danych wejściowych, ale jest tworzona z jednego lub większej liczby tych danych. Metody tworzenia cech syntetycznych:

Grupowanie ciągłej cechy w zakresy.
Tworzenie grupy cech.
mnożenie (lub dzielenie) jednej wartości cechy przez inne wartości cech lub przez siebie. Jeśli na przykład a i b to funkcje wejściowe, przykładami funkcji syntetycznych są:
- ab
- a²
Zastosuj funkcję transcendentalną do wartości cechy. Jeśli np. c to cecha wejściowa, przykładami cech syntetycznych są:
- sin(c)
- ln(c)

Cechy utworzone wyłącznie przez normalizację lub skalowanie nie są uważane za cechy syntetyczne.

T

test strat

#fundamentals

#Dane

Dane przedstawiające utratę modelu na zbiorze testowym. Podczas tworzenia modelu zwykle staramy się zminimalizować straty testowe. Dzieje się tak, ponieważ niski wskaźnik utraty w trakcie testu jest silniejszym sygnałem jakości niż niski wskaźnik utraty w trakcie treningu czy niski wskaźnik utraty w trakcie walidacji.

Duża różnica między stratą na etapie testowania a stratą na etapie trenowania lub walidacji może oznaczać, że należy zwiększyć stopień regularyzacji.

szkolenie

#fundamentals

Proces określania optymalnych parametrów (wag i uprzedzeń) modelu. Podczas trenowania system odczytuje przykłady i stopniowo dostosowuje parametry. Podczas trenowania każdy przykład jest używany od kilku do miliardów razy.

Więcej informacji znajdziesz w sekcji Nauczanie nadzorowane w Kursie wprowadzającym do ML.

strata podczas trenowania

#fundamentals

#Dane

Dane przedstawiające stratę modelu podczas konkretnej iteracji trenowania. Załóżmy na przykład, że funkcja utraty to średnia kwadratowa błędu. Strata podczas trenowania (średni kwadratowy błąd) w 10.itracji wynosi 2,2, a w 100.itracji – 1,9.

Krzywa strat przedstawia straty podczas trenowania w zależności od liczby iteracji. Krzywa strat zawiera te wskazówki dotyczące trenowania:

Spadek oznacza, że model się poprawia.
Wzrost nachylenia oznacza, że model staje się gorszy.
Płaski spadek oznacza, że model osiągnął konwergencję.

Na przykład z tego nieco uproszczonego krzywolinijnego wykresu strat:

ostry spadek podczas początkowych iteracji, który oznacza szybkie ulepszanie modelu;
stopniowo spłaszczający się (ale nadal skierowany w dół) spadek aż do końca trenowania, co oznacza dalsze polepszanie modelu w trochę wolniejszym tempie niż podczas początkowych iteracji;
Płaski spadek pod koniec treningu, który sugeruje konwergencję.

Wykres straty trenowania w zależności od iteracji. Krzywa strat zaczyna się od stromego spadku. Nachylenie stopniowo się zmniejsza, aż osiągnie wartość zero.

Strata na etapie treningu jest ważna, ale warto też zapoznać się z generalizacją.

zniekształcenie między trenowaniem a zastosowaniem praktycznym

#fundamentals

Różnica między wydajnością modelu podczas treningu a jego wydajnością podczas zastosowania.

zbiór treningowy

#fundamentals

Podzbiór zbioru danych używany do trenowania modelu.

Tradycyjnie przykłady w zbiorze danych dzieli się na 3 odrębne podzbiory:

Najlepiej, aby każdy przykład w zbiorze danych należał tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie może należeć zarówno do zbioru treningowego, jak i do zbioru do weryfikacji.

Więcej informacji znajdziesz w artykule Zbiory danych: dzielenie pierwotnego zbioru danych w sekcji Szybkie szkolenie z uczenia maszynowego.

prawdziwie negatywny (PN).

#fundamentals

#Dane

Przykład, w którym model prawidłowo prognozuje klasę negatywną. Na przykład model wnioskuje, że dana wiadomość e-mail nie jest spamem, i faktycznie tak jest.

prawdziwie pozytywny (TP).

#fundamentals

#Dane

Przykład, w którym model prawidłowo prognozuje klasę pozytywną. Na przykład model wnioskuje, że dana wiadomość e-mail jest spamem, i faktycznie jest to spam.

współczynnik wyników prawdziwie pozytywnych (TPR);

#fundamentals

#Dane

Synonim przypomnienia. Czyli:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Współczynnik wyników prawdziwie pozytywnych to oś Y na krzywej ROC.

U

niedopasowanie

#fundamentals

wygenerowanie modelu o słabych zdolnościach prognostycznych, ponieważ nie uchwycił on w pełni złożoności danych treningowych; Niedopasowanie może być spowodowane wieloma problemami, w tym:

Szkolenie na nieprawidłowym zestawie cech.
Trenowanie przez zbyt małą liczbę epok lub przy zbyt niskiej szybkości uczenia się.
Trenowanie z zbyt wysoką stopą regularyzacji.
zbyt mało ukrytych warstw w głębokiej sieci neuronowej;

Więcej informacji znajdziesz w sekcji nadmierne dopasowanie w Szybkim szkoleniu z uczenia maszynowego.

przykład bez etykiety

#fundamentals

Przykład zawierający funkcje, ale bez etykiety. Na przykład w tabeli poniżej znajdują się 3 bez etykiet przykłady z modelu wyceny domu, z których każdy zawiera 3 cechy, ale nie ma wartości domu:

Liczba sypialni	Liczba łazienek	Wiek domu
3	2	15
2	1	72
4	2	34

W nadzorowanym uczeniu maszynowym modele są trenowane na przykładach z oznacznikami i wydają prognozy na podstawie przykładów bez oznaczeń.

W uczeniu częściowo nadzorowanym i nienadzorowanym podczas trenowania używa się przykładów bez etykiet.

Porównaj przykład bez etykiety z przykładem z etykietą.

nienadzorowane uczenie maszynowe

#clustering

#fundamentals

Trenowanie modelu w celu znajdowania wzorców w zbiorze danych, zwykle zbiorze danych bez etykiet.

Najczęstszym zastosowaniem uczenia maszynowego nienadzorowanego jest grupowanie danych w grupy podobnych przykładów. Na przykład algorytm uczenia maszynowego bez nadzoru może grupować utwory na podstawie różnych właściwości muzyki. Uzyskane klastry mogą stać się danymi wejściowymi dla innych algorytmów uczenia maszynowego (np. dla usługi rekomendacji muzycznej). Grupowanie może być przydatne, gdy przydatnych etykiet jest niewiele lub ich brak. Na przykład w przypadku domen takich jak zapobieganie nadużyciom i oszustwo klastry mogą pomóc ludziom lepiej zrozumieć dane.

Porównaj z nadzorowanym uczeniem maszynowym.

Kliknij ikonę, aby dodać dodatkowe notatki.

Innym przykładem uczenia maszynowego bez nadzoru jest analiza głównych składowych (PCA). Na przykład zastosowanie analizy głównych składowych na zbiorze danych zawierającym zawartość milionów koszyków może ujawnić, że koszyki zawierające cytryny często zawierają też leki zobojętniające narządy pokarmowe.

Więcej informacji znajdziesz w części Czym są systemy uczące się? kursu Wprowadzenie do systemów uczących się.

V

walidacja

#fundamentals

Wstępna ocena jakości modelu. Walidacja sprawdza jakość prognoz modelu na podstawie zbioru danych do walidacji.

Zestaw weryfikacyjny różni się od zbioru treningowego, dlatego weryfikacja pomaga uniknąć nadmiernego dopasowania.

Ocena modelu na zbiorze walidacyjnym może być pierwszą rundą testowania, a ocena modelu na zbiorze testowym – drugą.

utrata walidacji

#fundamentals

#Dane

Dane przedstawiające stratę modelu na zbiorze testowym w określonej iteracji trenowania.

Zobacz też krzywą generalizacji.

zbiór walidacyjny

#fundamentals

Podzbiór zbioru danych, na którym przeprowadzana jest wstępna ocena wytrenowanego modelu. Zazwyczaj trenowany model ocenia się na zestawie walidacyjnym kilkakrotnie, zanim oceni się go na zestawie testowym.

Tradycyjnie przykłady w zbiorze danych dzieli się na 3 odrębne podzbiory:

Więcej informacji znajdziesz w artykule Zbiory danych: dzielenie pierwotnego zbioru danych w sekcji Szybkie szkolenie z uczenia maszynowego.

W

waga

#fundamentals

Wartość, którą model mnoży przez inną wartość. Trenowanie to proces określania idealnych wag modelu, a wyciąganie wniosków to proces wykorzystywania tych wag do prognozowania.

Kliknij ikonę, aby zobaczyć przykład wag w modelu liniowym.

Wyobraź sobie model liniowy z 2 cechami. Załóżmy, że podczas trenowania zostały określone następujące wagi (i uświadamianie):

Współczynnik b ma wartość 2,2.
Waga w₁ powiązana z jedną cechą wynosi 1, 5.
Waga w₂ powiązana z inną cechą wynosi 0, 4.

Wyobraź sobie teraz przykład z tymi wartościami cech:

Wartość jednej cechy, x₁, wynosi 6.
Wartość drugiej cechy, x₂, wynosi 10.

Ten model liniowy do generowania prognozy używa tej formuły:y'

$$y' = b + w_1x_1 + w_2x_2$$

Dlatego prognoza jest:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Jeśli waga ma wartość 0, odpowiadająca jej cecha nie wpływa na model. Jeśli na przykład w₁ = 0, wartość x₁ jest nieistotna.

Więcej informacji znajdziesz w sekcji Regresja liniowa w Szybkim szkoleniu z uczenia maszynowego.

suma ważona

#fundamentals

Suma wszystkich odpowiednich wartości wejściowych pomnożona przez ich wagi. Załóżmy na przykład, że odpowiednie dane wejściowe to:

wartość wejściowa	waga wejściowa
2	-1,3
-1	0,6
3	0,4

Suma ważona jest więc równa:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Waga jest argumentem wejściowym funkcji aktywacji.

Z

Standaryzacja Z

#fundamentals

Technika skalowania, która zastępuje nieprzetworzoną wartość cechy wartością zmiennoprzecinkową reprezentującą liczbę odchyleń standardowych od średniej tej cechy. Weźmy na przykład cechę o średniej 800 i odchyleniu standardowym 100. W tabeli poniżej pokazano, jak normalizacja wartości Z-score mapuje wartość pierwotną na wartość Z-score:

Wartość nieprzetworzona	Standaryzacja Z
800	0
950	+1,5
575	-2,25

Model uczenia maszynowego jest następnie trenowany na podstawie wartości Z-score tej cechy zamiast wartości surowych.

Więcej informacji znajdziesz w sekcji Dane liczbowe: normalizacja w Kursie intensywnym z systemów uczących się.

Słowniczek systemów uczących się: podstawy systemów uczących się Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

A

dokładność

Kliknij ikonę, aby uzyskać szczegółowe informacje o dokładności i zbiorach danych z niezrównoważonymi klasami.

funkcja aktywacji

Kliknij ikonę, aby zobaczyć przykład.

sztuczna inteligencja

AUC (obszar pod krzywą ROC)

Kliknij ikonę, aby dowiedzieć się więcej o zależności między krzywą AUC a krzywą ROC.

Kliknij ikonę, aby uzyskać bardziej formalną definicję AUC.

B

propagacja wsteczna

wsad

wielkość wsadu

uprzedzenie (etyka/sprawiedliwość)

uprzedzenie (matematyka) lub wyraz uprzedzenia

klasyfikacja binarna

skategoryzowanie w przedziałach

Kliknij ikonę, aby dodać dodatkowe notatki.

C

dane kategorialne

klasa

model klasyfikacji

próg klasyfikacji

Kliknij ikonę, aby dodać dodatkowe notatki.

klasyfikator

zbiór danych z niezrównoważonymi klasami

przycinanie

tablica pomyłek

ciągła funkcja

zbieżność

D

[struktura] DataFrame

zbiór danych

model głęboki

gęsta funkcja

głębokość

funkcja dyskretna

dynamiczny

model dynamiczny

E

wczesne zatrzymanie

Kliknij ikonę, aby dodać dodatkowe notatki.

warstwa wektora dystrybucyjnego,

początek epoki : epoka

przykład

F

wynik fałszywie negatywny (FN),

fałszywie pozytywny (FP).

współczynnik wyników fałszywie pozytywnych (FPR);

cecha [in context of machine learning]

funkcja krzyżowa

ekstrakcja wyróżników

Kliknij ikonę, aby wyświetlić dodatkowe informacje o TensorFlow.

zestaw cech

wektor cech

pętla informacji zwrotnych

G

uogólnianie

Kliknij ikonę, aby dodać dodatkowe notatki.

krzywa generalizacji

spadku wzdłuż gradientu

dane podstawowe (ground truth)

Kliknij ikonę, aby dodać dodatkowe notatki.

H

warstwa ukryta

hiperparametr

I

niezależne i identycznie rozłożone (i.i.d)

wnioskowanie

warstwa wejściowa

interpretowalność

iteracja

L

Regularyzacja L0

Kliknij ikonę, aby dodać dodatkowe notatki.

Straty L1

Aby wyświetlić formalny zapis matematyczny, kliknij ikonę.

Regularyzacja L1

Strata L2

Słowniczek systemów uczących się: podstawy systemów uczących się

Regularyzacja L₀

Straty L₁

Regularyzacja L₁

Strata L₂

Regularyzacja L₂