Glosariusz systemów uczących się: podstawy ML

Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Ta strona zawiera terminy ze słowniczka dla podstawowych systemów uczących się. Wszystkie terminy słowniczka znajdziesz tutaj.

A

dokładność

#fundamentals

Liczba prawidłowych prognozacji klasyfikacji podzielona przez łączną liczbę prognoz. Czyli:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Na przykład model, który przeprowadził 40 prawidłowych i 10 nieprawidłowych prognoz, miałby dokładność:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasyfikacja binarna zawiera konkretne nazwy różnych kategorii poprawnych podpowiedzi i nieprawidłowych prognoz. Wzorem dokładności klasyfikacji klasyfikacji binarnej jest:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

gdzie:

Porównaj dokładność, włączając dokładnośćprecyzji i czułości.

funkcja aktywacji

#fundamentals

Funkcja, która umożliwia sieci neuronowe poznawanie nielinearnych (złożonych) relacji między funkcjami a etykietą.

Popularne funkcje aktywacji:

Działki nie mogą mieć jednej prostej linii. Na przykład akcja aktywacji funkcji ReLU składa się z dwóch prostych linii:

Kartezjerska fabuła składająca się z 2 wierszy. W pierwszym wierszu wartość ma wartość y równą 0, która biegnie wzdłuż osi X od -infinity, 0 do 0.
          Drugi wiersz zaczyna się od 0,0. Ta linia ma nachylenie +1, więc może mieć wartość od 0,0 do +nieskończoności ++nieskończoność.

Wykres funkcji sigmoidowej aktywacji wygląda tak:

Dwuwymiarowy zakrzywiony wykres z wartościami x obejmującymi domenę -infinity do +dodatniego, a wartości y obejmują zakres od 0 do niemal 1. Gdy x 0 to y, y to 0,5. Nachylenie krzywej jest zawsze dodatnie, z najwyższą wartością 0,0,5 i stopniowo zmniejszającą się, wraz z rosnącą bezwzględną wartością x.

sztuczna inteligencja

#fundamentals

Program, który nie jest naukowy, lub model, który pozwala na wykonywanie złożonych zadań. Na przykład program, który tłumaczy tekst, lub program lub model identyfikujący choroby na podstawie zdjęć radiologicznych, wykazują sztuczną inteligencję.

Forma systemów uczących się to podkategoria sztucznej inteligencji. Jednak w ostatnich latach niektóre organizacje zaczęły używać zamiennie sztucznej inteligencji i systemów uczących się.

AUC (obszar pod krzywą ROC)

#fundamentals

Liczba z zakresu od 0,0 do 1,0 oznaczająca klasyfikację binarną i oddzielająca klasy pozytywne od klas negatywnych. Im bardziej AUC jest 1,0, tym lepiej model może oddzielić klasy od siebie.

Poniższy przykład pokazuje model klasyfikujący, który wyraźnie oddziela klasy pozytywne (zielone owale) od klas negatywnych (fioletowe prostokąty). Ten nierealistyczny model jest zgodny z modelem AUC 1,0:

Linia liczb z 8 dodatnimi przykładami z jednej strony i 9 przykładami negatywnymi z drugiej.

I na odwrót – ilustracja poniżej pokazuje wyniki modelu klasyfikatora wygenerowanego w wyniku losowym. Ten model ma wartość współczynnika konwersji na poziomie 0,5:

Wiersz liczbowy z 6 przykładami pozytywnych i 6 wykluczającymi.
          Sekwencja przykładów: dodatnia, ujemna, dodatnia, ujemna, dodatnia, ujemna, dodatnia, ujemna.

Tak. Poprzedni model ma wartość AUC 0,5, a nie 0,0.

Większość modeli znajduje się między tymi skrajnymi skrajnościami. Na przykład poniższy model w pewnym stopniu oddziela je od wykluczeń, więc AUC mieści się w zakresie 0,5–1,0:

Wiersz liczbowy z 6 przykładami pozytywnych i 6 wykluczającymi.
          Sekwencja przykładów jest ujemna, negatywna, pozytywna, negatywna, pozytywna, dodatnia, dodatnia, dodatnia.

AUC ignoruje wszystkie wartości ustawione dla progu klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi klasyfikacji.

B

propagacja

#fundamentals

Algorytm implementujący obniżenie gradientu w sieci neuronowych.

Trenowanie sieci neuronowej obejmuje wiele instancji tego dwucyklowego cyklu:

  1. Podczas przekazywania dalej system przetwarza grupę przykładów, aby uzyskać prognozy. System porównuje każdą prognozę z wartością każdej etykiety label. Różnica między prognozą a wartością etykiety to strata w tym przykładzie. System gromadzi straty dla wszystkich przykładów, aby obliczyć łączną utratę bieżącej operacji.
  2. Podczas przebiegu wstecznego (rozmowy wsteczne) system zmniejsza straty, dostosowując wagę wszystkich neuronów we wszystkich ukrytych warstwach.

Sieci neuronowe często zawierają wiele neuronów w wielu ukrytych warstwach. Każdy z tych neuronów przyczynia się do ogólnej utraty. Propagacja określa, czy wagi mają być zwiększane czy zmniejszane w przypadku określonych neuronów.

Współczynnik uczenia się to mnożnik, który określa stopień, w jakim poszczególne przejścia wstecz zwiększają lub zmniejszają wagę. Duży współczynnik uczenia się spowoduje zwiększenie lub zmniejszenie wagi każdej słabszej wartości.

W obliczeniu rachunkowym stosowana jest funkcja rachunku różniczkowego; reguła łańcuchowa. Oznacza to, że propagacja oblicza częściową pochodną błędu z uwzględnieniem poszczególnych parametrów. Więcej informacji znajdziesz w tym samouczku w ramach szkolenia dotyczącego systemów uczących się.

Rok temu specjaliści ds. systemów uczących się musieli napisać kod, aby wdrożyć propagację. Nowoczesne interfejsy API ML, takie jak TensorFlow, implementują propagację. Uff...

wsad

#fundamentals

Zbiór przykładów używanych w jednej wersji trenowania. Rozmiar grupy określa liczbę przykładów w grupie.

Aby dowiedzieć się, jak łączy się wsad z epoką, zajrzyj do epoki.

wielkość wsadu

#fundamentals

Liczba przykładów w grupie. Jeśli na przykład rozmiar wsadu to 100, model przetwarza 100 przykładów na iterację.

Oto popularne strategie dotyczące strategii wsadowej:

  • Zbocze sosnowe (SGD), gdzie rozmiar wsadu wynosi 1.
  • pełny wsad, w którym rozmiar wsadu to liczba przykładów w całym zestawie treningowym. Jeśli na przykład zestaw do trenowania zawiera milion przykładów, rozmiar wsadu będzie milion. Pełna partia jest zwykle nieefektywną strategią.
  • mini-partia, w której rozmiar wsadu wynosi zazwyczaj od 10 do 1000. Najbardziej wydajna strategia to zazwyczaj partia.

odchylenie (etyka/uczciwość)

#fairness
#fundamentals

1. Stereotyzowanie, uprzedzanie lub faworyzowanie w stosunku do rzeczy, osób lub grup. mogą wpływać na zbieranie i interpretację danych, projekt systemu oraz sposób interakcji użytkowników z systemem; Formy tego rodzaju odchylenia:

2. Błąd systematyczny wynikający z próbkowania lub procedury raportowania. Formy tego rodzaju odchylenia:

Nie należy go mylić z odchyleniami w modelach systemów uczących się ani odchyleniami prognoz.

odchylenie (matematyka) lub termin odchylenia

#fundamentals

Przechwytywanie lub przesunięcie od punktu początkowego. Odchylenie jest parametrem w modelach systemów uczących się, który jest symbolizowany przez jeden z tych elementów:

  • W0

Na przykład odchylenie to b w tej formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W prostej linii dwuwymiarowej odchylenia oznaczają po prostu &&przejęcie." Na przykład odchylenie linii na ilustracji poniżej wynosi 2.

Wykres liniowy ze nachyleniem równym 0,5 i odchyleniem (punkt Y).

Odchylenie występuje, ponieważ nie wszystkie modele zaczynają się od punktu początkowego (0,0). Załóżmy, że wstęp do parku rozrywki kosztuje 2 EUR i dodatkowe 0,5 EUR za każdą godzinę pobytu klienta. Model odwzorowujący łączny koszt ma więc odchylenie 2, ponieważ najniższy koszt to 2 euro.

Tego rodzaju uprzedzenia nie należy mylić z stronnictwem w dziedzinie etyki i zgodności z przepisami ani stronnością w podpowiedziach.

klasyfikacja binarna

#fundamentals

Typ zadania klasyfikacji, który przewiduje jedną z 2 wykluczonych wzajemnie zajęć:

Na przykład te 2 modele systemów uczących się wykonują klasyfikację binarną:

  • Model określający, czy e-maile są spamem (klasa dodatnia) czy nie spam (klasa negatywna).
  • Model oceniający objawy medyczne, aby określić, czy dana osoba ma chorobę (dodatnią klasę), czy nie ma tej choroby (klasa negatywna).

kontrast z klasyfikacją wieloklasową;

Sprawdź też regresję logistyczną i próg klasyfikacji.

grupowanie

#fundamentals

Przekształcanie funkcji w wiele funkcji binarnych zwanych zasobnikami lub bin, które są zwykle oparte na zakresie wartości. Pominięta funkcja to zwykle funkcja ciągła.

Na przykład zamiast przedstawiać temperaturę jako pojedynczą ciągłą zmiennoprzecinkową, możesz podzielić przedziały temperatury na osobne zasobniki, takie jak:

  • <= 10 stopni Celsjusza to zasobnik "na zimno
  • 11–24 stopnie Celsjusza to zasobnik &tempo.
  • >= 25 stopni Celsjusza to zasobnik "warm"

Model będzie traktować jednakowo każdą wartość w tym samym zasobniku. Na przykład wartości 13 i 22 znajdują się w umiarkowanym zasobniku, więc model traktuje te dwie wartości tak samo.

C

dane kategorialne

#fundamentals

Funkcje z określonym zestawem możliwych wartości. Weźmy za przykład funkcję kategorii „traffic-light-state”, która może mieć tylko jedną z 3 możliwych wartości:

  • red
  • yellow
  • green

Model traffic-light-state reprezentujący kategorię kategorii może poznać różne oddziaływania red, green i yellow na zachowanie kierowców.

Funkcje kategorialne są czasem nazywane odrębnymi funkcjami.

kontrast z danymi liczbowymi;

klasa

#fundamentals

Kategoria, do której może należeć etykieta. Przykład:

Model klasyfikacji przewiduje klasę. Z kolei model regresji przewiduje liczbę, a nie klasę.

model klasyfikacji

#fundamentals

Model, którego prognoza to klasa. Na przykład wszystkie te modele klasyfikacji:

  • Model, który przewiduje język wprowadzania tekstu (francuski (? hiszpański? włoski?).
  • Model prognozujący gatunki drzew (klon? Dąb? Baobab?).
  • Model, który przewiduje pozytywną lub negatywną klasę choroby.

Natomiast modele regresji przewidują liczby zamiast klasy.

Dwa popularne typy modeli klasyfikacji:

próg klasyfikacji

#fundamentals

W klasyfikacji binarnej jest to liczba między 0 a 1, która przekształca nieprzetworzone dane wyjściowe modelu regresji logistycznej w prognozę klasy pozytywnej lub klasy ujemnej. Pamiętaj, że próg klasyfikacji to wartość wybierana przez człowieka, a nie wartość wybrana przez trenowanie modelu.

Model regresji logistycznej pokazuje nieprzetworzoną wartość z zakresu od 0 do 1. Następnie:

  • Jeśli ta nieprzetworzona wartość jest większa niż próg klasyfikacji, oznacza to, że klasa pozytywna jest przewidywana.
  • Jeśli ta nieprzetworzona wartość jest mniejsza niż próg klasyfikacji, oznacza to, że klasa negatywna jest prognozowana.

Załóżmy na przykład, że próg klasyfikacji wynosi 0,8. Jeśli nieprzetworzona wartość wynosi 0,9, model przewiduje klasę dodatnią. Jeśli nieprzetworzona wartość wynosi 0,7, model przewiduje klasę negatywną.

Wybór progu klasyfikacji ma duży wpływ na liczbę fałszywych dopasowań i fałszywych wyników negatywnych.

niezrównoważony zbiór danych klasy

#fundamentals

Zbiór danych dotyczący problemu z klasyfikacją, w którym łączna liczba etykiet poszczególnych klas znacznie się różni. Przyjrzyjmy się na przykład zbiorze danych klasyfikacji binarnej, którego dwie etykiety są podzielone w następujący sposób:

  • 1 000 000 etykiet negatywnych
  • 10 etykiet pozytywnych

Stosunek wartości ujemnych do pozytywnych to od 100 000 do 1, więc ten zbiór danych jest niezrównoważony.

Z kolei poniższy zbiór danych nie jest równoważony klasą, ponieważ współczynnik ujemnych etykiet pozytywnych jest względnie zbliżony do 1:

  • 517 etykiet negatywnych
  • 483 etykiet pozytywnych

Zrównoważony zbiór danych może też być niezrównoważony. Na przykład ten zbiór danych z klasyfikacją wieloklasową jest nierówny, ponieważ jedna etykieta ma znacznie więcej przykładów niż pozostałe:

  • 1 000 000 etykiet z klasami &green
  • 200 etykiet z klasą "fioletową
  • 350 etykiet z klasymi &"pomarańczowymi&quot

Możesz też zapoznać się z informacjami o entropii, klasie mniejszości i klasy mniejszości.

przycinanie

#fundamentals

Technika obsługi wyjątków przez wykonanie jednej lub obu tych czynności:

  • Zmniejszenie wartości funkcji przekraczających maksymalny próg znajdziesz poniżej limitu.
  • Zwiększenie wartości cech poniżej minimalnego progu do tego progu.

Załóżmy na przykład, że < 0,5% wartości dla konkretnej cechy wykracza poza zakres 40–60. W takim przypadku możesz wykonać te czynności:

  • Przytnij wszystkie wartości powyżej 60 (maksymalny próg) dokładnie do 60
  • Przytnij wszystkie wartości mniejsze niż 40 (minimalny próg) tylko do 40.

Wyniki odstające mogą uszkodzić modele, a czasami wagi podczas trenowania. Niektóre wartości odstające mogą też znacznie nadmiernie zepsuć dane, takie jak dokładność. Popularną metodą ograniczenia uszkodzeń jest wycinanie.

Przycinanie gradientu wymusza wartości gradientu w wyznaczonym zakresie podczas trenowania.

tabela pomyłek

#fundamentals

Tabela NxN podsumowująca liczbę prawidłowych i nieprawidłowych prognoz utworzonych przez model klasyfikacji. Weźmy na przykład tę tablicę pomyłek w przypadku modelu klasyfikacji binarnej:

Tumor (prognoza) Inne (niepotwierdzone)
Tumor (bezpośrednia obserwacja) 18 (TP) 1 (FP)
Dane niedostosowane (ground truth) 6 (FN) 452 (TN)

Poprzednia tabela pomyłek przedstawia te informacje:

  • spośród 19 prognoz, w których podstawowych danych dotyczyło Tumor, model poprawnie sklasyfikował 18 i nieprawidłowo sklasyfikował 1.
  • Spośród 458 prognoz, w których obserwacja oparta na danych bazowych nie była trafiona, model poprawnie sklasyfikował 452 i nieprawidłowo 6.

Tablica pomyłek w przypadku klasyfikacji kilku klas może pomóc w wykryciu wzorców błędów. Weźmy na przykład poniższą tablicę pomyłek w przypadku trzyklasowego modelu klasyfikującego klasyfikację tęczówki (Virginia, Versicolor i Setosa). Gdy podstawowa rzeczywistość była Wirginią, matryca pomyłek wskazuje, że model znacznie częściej błędnie prognozuje Versicolor niż Setosę:

  Setosa (prognoza) Vericolor (prognoza) Wirginia (prognoza)
Setosa (ground truth) 88 12 0
Versicolor (ground truth) 6 141 7
Wirginia (ground truth) 2 27 109

Kolejny przykład pokazuje, że tablica pomyłek może wskazywać, że model wytrenowany tak, aby rozpoznawał odręcznie napisane cyfry, przez pomyłkę błędnie przewidywał 9 zamiast 4 lub błędnie prognozował 1 zamiast 7.

Tablica pomyłek zawiera wystarczającą ilość informacji do obliczenia różnych wskaźników skuteczności, w tym dokładności i czułości.

funkcja ciągła

#fundamentals

Funkcja zmiennoprzecinkowa z nieskończonym zakresem możliwych wartości, takich jak temperatura lub waga.

kontrast z odrębną funkcją;

konwercja

#fundamentals

Stan, w którym wartość straty zmienia się bardzo nieznacznie lub nie zmienia się przy każdej iteracji. Na przykład ta krzywa krzywej sugeruje zbieganie przy około 700 iteracjach:

Wykres kartezjański. Oś X to strata. Oś Y to liczba iteracji trenowania. W ciągu pierwszych kilku iteracji odtwarzanie jest bardzo wysokie, ale spadek jest gwałtowny. Po około 100 iteracjach strata maleje, ale znacząco wzrasta. Po około 700 iteracjach strata nie ulegnie zmianie.

Model radzi sobie, gdy dodatkowe treningi go nie ulepszają.

W przypadku deep learning wartości utraty często pozostają na stałym poziomie lub w dużej mierze przez wiele iteracji, zanim ostatecznie znikną. W długim okresie stałych wartości utraty możesz tymczasowo wychodzić z przekonania o konwersji.

Zobacz też wcześniejsze zatrzymanie.

D

[struktura] DataFrame

#fundamentals

Popularny typ danych panda reprezentujący zbiory danych w pamięci.

Element DataFrame jest odpowiednikiem tabeli lub arkusza kalkulacyjnego. Każda kolumna w DataFrame ma nazwę (nagłówek), a każdy wiersz jest oznaczony unikalną liczbą.

Każda kolumna w elemencie DataFrame ma strukturę jak tablicę 2D, z tą różnicą, że każda kolumna może mieć własny typ danych.

Zobacz też oficjalną stronę Pandas.DataFrame.

zbiór danych

#fundamentals

Zbiór nieprzetworzonych danych, często (ale nie wyłącznie) uporządkowanych w jednym z tych formatów:

  • arkusz kalkulacyjny
  • plik w formacie CSV (wartości rozdzielone przecinkami),

głęboka model

#fundamentals

Sieć neuronowa zawierająca więcej niż 1 ukrytą warstwę.

Głęboki model jest też nazywany głęboką siecią neuronową.

kontrast z modelem szerokim;

funkcja gęsta

#fundamentals

Funkcja, w której większość lub wszystkie wartości są zerowe, zwykle Tensor z wartościami zmiennoprzecinkowymi. Na przykład ten 10-elementowy Tensor jest gęsty, bo 9 jego wartości jest zerowe:

8 3 7 5 2 4 0 4 9 6

kontrast z funkcją analizy;

głębokość

#fundamentals

Suma tych sieci neuronowych:

Na przykład sieć neuronowa z 5 ukrytymi warstwami i 1 warstwą wyjściową ma głębokość 6.

Zauważ, że warstwa wejściowa nie wpływa na głębokość.

dyskretna funkcja

#fundamentals

Funkcja z ograniczonym zestawem możliwych wartości. Na przykład cecha, której wartości mogą być tylko zwierzęta, warzywa lub minerały, jest odrębnym (lub kategorycznym) funkcją.

kontrast z funkcją ciągłą;

dynamiczny

#fundamentals

Często się to sprawdza. Terminy dynamiczny i online są synonimami systemów uczących się. Oto typowe zastosowania atrybutów dynamicznych i online w systemach uczących się:

  • Model dynamiczny (lub model online) to model, który jest często przeszkolony lub ciągły.
  • Szkolenie dynamiczne (lub szkolenia online) to proces szkoleniowy, który odbywa się często lub na bieżąco.
  • Dynamiczne wnioskowanie (lub wnioskowanie online) to proces generowania prognoz na żądanie.

model dynamiczny

#fundamentals

Model, który jest często trenowany (nawet cały czas). Model dynamiczny to uczenie się cały czas, który stale dostosowuje się do zmieniających się danych. Model dynamiczny jest też nazywany modelem online.

kontrast z modelem statycznym;

E

wcześniejsze zatrzymywanie

#fundamentals

Metoda regularizacji, która polega na zakończeniu treningu przed zakończeniem utraty trenowania. Z wyprzedzeniem zatrzymujesz uczenie się modelu, gdy strata zbioru do walidacji wzrasta, czyli gdy uogólnianie pogarsza się.

warstwa osadzona

#language
#fundamentals

Specjalna ukryta warstwa, która uczy się funkcji kategorii o wysokim wymiarze, aby stopniowo poznawać wektory osadzające elementy niższego rozmiaru. Warstwa osadzona pozwala sieci neuronowej na trenowanie znacznie wydajniejsze niż trenowanie tylko wielowymiarowej funkcji kategorialnej.

Na przykład Ziemia obsługuje obecnie około 73 tysięcy gatunków drzew. Załóżmy, że drzewa są funkcją w Twoim modelu,dlatego warstwa wejściowa modelu zawiera krótki wektor o długości 73 000 elementów. Na przykład baobab może wyglądać tak:

Tablica 73 tys. elementów. Pierwsze 6232 elementy mają wartość 0. Następny element ma wartość 1. Ostatnie 66 767 elementów ma wartość 0.

Tablica 73 tys. elementów jest bardzo długa. Jeśli nie dodasz warstwy do modelu, trenowanie może być bardzo czasochłonne z powodu mnożenia 72 999 zer. Możliwe, że wybierasz warstwę umieszczania, która ma 12 wymiarów. W ten sposób warstwa osadzania będzie stopniowo nauczana nowego wektora dla każdego gatunku drzewa.

W niektórych przypadkach dobrym rozwiązaniem jest szyfrowanie.

początek epoki : epoka

#fundamentals

Pełna ścieżka treningowa do całego zestawu treningowego, dzięki czemu każdy przykład został przetworzony raz.

Epoka reprezentuje N/rozmiar grupy iteracji, gdzie N to łączna liczba przykładów.

Załóżmy na przykład, że:

  • Zbiór danych zawiera 1000 przykładów.
  • Rozmiar wsadu to 50 przykładów.

W związku z tym pojedynczy odcinek wymaga 20 iteracji:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Przykład

#fundamentals

Wartości w jednym wierszu funkcji i prawdopodobnie etykiety. Przykłady nauczania nadzorowanego dzielą się na 2 kategorie ogólne:

  • Przykład oznaczony etykietą składa się z co najmniej 1 funkcji i etykiety. Przykładowe etykiety są używane podczas trenowania.
  • Przykład bez etykiety składa się z co najmniej 1 funkcji, ale nie z etykiety. Przykłady wnioskowanego braku etykiet są używane.

Załóżmy na przykład, że trenujesz model określania wpływu warunków pogodowych na wyniki testów uczniów. Oto 3 przykłady:

Funkcje Etykieta
Temperatura Wilgotność Ciśnienie Wynik testu
15 47 998 Dobrej jakości
19 34 1020 Świetny
18 92 1012 Słaby

Oto 3 przykłady bez etykiety:

Temperatura Wilgotność Ciśnienie  
12 62 1014a  
21 47 1017  
19 41 1021  

Wiersz zbioru danych jest zwykle źródłem nieprzetworzony. To znaczy, że przykład składa się zwykle z podzbioru kolumn w zbiorze danych. Ponadto przykłady mogą obejmować funkcje syntetyczne, takie jak krzyże funkcji.

F

fałsz ujemny (FN)

#fundamentals

Przykład, w którym model błędnie przewiduje klasę negatywną. Na przykład model przewiduje, że dany e-mail nie jest spamem (klasa negatywna), ale faktycznie e-mail jest spamem.

fałszywie pozytywny (FP)

#fundamentals

Przykład, w którym model błędnie przewiduje klasę pozytywną. Na przykład model przewiduje, że dany e-mail to spam (klasa pozytywna), ale faktycznie nie jest to spam.

współczynnik fałszywie pozytywnych (FPR)

#fundamentals

Odsetek rzeczywistych przykładów negatywnych, w przypadku których model przez pomyłkę prognozował klasę pozytywną. Ta formuła oblicza współczynnik fałszywie pozytywny:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Współczynnik wyników fałszywie pozytywnych to oś X na krzywce ROC.

cecha [in context of machine learning]

#fundamentals

Zmienna wejściowa do modelu systemów uczących się. Przykład składa się z co najmniej 1 funkcji. Załóżmy na przykład, że trenujesz model określania wpływu warunków pogodowych na wyniki testów uczniów. Poniższa tabela zawiera trzy przykłady, z których każdy zawiera 3 funkcje i 1 etykietę:

Funkcje Etykieta
Temperatura Wilgotność Ciśnienie Wynik testu
15 47 998 92
19 34 1020 84
18 92 1012 87

kontrast z etykietą;

krzyżyk

#fundamentals

Funkcja syntetyczna tworzona przez cechy "crossing" categorycategory lub bucketd.

Weźmy pod uwagę model &prognozowania nastrojów, który odzwierciedla temperaturę w jednym z tych 4 zasobników:

  • freezing
  • chilly
  • temperate
  • warm

Przedstawia prędkość wiatru w jednym z 3 zasobników:

  • still
  • light
  • windy

Bez krzyżyków cech model liniowy jest trenowany niezależnie od każdego z pierwszych 7 zasobników. Model trenuje model freezing np. niezależnie od trenowania, np. windy.

Możesz też utworzyć cechy zależne od temperatury i prędkości wiatru. Ta funkcja syntetyczna miałaby następujące 12 możliwych wartości:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dzięki krzyżowym elementom model może poznać różnice w nastrojach między freezing-windy a freezing-still.

Jeśli utworzysz obiekt syntetyczny z 2 funkcji, z których każda ma wiele różnych zasobników, powstały wynik będzie miał ogromną liczbę kombinacji. Jeśli na przykład jedna funkcja ma 1000 zasobników, a druga ma 2000 zasobników, wynikowa funkcja będzie mieć 2 000 000 zasobników.

Forma krzyża to kartezyjski produkt.

Krzyże cech są najczęściej używane w modelach liniowych i są rzadko stosowane w sieciach neuronowych.

ekstrakcja wyróżników

#fundamentals
#TensorFlow

Proces, który obejmuje następujące kroki:

  1. Określanie, które funkcje mogą być przydatne w trenowaniu modelu.
  2. Przekształcanie nieprzetworzonych danych ze zbioru danych w skuteczne wersje tych funkcji.

Możesz na przykład zauważyć, że funkcja temperature może być przydatna. Następnie możesz poeksperymentować z zasobnikiem, aby zoptymalizować informacje z różnych zakresów temperature modelu.

Inżynieria cech jest czasem nazywana wyodrębnianiem funkcji.

zbiór funkcji

#fundamentals

Grupa funkcji trenowanych przez model systemów uczących się. Na przykład kod pocztowy, rozmiar usługi i stan nieruchomości mogą stanowić prosty zestaw modeli prognozujących ceny nieruchomości.

wektor funkcji

#fundamentals

Tablica wartości feature składającej się z przykładu. Wektor funkcji jest wprowadzany podczas szkolenia i w ramach wnioskowania. Wektorem cech dla modelu z dwiema odrębnymi cechami może być:

[0.92, 0.56]

4 warstwy: warstwa wejściowa, 2 ukryte warstwy i 1 warstwa wyjściowa.
          Warstwa wejściowa zawiera 2 węzły – jeden z wartością 0,92, a drugi z wartością 0,56.

Każdy przykład określa inne wartości wektora cech, więc wektor w następnym przykładzie może wyglądać tak:

[0.73, 0.49]

Inżynieria cech określa sposób prezentowania cech wektora cech. Na przykład binarna funkcja kategorialna z 5 możliwymi wartościami może być reprezentowana przez kodowanie gorące. W tym przypadku część wektora cech w danym przykładzie składa się z 4 zer i 1,0 na trzeciej pozycji w następujący sposób:

[0.0, 0.0, 1.0, 0.0, 0.0]

Inny przykład: załóżmy, że Twój model składa się z 3 funkcji:

  • binarna funkcja kategorialna z 5 możliwymi wartościami reprezentowanymi przez kodowanie 1 gorące, np. [0.0, 1.0, 0.0, 0.0, 0.0]
  • inna binarna funkcja kategoryczna z trzema potencjalnymi wartościami reprezentowanymi przez kodowanie gorące, np.: [0.0, 0.0, 1.0]
  • funkcji zmiennoprzecinkowej, np.: 8.3.

W tym przypadku wektor funkcji w każdym z nich będzie reprezentowany przez 9 wartości. Biorąc pod uwagę przykładowe wartości z poprzedniej listy, wektorem funkcji będzie wyglądać tak:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

pętla informacji zwrotnych

#fundamentals

W systemach uczących się sytuacja, w której prognozy są stosowane, wpływa na dane treningowe dla tego samego lub innego modelu. Na przykład model polecający filmy będzie wpływać na wyświetlane filmy, które będą wpływać na kolejne modele rekomendacji.

Z

uogólnienie

#fundamentals

Model umożliwiający przewidywanie prawidłowych prognoz dotyczących nowych, wcześniej niewidocznych danych. Model, który może uogólniać, jest przeciwnym modelem dopasowania.

krzywa uogólnienia

#fundamentals

Wykres utraty trenowania i utraty weryfikacji w ramach liczby weryfikacji.

Krzywa uogólnienia pomaga wykryć możliwe nadmiarowe dopasowanie. Na przykład poniższa krzywa uogólnienia sugeruje, że dopasowanie jest zbyt duże, bo utrata walidacji znacznie wzrasta niż trenowanie.

Wykres kartezjański, na którym oś Y jest oznaczona jako „#39;strata &#39”, a oś X – &&39; iteracje&#39;. Pojawią się 2 działki. Jeden wykres przedstawia stratę trenowania, a drugi – walidację.
          Te 2 fazy rozpoczynają się podobnie, ale utrata trenowania kończy się znacznie poniżej wartości walidacji.

spadek gradientowy

#fundamentals

Technika matematyczna pozwala zminimalizować stratę. Stopniowo spadek gradientu dostosowuje wagi i odchylenia, stopniowo wykrywając najlepsze połączenie w celu zminimalizowania utraty.

Spadek gradientowy jest starszy, znacznie starszy niż systemy uczące się.

dane podstawowe

#fundamentals

Reality show.

Rzeczywistość.

Rozważ na przykład klasyfikację binarną, która przewiduje, czy student pierwszego roku studiów ukończy w ciągu 6 lat. Podstawowa prawda pokazuje, czy dany uczeń ukończył prawdziwą pracę w ciągu 6 lat.

W

ukryte warstwy

#fundamentals

Warstwa w sieci neuronowej między warstwą wejściową (funkcje) a warstwą wyjściową (prognoza). Każda ukryta warstwę składa się z co najmniej 1 neuronu. Na przykład ta sieć neuronowa zawiera 2 ukryte warstwy – pierwszą z 3 neuronami i 2 neurony:

Cztery warstwy. Pierwsza warstwa jest warstwą wejściową zawierającą 2 funkcje. Druga warstwa jest ukrytą warstwą zawierającą 3 neurony. Trzecia warstwa jest ukrytą warstwą zawierającą 2 neurony. Czwarta warstwa jest warstwą wejściową. Każda cecha zawiera trzy krawędzie, z których każdy wskazuje inny neuron w drugiej warstwie. Każdy neuron w drugiej warstwie ma dwie krawędzie, z których każdy wskazuje inny neuron w trzeciej warstwie. Każdy neuron w trzeciej warstwie zawiera jedną krawędź, a każda wskazuje warstwę wyjściową.

Głęboka sieć neuronowa zawiera więcej niż 1 ukrytą warstwę. Na przykład poprzednią ilustracją jest głęboka sieć neuronowa, ponieważ model zawiera 2 ukryte warstwy.

hiperparametr

#fundamentals

Zmienne, które Ty lub usługa dostrajania hiperparametrów dostosowują podczas kolejnych uruchomień modelu. Na przykład współczynnik nauki to hiperparametr. Możesz ustawić współczynnik 0,01 przed 1 sesją treningową. Jeśli uznasz, że 0,01 jest za wysoki, możesz ustawić wartość 0,003 w następnej sesji szkoleniowej.

W przeciwieństwie do tego parametry to różne wagi i odchylenia, które model uczy się podczas trenowania.

I

rozproszone niezależnie (identycznie)

#fundamentals

Dane pobrane z dystrybucji, która nie zmienia się, i gdzie każda wartość została pobrana, nie zależy od wartości narysowanych wcześniej. Jest to gaz idealny systemów uczących się, który jest potężnym matematyką, która jednak nie znajduje się w rzeczywistości. Na przykład rozłożenie użytkowników na stronę internetową może następować w krótkim przedziale czasu. Oznacza to, że rozkład nie zmienia się w tym krótkim czasie, a wizyta jednej osoby nie zależy od żadnej innej wizyty. Jeśli jednak wydłużysz ten okres, mogą pojawić się różnice sezonowe na stronie internetowej.

Zapoznaj się także z informacjami o braku obsługi.

wnioskowanie

#fundamentals

W przypadku systemów uczących się proces tworzenia prognoz przez zastosowanie wytrenowanego modelu do przykładów bez etykiety.

Wnioski mają nieco inne znaczenie w statystykach. Szczegółowe informacje znajdziesz w artykule w Wikipedii dotyczącym analizy statystycznej.

warstwa wejściowa

#fundamentals

Warstwa sieci neuronowej, która zawiera wektor funkcji. Oznacza to, że warstwa wejściowa zawiera przykłady do trenowania lub wnioskowania. Na przykład warstwa wejściowa w sieci neuronowej składa się z dwóch funkcji:

4 warstwy: warstwa wejściowa, 2 ukryte warstwy i warstwa danych wyjściowych.

czytelność

#fundamentals

Umiejętność wyjaśnienia lub przedstawienia modelu systemów uczących się w zrozumiały sposób.

Na przykład większość modeli regresji liniowej można łatwo zinterpretować. (należy tylko spojrzeć na wytrenowane wagi każdej cechy). Lasy decyzyjne można również łatwo interpretować. Niektóre modele wymagają jednak zaawansowanej wizualizacji, aby można je było zinterpretować.

iteracja

#fundamentals

Pojedyncza aktualizacja parametrów modelu – modelu wagi i odchylenia – podczas treningu. Rozmiar grupy określa liczbę przykładów, które model przetwarza w ramach jednej iteracji. Jeśli na przykład rozmiar wsadu wynosi 20, model przetwarza 20 przykładów przed dostosowaniem parametrów.

Podczas trenowania sieci neuronowej jedna iteracja obejmuje te 2 bilety:

  1. Karta prognostyczna pozwalająca ocenić stratę pojedynczej grupy.
  2. Wartość przejścia wstecz (propagacja), aby dostosować parametry modelu na podstawie utraconej i tempa nauczania.

N

Regularizacja L0

#fundamentals

Typ regularizacji, który stanowi łączną liczbę wag innych niż zero. Na przykład model z 11 niezerowymi wagami będzie ukarany więcej niż podobny model z 10 niezerowymi wagami.

Regularność L0 jest rzadko używana.

Strata 1

#fundamentals

Funkcja utraty, która oblicza wartość bezwzględną różnicy między rzeczywistymi wartościami label a wartościami prognozowanymi przez model. Na przykład obliczona utrata wartości L1 dla grupy pięciu przykładów:

Rzeczywista wartość przykładu Prognozowana wartość modelu Wartość bezwzględna delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = strata 1

Utrata L1 jest mniej czuła na wyjątki od L2 straty.

Błąd bezwzględny to średnia przegrana poziomu L1.

Regularizacja L1

#fundamentals

Rodzaj regularizacji, który skutkuje nałożeniem kary na wagi proporcjonalnie do sumy wartości bezwzględnych. Regularizacja L1 pozwala przypisać wagi dokładnie nieistotne lub prawie nieistotne do dokładnie 0. Funkcja o wadze 0 jest usuwana z modelu.

Kontrast z L2 regularnej.

Przegrana L2

#fundamentals

Funkcja utraty, która oblicza kwadrat różnicy między rzeczywistymi wartościami label a wartościami prognozowanymi przez model. Na przykład obliczenie utraty L2 dla grupy pięciu przykładów:

Rzeczywista wartość przykładu Prognozowana wartość modelu Kwadrat delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = strata2

Ze względu na kwadrat, utrata L2 wzmacnia wpływ wyników odstających. Oznacza to, że przegrana L2 lepiej reaguje na złe prognozy niż straty L11. Na przykład strata L1 we poprzedniej grupie będzie wynosić 8, a nie 16. Zwróć uwagę, że 1 wyjątkowa wartość to 9 z 16.

Modele regresji jako funkcji utraty danych zwykle używają utraty L2.

Błąd średniokwadratowy to średnia utrata L2 na poziomie 2. Utrata kwadratowa to inna nazwa straty L2.

Regularizacja L2

#fundamentals

Typ regularizacji, który powoduje nałożenie wag na wagę kwadratów wag. Regularność L2 pomaga uzyskać wyjątkową wagę (tą o wysokiej dodatniej lub niskiej wartości), która jest bliższa 0, ale niezupełnie 0. Funkcje o wartościach bardzo zbliżonych do 0 pozostają w modelu, ale nie mają wpływu na prognozę modelu.

Regularność L2 zawsze poprawia uogólnienie w modelach liniowych.

Kontrast z L1 regularnej.

etykieta

#fundamentals

W nadzorowanych systemach uczących się część "answer" lub "result" przykładu.

Każdy przykład z etykietą składa się z co najmniej 1 funkcji i etykiety. Na przykład w zbiorze danych do wykrywania spamu etykieta będzie prawdopodobnie „"spam&quot” lub „nie spam”." W zbiorze danych opadów etykieta może oznaczać ilość opadów deszczu w danym okresie.

przykład oznaczony etykietą

#fundamentals

Przykład zawierający co najmniej 1 funkcję i etykietę. Przykład

Liczba sypialni Liczba łazienek Wiek domu Cena domu (etykieta)
3 2 15 345 000 zł
2 1 72 179 000 PLN
4 2 34 392 000 zł

W nadzorowanych systemach uczących się modele uczą się na oznaczonych przykładach i prognozują przykłady bez etykiety.

Kontrastowy przykład oznaczony etykietą z przykładami bez etykiety.

Lambda

#fundamentals

Synonim współczynniku normalizacji.

Lambda to przeciążony termin. Tutaj skupiamy się na definicji terminu w ramach regularizacji.

warstwa

#fundamentals

Zestaw neuronów w sieci neuronowej. Oto trzy typowe typy warstw:

Poniższa ilustracja przedstawia sieć neuronową z jedną warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową:

Sieć neuronowa z 1 warstwą wejściowej, 2 ukrytymi warstwami i 1 warstwą wyjściową. Warstwa wejściowa składa się z 2 funkcji. Pierwsza ukryta warstwę składa się z 3 neuronów, a druga z 2 neuronów. Warstwa wyjściowa składa się z jednego węzła.

W TensorFlow warstwy to również funkcje Pythona, które wykorzystują tensory i opcje konfiguracji jako dane wejściowe i generują inne tensory jako dane wyjściowe.

tempo uczenia się

#fundamentals

Liczba zmiennoprzecinkowa, która informuje o obniżeniu gradientu, aby silnie dostosować wagę i odchylenia na potrzeby powtarzania. Na przykład współczynnik uczenia się 0,3 mógłby dopasować ważenie i odchylenie 3 razy bardziej intensywnie niż współczynnik 0,1.

Wskaźnik uczenia się jest kluczowym hiperparametrem. Jeśli ustawisz zbyt niski poziom uczenia się, trenowanie potrwa zbyt długo. Jeśli ustawisz zbyt wysoki współczynnik uczenia się, spadek gradientu często powoduje trudności z osiągnięciem zbieżności.

model liniowy

#fundamentals

Model, który przypisuje jedną wagę na funkcję, aby prognozować. Modele liniowe uwzględniają też odchylenie. Natomiast zależność między funkcjami a prognozami w modelach głębokich jest zazwyczaj nielinearna.

Modele liniowe są zwykle łatwiejsze do trenowania i interpretowane niż modele głębokie. Jednak głębokie modele mogą poznać złożone relacje między funkcjami.

Regresja liniowa i regresja logistyczna to 2 rodzaje modeli liniowych.

jednostajne

#fundamentals

Związek między co najmniej 2 zmiennymi, który może być przedstawiony wyłącznie przez dodanie i mnożenie.

Wykres linearnej relacji jest linią.

kontrast z nielinearnymi.

regresja liniowa

#fundamentals

Typ modelu systemów uczących się, w którym spełnione są oba te warunki:

  • Model jest modelem liniowym.
  • Prognoza jest wartością zmiennoprzecinkową. (To jest część regresji w regresji liniowej).

Kontrast regresji liniowej z regresją logistyczną. Zmniejszaj regresję za pomocą funkcji klasyfikacji.

regresja logistyczna

#fundamentals

Rodzaj modelu regresji, który przewiduje prawdopodobieństwo. Modele regresji logistycznej mają następujące cechy:

  • Etykieta jest kategoryczna. Termin regresja logistyczna zwykle oznacza binarną regresję, czyli model, który oblicza prawdopodobieństwo etykiet z 2 możliwymi wartościami. Rzadszy wariant, wielomianowa regresja logistyczna, oblicza prawdopodobieństwo dla etykiet z więcej niż 2 możliwymi wartościami.
  • Funkcja utraty podczas trenowania to Log Loss (Utrata logów). W przypadku etykiet z więcej niż 2 wartościami można ustawić równolegle wiele jednostek utraty logów.
  • Model ma architekturę liniową, a nie głębokie sieci neuronowe. Pozostała część tej definicji odnosi się również do modeli głębokich, które przewidują prawdopodobieństwo etykiet kategoriach.

Rozważ na przykład model regresji logicznej, który oblicza prawdopodobieństwo wejściowego e-maila jako spamu lub nie spamu. Załóżmy, że model przewiduje 0,72. Model szacuje:

  • 72-procentowe prawdopodobieństwo, że e-mail jest spamem.
  • 28-procentowe prawdopodobieństwo, że e-mail nie jest spamem.

Model regresji logistycznej wykorzystuje tę 2-etapową architekturę:

  1. Model generuje nieprzetworzoną prognozę (y'), stosując funkcję liniową dla funkcji wejściowych.
  2. Model wykorzystuje tę nieprzetworzoną prognozę jako dane wejściowe dla funkcji sigmoid, która konwertuje nieprzetworzoną prognozę na wartość z zakresu od 0 do 1.

Tak jak w przypadku każdego modelu regresji, model regresji logistycznej przewiduje liczbę. Wartość ta jest jednak zazwyczaj częścią modelu klasyfikacji binarnej:

  • Jeśli prognozowana liczba jest większa niż próg klasyfikacji, model klasyfikacji binarnej przewiduje klasę dodatnią.
  • Jeśli prognozowana liczba jest mniejsza niż próg klasyfikacji, model klasyfikacji binarnej prognozuje klasę negatywną.

Logarytmiczna funkcja straty

#fundamentals

Funkcja utraty używana w regresji logistycznej.

logi dziennikarskie

#fundamentals

Logarytm prawdopodobieństwa niektórych zdarzeń.

przegrana

#fundamentals

Podczas trenowania modelu nadzorowanego mierzona jest odległość, jaka jest prognoza modelu .

Funkcja utraty oblicza stratę.

krzywa straty

#fundamentals

Wykres strat jako funkcja liczby iteracji. Ten wykres przedstawia typowe krzywe strat:

Kartezjański wykres straty i iteracji treningowych, pokazujący nagły spadek wartości początkowych iteracji, potem stopniowy spadek, a następnie płaski spadek podczas ostatnich iteracji.

Krzywe utraty mogą pomóc w określeniu, kiedy model ma konwertację albo nadmiarową.

W przypadku krzywych możesz oznaczyć wszystkie te typy strat:

Zapoznaj się też z krzywą uogólnienia.

funkcja utraty

#fundamentals

Podczas szkolenia lub testowania funkcja matematyczna, która oblicza spadek grupy przykładów. Funkcja utraty zwraca niższą wartość w przypadku modeli, które generują dobre prognozy niż modele z prognozami.

Celem trenowania jest zwykle zminimalizowanie straty zwróconej przez funkcję.

Istnieje wiele różnych funkcji utraty danych. Wybierz funkcję utraty odpowiednią dla typu tworzonego modelu. Przykład:

M

systemy uczące się

#fundamentals

Program lub system, który wytrenuje model na podstawie danych wejściowych. Wytrenowany model może wykonywać przydatne prognozy na podstawie nowych danych (nigdy niewidoczne) zebranych z tego samego rozkładu co ten, który został użyty do trenowania modelu.

Systemy uczące się odnoszą się również do dziedziny tych programów lub systemów.

klasa, większość

#fundamentals

Bardziej powszechna etykieta w zbiorze danych zgodnym z klasą. Jeśli na przykład zbiór danych zawiera 99% etykiet negatywnych i 1% pozytywnych, to klasy ujemne są wykluczone.

kontrast z klasą mniejszości,

mini-bateria

#fundamentals

Mała, losowo wybrana podzbiór grupy przetworzonej w jednej wersji. Rozmiar grupy minigrupy to zazwyczaj od 10 do 1000 przykładów.

Załóżmy na przykład, że cały zestaw treningowy (w ramach całej grupy) zawiera 1000 przykładów. Załóżmy też, że ustawiasz rozmiar wsadu każdej małej partii na 20. Dlatego każda iteracja określa stratę 20 z 1000 przykładów, a następnie odpowiednio koryguje wagi i odchylenia.

Dużo efektywniej jest obliczyć stratę w przypadku pojedynczej operacji niż w przypadku wszystkich przykładów w całej grupie.

klasa mniejszości

#fundamentals

Mniej powszechna etykieta w zbiorze danych dla klasy. Jeśli na przykład zbiór danych zawiera etykiety negatywne 99% i etykiety pozytywne, 1%, etykiety pozytywne są klasą mniejszości.

kontrast z klasą główną;

model

#fundamentals

Ogólnie dowolny konstrukt matematyczny, który przetwarza dane wejściowe i zwraca dane wyjściowe. Model może wyglądać inaczej. Jest to zestaw parametrów i struktury potrzebnych do prognozowania przez system. W nadzorowanych systemach uczących się model przyjmuje przykład jako dane wejściowe i wyciąga prognozę jako dane wyjściowe. W przypadku nadzorowanych systemów uczących się modele nieco się od siebie różnią. Przykład:

  • Regresja liniowa składa się z zestawu wag i odchylenia.
  • Model sieci neuronowej składa się z:
    • Zestaw ukrytych warstw, z których każda zawiera co najmniej 1 neuron.
    • Waga i odchylenia związane z każdym neuronem.
  • Model drewna decyzyjne składa się z:
    • Kształt drzewa, czyli wzór, w którym połączone są warunki i liścia.
    • Warunki i opuszcza.

Możesz zapisywać, przywracać i kopiować modele.

Nienadzorowane systemy uczące się generują też modele, które zwykle mapują przykład danych wejściowych do najbardziej odpowiedniego klastra.

klasyfikacja wieloklasowa

#fundamentals

W przypadku wersji nadzorowanej problem klasyfikacji, w którym zbiór danych zawiera więcej niż 2 klasy etykiet. Na przykład etykiety w zbiorze danych Iris muszą należeć do jednej z tych trzech klas:

  • Irys
  • Irys – wirginica
  • Kolor tęczowy

Model wytrenowany na zbiorze danych Iris, który prognozuje typ iris w nowych przykładach, przeprowadza klasyfikację wieloklasową.

Natomiast problemy z klasyfikacją, które różnią się dokładnie dwie klasy, to binarne modele klasyfikacji. Na przykład model poczty, który przewiduje, że spam lub nie spam to model klasyfikacji binarnej.

W problemach z klastrami klasyfikacja wieloklasowa odnosi się do więcej niż 2 klastrów.

N

klasa negatywna

#fundamentals

W klasyfikacji binarnej jedna klasa jest oznaczona jako pozytywna, a druga – wykluczająca. Klasa pozytywna to obiekt lub zdarzenie, które testuje model, a klasa negatywna to inna możliwość. Przykład:

  • Negatywna klasa w teście medycznym to „& nie. Guz”.
  • Negatywna klasa w klasyfikatorze e-maili to „"spam”."

kontrast z klasą pozytywną;

sieć neuronowa

#fundamentals

Model zawierający co najmniej 1 ukrytą warstwę. Głęboka sieć neuronowa to rodzaj sieci neuronowych, które zawierają więcej niż jedną ukrytą warstwę. Na przykład ten diagram pokazuje głęboką sieć neuronową zawierającą 2 ukryte warstwy.

Sieć neuronowa z warstwą wejściowej, 2 ukrytymi warstwami i warstwą danych wyjściowych.

Każdy neuron w sieci neuronowej łączy się ze wszystkimi węzłami w następnej warstwie. Na przykład na powyższym diagramie zwróć uwagę, że każdy z 3 neuronów w pierwszej ukrytej warstwie łączy się z obiema neuronami w drugiej ukrytej warstwie.

Sieci neuronowe zaimplementowane na komputerach są czasami nazywane sztucznymi sieciami neuronowymi, aby odróżnić je od sieci neuronowych w mózgu i innych systemach nerwowych.

Niektóre sieci neuronowe mogą naśladować niezwykle złożone relacje nielinearne między różnymi funkcjami i etykietą.

Zobacz też pozyskaną sieć neuronową i odwrotną sieć neuronową.

neuron

#fundamentals

Systemy uczące się – osobna jednostka w ukrytej warstwie sieci neuronowej. Każdy neuron wykonuje dwuetapową czynność:

  1. Oblicza sumę ważoną wartości wejściowych pomnożonych przez odpowiednie wagi.
  2. Przekazuje sumę ważoną jako dane wejściowe do funkcji aktywacji.

Neuron w pierwszej ukrytej warstwie akceptuje dane wejściowe z wartości cech w warstwie wejściowej. Neuron w każdej ukrytej warstwie powyżej pierwszej może akceptować dane wejściowe z neuronów w poprzedniej ukrytej warstwie. Na przykład neuron w drugiej ukrytej warstwie akceptuje dane wejściowe z neuronów w pierwszej ukrytej warstwie.

Poniższa ilustracja przedstawia 2 neurony i ich ruchy wejściowe.

Sieć neuronowa z warstwą wejściowej, 2 ukrytymi warstwami i warstwą danych wyjściowych. Wyróżnione są 2 neurony: jedna w pierwszej ukrytej warstwie, a druga w ukrytej. Wyróżniony neuron w pierwszej ukrytej warstwie odbiera dane z obu funkcji w warstwie wejściowej. Wyróżniony neuron w drugiej ukrytej warstwie odbiera dane wejściowe z każdego z 3 neuronów w pierwszej ukrytej warstwie.

Neuron w sieci neuronowej naśladuje zachowanie neuronów w mózgu i innych częściach układu nerwowego.

węzeł (sieć neuronowa)

#fundamentals

Nuron w ukrytej warstwie.

nielinearny

#fundamentals

Związek między co najmniej 2 zmiennymi, którego nie można reprezentować wyłącznie przez dodanie i mnożenie. Relację linearną można reprezentować jako linię. Relację nielinearną można przedstawiać jako linię. Rozważ na przykład 2 modele, które łączą 1 cechę z 1 etykietą. Model po lewej stronie jest liniowy, a model po prawej – nielinearny:

Dwa działki. 1 wykres jest linią, więc jest to relacja liniowa.
          Druga fabuła jest krzywą, więc jest to relacja nielinearna.

brak osobowości

#fundamentals

Element, którego wartości zmieniają się w co najmniej jednym wymiarze, zwykle w czasie. Weźmy na przykład następujące przykłady braku trwałości:

  • Liczba strojów kąpielowych sprzedawanych w konkretnym sklepie różni się w zależności od sezonu.
  • Ilość konkretnych owoców zbieranych w danym regionie wynosi zero przez większość roku, ale przez krótki czas.
  • Z powodu zmian klimatycznych roczne temperatury się zmieniają.

kontrast z stacjonarnością.

normalizacja

#fundamentals

Ogólnie rzecz biorąc, proces przekształcania zmiennej w rzeczywisty zakres wartości, w postaci standardowego zakresu, np.:

  • Od -1 do +1
  • 0–1
  • rozkład normalny

Załóżmy, że rzeczywisty zakres wartości danej funkcji wynosi od 800 do 2400. W ramach inżynierii cech można normalizować wartości rzeczywiste do zakresu standardowego, takiego jak -1 do +1.

Normalizacja jest częstym zadaniem w inżynierii cech. Modele są zwykle trenowane szybciej (i generują lepsze prognozy), gdy każda funkcja liczbowa w wektorze cech ma mniej więcej ten sam zakres.

dane liczbowe

#fundamentals

Funkcje wyrażone jako liczby całkowite lub liczby rzeczywiste. Na przykład model wyceny domu odzwierciedla prawdopodobnie rozmiar domu (w stopach kwadratowych lub metra kwadratowego) jako dane liczbowe. Wskazanie cechy jako danych liczbowych wskazuje, że jej wartości są związane z etykietą. Oznacza to, że liczba metrów kwadratowych w domu prawdopodobnie ma związek z wartością domu.

Nie wszystkie dane całkowite powinny być przedstawiane jako dane liczbowe. Na przykład kody pocztowe w niektórych częściach świata są liczbami całkowitymi, ale łączne kody pocztowe nie powinny być wyświetlane w modelach jako dane liczbowe. Kod pocztowy 20000 nie jest dwa razy (połowa) tak mocny jak kod pocztowy o wartości 10 000. Chociaż różne kody pocztowe odpowiadają innym wartościom nieruchomości, nie możemy zakładać, że wartości nieruchomości w kodzie pocztowym 20 000 są 2 razy większe niż wartości w kodzie pocztowym 10 000. Kody pocztowe powinny mieć postać danych kategorii.

Funkcje liczbowe są czasem nazywane funkcjami ciągłymi.

O

offline

#fundamentals

Synonim słowa static.

wnioskowanie offline

#fundamentals

Proces modelu generują grupy prognoz, a następnie buforuje (zapisuje) te prognozy. Zamiast ponownie uruchamiać model, aplikacja może uzyskać dostęp do oczekiwanej prognozy z pamięci podręcznej.

Możesz na przykład zastosować model, który generuje lokalne prognozy pogody co 4 godziny. Po uruchomieniu każdego modelu system zapisuje w pamięci podręcznej wszystkie lokalne prognozy pogody. Aplikacje pogodowe pobierają prognozy z pamięci podręcznej.

Wnioski offline są też nazywane statycznym wnioskiem.

kontrast z wnioskowaniem online;

kodowanie gorące

#fundamentals

Przedstawianie danych dotyczących kategorii jako wektora, w którym:

  • Jeden element ma wartość 1.
  • Wszystkie inne elementy mają wartość 0.

Kodowanie gorące jest zwykle używane do reprezentowania ciągów tekstowych lub identyfikatorów, które mają ograniczony zbiór możliwych wartości. Załóżmy na przykład, że dana funkcja kategoria danych Scandinavia ma pięć możliwych wartości:

  • "Dania"
  • "Szwecja;
  • "Norwegia;
  • "Finlandia
  • "Islandia&quot

Kodowanie gorące może reprezentować każdą z pięciu wartości:

kraj Wektor
"Dania" 1 0 0 0 0
"Szwecja; 0 1 0 0 0
"Norwegia; 0 0 1 0 0
"Finlandia 0 0 0 1 0
"Islandia&quot 0 0 0 0 1

Dzięki kodowaniu gorącemu model może nauczyć się różnych połączeń w każdym z 5 krajów.

Przedstawienie funkcji w postaci danych liczbowych to alternatywa dla kodowania gorącego. Niestety liczbowa reprezentacja krajów skandynawskich nie jest dobrym rozwiązaniem. Weźmy na przykład ten przykład liczbowy:

  • "Dania" 0
  • "Szwecja; wynosi 1
  • "Norwegia to 2
  • "Finlandia
  • "Islandia&quot 4

W przypadku kodowania liczbowego model interpretuje nieprzetworzone dane i próbuje je trenować. Islandia nie jest jednak w rzeczywistości 2 razy większa (lub prawie 2 w porównaniu) od Norwegii, więc model wyciąga dziwne wnioski.

one-v-all

#fundamentals

Biorąc pod uwagę problem z klasyfikacją klasy N, rozwiązanie składa się z osobnych klasyfikatorów binarnych (pojedynczych klasyfikatorów binarnych dla każdego możliwego wyniku). Na przykład w modelu, który klasyfikuje przykłady jako zwierzę, warzywo lub minerał, rozwiązanie 1 w porównaniu zapewni te 3 osobne klasyfikatory binarne:

  • zwierzę, a nie zwierzę
  • warzywa a warzywa
  • minerał zamiast minerał

online

#fundamentals

Synonim: dynamiczny.

wnioskowanie online

#fundamentals

Generuję prognozy na żądanie. Załóżmy na przykład, że aplikacja przekazuje dane do modelu i wysyła żądanie prognozy. System korzystający z wnioskowania online odpowiada na żądanie, uruchamiając model (i zwracając prognozę do aplikacji).

kontrast z wnioskowaniem offline;

warstwa wyjściowa

#fundamentals

&"final&quo;; sieć neuronowa. W warstwie wyjściowej znajduje się prognoza.

Poniższa ilustracja przedstawia małą sieć głębokiej sieci neuronowej z warstwą wejściowej, 2 ukrytymi warstwami i warstwą danych wyjściowych:

Sieć neuronowa z 1 warstwą wejściowej, 2 ukrytymi warstwami i 1 warstwą wyjściową. Warstwa wejściowa składa się z 2 funkcji. Pierwsza ukryta warstwę składa się z 3 neuronów, a druga z 2 neuronów. Warstwa wyjściowa składa się z jednego węzła.

nadmierne dopasowanie

#fundamentals

Utworzenie modelu zgodnego z danymi treningowymi tak, aby nie był on w stanie poprawnie prognozować nowych danych.

Regularizacja może zmniejszyć dopasowanie. Trening na dużym i różnorodnym zestawie treningowym może też zmniejszyć dopasowanie.

P

pandy

#fundamentals

Zorientowany na kolumny interfejs API do analizy danych oparty na numpy. Wiele platform systemów uczących się, w tym TensorFlow, obsługuje struktury danych panda jako dane wejściowe. Więcej informacji znajdziesz w dokumentacji Panda.

parametr

#fundamentals

wagi i odchylenia, które model uczy się podczas trenowania; Na przykład w modelu regresji liniowej parametry składają się z odchylenia (b) i wszystkich wag (w1, w2 itd.) w tej formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Natomiast hiperparametr to wartości, które Ty (lub usługa zmieniająca hiperparametr) dostarczają do modelu. Na przykład częstotliwość nauki to hiperparametr.

klasa pozytywna

#fundamentals

Klasa, dla której przeprowadzasz test.

Na przykład pozytywna klasa w modelu nowotworowym może być taką jak „tumor.&quot” Pozytywną klasą w klasyfikatorze e-maili może być "spam."

Kontrast i klasa negatywna.

przetwarzanie po przetworzeniu

#fairness
#fundamentals

Dostosowanie danych wyjściowych modelu po uruchomieniu. Obróbka danych może służyć do egzekwowania ograniczeń uczciwości bez konieczności modyfikowania modeli.

Możesz na przykład zastosować przetwarzanie końcowe do klasyfikatora binarnego, ustawiając próg klasyfikacji w taki sposób, aby równość możliwości była utrzymywana dla pewnego atrybutu, sprawdzając, czy rzeczywisty odsetek dodatnich jest taki sam dla wszystkich wartości tego atrybutu.

prognoza

#fundamentals

Dane wyjściowe modelu. Przykład:

  • Prognoza modelu klasyfikacji binarnej to klasa pozytywna lub negatywna.
  • Prognozowanie modelu klasyfikacji wieloklasowej ma jedną klasę.
  • Prognoza regresji modelu liniowego jest liczbą.

etykiety proxy

#fundamentals

Dane używane do przybliżania etykiet, które nie są dostępne bezpośrednio w zbiorze danych.

Załóżmy, że chcesz wytrenować model do prognozowania poziomu stresu pracowników. Zbiór danych zawiera wiele funkcji prognozujących, ale nie zawiera etykiety poziom stresu. Możesz spokojnie wybrać „wypadki w miejscu pracy” jako etykietę wspomagającą poziom stresu. W końcu pracownicy są bardziej podatni na ataki, niż cichy pracownicy. A może? Możliwe, że wypadki w miejscu pracy wznoszą się i spadają z kilku powodów.

Inny przykład to ustawienie czy będzie padać? Może być to wartość logiczna dla zbioru danych, ale nie zawiera on danych deszczowych. Jeśli dostępne są zdjęcia, możesz określić zdjęcia osób noszących parasole jako etykietę serwera proxy na potrzeby czy pada deszcz? Czy to prawda? Prawdopodobnie niektóre osoby będą nosić parasole chroniące przed słońcem niż deszcz.

Etykiety proxy często są niedoskonałe. W miarę możliwości wybieraj rzeczywiste etykiety zamiast etykiet proxy. W razie braku rzeczywistej etykiety wybierz uważnie serwer proxy i wybierz najgorszy kandydat z etykiety serwera proxy.

C

weryfikator

#fundamentals

Osoba, która dostarcza etykiety dla przykładów. "Annotator" to inna nazwa oceniającego.

Reliminowana jednostka liniowa (RELU)

#fundamentals

Funkcja aktywacji o tym działaniu:

  • Jeśli wartość wejściowa jest ujemna lub zerowa, wynik wynosi 0.
  • Jeśli dane wejściowe są dodatnie, dane wyjściowe będą takie same.

Przykład:

  • Jeśli dane mają wartość -3, wynik wynosi 0.
  • Jeśli dane wejściowe to +3, wynik to 3,0.

Oto fabuła ReLU:

Kartezjerska fabuła składająca się z 2 wierszy. W pierwszym wierszu wartość ma wartość y równą 0, która biegnie wzdłuż osi X od -infinity, 0 do 0.
          Drugi wiersz zaczyna się od 0,0. Ta linia ma nachylenie +1, więc może mieć wartość od 0,0 do +nieskończoności ++nieskończoność.

ReLU to bardzo popularna funkcja aktywacji. Pomimo prostego zachowania sieć neuronowa pozwala uczyć się nielinearnych relacji między funkcjami i etykietą.

model regresji

#fundamentals

Model nieformalnie generujący prognozę liczbową. (Z kolei model klasyfikacji generuje prognozę klasy). Na przykład te modele regresji są następujące:

  • Model, który przewiduje określoną wartość domu,np. 423 000 EUR.
  • Model, który przewiduje oczekiwaną długość życia w drzewie, np.23,2 roku.
  • Model, który przewiduje wielkość opadów w określonym mieście, takich jak 0,18 cala.

2 typowe modele regresji:

  • regresja liniowa, która wyszukuje wiersz najlepiej pasujący do wartości etykiet;
  • Regresja logistyczna, która generuje prawdopodobieństwo od 0,0 do 1,0, które system zwykle mapuje na prognozę klasy.

Nie każdy model, który generuje podpowiedzi liczbowe, jest modelem regresji. W niektórych przypadkach prognoza liczbowa to po prostu model klasyfikacji o numerycznych nazwach klas. Na przykład model prognozujący numeryczny kod pocztowy to model klasyfikacji, a nie regresja.

regularyzacja

#fundamentals

Dowolny mechanizm, który zmniejsza nadmierne dopasowanie. Popularne typy regularizacji to:

Regularność może być też określana jako kara za złożoność modelu.

częstotliwość normalizacji

#fundamentals

Liczba, która określa względne znaczenie regularizacji podczas trenowania. Zwiększenie współczynnika normalizacji zmniejsza nadmierne dopasowanie, ale może zmniejszyć wydajność prognozowaną. I na odwrót – zmniejszenie lub pominięcie współczynnika regularności zwiększa zbytnie dopasowanie.

(ReLU)

#fundamentals

Skrót od bezpretensjonalnej jednostki linearnej.

Krzywa krzywej ROC (odbiornika)

#fundamentals

Wykres przedstawiający współczynnik dodatniy i współczynnik fałszywie pozytywnych dla różnych progów klasyfikacji w klasyfikacji binarnej.

Kształt krzywej ROC sugeruje model klasyfikacji binarnej, który oddziela klasy pozytywne od negatywnych. Załóżmy na przykład, że model klasyfikacji binarnej całkowicie oddziela wszystkie klasy ujemne od wszystkich klas pozytywnych.

Wiersz numeru z 8 dodatnimi przykładami po prawej stronie i 7 wykluczających przykładów po lewej stronie.

Krzywa ROC dla poprzedniego modelu wygląda tak:

Krzywa ROC. Oś X to współczynnik fałszywie dodatni, a oś Y – współczynnik prawdziwy. Krzywa ma odwrócony kształt L. Krzywa rozpoczyna się od (0,0,0,0) i przechodzi w prawo do (0,0,1,0). Następnie krzywa przechodzi z zakresu (0.0,1.0) do (1.0,1.0).

Dla porównania poniższy rysunek przedstawia nieprzetworzone wartości regresji logistycznej dla okropnego modelu, który nie da się oddzielić zajęć negatywnych od klas pozytywnych:

Linia liczb z dodatnimi przykładami i klasymi całkowicie wykluczającymi.

Krzywa ROC dla tego modelu wygląda tak:

Krzywa ROC, która w rzeczywistości jest prostą linią od (0.0,0.0) do (1.0,1.0).

Z kolei w rzeczywistości większość modeli klasyfikacji binarnej klasyfikuje pozytywnie i negatywnymi klasyfikacją do pewnego stopnia, ale zazwyczaj nie do końca. Typowa krzywa ROC znajduje się między dwoma skrajnymi warunkami:

Krzywa ROC. Oś X to współczynnik fałszywie dodatni, a oś Y – współczynnik prawdziwy. Krzywa ROC przybliża punkt trzęsący się z kompasu biegnącego przez kierunek północny z północy na północ.

Punkt na krzywej ROC najbliżej (0,0, 1,0) teoretycznie identyfikuje próg klasyfikacji. Jednak do wyboru idealnego progu klasyfikacji mają też wpływ inne kwestie w rzeczywistości. Na przykład wyniki fałszywie negatywne mogą powodować znacznie większy problem niż fałszywie pozytywne.

Dane liczbowe o nazwie AUC podsumowują krzywą ROC w pojedynczą wartość zmiennoprzecinkową.

Błąd średniokwadratowy (RMSE)

#fundamentals

Pierwiastek kwadratowy błędu kwadratowego.

s

funkcja sigmoid

#fundamentals

Funkcja matematyczna, która „zagnieżdża” się w zakresie ograniczonym (zwykle jest to od 0 do 1 lub od -1 do +1). Oznacza to, że do sigmoidów można przekazać dowolną liczbę (2, milion, ujemny wynik niezależnie od wyniku), a dane wyjściowe pozostaną w ograniczonym zakresie. Wykres funkcji sigmoidowej aktywacji wygląda tak:

Dwuwymiarowy zakrzywiony wykres z wartościami x obejmującymi domenę -infinity do +dodatniego, a wartości y obejmują zakres od 0 do niemal 1. Gdy x 0 to y, y to 0,5. Nachylenie krzywej jest zawsze dodatnie, z najwyższą wartością 0,0,5 i stopniowo zmniejszającą się, wraz z rosnącą bezwzględną wartością x.

Funkcja sigmoidowa ma kilka zastosowań systemów uczących się, między innymi:

funkcja softmax

#fundamentals

Funkcja, która określa prawdopodobieństwo dla każdej możliwej klasy w wieloklasowym modelu klasyfikacji. Wartości prawdopodobieństwa sumują się do 1,0. Na przykład ta tabela pokazuje, jak funkcja softmax rozdziela różne prawdopodobieństwa:

... Probability,
pies 0,85
Cat 0,13
koń 0,02

Softmax jest też określany jako full softmax.

kontrast z próbkowaniem kandydatów.

rozproszona funkcja

#language
#fundamentals

Funkcja, w której wartości są głównie zerowe lub puste. Na przykład funkcja zawierająca 1 wartość i 0 milionów wartości jest równa. Z kolei funkcja gęsta ma wartości głównie takie, które nie są zerowe ani puste.

Zaskakująca liczba funkcji systemów uczących się to proste funkcje. Funkcje kategorialne są zwykle złożone. Na przykład wśród 300 możliwych gatunków drzew w lesie można wskazać tylko drzewo klonowe. Spośród milionów możliwych filmów w bibliotece filmów pojedynczy przykład może wskazywać „tylko” Casablanca.

W modelu zwykle rzadko używane są funkcje kodowania jednorazowego. Jeśli kodowanie jednohotwarowe jest duże, możesz dodać warstwę osadzania na potrzeby kodowania jednorazowego, aby zwiększyć wydajność.

rozległa reprezentacja

#language
#fundamentals

Przechowywanie tylko pozycji elementów o wartości niezerowej.

Załóżmy na przykład, że funkcja kategorii o nazwie species identyfikuje 36 gatunków drzew w określonym lesie. Załóżmy też, że każdy przykład identyfikuje tylko jeden gatunek.

W każdym przykładzie można użyć wektora z 1 gorącym wynikiem. Wektor jednohottowy zawiera 1 znak 1 (przedstawiający określone gatunki drzew w tym przykładzie) i 35 0 (sposób reprezentujący 35 gatunków drzew w tym przykładzie). Jeden punkt widzenia maple może więc wyglądać tak:

Wektor, w którym pozycja 0–23 oznacza wartość 0, pozycja 24 – wartość 1, a pozycje 25–35.

Słaby udział może też wskazywać położenie poszczególnych gatunków. Jeśli maple znajduje się na pozycji 24, zwięzła reprezentacja parametru maple będzie wyglądać tak:

24

Zwróć uwagę, że skromna reprezentacja jest znacznie bardziej zwarta niż ta przedstawiona raz.

rozproszony wektor

#fundamentals

Wektor, którego wartości to w większości zero. Zapoznaj się z informacjami o funkcji ograniczonej i słoneczności.

kwadratowa strata

#fundamentals

Synonim L2straty.

statyczne

#fundamentals

Stało się coś więcej niż raz. Terminy statyczny i offline są synonimami. Oto typowe zastosowania atrybutów statycznych i offline w systemach uczących się:

  • Model statyczny (model offline) to model wytrenowany raz, a potem używany przez jakiś czas.
  • Trenowanie statyczne (lub szkolenie offline) to proces trenowania modelu statycznego.
  • wnioskowanie statyczne (lub wnioskowanie offline) to proces, w którym model generuje grupę prognoz na raz.

kontrast z elementami dynamicznymi.

wnioskowanie statyczne

#fundamentals

synonim wnioskowania offline.

nieruchomość

#fundamentals

Cecha, której wartości nie zmieniają się w przypadku co najmniej jednego wymiaru, zazwyczaj z czasem. Na przykład funkcja, której wartości wyglądają mniej więcej tak samo w 2020 r. i 2022 r., pokazuje nieruchomość.

W rzeczywistości niewiele z nich widać stacjonarność. Nawet funkcje działające stabilnie (np. na poziomie morza) zmieniają się z czasem.

kontrast z brakiem szczegółowości.

Spadek gradientowy Stochastic (SGD)

#fundamentals

Algorytm zjazdu gradientowego, w którym występuje rozmiar grupy. Innymi słowy, usługa SGD trenuje pojedynczy przykład jednolicie na podstawie zestawu treningowego.

nadzorowane systemy uczące się

#fundamentals

Trenowanie modelu z funkcji i odpowiadających im etykiet. Nadzorowane systemy uczące się to odpowiednik analogicznego procesu uczenia się, który analizuje zbiór pytań i odpowiadające im odpowiedzi. Po opanowaniu mapowania pytań i odpowiedzi uczeń może udzielić odpowiedzi na nowe (nigdy) pytania dotyczące tego samego tematu.

Porównaj z nienadzorowanymi systemami uczącymi się.

funkcja syntetyczna

#fundamentals

Funkcja nie znajduje się wśród cech wejściowych, ale została dodana do co najmniej 1 z tych funkcji. Oto metody tworzenia funkcji syntetycznych:

  • Zasobnik w ciągłej funkcji do kontenerów zakresu.
  • Tworzenie krzyżyka.
  • Mnożenie (lub dzielenie) jednej wartości przez inne wartości cechy lub samodzielnie. Jeśli na przykład funkcje wejściowe to a i b, to funkcje syntetyczne mają następujące przykłady:
    • AB
    • a2
  • Zastosowanie funkcji transcendentalnej do wartości cechy. Jeśli na przykład funkcja c jest funkcją wejściową, to Oto przykłady funkcji syntetycznych:
    • sin(c)
    • ln(c)

Funkcje utworzone wyłącznie przez normalizację lub skalowanie nie są uznawane za funkcje syntetyczne.

T

utrata danych testowych

#fundamentals

Dane przedstawiające stratę modelu w porównaniu z zbiorem testowym. Zazwyczaj podczas tworzenia modelu starasz się zminimalizować stratę testu. Dzieje się tak, ponieważ mała utrata danych testowych jest silniejszym sygnałem niż niska przegrana w treningu lub utracona weryfikacja.

Duża luka między utratą testową a utratą trenowania lub walidacją może czasem oznaczać, że konieczne jest zwiększenie częstotliwości moderacji.

trenowanie

#fundamentals

Proces określania idealnych parametrów (wag i odchylenia) tworzących model. Podczas trenowania system odczytuje przykłady i stopniowo dostosowuje parametry. Trenowanie wykorzystuje każdy przykład od kilku razy do miliardów razy.

utrata trenowania

#fundamentals

Wskaźnik reprezentujący stratę modelu w trakcie konkretnej iteracji trenowania. Załóżmy, że funkcja utraty to Mean Square Square. Być może utrata trenowania (średni błąd kwadratowy) dla 10. iteracji to 2.2, a utrata trenowania dla 100. iteracji to 1.9.

Krzywa krzywej przedstawia stratę treningu w porównaniu z liczbą iteracji. Krzywa utraty przedstawia następujące wskazówki dotyczące trenowania:

  • Ten spadek oznacza, że model się poprawia.
  • Nachylenie w górę oznacza, że model pogarsza się.
  • Płaski stok oznacza, że model osiągnął zbieżność.

Oto przykład idealnych krzywek utraty:

  • Stromy spadek w czasie początkowych iteracji, co oznacza gwałtowną poprawę modelu.
  • Stopniowa (ale i w dół) nachylenie aż do końca szkolenia, co oznacza, że w trakcie początkowych iteracji trzeba cały czas ulepszać model.
  • Płyty stok na końcu trenowania, który sugeruje zbieżność.

Wykres straty trenowania i iteracji. Na tej krzywej zaczyna się stromy spadek. Nachylenie terenu jest stopniowo wyrównywane do zera.

Chociaż utrata trenowania jest ważna, zapoznaj się też z uogólnianiem.

zniekształcenie między trenowaniem a zastosowaniem praktycznym

#fundamentals

Różnica między skutecznością modelu podczas trenowania a tym samym modelem podczas wyświetlania.

zestaw treningowy

#fundamentals

Podzbiór zbioru danych używanego do trenowania modelu.

Tradycyjnie przykłady w zbiorze danych są podzielone na trzy różne podgrupy:

W każdej sytuacji zbiór danych powinien należeć tylko do jednego z wcześniejszych podzbiorów. Na przykład pojedynczy przykład nie powinien należeć do zbioru treningowego i zbioru do walidacji.

ujemny (TN)

#fundamentals

Przykład, w którym model prawidłowo prognozuje klasę negatywną. Na przykład model zakłada, że dany e-mail nie jest spamem i że tak naprawdę nie jest to spam.

dodatnie (TP)

#fundamentals

Przykład, w którym model prawidłowo prognozuje klasę pozytywną. Model zakłada na przykład, że konkretny e-mail to spam, a tak naprawdę e-mail to spam.

odsetek dodatnich wyników (TPR)

#fundamentals

Synonim słowa rozpoznawalność. Czyli:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Rzeczywista stopa dodatnia to oś y na krzywej krzywej ROC.

U

niedopasowany

#fundamentals

Wytworzenie modelu o niskiej przewidywanej możliwości, ponieważ model w pełni przechwycił dane treningowe. Niedopasowanie może powodować wiele problemów, na przykład:

przykład bez etykiety

#fundamentals

Przykład zawierający funkcje, ale bez label. Na przykład ta tabela zawiera trzy przykłady bez etykiety domu, każdy z 3 funkcjami, ale bez wartości:

Liczba sypialni Liczba łazienek Wiek domu
3 2 15
2 1 72
4 2 34

W nadzorowanych systemach uczących się modele uczą się na oznaczonych przykładach i prognozują przykłady bez etykiety.

W nauce nadzorowanych i nienadzorowanych używane są nieoznaczone przykłady.

Przykład kontrastu bez etykiety: przykład z etykietą.

nienadzorowane systemy uczące się

#clustering
#fundamentals

Wytrenuj model, aby znaleźć wzorce w zbiorze danych, zwykle bez etykiety.

Najczęstszym zastosowaniem nienadzorowanych systemów uczących się jest umieszczenie danych klastra w grupach podobnych przykładów. Na przykład nienadzorowany algorytm systemów uczących się może gromadzić utwory na podstawie różnych właściwości muzyki. Powstałe klastry mogą stać się danymi wejściowymi do innych algorytmów systemów uczących się (np. do usługi rekomendacji muzycznych). Pogrupowanie może być pomocne, gdy brakuje przydatnych etykiet lub są one niedostępne. Na przykład w domenach przeciwdziałających nadużyciom i oszustwom klastry mogą pomóc ludziom lepiej zrozumieć dane.

kontrast z nadzorowanymi systemami uczącymi się;

V

weryfikacja

#fundamentals

Wstępna ocena jakości modelu Weryfikacja sprawdza jakość prognoz modelu i zestawu weryfikacji.

Zestaw weryfikacji różni się od zestawu treningowego, więc weryfikacja pomaga chronić go przed nadmiernym dopasowaniem.

Rozważ porównanie modelu z zestawem weryfikacji w ramach pierwszej rundy testowania i porównanie go z zbiorem testowym jako drugiej rundy testowania.

utrata walidacji

#fundamentals

Wskaźnik reprezentujący stratę modelu zestawu walidacji podczas konkretnego powtarzania trenowania.

Zapoznaj się też z krzywą uogólnienia.

zestaw weryfikacji

#fundamentals

Podzbiór zbioru danych, który przeprowadza wstępną ocenę na wytrenowanym modelu. Zazwyczaj wytrenowany model porównuje się ze zbiorem do weryfikacji kilka razy przed rozpoczęciem zbioru testowego.

Tradycyjnie dzielimy przykłady w zbiorze danych na te 3 różne podzbiory:

W każdej sytuacji zbiór danych powinien należeć tylko do jednego z wcześniejszych podzbiorów. Na przykład pojedynczy przykład nie powinien należeć do zbioru treningowego i zbioru do walidacji.

W

sztanga

#fundamentals

Wartość, którą model mnoży przez inną wartość. Trenowanie to proces określania idealnych wag modelu. Wniosek to wykorzystywanie tych nauczonych wag do prognozowania.

suma ważona

#fundamentals

Suma wszystkich odpowiednich wartości wejściowych pomnożona przez odpowiednie wagi. Załóżmy na przykład, że dane wejściowe obejmują:

wartość wejściowa obecna waga
2 -1,3
-1 0,6
3 0,4

Suma ważona wynosi więc:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Suma ważona to argument wejściowy dla funkcji aktywacji.

Z

Normalizacja wyniku Z

#fundamentals

Metoda skalowania, która zastępuje nieprzetworzoną wartość funkcji liczbą zmiennoprzecinkową reprezentującą liczbę odchyleń standardowych od tej cechy. Rozważmy na przykład funkcję, której średnia wynosi 800, a odchylenie standardowe to 100. W tabeli poniżej pokazujemy, jak normalizacja wyniku Z jest mapowana na nieprzetworzoną wartość na jej wynik Z.

Wartość nieprzetworzona Wynik Z
800 0
950 +1,5
575 -2,25

Model systemów uczących się następnie trenuje wyniki Z dla tej funkcji, a nie nieprzetworzone wartości.