Glosariusz systemów uczących się: lasy decyzyjne

Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Ta strona zawiera słowniczek pojęć związanych z lasami decyzyjnymi. Wszystkie terminy słowniczka znajdziesz tutaj.

A

próbkowanie atrybutów

#df

Taktyka szkoleniowa lasu decyzyjnego, w której każdy drzewo decyzji bierze pod uwagę tylko losowy podzbiór możliwych funkcji podczas nauki warunku. Dla każdego węzła próbkowany jest inny podzbiór funkcji. Podczas trenowania drzewa decyzji bez próbkowania atrybutów wykorzystywane są wszystkie możliwe funkcje dla każdego węzła.

warunek do osi

#df

W drzewie decyzji warunek, który obejmuje tylko jedną funkcję. Jeśli na przykład obszar jest funkcją, wówczas warunek wyrównany do osi wygląda tak:

area > 200

kontrast z warunkiem skośnym;

B

bagaż

#df

Metoda szkolenia zespołu, w której każdy model w ramach modelu trenuje losowy podzbiór przykładów trenowania z wymianą. Na przykład las losowy to zbiór drzew decyzyjnych wytrenowanych w bagażu.

Termin bagaż (skrót) oznacza botstrap aggregat.

warunek binarny

#df

W drzewie decyzji warunek, który ma tylko 2 możliwe wyniki, zwykle tak lub nie. Na przykład taki warunek jest binarny:

temperature >= 100

kontrast z warunkiem niebinarnym;

C

stan

#df

W drzewie decyzji dowolny węzeł, który ocenia wyrażenie. Na przykład ta część drzewa decyzyjnego zawiera dwa warunki:

Drzewo decyzyjne składające się z 2 warunków: (x > 0) i (y > 0).

Warunek jest też nazywany podziałem lub testem.

Stan kontrastu z wartością liścia.

Zobacz także:

D

las decyzji

#df

Model utworzony z wielu drzew decyzyjnych. Las decyzyjny opiera się na agregacji prognoz drzew. Popularne rodzaje lasów decyzyjnych to lasy losowe i drzewa gradientowe.

drzewo decyzyjne

#df

Nadzorowany model nauczania składający się z zestawu warunków i opuszczania hierarchicznie. Oto drzewo decyzyjne:

Drzewo decyzyjne składają się z 4 warunków, które zapewniają hierarchię, która prowadzi do 5 liści.

E

entropia

#df

W teorii informacji jest to stopień nieprzewidywalności rozkładu prawdopodobieństwa. Z kolei entropia jest określana również jako ilość informacji zawartych w przykładach. Rozkład ma największą możliwą entropię, gdy wszystkie wartości zmiennej losowej są na tyle samo prawdopodobne.

Entropia zbioru z 2 możliwymi wartościami „&” (np. etykiety w problemie binarnym) ma taką formułę:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

gdzie:

  • H to entropia.
  • p to ułamek ciągu "1".
  • q to ułamek przykładu "0&quot. Pamiętaj, że q = (1 – p)
  • log zwykle to log2. W tym przypadku jednostka entropijna jest trochę.

Załóżmy na przykład, że:

  • 100 przykładów zawiera wartość "1"
  • 300 przykładów zawiera wartość "0"

Wartość entropii wynosi więc:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bitów na przykład

Idealnie zrównoważony zestaw (na przykład 200 & 200 & 200 &1t) będzie miał entropię po 1, 0 bitu na przykład. W miarę jak zbiór będzie się nierównoważać, jego entropia będzie zbliżać się do wartości 0,0.

W drzewach decyzyjnych entropia pomaga formułować wzrost informacji, aby pomóc plakietkom w wybraniu warunków podczas rozwoju drzewa decyzji o klasyfikacji.

Porównaj entropię z:

Entropią nazywa się często entropią Shannon.

F

znaczenie funkcji

#df

synonim zmiennych ważności.

Z

zanieczyszczenie ginyny

#df

Dane podobne do entropii. Podzielniki używają wartości uzyskanych z zanieczyszczenia gini lub entropii, aby utworzyć warunki klasyfikacji decycyjności. Korzystanie z informacji pochodzi z entropii. Nie ma powszechnie uniwersalnego odpowiednika danych uzyskanych w przypadku nierówności Gini. Są one jednak tak ważne jak pozyskiwanie informacji.

Neuter Gini jest też nazywany indeksem ginilub po prostu gini.

wzmocnienie gradientu

#df

Algorytm trenowania, w którym wytrenowane są słabe modele, aby iterować w celu poprawy jakości (zmniejszenia utraty) silnego modelu. Słabym modelem może być na przykład liniowy lub mały model drzewa. Silny model stanowi sumę wszystkich wytrenowanych wcześniej słabych modeli.

W najprostszej postaci wzmocnienia gradientu przy każdym iteracji trenowany jest słaby model, by przewidywać gradient utraty modelu silnego. Następnie dane o silnym modelu zostaną zaktualizowane przez odjęcie przewidywanego gradientu podobnie do zjazdu gradientowego.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

gdzie:

  • $F_{0}$ to dobry początek.
  • $F_{i+1}$ to kolejny silny model.
  • $F_{i}$ to obecny silny model.
  • $\xi$ to wartość z zakresu od 0,0 do 1,0 o nazwie skurczenie, która jest odpowiednikiem częstotliwości nauczania w zboczu gradientowym.
  • $f_{i}$ to słaby model wytrenowany do prognozowania gradientu utraty w wysokości $F_{i}$.

Nowoczesne odmiany wzmocnienia gradientu obejmują też drugą pochodną (uzyskaną z hesji) utratę utraty w obliczeniach.

Drzewa decyzyjne są często używane jako słabe modele podczas wzmacniania gradientu. Zobacz drzewa decyzyjne wzbogacone (decyzja).

Drzewa przyrostowe (decyzja) (GBT)

#df

Rodzaj lasu decyzyjnego, w którym:

I

ścieżka wnioskowania

#df

W drzewie decyzji, podczas wnioskowania trasa wybrana jest przykład z poziomu głównego do innych warunków, który kończy się ciągiem liści. Na przykład w drzewie decyzyjnym grubsze strzałki pokazują ścieżkę przykładu z tymi wartościami cech:

  • x = 7
  • y = 12
  • Z = -3

Ścieżka wnioskowania z poniższej ilustracji przechodzi przez trzy warunki, zanim dotrze do liścia (Zeta).

Drzewo decyzyjne składające się z 4 warunków i 5 liści.
          Warunek główny to (x > 0). Odpowiedź brzmi „Tak”, więc ścieżka wnioskowania przechodzi przez pierwiastek do następnego warunku (y > 0).
          Odpowiedź to „Tak”, więc ścieżka wnioskowania przechodzi następnie do następnego warunku (z > 0). Odpowiedź to „Nie”, więc ścieżka wnioskowania przechodzi
          do węzła terminala, którym jest liść (Zeta).

3 grubye strzałki pokazują ścieżkę wnioskowania.

zwiększona ilość informacji

#df

W lasach decyzyjnych różnica między entropią węzła a ważoną (według liczby przykładów) entropią jego węzłów podrzędnych. Entropia węzła to entropia przykładów w tym węźle.

Weźmy na przykład następujące wartości entropii:

  • entropia węzła nadrzędnego = 0,6
  • entropia jednego węzła podrzędnego z 16 odpowiednimi przykładami = 0,2
  • entropia innego węzła podrzędnego z 24 odpowiednimi przykładami = 0,1

Dlatego 40% przykładów znajduje się w jednym węźle podrzędnym, a 60% w drugim. Dlatego:

  • entropia ważona węzłów podrzędnych = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

W ten sposób zyskasz:

  • przyrost informacji = entropia węzła nadrzędnego – suma entropii ważonych węzłów podrzędnych
  • przyrost informacji = 0,6 - 0,14 = 0,46

Większość placówek próbuje utworzyć warunki, które pozwalają zmaksymalizować ilość informacji.

ustawiony warunek

#df

W drzewie decyzji warunek, który testuje obecność jednego elementu w zestawie. Warunek wstępny może być na przykład taki:

  house-style in [tudor, colonial, cape]

Jeśli wnioskowana wartość jest wartością funkcji autoreklamy, to tudor, colonial lub cape, wówczas ten warunek ma wartość Tak. Jeśli wartość funkcji domu to coś innego (np. ranch), ten warunek przyjmuje wartość Nie.

Warunek wstępny prowadzi zwykle do bardziej wydajnych drzew decyzyjnych niż warunki, które testują funkcje zakodowane na ciepło.

N

liść

#df

Dowolne punkty końcowe w drzewie decyzji. W przeciwieństwie do warunków liść nie wykonuje testu. Liście są raczej prognozą. Liść jest również terminalem węzła ścieżki wnioskowania.

Na przykład w tym drzewie decyzyjnym są trzy liście:

Drzewo decyzyjne z 2 warunkami, które prowadzą do 3 liści.

N

węzeł (drzewo decyzyjne)

#df

W drzewie decyzji dowolny warunek lub liść.

Drzewo decyzyjne z 2 warunkami i 3 liśćmi.

warunek niebinarny

#df

Stan zawierający więcej niż 2 możliwe wyniki. Na przykład ten warunek niebinarny zawiera 3 możliwe wyniki:

Warunek (number_of_legs = ?), który prowadzi do 3 możliwych wyników. 1 wynik (liczba_nóg = 8) prowadzi do liścia o nazwie pająk. Drugi wynik (number_of_legs = 4) prowadzi do liścia o nazwie pies. Trzeci wynik (number_of_legs = 2) prowadzi do liścia o nazwie pingwin.

O

skośny

#df

W drzewie decyzji warunek, który obejmuje więcej niż jedną funkcję. Jeśli np. wysokość i szerokość są obiema cechami, warunek ten jest następujący:

  height > width

kontrast z warunkiem wyrównanym do osi;

ocena „bagażu” (ocena OOB)

#df

Mechanizm oceny jakości lasu decyzyjnego poprzez testowanie każdego z nich przykładów z przykładów używanych podczas szkolenia tego drzewa decyzji. Na przykład na tym diagramie widać, że system trenuje każde drzewo decyzyjne na około 2/3 przykładów, a następnie ocenia je pod kątem pozostałych części.

Las decyzyjny składający się z 3 drzew decyzyjnych.
          Jedno drzewo decyzyjne jest trenowane na 2/3 przykładów, a następnie pozostałe 3/3 do oceny OOB.
          Drugie drzewo decyzyjne jest trenowane na innej 2-3 przykładach niż poprzednie, a następnie na podstawie oceny OOB korzysta z innej danych niż poprzednia.

Ocena poza bagażem to obliczeniowo skuteczna i zachowawcza metoda przybliżania wzajemnej weryfikacji. W przypadku każdej walidacji krzyżowej trenowany jest jeden model (np. 10 modeli jest trenowanych w 10-cyfrowej weryfikacji krzyżowej). W przypadku oceny OOB wytrenowany jest jeden model. bagażowanie blokuje niektóre dane z każdego drzewa podczas trenowania, dlatego ocena OOB może używać tych danych do przybliżonej weryfikacji krzyżowej.

P

znaczenie zmiennej permutacji

#df

Typ zmiennej istotności, który ocenia wzrost błędu prognozy modelu po wprowadzeniu zmian wartości cechy. Znaczenie zmiennej permutacji to dane modelowe.

C

las losowy

#df

Zbiór drzew decyzyjnych, w którym każde drzewo decyzyjne jest trenowane z wykorzystaniem określonego losowego szumu, np. przechadzania.

Lasy losowe to rodzaj lasu decyzyjnego.

poziom główny

#df

Początkowy węzeł (pierwszy warunek) w drzewie decyzji. Zgodnie z konwencją diagramy umieszczają u góry drzewa decyzji. Przykład:

Drzewo decyzyjne z 2 warunkami i 3 liśćmi. Warunek główny (x igt; 2) jest pierwiastkiem głównym.

s

próbkowanie z wymianą

#df

Metoda wybierania elementów z zestawu kandydatów, w których można wybrać ten sam element wiele razy. Fraza „&” z zastąpieniem oznacza, że po każdym wyborze wybrany element jest zwracany do puli elementów kandydujących. Odwrotna metoda, próbkowanie bez zastępowania, oznacza, że element kandydujący można wybrać tylko raz.

Rozważmy ten zestaw owoców:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Załóżmy, że system losowo wybiera fig jako pierwszy element. Jeśli użyjesz próbkowania zamiennika, system wybierze drugi element z tego zestawu:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Tak, jest taki sam jak wcześniej, więc system może ponownie wybrać fig.

Jeśli wybierzesz próbkę, ale nie zastąpisz próbki, nie będzie można ponownie wybrać próbki. Jeśli na przykład w pierwszej kolejności system losowo wybierze fig, nie będzie można ponownie wybrać typu fig. Dlatego system pobiera drugą próbkę z następującego (zmniejszonego) zestawu:

fruit = {kiwi, apple, pear, cherry, lime, mango}

skurczenie

#df

hiperparametr w wzmocnieniu gradientu, który kontroluje nadmierne dopasowanie. Zmniejszenie wzmocnienia gradientu jest podobne do szybkości nauki w obniżeniu gradientu. Zmniejszanie to wartość dziesiętna z zakresu od 0,0 do 1,0. Zmniejszenie wartości Zmniejszenia powoduje zmniejszenie zbyt dużego dopasowania w stosunku do większej wartości kurczenia się.

podział : fragment

#df

W drzewie decyzji jest inna nazwa warunku.

rozkład

#df

Podczas trenowania drewna decyzyjnego rutyna (i algorytm) odpowiedzialna za znalezienie najlepszego warunku w każdym węźle.

T

test

#df

W drzewie decyzji jest inna nazwa warunku.

próg (dla drzew decyzyjnych)

#df

W warunku dopasowanym do osi porównujemy wartość funkcji. Na przykład 75 to wartość progowa w następującym warunku:

grade >= 75

V

znaczenie zmiennych

#df

Zestaw wyników, które wskazują względne znaczenie funkcji danego modelu.

Weźmy na przykład drzewo decyzyjne, które szacuje ceny domów. Załóżmy, że drzewo decyzyjne wykorzystuje 3 cechy: rozmiar, wiek i styl. Jeśli obliczony przez nas zestaw zmiennych 3 elementów ma postać {size=5.8, age=2.5, style=4.7}, rozmiar decyzji ma większe znaczenie niż wiek czy styl.

Dostępne są różne dane o znaczeniu zmiennych, które mogą informować ekspertów systemów uczących się o różnych aspektach modeli.

W

mądrość tłumu

#df

Świadomość, że uśrednianie opinii lub szacunkowych danych dużej grupy ludzi (&t; tłum&quo;) często przynosi zaskakujące wyniki. Rozważmy na przykład grę, w której ludzie odgadują liczbę galaretek w dużym słoiku. Chociaż większość odgadnięć jest niedokładna, udowodniono, że średnia ze wszystkich odgadnięć jest zaskakująca, jeśli chodzi o faktyczną liczbę fasoli w słoiku.

Ekskluzywniki to oprogramowanie, które pokazuje, jak mądrze wypełnia się tłum. Nawet wtedy, gdy pojedyncze modele przeprowadzają bardzo nieprecyzyjne prognozy, średnia z ich prognoz często generuje zaskakująco dobre prognozy. Choć na przykład drzewo decyzji może być niedokładne, las decyzyjny często przynosi dobre prognozy.