Słowniczek systemów uczących się: lasy decyzyjne

Ta strona zawiera terminy z glosariusza Las decyzyjny. Aby wyświetlić wszystkie terminy w glosariuszu, kliknij tutaj.

O

próbkowanie atrybutów

#df

Taktyka trenowania lasu decyzyjnego, w którym każde drzewo decyzyjne podczas uczenia się warunku uwzględnia tylko losowy podzbiór możliwych cech. Zwykle dla każdego węzła próbkowany jest inny podzbiór funkcji. Natomiast w przypadku trenowania drzewa decyzyjnego bez próbkowania atrybutów wszystkie możliwe cechy są brane pod uwagę w przypadku każdego węzła.

warunek wyrównany do osi

#df

warunek w drzewie decyzji obejmujący tylko 1 cechę, Jeśli np. obszar jest cechą, taki warunek jest wyrównany do osi:

area > 200

Kontrast z warunkem skośnym.

B

bagaż

#df

Metoda trenowania zespołu, w którym każdy model trenuje na losowym podzbiorze przykładów treningowych spróbkowanych z zamiennikiem. Na przykład losowy las to zbiór drzew decyzyjnych wytrenowanych z użyciem worków.

Termin bagging to skrót od bootstrap aggregating.

warunek binarny

#df

W drzewie decyzji warunek ma tylko 2 możliwe wyniki – zwykle tak lub nie. Oto przykład warunku binarnego:

temperature >= 100

Skontrastuj warunek niebinarny.

C

stan

#df

W drzewie decyzyjnym każdy węzeł, który ocenia wyrażenie. Na przykład ta część drzewa decyzyjnego zawiera 2 warunki:

Drzewo decyzyjne składające się z 2 warunków: (x > 0) i (y > 0).

Warunek jest też nazywany podziałem lub testem.

Stan kontrastu: liaf (liść).

Zobacz także:

D

las decyzji

#df

Model utworzony na podstawie drzew decyzyjnych. Las decyzyjny tworzy prognozę, agregując prognozy dotyczące swoich drzew decyzyjnych. Popularne rodzaje lasów decyzyjnych to lasy losowe i drzewa o wzmocnieniu gradientowym.

drzewo decyzyjne

#df

Model uczenia się nadzorowanego składający się z zestawu conditions i conditions uporządkowany hierarchicznie. Oto przykładowe drzewo decyzyjne:

Drzewo decyzyjne składające się z 4 ułożonych hierarchicznie warunków, których podstawą jest 5 liści.

E

entropia

#df

W teorii informacji jest to opis nieprzewidywalności rozkładu prawdopodobieństwa. Entropia jest też zdefiniowana jako ilość informacji w poszczególnych przykładach. Rozkład ma najwyższą możliwą entropię, gdy wszystkie wartości zmiennej losowej są jednakowe.

Entropia zbioru z 2 możliwymi wartościami „0” i „1” (np. etykiety w problemie z klasyfikacją binarną) ma taką formułę:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

gdzie:

  • H to entropia.
  • p to ułamek z przykładów „1”.
  • q to ułamek z przykładów „0”. Zwróć uwagę, że q = (1 - p)
  • log to zwykle log2. W tym przypadku jednostka entropii jest pewna.

Załóżmy na przykład, że:

  • 100 przykładów zawiera wartość „1”
  • 300 przykładów zawiera wartość „0”

Dlatego wartość entropii wynosi:

  • P = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) – (0,75)log2(0,75) = 0,81 bitów na przykład

Idealnie zrównoważony zestaw (np.200 „0” i 200 „1”) będzie miał na przykład 1, 0 bitu. W miarę jak zestaw staje się bardziej niezrównoważony, jego entropia zbliża się do 0,0.

W drzewach decyzyjnych entropia pomaga w formułowaniu zysków informacji, które pomagają osobie dzielącej dane wybrać warunki w trakcie rozwoju drzewa decyzji o klasyfikacji.

Porównaj entropię z:

Entropia jest często nazywana entropią Shannona.

F

znaczenie cech

#df

Synonim zmiennych znaczenia.

G

nieczystość gini

#df

Wskaźnik podobny do entropii. Rozdzielacze używają wartości wyodrębnionych na podstawie zanieczyszczenia gini lub entropii, aby utworzyć warunki klasyfikacji drzew decyzyjnych. Zysk informacji uzyskuje się z entropii. Nie ma uniwersalnego terminu oznaczającego dane pochodzące z nieczystości gini. Jednak takie dane bez nazwy są równie ważne jak zdobywanie informacji.

Nieczystość gini jest również nazywana indeksem gini lub po prostu gini.

drzewa ze wzmocnionymi gradientem (GBT)

#df

Rodzaj lasu decyzji, w którym:

wzmocnienie gradientu

#df

Algorytm trenowania, w którym słabe modele są trenowane w celu iteracyjnej poprawy jakości (zmniejszenia utraty) silnego modelu. Na przykład słabym modelem może być liniowy lub mały model drzewa decyzyjnego. Silny model staje się sumą wszystkich słabych modeli wytrenowanych wcześniej.

W najprostszej formie wzmocnienia gradientu przy każdej iteracji słaby model jest trenowany tak, aby przewidywać gradient straty silnego modelu. Następnie dane wyjściowe solidnego modelu są aktualizowane przez odjęcie przewidywanego gradientu, podobnie jak w przypadku spadku gradientu.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

gdzie:

  • Dobrym modelem początkowym jest $F_{0}$.
  • $F_{i+1}$ to kolejny świetny model.
  • Obecny solidny model: $F_{i}$.
  • $\xi$ to wartość z zakresu od 0,0 do 1,0 zwana kurczeniem, która odpowiada szybkości uczenia się w przypadku opadania gradientu.
  • $f_{i}$ to słaby model wytrenowany do prognozowania gradientu straty $F_{i}$.

Współczesne odmiany wzmocnienia gradientu obejmują również drugą pochodną (Hesję) stratę podczas obliczeń.

Drzewa decyzyjne są zwykle używane jako słabe modele przy wzmocnieniu gradientowym. Zobacz drzewa ze wzmocnionym gradientem (decyzja).

I

ścieżka zależności

#df

W drzewie decyzyjnym, podczas wnioskowania, trasa konkretnego przykładu prowadzi od katalogu głównego do innych warunków i kończy się liściem. Na przykład w poniższym drzewie decyzyjnym grubsze strzałki wskazują ścieżkę wnioskowania dla przykładu z tymi wartościami cech:

  • x = 7
  • y = 12
  • Z = -3

Ścieżka wnioskowania na ilustracji poniżej przechodzi przez 3 warunki, zanim dotrze do liścia (Zeta).

Drzewo decyzyjne składające się z 4 warunków i 5 liści.
          Warunek główny to (x > 0). Odpowiedź brzmi „Tak”, więc ścieżka wnioskowania wędruje od poziomu głównego do następnego warunku (y > 0).
          Odpowiedź brzmi „Tak”, więc ścieżka wnioskowania przechodzi do kolejnego warunku (z > 0). Odpowiedź to „Nie”, więc ścieżka wnioskowania prowadzi do węzła końcowego, którym jest liść (Zeta).

Trzy grube strzałki wskazują ścieżkę wnioskowania.

zdobywanie informacji

#df

W lasach decyzyjnych różnica między entropią węzła a ważoną (według liczby przykładów) sumą entropii jego węzłów podrzędnych. Entropia węzła to entropia przykładów w tym węźle.

Weźmy na przykład te wartości entropii:

  • entropia węzła nadrzędnego = 0,6
  • entropia 1 węzła podrzędnego z 16 odpowiednimi przykładami = 0,2
  • entropia innego węzła podrzędnego z 24 odpowiednimi przykładami = 0,1

40% przykładów znajduje się w jednym węźle podrzędnym, a 60% w innym węźle podrzędnym. Dlatego:

  • suma entropii ważona węzłów podrzędnych = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Zysk informacyjny jest zatem taki:

  • przyrost informacji = entropia węzła nadrzędnego – ważona suma entropii węzłów podrzędnych
  • zysk informacji = 0,6 - 0,14 = 0,46

Większość osób rozdzielających stara się tworzyć warunki, które maksymalizują zyski z informacji.

stan w zestawie

#df

warunek w drzewie decyzyjnym, który sprawdza obecność 1 elementu w zbiorze elementów; Oto przykład warunku w zestawie:

  house-style in [tudor, colonial, cape]

Jeśli po wnioskowaniu wartość cechy w stylu domu to tudor, colonial lub cape, ten warunek przyjmuje wartość Tak. Jeśli cecha domowa ma inną wartość (np. ranch), ten warunek przyjmuje wartość Nie.

Wbudowane warunki prowadzą zwykle do bardziej wydajnych drzew decyzyjnych niż warunki testujące funkcje zakodowane jednym kliknięciem.

L

liść

#df

Dowolny punkt końcowy w drzewie decyzji. W przeciwieństwie do warunku liście nie są objęte testem. Możliwa jest raczej liść. Liść jest też końcowym węzłem ścieżki wnioskowania.

Na przykład poniższe drzewo decyzyjne zawiera trzy liście:

Drzewo decyzyjne z 2 warunkami prowadzącymi do 3 liści.

N

węzeł (drzewo decyzji)

#df

W drzewie decyzyjnym dowolny warunek lub liść.

Drzewo decyzyjne z 2 warunkami i 3 liśćmi.

warunek niebinarny

#df

Warunek obejmujący więcej niż 2 możliwe wyniki. Na przykład ten niebinarny warunek obejmuje 3 możliwe rezultaty:

Warunek (liczba_legów = ?), który prowadzi do 3 możliwych rezultatów. Jeden wynik (number_of_legs = 8) prowadzi do liścia o nazwie pająk. Drugi wynik (number_of_legs = 4) prowadzi do liścia o imieniu pies. Trzeci wynik (number_of_legs = 2) prowadzi do liścia o nazwie pingwin.

O

stan skośny

#df

warunek w drzewie decyzyjnym, który obejmuje więcej niż 1 cechę; Jeśli np. wysokość i szerokość są jednocześnie cechami, to warunek ten jest skośny:

  height > width

Kontrast względem warunku wyrównanego do osi.

ocena poza biurem (ocena OOB)

#df

Mechanizm oceny jakości lasu decyzyjnego poprzez testowanie każdego drzewa decyzyjnego z przykładami nie użytymi podczas szkolenia tego drzewa decyzyjnego. Na przykład na poniższym diagramie można zauważyć, że system trenuje każde drzewo decyzyjne na podstawie około 2 trzeciej przykładów, a następnie ocenia pozostałe 1 3 przykładów.

Las decyzyjny składający się z 3 drzew decyzyjnych.
          Jedno drzewo decyzyjne trenuje dwie trzecie przykładów, a resztę wykorzystuje do oceny OOB.
          Drugie drzewo decyzyjne trenuje na innych 2/3 przykładów niż poprzednie drzewo decyzyjne, a następnie używa innej 1/3 do oceny OOB niż poprzednie.

Ocena poza modelem to skuteczne obliczeniowo i zachowawcze podejście do mechanizmu walidacji krzyżowej. W ramach walidacji krzyżowej trenowany jest 1 model na każdą rundę weryfikacji krzyżowej (np. 10 modeli jest trenowanych w ramach 10-krotnej weryfikacji krzyżowej). W przypadku oceny OOB trenowany jest pojedynczy model. Podczas trenowania funkcja baging ukrywa część danych z każdego drzewa, dlatego ocena OOB może używać tych danych do przybliżonej weryfikacji krzyżowej.

P

znaczenie zmiennej permutacji

#df

Rodzaj zmiennej ważności, który ocenia wzrost błędu prognozy modelu po zmianie wartości cechy. Znaczenie zmiennej permutacji jest wskaźnikiem niezależnym od modelu.

R

Losowy las

#df

Zbiór drzew decyzyjnych, w którym każde drzewo decyzyjne jest trenowane przy użyciu określonego losowego szumu, np. bagażu.

Lasy losowe są rodzajem lasu decyzyjnego.

poziom główny

#df

Początkowy węzeł (pierwszy warunek) w drzewie decyzji. Zgodnie z konwencją diagramy umieszczają pierwiastek na samej górze drzewa decyzyjnego. Na przykład:

Drzewo decyzyjne z 2 warunkami i 3 liśćmi. Warunek początkowy (x > 2) to poziom główny.

S

próbkowanie z zamiennikiem

#df

Metoda wybierania elementów z zestawu propozycji, w ramach której ten sam produkt może zostać wybrany kilka razy. Sformułowanie „z zamiennikiem” oznacza, że po każdym zaznaczeniu wybrany element wraca do puli kandydujących elementów. Metoda odwrotna, czyli próbkowanie bez zamiennika, oznacza, że kandydat można wybrać tylko raz.

Weźmy na przykład taki zestaw owoców:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Załóżmy, że system losowo wybiera jako pierwszy element fig. Jeśli stosujesz próbkowanie z zamiennikiem, system wybiera drugi element z tego zbioru:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Tak. Jest to taki sam zestaw jak wcześniej, więc system może ponownie wybrać użytkownika fig.

W przypadku korzystania z próbkowania bez zamiennika, raz wybranego próbki nie można wybrać ponownie. Jeśli na przykład system losowo wybierze fig jako pierwszą próbkę, wtedy fig nie będzie można wybrać ponownie. Dlatego system wybiera drugą próbkę z tego (zredukowanego) zbioru:

fruit = {kiwi, apple, pear, cherry, lime, mango}

kurczenie

#df

Hiperparametr w wzmacnianiu gradientowym, który kontroluje dopasowanie. Zmniejszenie wzmocnienia gradientu odpowiada szybkości uczenia się w opuszczaniu gradientu. Wartość zmniejszona jest wartością dziesiętną z zakresu od 0,0 do 1,0. Niższa wartość kurczenia ogranicza nadmierne dopasowanie bardziej niż większa wartość kurczenia.

podział : fragment

#df

W drzewie decyzji inna nazwa warunku.

podział

#df

Podczas trenowania drzewa decyzyjnego procedura (i algorytm) odpowiada za znalezienie najlepszego warunku w każdym węźle.

T

test

#df

W drzewie decyzji inna nazwa warunku.

próg (w przypadku drzewa decyzyjnego)

#df

W przypadku warunku wyrównanego do osi wartość, z którą porównywana jest funkcja. Na przykład 75 to wartość progowa w tym warunku:

grade >= 75

V

zmienne znaczenia

#df

Zestaw wyników wskazujący względne znaczenie poszczególnych cech dla modelu.

Rozważmy na przykład drzewo decyzyjne, które pozwala oszacować ceny domów. Załóżmy, że to drzewo decyzyjne ma 3 cechy: rozmiar, wiek i styl. Jeśli zbiór zmiennych znaczenia dla tych trzech cech obliczy się jako {rozmiar=5.8, wiek=2.5, style=4.7}, dla drzewa decyzyjnego rozmiar ma większe znaczenie niż wiek czy styl.

Istnieją różne zmienne wskaźniki ważności, które mogą informować specjalistów od systemów uczących się o różnych aspektach modeli.

Ś

mądrość tłumu

#df

Używanie uśrednionych opinii lub szacunków dotyczących dużej grupy osób („tłum”) często przynosi zaskakująco dobre wyniki. Weźmy na przykład grę, w której gracze zgadują, ile żelki w dużym słoiku. Chociaż większość indywidualnych przypuszczeń będzie niedokładna, średnia wszystkich domysłów nieoczekiwanie jest zaskakująco zbliżona do rzeczywistej liczby galaretek w słoiku.

Ensembles to programowy odpowiednik mądrości tłumu. Nawet wtedy, gdy poszczególne modele tworzą bardzo niedokładne prognozy, uśrednianie prognoz wielu modeli często generuje zaskakująco dobre prognozy. Na przykład drzewo decyzyjne może generować niedokładne prognozy, ale las decyzyjny często potrafi bardzo trafne prognozy.