Glosariusz systemów uczących się: lasy decyzyjne

Ta strona zawiera terminy ze słowniczka w odniesieniu do lasów decyzyjnych. Aby uzyskać dostęp do wszystkich glosariuszy, kliknij tutaj.

A

próbkowanie atrybutów

#df

Taktyka trenowania lasu decyzyjnego, w której każde drzewo decyzyjne uwzględnia tylko losowy podzbiór możliwych funkcji podczas nauki warunku. Ogólnie dla każdego węzła sprawdzany jest inny podzbiór funkcji. W trakcie trenowania drzewa decyzji bez próbkowania atrybutów wykorzystywane są wszystkie możliwe funkcje dla każdego węzła.

warunek wyrównany do osi

#df

W drzewie decyzji oznacza warunek, który obejmuje tylko jedną funkcję. Jeśli na przykład obszar jest funkcją, warunek na osi jest taki:

area > 200

kontrast z warunkiem skośnym;

B

bagaż

#df

Metoda trenowania zestawu, w którym każdy model trenuje na losowym podzbiorze przykładów treningowych próbkowanych zamienników. Na przykład las losowy to zbiór drzew decyzyjnych wytrenowanych z bagażem.

Termin bagaż to skrót od bootstrap aggregging.

warunek binarny

#df

W drzewie decyzji warunek, który ma tylko 2 możliwe wyniki, zwykle tak lub nie. Na przykład taki warunek jest binarny:

temperature >= 100

kontrast z warunkem niebinarnym;

C

stan

#df

W drzewie decyzji jest to każdy węzeł, który ocenia wyrażenie. Na przykład ta część drzewa decyzyjnego zawiera dwa warunki:

Drzewo decyzyjne składające się z 2 warunków: (x > 0) i (y > 0).

Warunek jest też nazywany podziałem lub testem.

Stan kontrastu z liściem.

Zobacz także:

D

las decyzyjny

#df

Model utworzony na podstawie drzew decyzyjnych. Las decyzyjny tworzy prognozy, agregując prognozy jego drzew decyzyjnych. Popularne lasy decyzyjne to między innymi lasy losowe i drzewa tropikalne.

schemat decyzji

#df

Nadzorowany model nauczania składający się z zestawu warunków i opuszczących uporządkowane hierarchicznie. Oto przykładowe drzewo decyzyjne:

Drzewo decyzyjne składające się z 4 warunków, ułożonych hierarchicznie, które prowadzą do 5 list.

1

entropia

#df

W teorii informacji opis nieprzewidywalności rozkładu prawdopodobieństwa. Inną entropią definiuje się też jako ilość informacji w każdym przykładzie. Rozkład ma największą możliwą entropię, gdy wszystkie wartości zmiennej losowej są tak samo duże.

Entropia zbioru o dwóch możliwych wartościach „0” i „1” (na przykład etykiety w problemie klasyfikacji binarnej) mają taką formułę:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

gdzie:

  • H to entropia.
  • p to ułamek przykładów „1”.
  • q to ułamek przykładów „0”. Pamiętaj, że Q = (1 - p)
  • log to zwykle log2. W tym przypadku entropia.

Załóżmy na przykład, że:

  • 100 przykładów zawiera wartość „1”
  • 300 przykładów zawiera wartość „0”

Dlatego wartość entropii:

  • P = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bitu na przykład

Idealnie zrównoważony zestaw (na przykład 200 „0” i 200 „1” może mieć entropię 1, 0 bita na przykład). W miarę jak zestaw będzie się nierównie przesuwał w kierunku 0, 0.

W drzewach decyzyjnych entropia pomaga sformułować pozyskiwanie informacji, aby pomóc plakietce w wybraniu warunków w rozwoju drzewa decyzji o klasyfikacji.

Porównaj entropię z:

Entropia często nazywana jest entropią Shannon.

Pt

znaczenie funkcji

#df

Synonim zmiennej ważności.

G

zanieczyszczenie dziedziny

#df

Wartość podobna do entropii. Rozdziały korzystają z wartości pochodzących z nieczystości dziedziny lub entropii do tworzenia warunków klasyfikacji drzew decyzyjnych. Pozyskiwanie informacji pochodzi z entropii. Nie ma powszechnie akceptowanego odpowiednika danych pochodzących z zanieczyszczenia gini, ale ten rodzaj danych bez nazwy jest równie ważny jak gromadzenie informacji.

Zabrudzenia giniego nazywane jest też indeksem gini lub po prostu gini.

wzmocnienie gradientu

#df

Algorytm trenowania, w którym słabe modele są wytrenowane do iteracji w celu poprawy jakości (zmniejszenia utraty) silnego modelu. Słabym modelem może być na przykład liniowy lub mały model drzewa decyzji. Silny model jest sumą wszystkich wytrenowanych wcześniej słabych modeli.

W najprostszej postaci wzmocnienia gradientu przy każdym iteracji trenowany jest słaby model, który przewiduje gradient straty silnego modelu. Następnie dane wyjściowe modelu o silnym profilu są aktualizowane przez odjęcie przewidywanego gradientu podobne do obniżenia gradientu.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

gdzie:

  • $F_{0}$ to dobry początek.
  • $F_{i+1}$ to kolejny solidny model.
  • $F_{i}$ to obecny solidny model.
  • $\xi$ to wartość z zakresu od 0,0 do 1,0 nazywana skracaniem, która odpowiada analogicznemu częstotliwości uczenia się na podstawie gradientu.
  • $f_{i}$ to słaby model wytrenowany do prognozowania straty $F_{i}$.

Nowoczesne odmiany wzmocnienia gradientu zawierają też drugą pochodną (hessańską) stratę, która została obliczona w ich obliczeniach.

Drzewa decyzyjne są często używane jako słabe modele wzmocnienia gradientu. Więcej informacji znajdziesz w artykule o drzewach decyzyjnych przyspieszonych (gradient przyrostowy).

Drzewa z wzmocnieniem gradientowym (GBT)

#df

Rodzaj lasu decyzyjnego, w którym:

I

ścieżka wnioskowania

#df

W drzewie decyzyjnym, na podstawie wnioskowania, wyznacz trasę, jaką konkretny przykład prowadzi z głównego do innych warunków, kończąc się liściem. Na przykład w drzewie decyzyjnym grubsze strzałki oznaczają przykład wnioskowania dla przykładu z tymi wartościami cech:

  • x = 7
  • y = 12
  • Z = -3

Ścieżka wnioskowania na ilustracji poniżej przechodzi przez trzy warunki, zanim dotrze do liścia (Zeta).

Drzewo decyzyjne złożone z 4 warunków i 5 liści.
          Warunek główny to (x > 0). Odpowiedź brzmi „Tak”, więc ścieżka wnioskowania przechodzi z poziomu głównego do następnego warunku (y > 0).
          Odpowiedź brzmi „Tak”, więc ścieżka wnioskowania przechodzi do kolejnego warunku (z > 0). Odpowiedź brzmi „Nie”, więc ścieżka wnioskowania przepływa do węzła końcowego, który jest liściem (Zeta).

Trzy grube strzałki pokazują ścieżkę wnioskowania.

zdobywanie informacji

#df

W lasach decyzyjnych różnica między entropią węzła a ważoną (liczbą przykładów) sumą entropii jego węzłów podrzędnych. Entropia węzła to entropia przykładów z tego węzła.

Weźmy na przykład następujące wartości entropii:

  • entropia węzła nadrzędnego = 0,6
  • entropia jednego węzła podrzędnego z 16 odpowiednimi przykładami = 0,2
  • entropia innego węzła podrzędnego z 24 odpowiednimi przykładami = 0,1

40% przykładów znajduje się w 1 węźle podrzędnym, a 60% w drugim. Dlatego:

  • suma entropii ważonej węzłów podrzędnych = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Pozyskiwanie informacji jest następujące:

  • przyrost informacji = entropia węzła nadrzędnego – suma entropii ważonej węzłów podrzędnych
  • pozyskanie informacji = 0,6–0,14 = 0,46

Większość placówek próbuje stworzyć warunki, które zmaksymalizują pozyskiwanie informacji.

ustawiony warunek

#df

W drzewie decyzyjnym warunku, który sprawdza obecność jednego elementu w zestawie. Oto np. gotowy warunek:

  house-style in [tudor, colonial, cape]

Jeśli w domenie wartość funkcji domu wynosi tudor, colonial lub cape, warunek ma wartość „Tak”. Jeśli wartość cechy domu jest inna (np. ranch), ten warunek przyjmuje wartość Nie.

Gotowe warunki dają zwykle bardziej efektywne decyzje niż warunki, które testują funkcje zakodowane na stałe.

L

liść

#df

Dowolny punkt końcowy w drzewie decyzji. W przeciwieństwie do warunku liść nie wykonuje testu. Liście są raczej prognozą. Liść to też węzeł ścieżki ścieżki wnioskowania.

Na przykład to drzewo decyzyjne zawiera 3 liści:

Drzewo decyzyjne z 2 warunkami prowadzącymi do 3 liści.

N

węzeł (drzewo decyzyjne)

#df

W drzewie decyzyjnym dowolny warunek lub liść.

Drzewo decyzyjne z 2 warunkami i 3 liśćmi.

warunek niebinarny

#df

Stan zawierający więcej niż 2 możliwe wyniki. Na przykład następujący warunek niebinarny zawiera 3 możliwe skutki:

Warunek (liczba_nóg = ?), który prowadzi do trzech możliwych wyników. Jeden wynik (number_of_legs = 8) prowadzi do liścia o nazwie pająk. Drugi wynik (number_of_legs = 4) prowadzi do liścia o nazwie pies. Trzeci wynik (liczba_nóg = 2) prowadzi do liścia o nazwie pingwin.

O

skośny

#df

W drzewie decyzji oznacza warunek, który obejmuje więcej niż jedną funkcję. Jeśli na przykład wysokość i szerokość to obie funkcje, ten warunek jest skośny:

  height > width

kontrast z warunkem do osi osi.

ocena niewymagana (ocena OOB)

#df

Mechanizm oceny jakości lasu decyzyjnego przez porównanie drzew decyzyjnych z przykładami nie używanymi podczas trenowania tego drzewa decyzji. Na przykład na diagramie poniżej widać, że system uczy każde drzewo decyzyjne na około 2/3 przykładów, a potem porównuje je z pozostałą 1/3 przykładów.

Las decyzyjny składający się z 3 drzew decyzyjnych
          1 drzewo decyzji jest trenowane na 2/3 przykładów, a pozostałe 1/3 wybiera do oceny OOB.
          Druga drzewo decyzyjne jest trenowane na innej 2/3 przykładów niż poprzednia schemat decyzyjny, a następnie do oceny OOB używa jednej trzeciej trzeciej decyzji.

Ocena wykorzystania poza nią to bardzo skuteczna i konserwacyjna metoda obliczania weryfikacji krzyżowej. Podczas weryfikacji krzyżowej każdy model jest wytrenowany do każdej rundy weryfikacji krzyżowej (na przykład 10 modeli jest trenowanych w 10-krotnej weryfikacji krzyżowej). W ramach oceny OOB trenowany jest jeden model. bagaż zatrzymuje niektóre dane z każdego drzewa podczas trenowania, dlatego ocena OOB może korzystać z tych danych do przybliżonej weryfikacji krzyżowej.

P

znaczenie zmiennej permutacji

#df

Rodzaj zmiennej istotności, który ocenia wzrost błędu prognozy modelu po zmuszeniu wartości cech. Znaczenie zmiennej permutacji to wskaźnik niezależny od modelu.

R

Losowy las

#df

Zestaw drzew decyzyjnych, w których każde drzewo decyzyjne jest trenowane z określonym losowym dźwiękiem, np. bagażu.

Losowe lasy są rodzajem lasu decyzyjnego.

poziom główny

#df

Początkowy węzeł (pierwszy warunek) w drzewie decyzji. Zgodnie z konwencją diagramy powodują umieszczenie najwyższego poziomu na drzewie decyzyjnym. Na przykład:

Drzewo decyzyjne z 2 warunkami i 3 liśćmi. Warunek początkowy (x > 2) jest pierwiastkiem głównym.

S

próbkowanie zamiennikiem

#df

Metoda wyboru elementów z zestawu elementów, w których tę samą pozycję można wybrać wiele razy. Fraza „zamień” oznacza, że po każdym wybraniu element jest zwracany do puli elementów, które kandydują. Odwrotna – próbkowanie bez zastępowania – oznacza, że dany element można wybrać tylko raz.

Rozważ na przykład taki zestaw owoców:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Załóżmy, że system losowo wybiera fig jako pierwszy element. Jeśli użyjesz próbkowania z zastąpieniem, system wybierze drugi element z tego zbioru:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Tak, jest taki sam jak wcześniej, więc system może ponownie wybrać fig.

Jeśli wybierzesz próbkowanie bez zastępowania, po wybraniu próbki nie będzie można ponownie jej wybrać. Jeśli na przykład system losowo wybierze pierwszą próbkę kodu fig, nie będzie można ponownie wybrać fig. W związku z tym system pobiera drugą próbkę z tych zbiorów (zmniejszonych):

fruit = {kiwi, apple, pear, cherry, lime, mango}

zmniejsz

#df

hiperparametr w wzmacnianiu gradientu, który dopasuje. Zmniejszanie przy wzroście gradientu jest analogiczne do częstotliwości uczenia się w przypadku obniżenia gradientu. Zmniejszanie to wartość dziesiętna z zakresu od 0,0 do 1,0. Niższa wartość kurczenia się zmniejsza zbyt duże obciążenie.

podział : fragment

#df

W drzewie decyzyjnym inna nazwa warunku.

podział

#df

Podczas trenowania drzew decyzji rutyna (i algorytm) odpowiedzialne za znalezienie najlepszego warunku w każdym węźle.

T

test

#df

W drzewie decyzyjnym inna nazwa warunku.

próg (drzewa decyzyjne)

#df

W warunku na osi wartość, z którą porównywana jest funkcja. Na przykład 75 to wartość progowa w następującym warunku:

grade >= 75

V

znaczenie zmiennych

#df

Zestaw wyników, które pokazują względną ważność każdej cechy modelu.

Weźmy na przykład drzewo decyzyjne, które szacuje ceny domów. Załóżmy, że drzewo decyzyjne wykorzystuje 3 cechy: rozmiar, wiek i styl. Jeśli obliczony zbiór zmiennych o znaczeniu dla tych 3 funkcji ma postać rozmiaru {size=5.8, wiek=2.5, style=4.7}, rozmiar decyzji jest ważniejszy niż wiek czy styl.

Dostępne są różne dane o znaczeniu ważności, dzięki którym eksperci systemów uczących się mogą dowiedzieć się więcej o różnych aspektach modeli.

Ś

mądrość tłumu

#df

Fakt, że uświadomienie lub szacowanie dużej grupy ludzi („tłumu”) często przynosi zaskakująco dobre wyniki. Weźmy na przykład grę, w której ludzie zgadują liczbę dżemów pakowanych w dużym słoju. Chociaż większość zgadywania jest niedokładna, udowodniono, że średnia ze wszystkich domysłów jest zaskakująco równa rzeczywistej liczbie żelów.

Esembles to oprogramowanie analogicznie do mądrości ludu. Nawet wtedy, gdy poszczególne modele tworzą bardzo nieprecyzyjne podpowiedzi, uśrednianie wielu prognoz często powoduje zaskakująco dobre wyniki. Na przykład chociaż indywidualne drzewo decyzyjne może przedstawiać złe prognozy, las decyzyjny często przedstawia bardzo dobre prognozy.