Ta strona zawiera terminy ze słowniczka w odniesieniu do lasów decyzyjnych. Aby uzyskać dostęp do wszystkich glosariuszy, kliknij tutaj.
A
próbkowanie atrybutów
Taktyka trenowania lasu decyzyjnego, w której każde drzewo decyzyjne uwzględnia tylko losowy podzbiór możliwych funkcji podczas nauki warunku. Ogólnie dla każdego węzła sprawdzany jest inny podzbiór funkcji. W trakcie trenowania drzewa decyzji bez próbkowania atrybutów wykorzystywane są wszystkie możliwe funkcje dla każdego węzła.
warunek wyrównany do osi
W drzewie decyzji oznacza warunek, który obejmuje tylko jedną funkcję. Jeśli na przykład obszar jest funkcją, warunek na osi jest taki:
area > 200
kontrast z warunkiem skośnym;
B
bagaż
Metoda trenowania zestawu, w którym każdy model trenuje na losowym podzbiorze przykładów treningowych próbkowanych zamienników. Na przykład las losowy to zbiór drzew decyzyjnych wytrenowanych z bagażem.
Termin bagaż to skrót od bootstrap aggregging.
warunek binarny
W drzewie decyzji warunek, który ma tylko 2 możliwe wyniki, zwykle tak lub nie. Na przykład taki warunek jest binarny:
temperature >= 100
kontrast z warunkem niebinarnym;
C
stan
W drzewie decyzji jest to każdy węzeł, który ocenia wyrażenie. Na przykład ta część drzewa decyzyjnego zawiera dwa warunki:
Warunek jest też nazywany podziałem lub testem.
Stan kontrastu z liściem.
Zobacz także:
D
las decyzyjny
Model utworzony na podstawie drzew decyzyjnych. Las decyzyjny tworzy prognozy, agregując prognozy jego drzew decyzyjnych. Popularne lasy decyzyjne to między innymi lasy losowe i drzewa tropikalne.
schemat decyzji
Nadzorowany model nauczania składający się z zestawu warunków i opuszczących uporządkowane hierarchicznie. Oto przykładowe drzewo decyzyjne:
1
entropia
W teorii informacji opis nieprzewidywalności rozkładu prawdopodobieństwa. Inną entropią definiuje się też jako ilość informacji w każdym przykładzie. Rozkład ma największą możliwą entropię, gdy wszystkie wartości zmiennej losowej są tak samo duże.
Entropia zbioru o dwóch możliwych wartościach „0” i „1” (na przykład etykiety w problemie klasyfikacji binarnej) mają taką formułę:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
gdzie:
- H to entropia.
- p to ułamek przykładów „1”.
- q to ułamek przykładów „0”. Pamiętaj, że Q = (1 - p)
- log to zwykle log2. W tym przypadku entropia.
Załóżmy na przykład, że:
- 100 przykładów zawiera wartość „1”
- 300 przykładów zawiera wartość „0”
Dlatego wartość entropii:
- P = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bitu na przykład
Idealnie zrównoważony zestaw (na przykład 200 „0” i 200 „1” może mieć entropię 1, 0 bita na przykład). W miarę jak zestaw będzie się nierównie przesuwał w kierunku 0, 0.
W drzewach decyzyjnych entropia pomaga sformułować pozyskiwanie informacji, aby pomóc plakietce w wybraniu warunków w rozwoju drzewa decyzji o klasyfikacji.
Porównaj entropię z:
- zanieczyszczenie giny
- funkcja utraty entropii
Entropia często nazywana jest entropią Shannon.
Pt
znaczenie funkcji
Synonim zmiennej ważności.
G
zanieczyszczenie dziedziny
Wartość podobna do entropii. Rozdziały korzystają z wartości pochodzących z nieczystości dziedziny lub entropii do tworzenia warunków klasyfikacji drzew decyzyjnych. Pozyskiwanie informacji pochodzi z entropii. Nie ma powszechnie akceptowanego odpowiednika danych pochodzących z zanieczyszczenia gini, ale ten rodzaj danych bez nazwy jest równie ważny jak gromadzenie informacji.
Zabrudzenia giniego nazywane jest też indeksem gini lub po prostu gini.
wzmocnienie gradientu
Algorytm trenowania, w którym słabe modele są wytrenowane do iteracji w celu poprawy jakości (zmniejszenia utraty) silnego modelu. Słabym modelem może być na przykład liniowy lub mały model drzewa decyzji. Silny model jest sumą wszystkich wytrenowanych wcześniej słabych modeli.
W najprostszej postaci wzmocnienia gradientu przy każdym iteracji trenowany jest słaby model, który przewiduje gradient straty silnego modelu. Następnie dane wyjściowe modelu o silnym profilu są aktualizowane przez odjęcie przewidywanego gradientu podobne do obniżenia gradientu.
gdzie:
- $F_{0}$ to dobry początek.
- $F_{i+1}$ to kolejny solidny model.
- $F_{i}$ to obecny solidny model.
- $\xi$ to wartość z zakresu od 0,0 do 1,0 nazywana skracaniem, która odpowiada analogicznemu częstotliwości uczenia się na podstawie gradientu.
- $f_{i}$ to słaby model wytrenowany do prognozowania straty $F_{i}$.
Nowoczesne odmiany wzmocnienia gradientu zawierają też drugą pochodną (hessańską) stratę, która została obliczona w ich obliczeniach.
Drzewa decyzyjne są często używane jako słabe modele wzmocnienia gradientu. Więcej informacji znajdziesz w artykule o drzewach decyzyjnych przyspieszonych (gradient przyrostowy).
Drzewa z wzmocnieniem gradientowym (GBT)
Rodzaj lasu decyzyjnego, w którym:
- Szkolenie polega na zwiększaniu gradientu.
- Słabym modelem jest drzewo decyzyjne.
I
ścieżka wnioskowania
W drzewie decyzyjnym, na podstawie wnioskowania, wyznacz trasę, jaką konkretny przykład prowadzi z głównego do innych warunków, kończąc się liściem. Na przykład w drzewie decyzyjnym grubsze strzałki oznaczają przykład wnioskowania dla przykładu z tymi wartościami cech:
- x = 7
- y = 12
- Z = -3
Ścieżka wnioskowania na ilustracji poniżej przechodzi przez trzy warunki, zanim dotrze do liścia (Zeta
).
Trzy grube strzałki pokazują ścieżkę wnioskowania.
zdobywanie informacji
W lasach decyzyjnych różnica między entropią węzła a ważoną (liczbą przykładów) sumą entropii jego węzłów podrzędnych. Entropia węzła to entropia przykładów z tego węzła.
Weźmy na przykład następujące wartości entropii:
- entropia węzła nadrzędnego = 0,6
- entropia jednego węzła podrzędnego z 16 odpowiednimi przykładami = 0,2
- entropia innego węzła podrzędnego z 24 odpowiednimi przykładami = 0,1
40% przykładów znajduje się w 1 węźle podrzędnym, a 60% w drugim. Dlatego:
- suma entropii ważonej węzłów podrzędnych = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Pozyskiwanie informacji jest następujące:
- przyrost informacji = entropia węzła nadrzędnego – suma entropii ważonej węzłów podrzędnych
- pozyskanie informacji = 0,6–0,14 = 0,46
Większość placówek próbuje stworzyć warunki, które zmaksymalizują pozyskiwanie informacji.
ustawiony warunek
W drzewie decyzyjnym warunku, który sprawdza obecność jednego elementu w zestawie. Oto np. gotowy warunek:
house-style in [tudor, colonial, cape]
Jeśli w domenie wartość funkcji domu wynosi tudor
, colonial
lub cape
, warunek ma wartość „Tak”. Jeśli wartość cechy domu jest inna (np. ranch
), ten warunek przyjmuje wartość Nie.
Gotowe warunki dają zwykle bardziej efektywne decyzje niż warunki, które testują funkcje zakodowane na stałe.
L
liść
Dowolny punkt końcowy w drzewie decyzji. W przeciwieństwie do warunku liść nie wykonuje testu. Liście są raczej prognozą. Liść to też węzeł ścieżki ścieżki wnioskowania.
Na przykład to drzewo decyzyjne zawiera 3 liści:
N
węzeł (drzewo decyzyjne)
W drzewie decyzyjnym dowolny warunek lub liść.
warunek niebinarny
Stan zawierający więcej niż 2 możliwe wyniki. Na przykład następujący warunek niebinarny zawiera 3 możliwe skutki:
O
skośny
W drzewie decyzji oznacza warunek, który obejmuje więcej niż jedną funkcję. Jeśli na przykład wysokość i szerokość to obie funkcje, ten warunek jest skośny:
height > width
kontrast z warunkem do osi osi.
ocena niewymagana (ocena OOB)
Mechanizm oceny jakości lasu decyzyjnego przez porównanie drzew decyzyjnych z przykładami nie używanymi podczas trenowania tego drzewa decyzji. Na przykład na diagramie poniżej widać, że system uczy każde drzewo decyzyjne na około 2/3 przykładów, a potem porównuje je z pozostałą 1/3 przykładów.
Ocena wykorzystania poza nią to bardzo skuteczna i konserwacyjna metoda obliczania weryfikacji krzyżowej. Podczas weryfikacji krzyżowej każdy model jest wytrenowany do każdej rundy weryfikacji krzyżowej (na przykład 10 modeli jest trenowanych w 10-krotnej weryfikacji krzyżowej). W ramach oceny OOB trenowany jest jeden model. bagaż zatrzymuje niektóre dane z każdego drzewa podczas trenowania, dlatego ocena OOB może korzystać z tych danych do przybliżonej weryfikacji krzyżowej.
P
znaczenie zmiennej permutacji
Rodzaj zmiennej istotności, który ocenia wzrost błędu prognozy modelu po zmuszeniu wartości cech. Znaczenie zmiennej permutacji to wskaźnik niezależny od modelu.
R
Losowy las
Zestaw drzew decyzyjnych, w których każde drzewo decyzyjne jest trenowane z określonym losowym dźwiękiem, np. bagażu.
Losowe lasy są rodzajem lasu decyzyjnego.
poziom główny
Początkowy węzeł (pierwszy warunek) w drzewie decyzji. Zgodnie z konwencją diagramy powodują umieszczenie najwyższego poziomu na drzewie decyzyjnym. Na przykład:
S
próbkowanie zamiennikiem
Metoda wyboru elementów z zestawu elementów, w których tę samą pozycję można wybrać wiele razy. Fraza „zamień” oznacza, że po każdym wybraniu element jest zwracany do puli elementów, które kandydują. Odwrotna – próbkowanie bez zastępowania – oznacza, że dany element można wybrać tylko raz.
Rozważ na przykład taki zestaw owoców:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Załóżmy, że system losowo wybiera fig
jako pierwszy element.
Jeśli użyjesz próbkowania z zastąpieniem, system wybierze drugi element z tego zbioru:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Tak, jest taki sam jak wcześniej, więc system może ponownie wybrać fig
.
Jeśli wybierzesz próbkowanie bez zastępowania, po wybraniu próbki nie będzie można ponownie jej wybrać. Jeśli na przykład system losowo wybierze pierwszą próbkę kodu fig
, nie będzie można ponownie wybrać fig
. W związku z tym system pobiera drugą próbkę z tych zbiorów (zmniejszonych):
fruit = {kiwi, apple, pear, cherry, lime, mango}
zmniejsz
hiperparametr w wzmacnianiu gradientu, który dopasuje. Zmniejszanie przy wzroście gradientu jest analogiczne do częstotliwości uczenia się w przypadku obniżenia gradientu. Zmniejszanie to wartość dziesiętna z zakresu od 0,0 do 1,0. Niższa wartość kurczenia się zmniejsza zbyt duże obciążenie.
podział : fragment
W drzewie decyzyjnym inna nazwa warunku.
podział
Podczas trenowania drzew decyzji rutyna (i algorytm) odpowiedzialne za znalezienie najlepszego warunku w każdym węźle.
T
test
W drzewie decyzyjnym inna nazwa warunku.
próg (drzewa decyzyjne)
W warunku na osi wartość, z którą porównywana jest funkcja. Na przykład 75 to wartość progowa w następującym warunku:
grade >= 75
V
znaczenie zmiennych
Zestaw wyników, które pokazują względną ważność każdej cechy modelu.
Weźmy na przykład drzewo decyzyjne, które szacuje ceny domów. Załóżmy, że drzewo decyzyjne wykorzystuje 3 cechy: rozmiar, wiek i styl. Jeśli obliczony zbiór zmiennych o znaczeniu dla tych 3 funkcji ma postać rozmiaru {size=5.8, wiek=2.5, style=4.7}, rozmiar decyzji jest ważniejszy niż wiek czy styl.
Dostępne są różne dane o znaczeniu ważności, dzięki którym eksperci systemów uczących się mogą dowiedzieć się więcej o różnych aspektach modeli.
Ś
mądrość tłumu
Fakt, że uświadomienie lub szacowanie dużej grupy ludzi („tłumu”) często przynosi zaskakująco dobre wyniki. Weźmy na przykład grę, w której ludzie zgadują liczbę dżemów pakowanych w dużym słoju. Chociaż większość zgadywania jest niedokładna, udowodniono, że średnia ze wszystkich domysłów jest zaskakująco równa rzeczywistej liczbie żelów.
Esembles to oprogramowanie analogicznie do mądrości ludu. Nawet wtedy, gdy poszczególne modele tworzą bardzo nieprecyzyjne podpowiedzi, uśrednianie wielu prognoz często powoduje zaskakująco dobre wyniki. Na przykład chociaż indywidualne drzewo decyzyjne może przedstawiać złe prognozy, las decyzyjny często przedstawia bardzo dobre prognozy.