Ta strona zawiera terminy z glosariusza Las decyzyjny. Aby wyświetlić wszystkie terminy w glosariuszu, kliknij tutaj.
O
próbkowanie atrybutów
Taktyka trenowania lasu decyzyjnego, w którym każde drzewo decyzyjne podczas uczenia się warunku uwzględnia tylko losowy podzbiór możliwych cech. Zwykle dla każdego węzła próbkowany jest inny podzbiór funkcji. Natomiast w przypadku trenowania drzewa decyzyjnego bez próbkowania atrybutów wszystkie możliwe cechy są brane pod uwagę w przypadku każdego węzła.
warunek wyrównany do osi
warunek w drzewie decyzji obejmujący tylko 1 cechę, Jeśli np. obszar jest cechą, taki warunek jest wyrównany do osi:
area > 200
Kontrast z warunkem skośnym.
B
bagaż
Metoda trenowania zespołu, w którym każdy model trenuje na losowym podzbiorze przykładów treningowych spróbkowanych z zamiennikiem. Na przykład losowy las to zbiór drzew decyzyjnych wytrenowanych z użyciem worków.
Termin bagging to skrót od bootstrap aggregating.
warunek binarny
W drzewie decyzji warunek ma tylko 2 możliwe wyniki – zwykle tak lub nie. Oto przykład warunku binarnego:
temperature >= 100
Skontrastuj warunek niebinarny.
C
stan
W drzewie decyzyjnym każdy węzeł, który ocenia wyrażenie. Na przykład ta część drzewa decyzyjnego zawiera 2 warunki:
Warunek jest też nazywany podziałem lub testem.
Stan kontrastu: liaf (liść).
Zobacz także:
- warunek binarny
- warunek niebinarny.
- axis-aligned-condition (warunek wyrównany do osi)
- warunek skośny
D
las decyzji
Model utworzony na podstawie drzew decyzyjnych. Las decyzyjny tworzy prognozę, agregując prognozy dotyczące swoich drzew decyzyjnych. Popularne rodzaje lasów decyzyjnych to lasy losowe i drzewa o wzmocnieniu gradientowym.
drzewo decyzyjne
Model uczenia się nadzorowanego składający się z zestawu conditions i conditions uporządkowany hierarchicznie. Oto przykładowe drzewo decyzyjne:
E
entropia
W teorii informacji jest to opis nieprzewidywalności rozkładu prawdopodobieństwa. Entropia jest też zdefiniowana jako ilość informacji w poszczególnych przykładach. Rozkład ma najwyższą możliwą entropię, gdy wszystkie wartości zmiennej losowej są jednakowe.
Entropia zbioru z 2 możliwymi wartościami „0” i „1” (np. etykiety w problemie z klasyfikacją binarną) ma taką formułę:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
gdzie:
- H to entropia.
- p to ułamek z przykładów „1”.
- q to ułamek z przykładów „0”. Zwróć uwagę, że q = (1 - p)
- log to zwykle log2. W tym przypadku jednostka entropii jest pewna.
Załóżmy na przykład, że:
- 100 przykładów zawiera wartość „1”
- 300 przykładów zawiera wartość „0”
Dlatego wartość entropii wynosi:
- P = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) – (0,75)log2(0,75) = 0,81 bitów na przykład
Idealnie zrównoważony zestaw (np.200 „0” i 200 „1”) będzie miał na przykład 1, 0 bitu. W miarę jak zestaw staje się bardziej niezrównoważony, jego entropia zbliża się do 0,0.
W drzewach decyzyjnych entropia pomaga w formułowaniu zysków informacji, które pomagają osobie dzielącej dane wybrać warunki w trakcie rozwoju drzewa decyzji o klasyfikacji.
Porównaj entropię z:
- nieczystość gini,
- funkcja utraty entropii krzyżowej
Entropia jest często nazywana entropią Shannona.
F
znaczenie cech
Synonim zmiennych znaczenia.
G
nieczystość gini
Wskaźnik podobny do entropii. Rozdzielacze używają wartości wyodrębnionych na podstawie zanieczyszczenia gini lub entropii, aby utworzyć warunki klasyfikacji drzew decyzyjnych. Zysk informacji uzyskuje się z entropii. Nie ma uniwersalnego terminu oznaczającego dane pochodzące z nieczystości gini. Jednak takie dane bez nazwy są równie ważne jak zdobywanie informacji.
Nieczystość gini jest również nazywana indeksem gini lub po prostu gini.
drzewa ze wzmocnionymi gradientem (GBT)
Rodzaj lasu decyzji, w którym:
- Trenowanie korzysta z wzmacniania gradientu.
- Słabym modelem jest drzewo decyzyjne.
wzmocnienie gradientu
Algorytm trenowania, w którym słabe modele są trenowane w celu iteracyjnej poprawy jakości (zmniejszenia utraty) silnego modelu. Na przykład słabym modelem może być liniowy lub mały model drzewa decyzyjnego. Silny model staje się sumą wszystkich słabych modeli wytrenowanych wcześniej.
W najprostszej formie wzmocnienia gradientu przy każdej iteracji słaby model jest trenowany tak, aby przewidywać gradient straty silnego modelu. Następnie dane wyjściowe solidnego modelu są aktualizowane przez odjęcie przewidywanego gradientu, podobnie jak w przypadku spadku gradientu.
gdzie:
- Dobrym modelem początkowym jest $F_{0}$.
- $F_{i+1}$ to kolejny świetny model.
- Obecny solidny model: $F_{i}$.
- $\xi$ to wartość z zakresu od 0,0 do 1,0 zwana kurczeniem, która odpowiada szybkości uczenia się w przypadku opadania gradientu.
- $f_{i}$ to słaby model wytrenowany do prognozowania gradientu straty $F_{i}$.
Współczesne odmiany wzmocnienia gradientu obejmują również drugą pochodną (Hesję) stratę podczas obliczeń.
Drzewa decyzyjne są zwykle używane jako słabe modele przy wzmocnieniu gradientowym. Zobacz drzewa ze wzmocnionym gradientem (decyzja).
I
ścieżka zależności
W drzewie decyzyjnym, podczas wnioskowania, trasa konkretnego przykładu prowadzi od katalogu głównego do innych warunków i kończy się liściem. Na przykład w poniższym drzewie decyzyjnym grubsze strzałki wskazują ścieżkę wnioskowania dla przykładu z tymi wartościami cech:
- x = 7
- y = 12
- Z = -3
Ścieżka wnioskowania na ilustracji poniżej przechodzi przez 3 warunki, zanim dotrze do liścia (Zeta
).
Trzy grube strzałki wskazują ścieżkę wnioskowania.
zdobywanie informacji
W lasach decyzyjnych różnica między entropią węzła a ważoną (według liczby przykładów) sumą entropii jego węzłów podrzędnych. Entropia węzła to entropia przykładów w tym węźle.
Weźmy na przykład te wartości entropii:
- entropia węzła nadrzędnego = 0,6
- entropia 1 węzła podrzędnego z 16 odpowiednimi przykładami = 0,2
- entropia innego węzła podrzędnego z 24 odpowiednimi przykładami = 0,1
40% przykładów znajduje się w jednym węźle podrzędnym, a 60% w innym węźle podrzędnym. Dlatego:
- suma entropii ważona węzłów podrzędnych = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Zysk informacyjny jest zatem taki:
- przyrost informacji = entropia węzła nadrzędnego – ważona suma entropii węzłów podrzędnych
- zysk informacji = 0,6 - 0,14 = 0,46
Większość osób rozdzielających stara się tworzyć warunki, które maksymalizują zyski z informacji.
stan w zestawie
warunek w drzewie decyzyjnym, który sprawdza obecność 1 elementu w zbiorze elementów; Oto przykład warunku w zestawie:
house-style in [tudor, colonial, cape]
Jeśli po wnioskowaniu wartość cechy w stylu domu to tudor
, colonial
lub cape
, ten warunek przyjmuje wartość Tak. Jeśli cecha domowa ma inną wartość (np. ranch
), ten warunek przyjmuje wartość Nie.
Wbudowane warunki prowadzą zwykle do bardziej wydajnych drzew decyzyjnych niż warunki testujące funkcje zakodowane jednym kliknięciem.
L
liść
Dowolny punkt końcowy w drzewie decyzji. W przeciwieństwie do warunku liście nie są objęte testem. Możliwa jest raczej liść. Liść jest też końcowym węzłem ścieżki wnioskowania.
Na przykład poniższe drzewo decyzyjne zawiera trzy liście:
N
węzeł (drzewo decyzji)
W drzewie decyzyjnym dowolny warunek lub liść.
warunek niebinarny
Warunek obejmujący więcej niż 2 możliwe wyniki. Na przykład ten niebinarny warunek obejmuje 3 możliwe rezultaty:
O
stan skośny
warunek w drzewie decyzyjnym, który obejmuje więcej niż 1 cechę; Jeśli np. wysokość i szerokość są jednocześnie cechami, to warunek ten jest skośny:
height > width
Kontrast względem warunku wyrównanego do osi.
ocena poza biurem (ocena OOB)
Mechanizm oceny jakości lasu decyzyjnego poprzez testowanie każdego drzewa decyzyjnego z przykładami nie użytymi podczas szkolenia tego drzewa decyzyjnego. Na przykład na poniższym diagramie można zauważyć, że system trenuje każde drzewo decyzyjne na podstawie około 2 trzeciej przykładów, a następnie ocenia pozostałe 1 3 przykładów.
Ocena poza modelem to skuteczne obliczeniowo i zachowawcze podejście do mechanizmu walidacji krzyżowej. W ramach walidacji krzyżowej trenowany jest 1 model na każdą rundę weryfikacji krzyżowej (np. 10 modeli jest trenowanych w ramach 10-krotnej weryfikacji krzyżowej). W przypadku oceny OOB trenowany jest pojedynczy model. Podczas trenowania funkcja baging ukrywa część danych z każdego drzewa, dlatego ocena OOB może używać tych danych do przybliżonej weryfikacji krzyżowej.
P
znaczenie zmiennej permutacji
Rodzaj zmiennej ważności, który ocenia wzrost błędu prognozy modelu po zmianie wartości cechy. Znaczenie zmiennej permutacji jest wskaźnikiem niezależnym od modelu.
R
Losowy las
Zbiór drzew decyzyjnych, w którym każde drzewo decyzyjne jest trenowane przy użyciu określonego losowego szumu, np. bagażu.
Lasy losowe są rodzajem lasu decyzyjnego.
poziom główny
Początkowy węzeł (pierwszy warunek) w drzewie decyzji. Zgodnie z konwencją diagramy umieszczają pierwiastek na samej górze drzewa decyzyjnego. Na przykład:
S
próbkowanie z zamiennikiem
Metoda wybierania elementów z zestawu propozycji, w ramach której ten sam produkt może zostać wybrany kilka razy. Sformułowanie „z zamiennikiem” oznacza, że po każdym zaznaczeniu wybrany element wraca do puli kandydujących elementów. Metoda odwrotna, czyli próbkowanie bez zamiennika, oznacza, że kandydat można wybrać tylko raz.
Weźmy na przykład taki zestaw owoców:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Załóżmy, że system losowo wybiera jako pierwszy element fig
.
Jeśli stosujesz próbkowanie z zamiennikiem, system wybiera drugi element z tego zbioru:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Tak. Jest to taki sam zestaw jak wcześniej, więc system może ponownie wybrać użytkownika fig
.
W przypadku korzystania z próbkowania bez zamiennika, raz wybranego próbki nie można wybrać ponownie. Jeśli na przykład system losowo wybierze fig
jako pierwszą próbkę, wtedy fig
nie będzie można wybrać ponownie. Dlatego system wybiera drugą próbkę z tego (zredukowanego) zbioru:
fruit = {kiwi, apple, pear, cherry, lime, mango}
kurczenie
Hiperparametr w wzmacnianiu gradientowym, który kontroluje dopasowanie. Zmniejszenie wzmocnienia gradientu odpowiada szybkości uczenia się w opuszczaniu gradientu. Wartość zmniejszona jest wartością dziesiętną z zakresu od 0,0 do 1,0. Niższa wartość kurczenia ogranicza nadmierne dopasowanie bardziej niż większa wartość kurczenia.
podział : fragment
W drzewie decyzji inna nazwa warunku.
podział
Podczas trenowania drzewa decyzyjnego procedura (i algorytm) odpowiada za znalezienie najlepszego warunku w każdym węźle.
T
test
W drzewie decyzji inna nazwa warunku.
próg (w przypadku drzewa decyzyjnego)
W przypadku warunku wyrównanego do osi wartość, z którą porównywana jest funkcja. Na przykład 75 to wartość progowa w tym warunku:
grade >= 75
V
zmienne znaczenia
Zestaw wyników wskazujący względne znaczenie poszczególnych cech dla modelu.
Rozważmy na przykład drzewo decyzyjne, które pozwala oszacować ceny domów. Załóżmy, że to drzewo decyzyjne ma 3 cechy: rozmiar, wiek i styl. Jeśli zbiór zmiennych znaczenia dla tych trzech cech obliczy się jako {rozmiar=5.8, wiek=2.5, style=4.7}, dla drzewa decyzyjnego rozmiar ma większe znaczenie niż wiek czy styl.
Istnieją różne zmienne wskaźniki ważności, które mogą informować specjalistów od systemów uczących się o różnych aspektach modeli.
Ś
mądrość tłumu
Używanie uśrednionych opinii lub szacunków dotyczących dużej grupy osób („tłum”) często przynosi zaskakująco dobre wyniki. Weźmy na przykład grę, w której gracze zgadują, ile żelki w dużym słoiku. Chociaż większość indywidualnych przypuszczeń będzie niedokładna, średnia wszystkich domysłów nieoczekiwanie jest zaskakująco zbliżona do rzeczywistej liczby galaretek w słoiku.
Ensembles to programowy odpowiednik mądrości tłumu. Nawet wtedy, gdy poszczególne modele tworzą bardzo niedokładne prognozy, uśrednianie prognoz wielu modeli często generuje zaskakująco dobre prognozy. Na przykład drzewo decyzyjne może generować niedokładne prognozy, ale las decyzyjny często potrafi bardzo trafne prognozy.