Эта страница переведена с помощью Cloud Translation API.

Глоссарий машинного обучения: леса решений

На этой странице содержится глоссарий терминов Decision Forests. Чтобы просмотреть все термины глоссария, нажмите здесь .

А

выборка атрибутов

#df

Тактика обучения леса решений , в которой каждое дерево решений при изучении условия учитывает только случайное подмножество возможных признаков . Обычно для каждого узла отбирается различное подмножество функций. Напротив, при обучении дерева решений без выборки атрибутов для каждого узла рассматриваются все возможные функции.

условие совмещения осей

#df

В дереве решений - условие , включающее только один признак . Например, если площадь является объектом, то условием выравнивания по оси является следующее:

area > 200

Сравните с наклонным состоянием .

Б

упаковка в мешки

#df

Метод обучения ансамбля , при котором каждая составляющая модель обучается на случайном подмножестве обучающих примеров , выбранных с заменой . Например, случайный лес — это набор деревьев решений, обученных с помощью мешков.

Термин «бэггинг» является сокращением от бутстрап - агрегирования .

двоичное состояние

#df

В дереве решений — условие , имеющее только два возможных результата, обычно «да» или «нет» . Например, следующее двоичное условие:

temperature >= 100

Сравните с небинарным состоянием .

С

состояние

#df

В дереве решений — любой узел , вычисляющий выражение. Например, следующая часть дерева решений содержит два условия:

Дерево решений, состоящее из двух условий: (x > 0) и (y > 0).

Условие также называется разделением или проверкой.

Контрастное состояние с листом .

Смотрите также:

двоичное состояние
небинарное состояние .
условие выравнивания по оси
косое условие

Д

лес решений

#df

Модель, созданная из нескольких деревьев решений . Лес решений делает прогноз путем агрегирования прогнозов своих деревьев решений. Популярные типы лесов решений включают случайные леса и деревья с градиентным усилением .

Древо решений

#df

Модель контролируемого обучения, состоящая из набора условий и листьев, организованных иерархически. Например, следующее дерево решений:

Дерево решений, состоящее из четырех условий, расположенных иерархически, что приводит к пяти листьям.

Э

энтропия

#df

В теории информации — описание того, насколько непредсказуемо распределение вероятностей. Альтернативно, энтропия также определяется как количество информации, содержащейся в каждом примере . Распределение имеет максимально возможную энтропию, когда все значения случайной величины равновероятны.

Энтропия набора с двумя возможными значениями «0» и «1» (например, метки в задаче бинарной классификации ) имеет следующую формулу:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

где:

H — энтропия.
p — доля примеров «1».
q — доля примеров «0». Обратите внимание, что q = (1 - p)
log обычно равен log ₂ . В данном случае единицей энтропии является бит.

Например, предположим следующее:

100 примеров содержат значение «1»
300 примеров содержат значение «0»

Следовательно, значение энтропии равно:

р = 0,25
q = 0,75
H = (-0,25)log ₂ (0,25) - (0,75)log ₂ (0,75) = 0,81 бит на пример

Идеально сбалансированный набор (например, 200 «0» и 200 «1») будет иметь энтропию 1,0 бита на каждый пример. Когда набор становится более несбалансированным , его энтропия приближается к 0,0.

В деревьях решений энтропия помогает сформулировать прирост информации , чтобы помочь разделителю выбрать условия во время роста дерева решений классификации.

Сравните энтропию с:

Джини примесь
функция перекрестных энтропийных потерь

Энтропию часто называют энтропией Шеннона.

Ф

важность функций

#df

Синоним переменных важностей .

г

Джини примесь

#df

Метрика, похожая на энтропию . Разделители используют значения, полученные либо из примеси Джини, либо из энтропии, для составления условий для деревьев решений классификации. Прирост информации происходит от энтропии. Не существует общепринятого эквивалентного термина для показателя, полученного из примеси Джини; однако этот безымянный показатель так же важен, как и получение информации.

Примесь Джини еще называют индексом Джини , или просто Джини .

Щелкните значок, чтобы просмотреть математические подробности о примеси Джини.

Примесь Джини — это вероятность неправильной классификации нового фрагмента данных, взятого из того же распределения. Примесь Джини набора с двумя возможными значениями «0» и «1» (например, метки в задаче бинарной классификации ) рассчитывается по следующей формуле:

Я = 1 - (р ² + q ² ) = 1 - (р ² + (1-р) ² )

где:

Я — примесь Джини.
p — доля примеров «1».
q — доля примеров «0». Обратите внимание, что q = 1-p

Например, рассмотрим следующий набор данных:

100 меток (0,25 набора данных) содержат значение «1».
300 меток (0,75 набора данных) содержат значение «0».

Следовательно, примесь Джини равна:

р = 0,25
q = 0,75
I = 1 - (0,25 ² + 0,75 ² ) = 0,375

Следовательно, случайная метка из того же набора данных будет иметь вероятность неправильной классификации в 37,5% и вероятность правильной классификации в 62,5%.

Идеально сбалансированная этикетка (например, 200 «0» и 200 «1») будет иметь примесь Джини 0,5. Ярко несбалансированная этикетка будет иметь примесь Джини, близкую к 0,0.

Деревья решений (GBT) с градиентным усилением

#df

Тип леса решений , в котором:

Обучение основано на повышении градиента .
Слабая модель — это дерево решений .

повышение градиента

#df

Алгоритм обучения, в котором слабые модели обучаются для итеративного улучшения качества (уменьшения потерь) сильной модели. Например, слабая модель может представлять собой линейную модель или модель небольшого дерева решений. Сильная модель становится суммой всех ранее обученных слабых моделей.

В простейшей форме повышения градиента на каждой итерации слабая модель обучается прогнозированию градиента потерь сильной модели. Затем выходные данные сильной модели обновляются путем вычитания прогнозируемого градиента, аналогично градиентному спуску .

$$F_{0} = 0$$$$F_{i+1} = F_i - \xi f_i $$

где:

$F_{0}$ — стартовая сильная модель.
$F_{i+1}$ — следующая сильная модель.
$F_{i}$ — текущая сильная модель.
$\xi$ — это значение от 0,0 до 1,0, называемое сжатием , которое аналогично скорости обучения при градиентном спуске.
$f_{i}$ — это слабая модель, обученная прогнозировать градиент потерь $F_{i}$.

Современные варианты повышения градиента также включают в свои вычисления вторую производную (гессиан) потерь.

Деревья решений обычно используются в качестве слабых моделей при повышении градиента. См. деревья решений (решений) с градиентным усилением .

я

путь вывода

#df

В дереве решений во время вывода маршрут конкретного примера проходит от корня к другим условиям , заканчиваясь листом . Например, в следующем дереве решений более толстые стрелки показывают путь вывода для примера со следующими значениями функций:

х = 7
у = 12
г = -3

Путь вывода на следующей иллюстрации проходит через три состояния, прежде чем достичь листа ( Zeta ).

Дерево решений, состоящее из четырех условий и пяти листьев. Корневое условие: (x > 0). Поскольку ответ «Да», путь вывода проходит от корня к следующему условию (y > 0). Поскольку ответ «Да», путь вывода переходит к следующему условию (z > 0). Поскольку ответ «нет», путь вывода ведет к конечному узлу, который является листом (дзета).

Три толстые стрелки показывают путь вывода.

получение информации

#df

В лесах решений — разница между энтропией узла и взвешенной (по количеству примеров) суммой энтропии его дочерних узлов. Энтропия узла — это энтропия примеров в этом узле.

Например, рассмотрим следующие значения энтропии:

энтропия родительского узла = 0,6
энтропия одного дочернего узла с 16 соответствующими примерами = 0,2
энтропия другого дочернего узла с 24 соответствующими примерами = 0,1

Таким образом, 40% примеров находятся в одном дочернем узле, а 60% — в другом дочернем узле. Поэтому:

взвешенная сумма энтропии дочерних узлов = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Итак, информационный выигрыш составляет:

Прирост информации = энтропия родительского узла - взвешенная сумма энтропии дочерних узлов
прирост информации = 0,6 - 0,14 = 0,46

Большинство раскольников стремятся создать условия , которые максимизируют получение информации.

в установленном состоянии

#df

В дереве решений — условие , проверяющее наличие одного элемента в наборе элементов. Например, следующее является встроенным условием:

  house-style in [tudor, colonial, cape]

Во время вывода, если значением признака стиля дома является tudor , colonial или cape , тогда это условие оценивается как Да. Если значение признака стиля дома другое (например, ranch ), то это условие оценивается как Нет.

Условия в наборе обычно приводят к более эффективным деревьям решений, чем условия, которые проверяют функции горячего кодирования .

л

лист

#df

Любая конечная точка в дереве решений . В отличие от условия , лист не выполняет проверку. Скорее, лист – возможное предсказание. Лист также является конечным узлом пути вывода .

Например, следующее дерево решений содержит три листа:

Дерево решений с двумя условиями, ведущими к трем листьям.

Н

узел (дерево решений)

#df

В дереве решений любое условие или лист .

Дерево решений с двумя условиями и тремя листьями.

небинарное состояние

#df

Условие , содержащее более двух возможных исходов. Например, следующее небинарное условие содержит три возможных результата:

Условие (number_of_legs = ?), приводящее к трем возможным результатам. Один результат (number_of_legs = 8) приводит к появлению листа с именем паук. Второй результат (number_of_legs = 4) приводит к появлению листа с именем «собака». Третий результат (number_of_legs = 2) приводит к появлению листа с именем пингвин.

О

косое состояние

#df

В дереве решений - условие , включающее более одного признака . Например, если высота и ширина являются объектами, то следующее условие является наклонным:

  height > width

Контраст с условием выравнивания по оси .

предварительная оценка (оценка OOB)

#df

Механизм оценки качества леса решений путем тестирования каждого дерева решений на примерах , не использованных во время обучения этого дерева решений. Например, на следующей диаграмме обратите внимание, что система обучает каждое дерево решений примерно на двух третях примеров, а затем сравнивает его с оставшейся одной третью примеров.

Лес решений, состоящий из трех деревьев решений. Одно дерево решений обучается на двух третях примеров, а затем использует оставшуюся треть для оценки OOB. Второе дерево решений обучается на других двух третях примеров, чем предыдущее дерево решений, а затем использует другую треть для оценки OOB, чем предыдущее дерево решений.

Оценка вне пакета — это вычислительно эффективная и консервативная аппроксимация механизма перекрестной проверки . При перекрестной проверке одна модель обучается для каждого раунда перекрестной проверки (например, 10 моделей обучаются при 10-кратной перекрестной проверке). При оценке OOB обучается одна модель. Поскольку пакетирование удерживает некоторые данные из каждого дерева во время обучения, внесистемная оценка может использовать эти данные для аппроксимации перекрестной проверки.

п

Значения переменных перестановки

#df

Тип важности переменной , которая оценивает увеличение ошибки прогнозирования модели после перестановки значений признака. Важность переменной перестановки — это метрика, независимая от модели.

р

случайный лес

#df

Ансамбль деревьев решений , в котором каждое дерево решений обучается с использованием определенного случайного шума, такого как пакетирование .

Случайные леса — это тип леса решений .

корень

#df

Начальный узел (первое условие ) в дереве решений . По соглашению, корень диаграммы располагается на вершине дерева решений. Например:

Дерево решений с двумя условиями и тремя листьями. Начальное условие (x > 2) — это корень.

С

выборка с заменой

#df

Метод выбора элементов из набора элементов-кандидатов, при котором один и тот же элемент может быть выбран несколько раз. Фраза «с заменой» означает, что после каждого выбора выбранный элемент возвращается в пул элементов-кандидатов. Обратный метод — выборка без замены — означает, что элемент-кандидат можно выбрать только один раз.

Например, рассмотрим следующий набор фруктов:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Предположим, что система случайным образом выбирает fig в качестве первого элемента. Если используется выборка с заменой, то система выбирает второй элемент из следующего набора:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Да, это тот же набор, что и раньше, поэтому система потенциально может снова выбрать fig .

Если используется отбор проб без замены, то после отбора образец не может быть взят повторно. Например, если система случайным образом выберет fig в качестве первого образца, то fig нельзя будет выбрать еще раз. Поэтому система выбирает вторую выборку из следующего (сокращенного) набора:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Нажмите на значок, чтобы просмотреть дополнительные примечания.

Слово замена в выборке заменой сбивает с толку многих людей. В английском языке replace означает «замещение». Однако при выборке с заменой на самом деле используется французское определение замены , которое означает «возвращение чего-либо обратно».

Английское слово replace переводится как французское слово replacement .

усадка

#df

Гиперпараметр в повышении градиента , который контролирует переобучение . Сокращение при повышении градиента аналогично скорости обучения при градиентном спуске . Усадка — это десятичное значение от 0,0 до 1,0. Более низкое значение усадки уменьшает переобучение больше, чем большее значение усадки.

расколоть

#df

В дереве решений другое название условия .

разделитель

#df

При обучении дерева решений — процедура (и алгоритм), отвечающая за поиск наилучшего состояния в каждом узле .

Т

тест

#df

В дереве решений другое название условия .

порог (для деревьев решений)

#df

В состоянии выравнивания по оси — значение, с которым сравнивается объект . Например, 75 — это пороговое значение в следующем условии:

grade >= 75

В

переменные значения

#df

Набор оценок, указывающий относительную важность каждой функции для модели.

Например, рассмотрим дерево решений , которое оценивает цены на жилье. Предположим, что это дерево решений использует три характеристики: размер, возраст и стиль. Если набор важностей переменных для трех признаков рассчитан как {size=5,8, age=2,5, style=4,7}, то размер более важен для дерева решений, чем возраст или стиль.

Существуют различные метрики важности переменных, которые могут информировать экспертов по машинному обучению о различных аспектах моделей.

Вт

мудрость толпы

#df

Идея о том, что усреднение мнений или оценок большой группы людей («толпы») часто дает удивительно хорошие результаты. Например, рассмотрим игру, в которой люди угадывают количество жевательных конфет, упакованных в большую банку. Хотя большинство индивидуальных предположений будут неточными, эмпирически было показано, что среднее значение всех догадок удивительно близко к фактическому количеству мармеладных конфет в банке.

Ансамбли — это программный аналог мудрости толпы. Даже если отдельные модели дают крайне неточные прогнозы, усреднение прогнозов многих моделей часто дает удивительно хорошие прогнозы. Например, хотя отдельное дерево решений может давать плохие прогнозы, лес решений часто дает очень хорошие прогнозы.