Глоссарий по машинному обучению: леса принятия решений

Эта страница содержит термины глоссария Decision Forests. Чтобы просмотреть все термины глоссария, щелкните здесь .

А

выборка атрибутов

#дф

Тактика обучения леса решений , в котором каждое дерево решений рассматривает только случайное подмножество возможных признаков при изучении условия . Как правило, для каждого узла выбирается разное подмножество признаков. Напротив, при обучении дерева решений без выборки атрибутов для каждого узла рассматриваются все возможные признаки.

условие выравнивания по осям

#дф

В дереве решений - условие , включающее только один признак . Например, если площадь является объектом, то условие выравнивания по осям выполняется следующим образом:

area > 200

Контраст с наклонным условием .

Б

расфасовка

#дф

Метод обучения ансамбля , в котором каждая составляющая модель обучается на случайном подмножестве обучающих примеров , выбранных с заменой . Например, случайный лес — это набор деревьев решений , обученных с помощью бэггинга.

Термин бэггинг является сокращением от bootstrap gging regating .

бинарное условие

#дф

В дереве решений - условие , имеющее только два возможных исхода, обычно да или нет . Например, следующее бинарное условие:

temperature >= 100

В отличие от небинарного состояния .

С

состояние

#дф

В дереве решений — любой узел , оценивающий выражение. Например, следующая часть дерева решений содержит два условия:

Дерево решений, состоящее из двух условий: (x > 0) и (y > 0).

Условие также называется разбиением или тестом.

Состояние контраста с листом .

Смотрите также:

Д

лес решений

#дф

Модель, созданная из нескольких деревьев решений . Лес решений делает прогноз, агрегируя прогнозы своих деревьев решений. Популярные типы лесов решений включают случайные леса и деревья с градиентным усилением .

Древо решений

#дф

Модель контролируемого обучения, состоящая из набора условий и листьев , организованных иерархически. Например, следующее дерево решений:

Дерево решений, состоящее из четырех иерархически расположенных условий, ведущих к пяти листьям.

Е

энтропия

#дф

В теории информации описание того, насколько непредсказуемо распределение вероятностей. В качестве альтернативы энтропия также определяется как количество информации, содержащейся в каждом примере . Распределение имеет максимально возможную энтропию, когда все значения случайной величины равновероятны.

Энтропия множества с двумя возможными значениями «0» и «1» (например, метки в задаче бинарной классификации ) имеет следующую формулу:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

где:

  • H - энтропия.
  • p - доля "1" примеров.
  • q — доля «0» примеров. Обратите внимание, что q = (1 - p)
  • log обычно log 2 . В данном случае единицей энтропии является бит.

Например, предположим следующее:

  • 100 примеров содержат значение "1"
  • 300 примеров содержат значение "0"

Следовательно, значение энтропии равно:

  • р = 0,25
  • д = 0,75
  • H = (-0,25)log 2 (0,25) - (0,75)log 2 (0,75) = 0,81 бит на пример

Идеально сбалансированный набор (например, 200 «0» и 200 «1») будет иметь энтропию 1,0 бит на пример. По мере того, как набор становится более несбалансированным , его энтропия приближается к 0,0.

В деревьях решений энтропия помогает сформулировать получение информации , чтобы помочь разделителю выбрать условия во время роста дерева решений классификации.

Сравните энтропию с:

Энтропию часто называют энтропией Шеннона.

Ф

особенности важности

#дф

Синоним переменной важности .

г

примесь Джини

#дф

Метрика похожа на энтропию . Разделители используют значения, полученные либо из примеси Джини, либо из энтропии, чтобы составить условия для деревьев решений классификации. Прирост информации происходит от энтропии. Не существует общепринятого эквивалентного термина для метрики, полученной из примеси Джини; однако этот безымянный показатель так же важен, как и прирост информации.

Примесь Джини также называют индексом Джини или просто Джини .

повышение градиента

#дф

Алгоритм обучения, в котором слабые модели обучаются для итеративного улучшения качества (уменьшения потерь) сильной модели. Например, слабой моделью может быть линейная модель или модель небольшого дерева решений. Сильная модель становится суммой всех предварительно обученных слабых моделей.

В простейшей форме повышения градиента на каждой итерации слабая модель обучается прогнозировать градиент потерь сильной модели. Затем выходные данные сильной модели обновляются путем вычитания предсказанного градиента, аналогично градиентному спуску .

$$F_{0} = 0$$$$F_{i+1} = F_i - \xi f_i $$

где:

  • $F_{0}$ – начальная сильная модель.
  • $F_{i+1}$ — следующая сильная модель.
  • $F_{i}$ — текущая сильная модель.
  • $\xi$ — это значение от 0,0 до 1,0, называемое усадкой , которое аналогично скорости обучения в градиентном спуске.
  • $f_{i}$ — слабая модель, обученная предсказывать градиент потерь $F_{i}$.

Современные варианты повышения градиента также включают в свои вычисления вторую производную (Гессиана) потерь.

Деревья решений обычно используются в качестве слабых моделей при повышении градиента. См. деревья (решения) с градиентным усилением .

деревья (решения) с градиентным усилением (GBT)

#дф

Тип леса решений , в котором:

я

путь вывода

#дф

В дереве решений во время логического вывода маршрут, по которому конкретный пример идет от корня к другим условиям , заканчивающийся листом . Например, в следующем дереве решений более толстые стрелки показывают путь вывода для примера со следующими значениями признаков:

  • х = 7
  • у = 12
  • г = -3

Путь вывода на следующем рисунке проходит через три условия, прежде чем достичь листа ( Zeta ).

Дерево решений, состоящее из четырех условий и пяти листьев. Корневое условие (x > 0). Поскольку ответ «Да», путь вывода идет от корня к следующему условию (y > 0). Поскольку ответ «Да», путь вывода переходит к следующему условию (z > 0). Поскольку ответ «Нет», путь вывода проходит к своему конечному узлу, который является листом (дзета).

Три толстые стрелки показывают путь вывода.

получение информации

#дф

В лесах решений разница между энтропией узла и взвешенной (по количеству примеров) суммой энтропии его дочерних узлов. Энтропия узла — это энтропия примеров в этом узле.

Например, рассмотрим следующие значения энтропии:

  • энтропия родительского узла = 0,6
  • энтропия одного дочернего узла с 16 релевантными примерами = 0,2
  • энтропия другого дочернего узла с 24 релевантными примерами = 0,1

Таким образом, 40 % примеров находятся в одном дочернем узле, а 60 % — в другом дочернем узле. Поэтому:

  • взвешенная сумма энтропии дочерних узлов = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Итак, информационный прирост:

  • прирост информации = энтропия родительского узла - взвешенная сумма энтропии дочерних узлов
  • прирост информации = 0,6 - 0,14 = 0,46

Большинство сплиттеров стремятся создать условия , максимизирующие получение информации.

состояние в комплекте

#дф

В дереве решений - условие , проверяющее наличие одного элемента в наборе элементов. Например, следующее является внутренним условием:

  house-style in [tudor, colonial, cape]

Во время логического вывода, если значением признака стиля дома является tudor , colonial или cape , то это условие оценивается как Да. Если значение признака в стиле дома другое (например, ranch ), то это условие оценивается как Нет.

Условия в наборе обычно приводят к более эффективным деревьям решений, чем условия, которые тестируют функции с горячим кодированием .

л

лист

#дф

Любая конечная точка в дереве решений . В отличие от условия лист не выполняет проверку. Скорее, лист – это возможное предсказание. Лист также является конечным узлом пути вывода .

Например, следующее дерево решений содержит три листа:

Дерево решений с двумя условиями, ведущими к трем листьям.

Н

узел (дерево решений)

#дф

В дереве решений любое условие или лист .

Дерево решений с двумя условиями и тремя листьями.

небинарное условие

#дф

Условие , содержащее более двух возможных исходов. Например, следующее небинарное условие содержит три возможных исхода:

Условие (number_of_legs = ?), приводящее к трем возможным исходам. Один результат (number_of_legs = 8) приводит к листу с именем паук. Второй результат (number_of_legs = 4) приводит к листу с именем собака. Третий результат (number_of_legs = 2) приводит к листу с именем пингвин.

О

косое состояние

#дф

В дереве решений - условие , включающее более одного признака . Например, если и высота, и ширина являются функциями, то следующее условие является косым:

  height > width

В отличие от условия выравнивания по оси .

внеплановая оценка (оценка OOB)

#дф

Механизм оценки качества леса решений путем проверки каждого дерева решений на примерах , не использованных при обучении этого дерева решений. Например, на следующей диаграмме обратите внимание, что система обучает каждое дерево решений примерно на двух третях примеров, а затем оценивает оставшуюся одну треть примеров.

Лес решений, состоящий из трех деревьев решений. Одно дерево решений обучается на двух третях примеров, а затем использует оставшуюся треть для оценки OOB. Второе дерево решений обучается на двух третях примеров, отличных от предыдущего дерева решений, а затем использует другую треть для оценки OOB, чем предыдущее дерево решений.

Нестандартная оценка — это вычислительно эффективная и консервативная аппроксимация механизма перекрестной проверки . При перекрестной проверке одна модель обучается для каждого раунда перекрестной проверки (например, 10 моделей обучаются при 10-кратной перекрестной проверке). При OOB-оценке обучается одна модель. Поскольку пакетирование удерживает некоторые данные от каждого дерева во время обучения, оценка OOB может использовать эти данные для аппроксимации перекрестной проверки.

п

значение переменной перестановки

#дф

Тип важности переменной , который оценивает увеличение ошибки прогнозирования модели после перестановки значений функции. Важность переменной перестановки является метрикой, не зависящей от модели.

р

случайный лес

#дф

Ансамбль деревьев решений , в котором каждое дерево решений обучается с помощью определенного случайного шума, такого как бэггинг .

Случайные леса — это тип леса решений .

корень

#дф

Начальный узел (первое условие ) в дереве решений . По соглашению на диаграммах корень находится наверху дерева решений. Например:

Дерево решений с двумя условиями и тремя листьями. Начальное условие (x > 2) — корень.

С

выборка с заменой

#дф

Метод выбора элементов из набора элементов-кандидатов, в котором один и тот же элемент может быть выбран несколько раз. Фраза «с заменой» означает, что после каждого выбора выбранный элемент возвращается в пул элементов-кандидатов. Обратный метод, выборка без замены , означает, что элемент-кандидат может быть выбран только один раз.

Например, рассмотрим следующий набор фруктов:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Предположим, что система случайным образом выбирает fig в качестве первого элемента. Если используется выборка с замещением, то система выбирает второй элемент из следующего набора:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Да, это тот же набор, что и раньше, так что потенциально система может снова взять fig .

При использовании выборки без замены после отбора образец не может быть отобран снова. Например, если система случайным образом выбирает fig в качестве первого образца, то fig не может быть выбран повторно. Поэтому система выбирает вторую выборку из следующего (сокращенного) набора:

fruit = {kiwi, apple, pear, cherry, lime, mango}

усадка

#дф

Гиперпараметр в повышении градиента , который контролирует переоснащение . Сокращение при повышении градиента аналогично скорости обучения при градиентном спуске . Усадка представляет собой десятичное значение от 0,0 до 1,0. Более низкое значение усадки уменьшает переоснащение в большей степени, чем большее значение усадки.

расколоть

#дф

В дереве решений другое название условия .

сплиттер

#дф

При обучении дерева решений подпрограмма (и алгоритм) отвечает за поиск наилучшего условия в каждом узле .

Т

тест

#дф

В дереве решений другое название условия .

порог (для деревьев решений)

#дф

В условиях выравнивания по осям значение, с которым сравнивается функция . Например, 75 — это пороговое значение в следующем условии:

grade >= 75

В

переменная важность

#дф

Набор оценок, который указывает относительную важность каждой функции для модели.

Например, рассмотрим дерево решений , оценивающее цены на жилье. Предположим, что это дерево решений использует три характеристики: размер, возраст и стиль. Если набор переменных важностей для трех признаков рассчитывается как {размер = 5,8, возраст = 2,5, стиль = 4,7}, тогда размер важнее для дерева решений, чем возраст или стиль.

Существуют различные метрики важности переменных, которые могут информировать экспертов по машинному обучению о различных аспектах моделей.

Вт

мудрость толпы

#дф

Идея о том, что усреднение мнений или оценок большой группы людей («толпы») часто дает удивительно хорошие результаты. Например, рассмотрим игру, в которой люди угадывают количество драже, упакованных в большую банку. Хотя большинство отдельных догадок будут неточными, эмпирически показано, что среднее значение всех догадок на удивление близко к фактическому количеству драже в банке.

Ансамбли — это программный аналог мудрости толпы. Даже если отдельные модели делают крайне неточные прогнозы, усреднение прогнозов многих моделей часто дает удивительно хорошие прогнозы. Например, хотя отдельное дерево решений может давать плохие прогнозы, лес решений часто дает очень хорошие прогнозы.