Соответствующие данные для лесов принятия решений

Леса решений наиболее эффективны, когда у вас есть табличный набор данных (данные, которые вы можете представить в электронной таблице, CSV-файле или таблице базы данных). Табличные данные — один из наиболее распространенных форматов данных, и леса решений должны стать вашим основным решением для их моделирования.

Таблица 1. Пример табличного набора данных.

Количество ножек Количество глаз Вес в фунтах) Виды (этикетка)
2 2 12 Пингвин
8 6 0,1 Паук
4 2 44 Собака

В отличие от нейронных сетей, леса принятия решений изначально используют табличные данные модели. При разработке лесов решений вам не нужно выполнять следующие задачи:

  • Выполните предварительную обработку, такую ​​как нормализация признаков или горячее кодирование.
  • Выполните вменение (например, заменив отсутствующее значение на -1 ).

Однако леса решений плохо подходят для прямого использования нетабличных данных (также называемых неструктурированными данными), таких как изображения или текст. Да, обходные пути для этого ограничения существуют, но нейронные сети обычно лучше обрабатывают неструктурированные данные.

Производительность

Леса решений эффективны по выборке. То есть леса решений хорошо подходят для обучения на небольших наборах данных или на наборах данных, где отношение количества признаков к количеству примеров велико (возможно, больше 1). Несмотря на то, что леса решений эффективны по выборке, как и все модели машинного обучения, леса решений работают лучше всего, когда доступно много данных.

Леса решений обычно делают выводы быстрее, чем сопоставимые нейронные сети. Например, в лесу решений среднего размера логический вывод выполняется за несколько микросекунд на современном ЦП.