Числовые данные: полиномиальные преобразования

Иногда, когда у специалиста по МО есть знания предметной области, позволяющие предположить, что одна переменная связана с квадратом, кубом или другой степенью другой переменной, полезно создать синтетический признак на основе одного из существующих числовых признаков .

Рассмотрим следующий набор точек данных, где розовые кружки представляют один класс или категорию (например, породу дерева), а зеленые треугольники — другой класс (или породу дерева):

Рисунок 17. Разброс точек данных по y=x^2 с треугольниками под             кривая и круги над кривой.
Рисунок 17. Два класса, которые нельзя разделить линией.

Невозможно провести прямую линию, которая четко разделяет два класса, но можно нарисовать кривую, которая делает это:

Рисунок 18. То же изображение, что и на рисунке 17, только на этот раз с y=x^2.             наложены, чтобы создать четкую границу между треугольниками и             круги.
Рисунок 18. Разделение классов с y = x 2 .

Как обсуждалось в модуле «Линейная регрессия» , линейная модель с одним признаком $x_1$ описывается линейным уравнением:

$$y = b + w_1x_1$$

Дополнительные функции реализуются путем добавления терминов. \(w_2x_2\),\(w_3x_3\), и т. д.

Градиентный спуск находит вес $w_1$ (или веса\(w_1\), \(w_2\), \(w_3\), в случае дополнительных функций), что минимизирует потери модели. Но показанные точки данных не могут быть разделены линией. Что можно сделать?

Можно сохранить как линейное уравнение , так и разрешить нелинейность, определив новый термин: \(x_2\), это просто \(x_1\) в квадрате:

$$x_2 = x_1^2$$

Эта синтетическая функция, называемая полиномиальным преобразованием, рассматривается как любая другая функция. Предыдущая линейная формула принимает вид:

$$y = b + w_1x_1 + w_2x_2$$

Это по-прежнему можно рассматривать как задачу линейной регрессии , а веса, как обычно, определяются с помощью градиентного спуска, несмотря на то, что они содержат скрытый квадратичный член, полиномиальное преобразование. Не изменяя способ обучения линейной модели, добавление полиномиального преобразования позволяет модели разделять точки данных с помощью кривой вида $y = b + w_1x + w_2x^2$.

Обычно интересующий числовой признак умножается сам на себя, то есть возводится в некоторую степень. Иногда специалист по МО может сделать обоснованное предположение о соответствующем показателе. Например, многие отношения в физическом мире связаны с квадратами, включая ускорение силы тяжести, затухание света или звука на расстоянии и упругую потенциальную энергию.

Если вы преобразуете объект таким образом, что изменяется его масштаб, вам также следует подумать о том, чтобы поэкспериментировать с его нормализацией. Нормализация после преобразования может улучшить производительность модели. Для получения дополнительной информации см. Числовые данные: нормализация .

Родственное понятие в категориальных данных — это перекрестный признак , который чаще всего синтезирует два разных признака.