Что такое машинное обучение?

Машинное обучение (ML) лежит в основе некоторых из наиболее важных технологий, которые мы используем, от приложений для перевода до автономных транспортных средств. Этот курс объясняет основные концепции машинного обучения.

ML предлагает новый способ решения проблем и ответов на сложные вопросы. Проще говоря, машинное обучение — это процесс обучения части программного обеспечения, называемой моделью , делать полезные прогнозы на основе данных. Модель ML представляет собой математическую взаимосвязь между элементами данных, которые система ML использует для прогнозирования.

Например, предположим, что мы хотим создать приложение для прогнозирования осадков. Мы могли бы использовать либо традиционный подход, либо подход ML. Используя традиционный подход, мы создадим основанное на физике представление атмосферы и поверхности Земли, вычислив огромное количество уравнений гидродинамики. Это невероятно сложно.

Используя подход машинного обучения, мы давали бы модели машинного обучения огромное количество данных о погоде до тех пор, пока модель машинного обучения в конце концов не узнала бы математическую взаимосвязь между погодными условиями, вызывающими различное количество дождя. Затем мы давали модели текущие данные о погоде, и она предсказывала количество дождя.

Проверьте свое понимание

Что такое «модель» в машинном обучении?
Модель — это математическая взаимосвязь, полученная из данных, которые система машинного обучения использует для прогнозирования.
Модель — это часть компьютерного оборудования.
Модель — это уменьшенное представление того, что вы изучаете.

Типы систем машинного обучения

Системы машинного обучения делятся на три категории в зависимости от того, как они учатся делать прогнозы:

  • контролируемое обучение
  • Неконтролируемое обучение
  • Обучение с подкреплением

контролируемое обучение

Модели контролируемого обучения могут делать прогнозы после просмотра большого количества данных с правильными ответами, а затем обнаружения связей между элементами в данных, которые дают правильные ответы. Это похоже на то, как студент изучает новый материал, изучая старые экзамены, которые содержат как вопросы, так и ответы. Как только учащийся прошел достаточное количество старых экзаменов, он будет хорошо подготовлен к сдаче нового экзамена. Эти системы МО «контролируются» в том смысле, что человек предоставляет системе МО данные с известными правильными результатами.

Двумя наиболее распространенными вариантами использования контролируемого обучения являются регрессия и классификация.

Регрессия

Модель регрессии предсказывает числовое значение. Например, модель погоды, предсказывающая количество дождя в дюймах или миллиметрах, является регрессионной моделью.

В таблице ниже приведены дополнительные примеры моделей регрессии:

Сценарий Возможные входные данные Числовое предсказание
Цена будущего дома Квадратные метры, почтовый индекс, количество спален и ванных комнат, размер участка, процентная ставка по ипотеке, ставка налога на имущество, затраты на строительство и количество домов для продажи в этом районе. Цена дома.
Будущее время поездки Исторические условия дорожного движения (собранные со смартфонов, датчиков трафика, райдшеринговых и других навигационных приложений), расстояние до пункта назначения и погодные условия. Время в минутах и ​​секундах для прибытия в пункт назначения.

Классификация

Модели классификации предсказывают вероятность принадлежности чего-либо к категории. В отличие от регрессионных моделей, вывод которых представляет собой число, модели классификации выводят значение, указывающее, принадлежит ли что-либо к определенной категории. Например, модели классификации используются для прогнозирования того, является ли электронное письмо спамом или на фотографии изображен кот.

Модели классификации делятся на две группы: бинарная классификация и мультиклассовая классификация. Модели бинарной классификации выводят значение из класса, который содержит только два значения, например, модель, которая выводит либо rain , либо no rain . Модели мультиклассовой классификации выводят значение из класса, который содержит более двух значений, например, модель, которая может выводить rain , hail , snow или sleet .

Проверьте свое понимание

Если бы вы хотели использовать модель машинного обучения для прогнозирования энергопотребления коммерческих зданий, какой тип модели вы бы использовали?
Регрессия
Энергопотребление измеряется в киловатт-часах (кВтч), что является числом, поэтому вам следует использовать модель регрессии.
Классификация
Модели классификации предсказывают, принадлежит ли что-либо к категории, а модели регрессии предсказывают число. Поскольку потребление энергии измеряется в киловатт-часах (кВтч), что является числом, вам следует использовать модель регрессии.

Неконтролируемое обучение

Модели неконтролируемого обучения делают прогнозы, получая данные, не содержащие правильных ответов. Целью модели неконтролируемого обучения является выявление значимых закономерностей среди данных. Другими словами, в модели нет подсказок о том, как классифицировать каждый фрагмент данных, вместо этого она должна выводить свои собственные правила.

В широко используемой модели обучения без учителя используется метод, называемый кластеризацией . Модель находит точки данных, разграничивающие естественные группировки.

Изображение, показывающее цветные точки в кластерах.

Рисунок 1 . Модель машинного обучения, объединяющая похожие точки данных.

Изображение, показывающее цветные точки в кластерах, которые заключены в фигуру и граничат друг с другом.

Рисунок 2 . Группы кластеров с естественными границами.

Кластеризация отличается от классификации, поскольку категории определяются не вами. Например, неконтролируемая модель может группировать набор данных о погоде на основе температуры, выявляя сегменты, определяющие времена года. Затем вы можете попытаться назвать эти кластеры на основе вашего понимания набора данных.

Изображение, показывающее цветные точки в кластерах, помеченных как снег, дождь, град и отсутствие дождя.

Рисунок 3 . Модель машинного обучения, объединяющая похожие погодные условия.

Изображение, показывающее цветные точки в группах, помеченных как снег, дождь, град и отсутствие дождя, заключенные в фигуру и граничащие друг с другом.

Рисунок 4 . Группы погодных условий, помеченные как снег, мокрый снег, дождь и отсутствие дождя.

Проверьте свое понимание

Чем отличается контролируемый подход от неконтролируемого?
При контролируемом подходе даются данные, содержащие правильный ответ.
При контролируемом подходе даются данные, содержащие правильный ответ. Задача модели — найти связи в данных, которые дают правильный ответ. При неконтролируемом подходе даются данные без правильного ответа. Его задача состоит в том, чтобы найти группы в данных.
В контролируемом подходе обычно используется кластеризация.
Неконтролируемый подход использует кластеризацию.
Неконтролируемый подход знает, как маркировать кластеры данных.
Неконтролируемый подход не знает, что означают кластеры данных. Основываясь на вашем понимании данных, вы должны определить их.

Обучение с подкреплением

Модели обучения с подкреплением делают прогнозы, получая награды или штрафы на основе действий, выполняемых в среде. Система обучения с подкреплением генерирует политику , которая определяет наилучшую стратегию для получения наибольшего вознаграждения.

Обучение с подкреплением используется для обучения роботов выполнению задач, таких как хождение по комнате, и таких программ, как AlphaGo , для игры в го.