Фрейминг: ключевая терминология машинного обучения

Что такое (контролируемое) машинное обучение? Кратко говоря, это следующее:

  • Системы машинного обучения узнают, как комбинировать входные данные для получения полезных прогнозов на основе данных, которые ранее не публиковались.

Давайте изучим фундаментальную терминологию машинного обучения.

Этикетки

Метка — это то, что мы предсказываем, — переменная y в простой линейной регрессии. Этикеткой может быть будущая цена на пшеницу, вид животного, изображенного на картинке, значение аудиоклипа или что угодно.

Функции

Функция — это входная переменная — переменная x в простой линейной регрессии. Простой проект машинного обучения может использовать одну функцию, в то время как более сложный проект машинного обучения может использовать миллионы функций, указанных как:

\[\\{x_1, x_2, ... x_N\\}\]

В примере с детектором спама функции могут включать следующее:

  • слова в тексте письма
  • адрес отправителя
  • время дня, когда письмо было отправлено
  • электронное письмо содержит фразу «один странный трюк».

Примеры

Примером является конкретный экземпляр данных, x . (Мы выделили x жирным шрифтом, чтобы указать, что это вектор.) Мы разбиваем примеры на две категории:

  • помеченные примеры
  • немаркированные примеры

Пример с меткой включает в себя как функции, так и метку. То есть:

  labeled examples: {features, label}: (x, y)

Используйте помеченные примеры для обучения модели. В нашем примере с детектором спама помеченными примерами будут отдельные электронные письма, которые пользователи явно пометили как «спам» или «не спам».

Например, в следующей таблице показаны 5 помеченных примеров из набора данных, содержащего информацию о ценах на жилье в Калифорнии:

жильеMedianAge
(особенность)
всегоКомнат
(особенность)
ВсегоСпальни
(особенность)
медианаHouseValue
(этикетка)
15 5612 1283 66900
19 7650 1901 г. 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

Немаркированный пример содержит функции, но не метку. То есть:

  unlabeled examples: {features, ?}: (x, ?)

Вот 3 немаркированных примера из одного и того же набора данных о жилье, которые исключают medianHouseValue :

жильеMedianAge
(особенность)
всегоКомнат
(особенность)
ВсегоСпальни
(особенность)
42 1686 361
34 1226 180
33 1077 271

После того, как мы обучили нашу модель размеченным примерам, мы используем эту модель для прогнозирования метки на неразмеченных примерах. В детекторе спама немаркированные примеры — это новые электронные письма, которые люди еще не пометили.

Модели

Модель определяет взаимосвязь между функциями и меткой. Например, модель обнаружения спама может строго ассоциировать определенные функции со спамом. Выделим два этапа жизни модели:

  • Обучение означает создание или изучение модели. То есть вы показываете модели помеченные примеры и позволяете модели постепенно изучать отношения между функциями и меткой.

  • Вывод означает применение обученной модели к неразмеченным примерам. То есть вы используете обученную модель, чтобы делать полезные прогнозы ( y' ). Например, во время логического вывода можно предсказать medianHouseValue для новых неразмеченных примеров.

Регрессия против классификации

Модель регрессии предсказывает непрерывные значения. Например, регрессионные модели делают прогнозы, отвечающие на следующие вопросы:

  • Сколько стоит дом в Калифорнии?

  • Какова вероятность того, что пользователь нажмет на это объявление?

Модель классификации предсказывает дискретные значения. Например, модели классификации делают прогнозы, отвечающие на следующие вопросы:

  • Является ли данное сообщение электронной почты спамом или нет?

  • Это изображение собаки, кошки или хомяка?