Введение в создание набора данных

Шаги по созданию набора данных

Чтобы создать свой набор данных (и перед преобразованием данных), вы должны:

  1. Соберите необработанные данные.
  2. Определите функции и пометьте источники.
  3. Выберите стратегию выборки.
  4. Разделите данные.

Эти шаги во многом зависят от того, как вы сформулировали проблему машинного обучения. Воспользуйтесь приведенной ниже самопроверкой, чтобы освежить в памяти формулировку проблемы и проверить свои предположения о сборе данных.

Самостоятельная проверка концепций формулирования проблем и сбора данных

Для следующих вопросов щелкните нужную стрелку, чтобы проверить свой ответ:

Вы работаете над совершенно новым проектом машинного обучения и собираетесь выбрать свои первые функции. Сколько функций вы должны выбрать?
Выберите 1–3 признака, которые, по-видимому, обладают сильной предсказательной силой.
Для конвейера сбора данных лучше всего начинать только с одной или двух функций. Это поможет вам убедиться, что модель машинного обучения работает должным образом. Кроме того, когда вы строите базовый план из нескольких функций, вы почувствуете, что делаете успехи!
Выберите 4–6 функций, которые, по-видимому, обладают сильной предсказательной силой.
В конечном итоге вы можете использовать столько функций, но все же лучше начать с меньшего количества. Меньше функций обычно означает меньше ненужных осложнений.
Выберите как можно больше функций, чтобы вы могли начать наблюдать, какие функции обладают наибольшей прогностической силой.
Начните с меньшего. Каждая новая функция добавляет новое измерение в ваш набор обучающих данных. Когда размерность увеличивается, объем пространства увеличивается так быстро, что доступные обучающие данные становятся разреженными. Чем реже ваши данные, тем сложнее модели изучить взаимосвязь между действительно важными функциями и меткой. Это явление получило название «проклятие размерности».
Ваш друг Сэм в восторге от первых результатов своего статистического анализа. Он говорит, что данные показывают положительную корреляцию между количеством загрузок приложений и количеством просмотров приложений. Но он не уверен, что они все равно скачали бы его, не увидев обзора. Какой ответ был бы наиболее полезным для Сэма?
Вы можете провести эксперимент, чтобы сравнить поведение пользователей, которые не видели отзыв, с аналогичными пользователями, которые его видели.
Правильный! Если Сэм заметит, что пользователи, которые видели положительный отзыв, с большей вероятностью загрузили приложение, чем те, кто этого не сделал, то у него есть разумные основания полагать, что положительный отзыв побуждает людей получить приложение.
Доверяйте данным. Понятно, что этот отличный обзор является причиной, по которой пользователи загружают приложение.
Неправильно. Этот ответ не приведет Сэма в правильном направлении. Вы не можете определить причинно-следственную связь только по данным наблюдений. Сэм видит корреляцию (то есть статистическую зависимость между числами), которая может указывать или не указывать на причинно-следственную связь. Не позволяйте своим анализам пополнить ряды ложных корреляций.