Преобразование ваших данных: проверьте свое понимание

Для следующих вопросов щелкните нужную стрелку, чтобы проверить свой ответ:

Вы предварительно обрабатываете данные для регрессионной модели. Какие преобразования обязательны? Проверить все, что относится.
Преобразование всех нечисловых функций в числовые функции.
Правильный. Это обязательное преобразование. Вы должны преобразовать строки в некоторое числовое представление, потому что вы не можете выполнять матричное умножение строки.
Нормализация числовых данных.
Может помочь нормализация числовых данных, но это необязательное качественное преобразование.

Рассмотрите диаграмму ниже. Какой метод преобразования данных будет наиболее продуктивным для начала и почему? Предположим, ваша цель — найти линейную зависимость между roomPerPerson и ценой дома.
Z-оценка
Z-показатель — хороший выбор, если выбросы не являются экстремальными. Однако выбросы здесь экстремальны.
Отсечение
Отсечение — хороший выбор, потому что набор данных содержит экстремальные выбросы. Вы должны исправить экстремальные выбросы, прежде чем применять другие нормализации.
Масштабирование журнала
Логарифмическое масштабирование — хороший выбор, если ваши данные соответствуют распределению по степенному закону. Однако эти данные соответствуют нормальному распределению, а не степенному закону.
Разделение (биннинг) с квантильными границами
Квантильное группирование может быть хорошим подходом для асимметричных данных, но в этом случае эта асимметрия частично связана с несколькими экстремальными выбросами. Кроме того, вы хотите, чтобы модель научилась линейной зависимости. Таким образом, вы должны оставить roomPerPerson числовым, а не преобразовывать его в категории, что и делает группировка. Вместо этого попробуйте технику нормализации.

Диаграмма, показывающая относительную частоту различных значений RoomsPerPerson, где RoomsPerPerson — это количество комнат в доме, деленное на количество людей в этом доме. Большинство данных распределено между 0 и 5 с небольшим количеством баллов от 5 до 55.

Рассмотрите диаграмму ниже. Какой метод преобразования данных будет наиболее продуктивным для начала и почему?
Z-оценка
Z-оценка — хороший выбор, если выбросы не настолько велики, чтобы их нужно было отсечь. Это не тот случай здесь. То, как данные искажены, должно быть подсказкой.
Отсечение
Отсечение — хороший выбор, когда есть экстремальные выбросы. Эта диаграмма, однако, показывает распределение по степенному закону, и есть другой метод нормализации, который лучше подходит для решения этой проблемы.
Масштабирование журнала
Логарифмическое масштабирование — хороший выбор, потому что данные соответствуют распределению по степенному закону.
Разделение (биннинг) с квантильными границами
Квантильное группирование может быть хорошим подходом для искаженных данных. Однако вы ищете модель для изучения линейной зависимости. Поэтому вы должны хранить свои данные в числовом виде и не помещать их в сегменты. Вместо этого попробуйте метод нормализации.

Гистограмма, столбцы которой сильно сконцентрированы в нижней части. Первый столбец имеет величину 1200, второй столбец имеет величину 460, третий столбец имеет величину 300. К 15-му столбцу величина уменьшается примерно до 30. Очень длинный хвост продолжается еще 90 тактов с величина длинного хвоста никогда не превышает 10.

Рассмотрите диаграмму ниже. Может ли линейная модель дать хороший прогноз о взаимосвязи между коэффициентом сжатия и расходом топлива по городу? Если нет, то как вы можете преобразовать данные, чтобы лучше обучить модель?
Да, модель, вероятно, найдет линейную зависимость и сделает довольно точные прогнозы.
Хотя модель найдет линейную зависимость, она не будет делать очень точных прогнозов. Вы можете попробовать обучить этот набор данных в упражнении по моделированию данных, чтобы лучше понять, почему.
Нет. Модель, вероятно, будет более точной после масштабирования.
Вы можете применить линейное масштабирование, но наклон отношения между коэффициентом сжатия и городскими милями на галлон будет выглядеть одинаково. Что вам больше поможет, так это увидеть два отдельных наклона — один для группы точек с более низким коэффициентом сжатия, а другой — с более высоким.
Нет. Кажется, происходит два разных поведения. Установка порогового значения посередине и использование функции сегментации может помочь вам лучше понять, что происходит в этих двух областях.
Правильный. Важно четко понимать, почему и как вы устанавливаете границы. В упражнении «Моделирование данных» вы узнаете больше о том, как именно этот подход может помочь вам создать лучшую модель.

Диаграмма рассеяния, показывающая расход топлива на галлон в зависимости от степени сжатия. На противоположных концах оси коэффициента сжатия появляются две отдельные группы данных, одна из которых намного больше другой. Большой комок охватывает диапазон степеней сжатия 7-12; меньший комок охватывает диапазон степени сжатия 21-23. Расход на галлон по шоссе обычно немного ниже в большом скоплении, чем в меньшем скоплении.

Команда коллег рассказывает вам о прогрессе, которого они достигли в своем проекте машинного обучения. Они вычислили словарь и обучили модель в автономном режиме. Однако они хотят избежать проблем с устареванием, поэтому теперь собираются обучить другую модель онлайн. Что может произойти дальше?
Модель будет обновляться по мере поступления новых данных. Другая команда должна будет постоянно контролировать входные данные.
Хотя основным преимуществом динамического обучения является предотвращение устаревания модели, использование словаря с моделью, обученной в автономном режиме, приведет к проблемам.
Они могут обнаружить, что индексы, которые они используют, не соответствуют словарному запасу.
Правильный. Предупредите своих коллег об опасностях перекоса в обучении/обслуживании, а затем порекомендуйте им пройти курс Google по подготовке данных и разработке функций для машинного обучения, чтобы узнать больше.