Тренировочные и тестовые наборы: упражнения на игровой площадке
Оптимизируйте свои подборки
Сохраняйте и классифицируйте контент в соответствии со своими настройками.
Обучающие наборы и тестовые наборы
Мы возвращаемся на игровую площадку, чтобы поэкспериментировать с обучающими и тестовыми наборами.
Нажмите значок плюса, чтобы напомнить, что означают оранжевые и синие точки.
В визуализации:
Каждая синяя точка обозначает один пример одного класса данных (например, спам).
Каждая оранжевая точка обозначает один пример другого класса данных (например, не спама).
Цвет фона представляет собой предсказание модели о том, где следует найти примеры этого цвета. Синий фон вокруг синей точки означает, что модель правильно предсказывает этот пример. И наоборот, оранжевый фон вокруг синей точки означает, что модель делает неправильный прогноз для этого примера.
В этом упражнении предусмотрены как тестовый, так и обучающий наборы, взятые из одного и того же набора данных. По умолчанию визуализация показывает только обучающий набор. Если вы также хотите просмотреть набор тестов, установите флажок «Показать тестовые данные» под визуализацией. Обратите внимание на следующее различие в визуализации:
Обучающие примеры имеют белый контур.
Тестовые примеры имеют черный контур.
Задача 1. Запустите Playground с заданными настройками, выполнив следующие действия:
Нажмите кнопку «Выполнить/Пауза»:
Наблюдайте за изменением значений Test loss и Training loss.
Когда значения «Потеря теста» и «Потеря тренировки» перестанут изменяться или будут меняться только время от времени, снова нажмите кнопку «Запуск/Пауза», чтобы приостановить игровую площадку.
Обратите внимание на разницу между потерями при тестировании и потерями при обучении. Постараемся уменьшить эту дельту в следующих задачах.
Будет ли разница между потерями на тестах и потерями на обучении ниже или выше с этой новой скоростью обучения? Что произойдет, если вы измените скорость обучения и размер пакета ?
Необязательная задача 3. Ползунок с надписью «Процент обучающих данных» позволяет контролировать соотношение обучающих данных и тестовых данных. Например, если установлено значение 90 %, 90 % данных используется для обучающего набора, а оставшиеся 10 % — для тестового набора.
Сделайте следующее:
Уменьшите «Процент обучающих данных» с 50% до 10%.
Поэкспериментируйте со скоростью обучения и размером пакета, записывая результаты.
Изменяет ли изменение процента обучающих данных оптимальные настройки обучения, которые вы обнаружили в задании 2? Если да, то почему?
Нажмите на значок плюса, чтобы увидеть ответ на задание 1.
Если скорость обучения установлена на 3 (начальная настройка), потери при тестировании значительно превышают потери при обучении.
Нажмите на значок плюса, чтобы увидеть ответ на задание 2.
При уменьшении скорости обучения (например, до 0,001 ) потери при тестировании падают до значения, гораздо более близкого к потерям при обучении. В большинстве запусков увеличение размера пакета не оказывает существенного влияния на потери при обучении или тесте. Однако в небольшом проценте запусков увеличение размера пакета до 20 или более приводит к тому, что потери при тестировании падают немного ниже потерь при обучении.
Наборы данных игровой площадки генерируются случайным образом. Следовательно, наши ответы не всегда могут точно совпадать с вашими.
Нажмите значок плюса для ответа на задание 3.
Уменьшение процента обучающих данных с 50% до 10% значительно снижает количество точек данных в обучающем наборе. При таком небольшом объеме данных большой размер пакета и высокая скорость обучения заставляют модель обучения хаотично прыгать (многократно перепрыгивая через минимальную точку).