Набори даних для навчання й тестування
Повернімося до інтерактивного середовища, щоб поекспериментувати з наборами для навчання й тестування.
Натисніть значок плюса, якщо ви не пам’ятаєте, що означають помаранчеві й блакитні точки.
Нижче описано значення кольорів у візуалізації.
- Кожна блакитна точка означає один приклад одного класу даних (наприклад, спаму).
- Кожна помаранчева точка – один приклад іншого класу даних (наприклад, того, що не є спамом).
- Колір фону – це прогноз моделі щодо того, де можна знайти приклади такого кольору. Синій фон навколо синьої точки означає, що модель правильно прогнозує цей приклад. І навпаки, помаранчевий фон навколо синьої точки означає, що модель робить неправильний прогноз для цього прикладу.
У цій вправі є набір як для тестування, так і для навчання. Їх обидва взято з одного набору даних. За умовчанням візуалізація показує лише набір для навчання. Якщо ви хочете також побачити набір для тестування, натисніть прапорець Показати тестові дані під візуалізацією. Зверніть увагу на таку різницю у візуалізації:
- навчальні приклади мають білий контур;
- тестові приклади – чорний.
Завдання 1. Запустіть інтерактивне середовище із заданими налаштуваннями, виконавши такі дії:
- Натисніть кнопку "Запуск/пауза"
.
- Спостерігайте, як змінюються значення втрат при тестуванні й навчанні.
- Коли значення втрат при тестуванні й навчанні перестануть змінюватися або це відбуватиметься лише час від часу, знову натисніть кнопку "Запуск/пауза", щоб призупинити інтерактивне середовище.
Зверніть увагу на дельту між значеннями втрат при тестуванні й навчанні. Ми намагатимемося зменшити її в наступних завданнях.
Завдання 2. Виконайте наступні кроки:
- Натисніть кнопку "Скинути".

- Змініть швидкість навчання.
- Натисніть кнопку "Запуск/пауза"
.
- Процес, запущений в інтерактивному середовищі, має тривати протягом щонайменше 150 епох.
Дельта між значеннями втрат при тестуванні й навчанні стала нижчою чи вищою після того, як ви встановили нову швидкість навчання? Що станеться, якщо змінити обидва параметри: і швидкість навчання, і розмір пакета?
Необов’язкове завдання 3. Повзунок із міткою Відсоток навчальних даних дає змогу контролювати співвідношення навчальних і тестових даних. Наприклад, якщо встановити значення 90%, то 90% даних належатимуть до навчального набору, а решта 10% – до тестового.
Виконайте такі дії:
- За допомогою повзунка "Відсоток навчальних даних", зменште значення з 50% до 10%.
- Поекспериментуйте зі швидкістю навчання й розміром пакета, занотовуючи висновки.
Чи змінило коригування відсотка навчальних даних оптимальні налаштування навчання, які ви виявили, виконуючи завдання 2? Якщо так, то чому?
Натисніть значок плюса, щоб переглянути відповідь на завдання 1.
Якщо встановлено швидкість навчання 3 (початкове налаштування), втрати при тестуванні значно перевищують втрати при навчанні.
Натисніть значок плюса, щоб переглянути відповідь на завдання 2.
Якщо зменшити швидкість навчання (наприклад, до 0,001), втрати при тестуванні знижуються до значення, набагато ближчого до втрат при навчанні. Для більшості запусків збільшення розміру пакета не впливає суттєво на втрати при навчанні або при тестуванні. Однак для невеликого відсотка запусків збільшення розміру пакета до 20 чи більше призводить до того, що втрати при тестуванні стають трохи нижчими за втрати при навчанні.
Набори даних інтерактивного середовища генеруються випадковим чином. Отже, наші відповіді можуть не завжди збігатися з вашими.
Натисніть значок плюса, щоб переглянути відповідь на завдання 3.
Якщо знизити відсоток навчальних даних з 50% до 10%, кількість точок даних у наборі для навчання різко зменшиться. Через таку малу кількість даних, великий розмір пакета й високу швидкість навчання модель хаотично стрибатиме (багаторазово перестрибуючи через точку мінімуму).