Системы машинного обучения в реальном мире: литература

На этом уроке вы будете отлаживать реальную проблему машинного обучения*, связанную с литературой 18-го века.

Пример из реальной жизни: литература 18 века

  • Профессор литературы 18 века хотел предсказать политическую принадлежность авторов, основываясь только на «метафорах разума», которые использовал автор.
Старые книги
  • Профессор литературы 18 века хотел предсказать политическую принадлежность авторов, основываясь только на «метафорах разума», которые использовал автор.
  • Команда исследователей создала большой размеченный набор данных с работами многих авторов, предложение за предложением, и разделила их на наборы для обучения/проверки/тестирования.
Старые книги
  • Профессор литературы 18 века хотел предсказать политическую принадлежность авторов, основываясь только на «метафорах разума», которые использовал автор.
  • Команда исследователей создала большой размеченный набор данных с работами многих авторов, предложение за предложением, и разделила их на наборы для обучения/проверки/тестирования.
  • Обученная модель почти идеально справлялась с тестовыми данными, но исследователи сочли результаты подозрительно точными. Что могло пойти не так?
Старые книги

Как вы думаете, почему точность теста была подозрительно высокой? Посмотрите, сможете ли вы решить проблему, а затем нажмите кнопку «Воспроизвести» ▶ ниже, чтобы узнать, правы ли вы.

  • Разделение данных A: Исследователи поместили некоторые примеры каждого автора в обучающий набор, некоторые в проверочный набор, некоторые в тестовый набор.
Все примеры Ричардсона могут быть в обучающем наборе, в то время как все примеры Свифта могут быть в проверочном наборе.
Диаграмма, показывающая разбивку авторских примеров в наборах для обучения, проверки и тестирования. В каждом наборе представлены примеры от каждого из трех авторов.
  • Разделение данных B: исследователи объединили все примеры каждого автора в один набор.
Диаграмма, показывающая разбивку авторских примеров в наборах для обучения, проверки и тестирования. Обучающий набор содержит только примеры от Swift, проверочный набор содержит только примеры от Блейка, а тестовый набор содержит только примеры от Дефо.
  • Разделение данных A: Исследователи поместили некоторые примеры каждого автора в обучающий набор, некоторые в проверочный набор, некоторые в тестовый набор.
  • Разделение данных B: исследователи объединили все примеры каждого автора в один набор.
  • Результаты. Модель, обученная для разделения данных A, имела гораздо более высокую точность, чем модель, обученная для разделения данных B.

Мораль: тщательно продумайте, как вы разделяете примеры.

Знайте, что представляют собой данные.

* Мы очень свободно основывали этот модуль (с некоторыми изменениями) на «Значение и интеллектуальный анализ: влияние неявных предположений на интеллектуальный анализ данных для гуманитарных наук» Скалли и Пасанека .