Эта страница переведена с помощью Cloud Translation API.

Системы машинного обучения в реальном мире: литература

На этом уроке вы будете отлаживать реальную проблему машинного обучения*, связанную с литературой 18-го века.

Пример из реальной жизни: литература 18 века

Профессор литературы 18 века хотел предсказать политическую принадлежность авторов, основываясь только на «метафорах разума», которые использовал автор.

Пример из реальной жизни: литература 18 века

Профессор литературы 18 века хотел предсказать политическую принадлежность авторов, основываясь только на «метафорах разума», которые использовал автор.
Команда исследователей создала большой размеченный набор данных с работами многих авторов, предложение за предложением, и разделила их на наборы для обучения/проверки/тестирования.

Пример из реальной жизни: литература 18 века

Профессор литературы 18 века хотел предсказать политическую принадлежность авторов, основываясь только на «метафорах разума», которые использовал автор.
Команда исследователей создала большой размеченный набор данных с работами многих авторов, предложение за предложением, и разделила их на наборы для обучения/проверки/тестирования.
Обученная модель почти идеально справлялась с тестовыми данными, но исследователи сочли результаты подозрительно точными. Что могло пойти не так?

Пример из реальной жизни: литература 18 века

Как вы думаете, почему точность теста была подозрительно высокой? Посмотрите, сможете ли вы решить проблему, а затем нажмите кнопку «Воспроизвести» ▶ ниже, чтобы узнать, правы ли вы.

Пример из реальной жизни: литература 18 века

Разделение данных A: Исследователи поместили некоторые примеры каждого автора в обучающий набор, некоторые в проверочный набор, некоторые в тестовый набор.

Диаграмма, показывающая разбивку авторских примеров в наборах для обучения, проверки и тестирования. В каждом наборе представлены примеры от каждого из трех авторов.

Пример из реальной жизни: литература 18 века

Разделение данных B: исследователи объединили все примеры каждого автора в один набор.

Диаграмма, показывающая разбивку авторских примеров в наборах для обучения, проверки и тестирования. Обучающий набор содержит только примеры от Swift, проверочный набор содержит только примеры от Блейка, а тестовый набор содержит только примеры от Дефо.

Пример из реальной жизни: литература 18 века

Разделение данных A: Исследователи поместили некоторые примеры каждого автора в обучающий набор, некоторые в проверочный набор, некоторые в тестовый набор.
Разделение данных B: исследователи объединили все примеры каждого автора в один набор.
Результаты. Модель, обученная для разделения данных A, имела гораздо более высокую точность, чем модель, обученная для разделения данных B.

Пример из реальной жизни: литература 18 века

Мораль: тщательно продумайте, как вы разделяете примеры.

Знайте, что представляют собой данные.

* Мы очень свободно основывали этот модуль (с некоторыми изменениями) на «Значение и интеллектуальный анализ: влияние неявных предположений на интеллектуальный анализ данных для гуманитарных наук» Скалли и Пасанека .

Центр помощи

Предсказание рака (5 мин)

Рекомендации (2 мин.)