На этом уроке вы будете отлаживать реальную проблему машинного обучения*, связанную с литературой 18-го века.
Пример из реальной жизни: литература 18 века
Пример из реальной жизни: литература 18 века
- Профессор литературы 18 века хотел предсказать политическую принадлежность авторов, основываясь только на «метафорах разума», которые использовал автор.
Пример из реальной жизни: литература 18 века
- Профессор литературы 18 века хотел предсказать политическую принадлежность авторов, основываясь только на «метафорах разума», которые использовал автор.
- Команда исследователей создала большой размеченный набор данных с работами многих авторов, предложение за предложением, и разделила их на наборы для обучения/проверки/тестирования.
Пример из реальной жизни: литература 18 века
- Профессор литературы 18 века хотел предсказать политическую принадлежность авторов, основываясь только на «метафорах разума», которые использовал автор.
- Команда исследователей создала большой размеченный набор данных с работами многих авторов, предложение за предложением, и разделила их на наборы для обучения/проверки/тестирования.
- Обученная модель почти идеально справлялась с тестовыми данными, но исследователи сочли результаты подозрительно точными. Что могло пойти не так?
Пример из реальной жизни: литература 18 века
Как вы думаете, почему точность теста была подозрительно высокой? Посмотрите, сможете ли вы решить проблему, а затем нажмите кнопку «Воспроизвести» ▶ ниже, чтобы узнать, правы ли вы.
Пример из реальной жизни: литература 18 века
- Разделение данных A: Исследователи поместили некоторые примеры каждого автора в обучающий набор, некоторые в проверочный набор, некоторые в тестовый набор.
Все примеры Ричардсона могут быть в обучающем наборе, в то время как все примеры Свифта могут быть в проверочном наборе.
Пример из реальной жизни: литература 18 века
- Разделение данных B: исследователи объединили все примеры каждого автора в один набор.
Пример из реальной жизни: литература 18 века
- Разделение данных A: Исследователи поместили некоторые примеры каждого автора в обучающий набор, некоторые в проверочный набор, некоторые в тестовый набор.
- Разделение данных B: исследователи объединили все примеры каждого автора в один набор.
- Результаты. Модель, обученная для разделения данных A, имела гораздо более высокую точность, чем модель, обученная для разделения данных B.
Пример из реальной жизни: литература 18 века
Мораль: тщательно продумайте, как вы разделяете примеры.
Знайте, что представляют собой данные.
* Мы очень свободно основывали этот модуль (с некоторыми изменениями) на «Значение и интеллектуальный анализ: влияние неявных предположений на интеллектуальный анализ данных для гуманитарных наук» Скалли и Пасанека .