Алгоритмы классификации текста лежат в основе множества программных систем, обрабатывающих текстовые данные в масштабе. Программное обеспечение электронной почты использует классификацию текста, чтобы определить, отправляется ли входящая почта в папку «Входящие» или фильтруется в папку «Спам». Дискуссионные форумы используют классификацию текста, чтобы определить, следует ли помечать комментарии как неприемлемые.
Это два примера классификации тем, которые относят текстовый документ к одной из предопределенных тем. Во многих задачах классификации тем эта категоризация основана в первую очередь на ключевых словах в тексте.
Рисунок 1. Классификация по темам используется для пометки входящих спам-сообщений, которые фильтруются в папку со спамом.
Другим распространенным типом классификации текста является анализ настроений , целью которого является выявление полярности текстового содержания: типа мнения, которое оно выражает. Это может принимать форму бинарного рейтинга «нравится/не нравится» или более детализированный набор параметров, например звездный рейтинг от 1 до 5. Примеры анализа настроений включают анализ сообщений в Твиттере, чтобы определить, понравился ли людям фильм «Черная пантера», или экстраполируя мнение широкой публики о новом бренде обуви Nike из обзоров Walmart.
Это руководство научит вас некоторым ключевым передовым методам машинного обучения для решения задач классификации текста. Вот что вы узнаете:
- Комплексный рабочий процесс высокого уровня для решения задач классификации текста с использованием машинного обучения.
- Как выбрать правильную модель для вашей задачи классификации текста
- Как реализовать выбранную вами модель с помощью TensorFlow
Рабочий процесс классификации текста
Вот общий обзор рабочего процесса, используемого для решения задач машинного обучения:
- Шаг 1: Соберите данные
- Шаг 2. Изучите свои данные
- Шаг 2.5: Выберите модель*
- Шаг 3: Подготовьте свои данные
- Шаг 4: Создайте, обучите и оцените свою модель
- Шаг 5: Настройте гиперпараметры
- Шаг 6. Разверните свою модель
Рисунок 2. Рабочий процесс решения задач машинного обучения
В следующих разделах подробно объясняется каждый шаг и способы их реализации для текстовых данных.