Введение

Алгоритмы классификации текста лежат в основе множества программных систем, обрабатывающих текстовые данные в масштабе. Программное обеспечение электронной почты использует классификацию текста, чтобы определить, отправляется ли входящая почта в папку «Входящие» или фильтруется в папку «Спам». Дискуссионные форумы используют классификацию текста, чтобы определить, следует ли помечать комментарии как неприемлемые.

Это два примера классификации тем, которые относят текстовый документ к одной из предопределенных тем. Во многих задачах классификации тем эта категоризация основана в первую очередь на ключевых словах в тексте.

Классификация тем

Рисунок 1. Классификация по темам используется для пометки входящих спам-сообщений, которые фильтруются в папку со спамом.

Другим распространенным типом классификации текста является анализ настроений , целью которого является выявление полярности текстового содержания: типа мнения, которое оно выражает. Это может принимать форму бинарного рейтинга «нравится/не нравится» или более детализированный набор параметров, например звездный рейтинг от 1 до 5. Примеры анализа настроений включают анализ сообщений в Твиттере, чтобы определить, понравился ли людям фильм «Черная пантера», или экстраполируя мнение широкой публики о новом бренде обуви Nike из обзоров Walmart.

Это руководство научит вас некоторым ключевым передовым методам машинного обучения для решения задач классификации текста. Вот что вы узнаете:

  • Комплексный рабочий процесс высокого уровня для решения задач классификации текста с использованием машинного обучения.
  • Как выбрать правильную модель для вашей задачи классификации текста
  • Как реализовать выбранную вами модель с помощью TensorFlow

Рабочий процесс классификации текста

Вот общий обзор рабочего процесса, используемого для решения задач машинного обучения:

Классификация тем

Рисунок 2. Рабочий процесс решения задач машинного обучения

В следующих разделах подробно объясняется каждый шаг и способы их реализации для текстовых данных.