Einführung

Algorithmen zur Textklassifizierung sind das Herzstück verschiedener Softwaresysteme, die Textdaten in großem Umfang verarbeiten. Die E-Mail-Software ermittelt anhand von Textklassifizierungen, ob eingehende E-Mails an den Posteingang gesendet oder im Spamordner gefiltert werden. In Diskussionsforen wird mithilfe der Textklassifizierung bestimmt, ob Kommentare als unangemessen gemeldet werden.

Dies sind zwei Beispiele für die Klassifizierung von Themen. Dabei wird ein Textdokument in eine vordefinierte Gruppe von Themen unterteilt. Bei vielen Problemen mit der Klassifizierung von Themen basiert diese Kategorisierung hauptsächlich auf Keywords im Text.

Themenklassifizierung

Abbildung 1: Die Themenklassifizierung wird verwendet, um eingehende Spam-E-Mails zu markieren, die in einen Spam-Ordner gefiltert werden.

Eine weitere gängige Textklassifizierung ist die Sentimentanalyse, mit der sich die Polarität von Textinhalten ermitteln lässt: die Art der Meinungsäußerung. Dies kann in Form einer binären „Mag ich“-/„Mag ich nicht“-Bewertung oder eines detaillierteren Satzes von Optionen wie einer Bewertung zwischen 1 und 5 möglich sein. Beispiele für Sentimentanalysen sind das Analysieren von Twitter-Beiträgen, um festzustellen, ob Nutzern der Film „Black Panther“ gefallen hat, oder das Hochstufen der Meinung der Öffentlichkeit zu einer neuen Marke von Nike-Schuhen aus Walmart-Rezensionen.

In diesem Leitfaden finden Sie einige wichtige Best Practices für maschinelles Lernen zum Lösen von Problemen bei der Textklassifizierung. Folgende Themen werden besprochen:

  • Der umfassende End-to-End-Workflow zur Lösung von Problemen bei der Textklassifizierung mithilfe von maschinellem Lernen
  • Das richtige Modell für das Problem der Textklassifizierung auswählen
  • So implementieren Sie ein Modell Ihrer Wahl mit TensorFlow

Workflow zur Textklassifizierung

Im Folgenden finden Sie eine allgemeine Übersicht über den Workflow zur Lösung von Problemen beim maschinellen Lernen:

Themenklassifizierung

Abbildung 2: Workflow zur Lösung von ML-Problemen

In den folgenden Abschnitten werden die einzelnen Schritte ausführlich erklärt und beschrieben, wie sie für Textdaten implementiert werden.