Mit kategorischen Daten arbeiten

Kategorische Daten haben eine bestimmte Anzahl möglicher Werte. Beispiel:

Zahlen können auch kategorische Daten sein.

Wahre numerische Daten können sinnvoll multipliziert werden. Stellen Sie sich zum Beispiel eine Modell, das den Wert eines Hauses anhand seiner Fläche vorhersagt. Ein nützliches Modell zur Bewertung von Hauspreisen basiert in der Regel Hunderte Funktionen. Unter sonst gleichen Bedingungen sollte ein Haus mit 200 Quadratmetern etwa doppelt so viel wert sein wie ein identisches Haus mit 100 Quadratmetern.

Oft sollten Sie Merkmale darstellen, die Ganzzahlwerte als kategorische Daten anstelle numerischer Daten verwendet. Stellen Sie sich z. B. vor, Code-Feature, bei dem die Werte Ganzzahlen sind. Wenn Sie diese Funktion numerisch statt kategorisch darstellen, wird das Modell aufgefordert, eine numerische Beziehung zwischen verschiedenen Postleitzahlen zu finden. Das Modell soll also die Postleitzahl 20004 als doppelt (oder halb) so starkes Signal wie die Postleitzahl 10002 behandeln. Wenn Sie Postleitzahlen als kategorische Daten darstellen, kann das Modell jede einzelne Postleitzahl separat gewichten.

Codierung

Codierung bezeichnet die Umwandlung kategorischer oder anderer Daten in numerische Vektoren mit dem ein Modell trainieren kann. Diese Konvertierung ist notwendig, da Modelle Trainieren Sie nur mit Gleitkommawerten. Modelle können nicht anhand von Strings wie "dog" oder "maple". In diesem Modul werden verschiedene Codierungsmethoden für kategorische Daten.