Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Kategorische Daten: Vokabular- und One-Hot-Codierung

Der Begriff Dimension ist ein Synonym für die Anzahl der Elemente in einem Merkmalsvektor. Einige kategoriale Merkmale sind niedrigdimensional. Beispiel:

Featurename	Anzahl der Kategorien	Beispielkategorien
snowed_today	2	Wahr, Falsch
skill_level	3	Anfänger, Fortgeschrittener, Experte
season	4	Winter, Frühling, Sommer, Herbst
day_of_week	7	Montag, Dienstag, Mittwoch
Planet	8	Merkur, Venus, Erde

Wenn ein kategorisches Merkmal nur wenige mögliche Kategorien hat, können Sie es als Vokabular codieren. Bei einer Vokabelcodierung behandelt das Modell jeden möglichen kategorischen Wert als separates Feature. Während des Trainings lernt das Modell unterschiedliche Gewichte für jede Kategorie.

Angenommen, Sie erstellen ein Modell, um den Preis eines Autos unter anderem auf Grundlage eines kategorialen Features namens car_color vorherzusagen. Vielleicht sind rote Autos mehr wert als grüne. Da Hersteller nur eine begrenzte Anzahl von Außenfarben anbieten, ist car_color ein niedrigdimensionales kategorisches Merkmal. Die folgende Abbildung zeigt ein Vokabular (mögliche Werte) für car_color:

Abbildung 1: Jede Farbe in der Palette wird als separates Feature dargestellt. Jede Farbe ist also ein separates Merkmal im Merkmalsvektor.
„Rot“ ist beispielsweise ein Feature, „Orange“ ein separates Feature usw. — **Abbildung 1.** Einzigartiges Feature für jede Kategorie.

Indexnummern

ML-Modelle können nur Gleitkommazahlen verarbeiten. Daher müssen Sie jeden String in eine eindeutige Indexnummer umwandeln, wie in der folgenden Abbildung dargestellt:

Abbildung 2. Jede Farbe ist einem eindeutigen Ganzzahlwert zugeordnet. Beispiel: „Rot“ ist mit der Ganzzahl 0, „Orange“ mit der Ganzzahl 1 usw. verknüpft. — **Abbildung 2.** Indexierte Funktionen.

Nachdem Sie Strings in eindeutige Indexnummern umgewandelt haben, müssen Sie die Daten weiter verarbeiten, um sie so darzustellen, dass das Modell sinnvolle Beziehungen zwischen den Werten erkennen kann. Wenn die Daten für kategorische Features als indexierte Ganzzahlen belassen und in ein Modell geladen werden, behandelt das Modell die indexierten Werte als kontinuierliche Gleitkommazahlen. Das Modell würde „Lila“ dann sechsmal wahrscheinlicher als „Orange“ einstufen.

One-Hot-Codierung

Der nächste Schritt beim Erstellen eines Vokabulars besteht darin, jede Indexnummer in ihre One-Hot-Codierung zu konvertieren. Bei der One-Hot-Codierung gilt:

Jede Kategorie wird durch einen Vektor (Array) mit N Elementen dargestellt, wobei N die Anzahl der Kategorien ist. Wenn car_color beispielsweise acht mögliche Kategorien hat, hat der entsprechende One-Hot-Vektor acht Elemente.
Genau eines der Elemente in einem One-Hot-Vektor hat den Wert 1,0; alle verbleibenden Elemente haben den Wert 0,0.

In der folgenden Tabelle sehen Sie beispielsweise die One-Hot-Codierung für jede Farbe in car_color:

Funktion	Rot	Orange	Blau	Gelb	Grün	Schwarz	Lila	Braun
`"Rot"`	1	0	0	0	0	0	0	0
`„Orange“`	0	1	0	0	0	0	0	0
`„Blau“`	0	0	1	0	0	0	0	0
`„Gelb“`	0	0	0	1	0	0	0	0
`„Grün“`	0	0	0	0	1	0	0	0
`„Schwarz“`	0	0	0	0	0	1	0	0
`„Lila“`	0	0	0	0	0	0	1	0
`„Braun“`	0	0	0	0	0	0	0	1

Es wird der One-Hot-Vektor und nicht der String oder die Indexnummer an den Featurevektor übergeben. Das Modell lernt ein separates Gewicht für jedes Element des Feature-Vektors.

Die folgende Abbildung zeigt die verschiedenen Transformationen in der Vokabeldarstellung:

Abbildung 3: Diagramm des End-to-End-Prozesses zum Zuordnen von Kategorien zu Feature-Vektoren. Im Diagramm sind die Eingabefeatures „Gelb“, „Orange“, „Blau“ und „Blau“ (zweites Mal). Das System verwendet ein gespeichertes Vokabular („Rot“ ist 0, „Orange“ ist 1, „Blau“ ist 2, „Gelb“ ist 3 usw.), um den Eingabewert einer ID zuzuordnen. Daher ordnet das System „Gelb“, „Orange“, „Blau“ und „Blau“ den Werten 3, 1, 2 und 2 zu. Das System konvertiert diese Werte dann in einen One-Hot-Feature-Vektor. Bei einem System mit acht möglichen Farben wird aus 3 beispielsweise 0, 0, 0, 1, 0, 0, 0, 0. — **Abbildung 3**: Der End-to-End-Prozess zum Zuordnen von Kategorien zu Feature-Vektoren.

Dünnbesetzte Darstellung

Ein Feature, dessen Werte überwiegend null oder leer sind, wird als spärliches Feature bezeichnet. Viele kategoriale Merkmale wie car_color sind in der Regel spärliche Merkmale. Dünnbesetzte Darstellung bedeutet, dass die Position der 1,0 in einem dünnbesetzten Vektor gespeichert wird. Der One-Hot-Vektor für "Blue" ist beispielsweise:

[0, 0, 1, 0, 0, 0, 0, 0]

Da sich 1 an Position 2 befindet (wenn die Zählung bei 0 beginnt), lautet die Kurzform für den vorherigen One-Hot-Vektor:

2

Die spärliche Darstellung benötigt viel weniger Speicher als der One-Hot-Vektor mit acht Elementen. Wichtig ist, dass das Modell anhand des One-Hot-Vektors und nicht der spärlichen Darstellung trainiert wird.

Ausreißer in kategorischen Daten

Wie numerische Daten enthalten auch kategorische Daten Ausreißer. Angenommen, car_color enthält nicht nur die beliebten Farben, sondern auch einige selten verwendete Ausreißerfarben wie "Mauve" oder "Avocado". Anstatt jeder dieser Ausreißerfarben eine separate Kategorie zuzuweisen, können Sie sie in einer einzigen „Auffangkategorie“ namens out-of-vocabulary (OOV) zusammenfassen. Mit anderen Worten: Alle Farben, die Ausreißer sind, werden in einem einzigen Ausreißer-Bucket zusammengefasst. Das System lernt ein einzelnes Gewicht für diesen Ausreißer-Bucket.

Hochdimensionale kategoriale Features codieren

Einige kategorische Features haben eine hohe Anzahl von Dimensionen, z. B. die in der folgenden Tabelle:

Featurename	Anzahl der Kategorien	Beispielkategorien
words_in_english	~500.000	„fröhlich“, „gehen“
US_postal_codes	~42.000	„02114“, „90301“
last_names_in_Germany	~850.000	„Schmidt“, „Schneider“

Wenn die Anzahl der Kategorien hoch ist, ist die One-Hot-Codierung in der Regel eine schlechte Wahl. Einbettungen, die in einem separaten Einbettungsmodul beschrieben werden, sind in der Regel eine viel bessere Wahl. Durch Einbettungen wird die Anzahl der Dimensionen erheblich reduziert, was sich auf zwei wichtige Arten auf Modelle auswirkt:

Das Modell wird in der Regel schneller trainiert.
Das erstellte Modell leitet Vorhersagen in der Regel schneller ab. Das Modell hat also eine geringere Latenz.

Hashing (auch Hashing-Trick genannt) ist eine weniger verbreitete Methode, um die Anzahl der Dimensionen zu reduzieren.

Weitere Informationen zur Hash-Technologie

Beim Hashing wird eine Kategorie (z. B. eine Farbe) einem kleinen Integer zugeordnet, der die Nummer des „Buckets“ angibt, in dem die Kategorie enthalten sein soll.

So implementieren Sie einen Hashing-Algorithmus:

Legen Sie die Anzahl der Klassen im Vektor der Kategorien auf N fest, wobei N kleiner als die Gesamtzahl der verbleibenden Kategorien ist. Nehmen wir als Beispiel an, dass N = 100.
Wählen Sie eine Hash-Funktion aus. Häufig wählen Sie auch den Bereich der Hashwerte aus.
Übergeben Sie jede Kategorie (z. B. eine bestimmte Farbe) an diese Hash-Funktion, um einen Hash-Wert zu generieren, z. B. 89237.
Weisen Sie jedem Bin eine Indexnummer des Ausgabeshashwerts modulo N zu. In diesem Fall, in dem N = 100 und der Hashwert = 89237 ist, ist das Modulo-Ergebnis 37, da 89237 % 100 = 37 ist.
Erstellen Sie für jede Klasse eine One-Hot-Codierung mit diesen neuen Indexnummern.

Weitere Informationen zum Hashen von Daten finden Sie im Abschnitt Randomization des Moduls Production machine learning systems.

Übung: Wissen testen

Wahr oder Falsch: Ein Machine-Learning-Modell kann direkt mit Rohstringwerten wie „Rot“ und „Schwarz“ trainiert werden, ohne diese Werte in numerische Vektoren zu konvertieren.

Richtig

Während des Trainings kann ein Modell nur Gleitkommazahlen verarbeiten. Der String "Red" ist keine Gleitkommazahl. Sie müssen Strings wie "Red" in Gleitkommazahlen konvertieren.

Falsch

Ein Modell für maschinelles Lernen kann nur mit Merkmalen mit Gleitkommawerten trainiert werden. Sie müssen diese Strings also vor dem Training in Gleitkommawerte umwandeln.

Hilfe

Zurück

Einführung (5 Minuten)

Weiter

Häufige Probleme mit kategorischen Daten (5 Min.)