Darstellung

Ein Modell für maschinelles Lernen kann Eingabebeispiele nicht direkt sehen, hören oder erfassen. Stattdessen müssen Sie eine Darstellung der Daten erstellen, um dem Modell einen nützlichen Einblick in die wichtigsten Eigenschaften der Daten zu bieten. Das heißt, Sie müssen die Merkmale auswählen, die die Daten am besten repräsentieren, um ein Modell zu trainieren.

Darstellung

Die Idee ist, jeden Teil des Vektors auf der linken Seite einem oder mehreren Feldern im Featurevektor auf der rechten Seite zuzuordnen.

Einem Featurevektor werden Rohdaten über ein Verfahren zugeordnet, das als Feature Engineering bezeichnet wird.
Beispiel für ein Feature, das direkt aus den Rohdaten kopiert werden kann
Beispiel für ein Zeichenfolgenelement (Straßenname), das nicht direkt aus den Rohdaten kopiert werden kann
Stringwert (
  • Das Wörterbuch ordnet jeden Straßennamen einer Ganzzahl in {0, ...,V-1} zu
  • Stellen Sie den One-Hot-Vektor oben jetzt als <i> dar.

Featurewerte sollten mehr als nur wenige Male im Dataset mit einem Wert ungleich null angezeigt werden.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Funktionen sollten eine klare und offensichtliche Bedeutung haben.

user_age:23

user_age:123456789

Funktionen sollten keine „magischen“ Werte annehmen

(Verwenden Sie stattdessen eine zusätzliche boolesche Funktion wie watch_time_is_defined!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

Die Definition eines Elements sollte sich im Laufe der Zeit nicht ändern.

(Achten Sie darauf, auf andere ML-Systeme angewiesen zu sein.)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

Die Verteilung darf keine extremen Ausreißer haben

Idealerweise alle Merkmale, die in einen ähnlichen Bereich transformiert wurden, wie (-1, 1) oder (0, 5).

Verteilung mit Ausreißern und Verteilung mit einem Cap
Diagramm, das eine Verteilung mit einer Anpassungskurve basierend auf dem Standort zeigt
Diagramm, das eine Verteilung mit einer Anpassungskurve basierend auf dem Standort zeigt
  • Mehrere boolesche Klassen erstellen, die jeweils einer neuen eindeutigen Funktion zugeordnet sind
  • Lässt zu, dass das Modell für jeden Container einen anderen Wert passt

DATEN ERKENNEN

  • Visualisieren: Erstellen Sie Histogramme und ordnen Sie sie vom häufigsten nach am wenigsten häufig zu.
  • Fehlerbehebung: Doppelte Beispiele? Fehlende Werte? Ausreißer? Daten stimmen mit Dashboards überein? Trainings- und Validierungsdaten ähnlich?
  • Überwachen: Feature-Quantile, Anzahl der Beispiele im Zeitverlauf