Einführung in das Erstellen Ihres Datasets

Schritte zum Erstellen eines Datasets

Führen Sie die folgenden Schritte aus, um Ihr Dataset zu erstellen (und bevor Sie die Datentransformation ausführen):

  1. Rohdaten erfassen
  2. Ermittle Merkmals- und Labelquellen.
  3. Strategie für die Stichprobenerhebung auswählen
  4. Daten aufteilen

Diese Schritte hängen stark davon ab, wie Sie Ihr ML-Problem definiert haben. Mit dem Selbsttest können Sie Ihr Gedächtnis nach dem Problem-Framing aktualisieren und Ihre Annahmen zur Datenerhebung prüfen.

Selbstprüfung von Problemen mit Bildausschnitten und Datenerhebung

Klicken Sie bei den folgenden Fragen auf den gewünschten Pfeil, um Ihre Antwort zu prüfen:

Sie arbeiten an einem brandneuen Projekt für maschinelles Lernen, in dem Sie Ihre ersten Features auswählen werden. Wie viele Funktionen sollten Sie auswählen?
Wähle 1–3 Merkmale aus, die eine starke Vorhersagekraft haben.
Ihre Pipeline für die Datenerhebung sollte am besten mit einem oder zwei Features beginnen. So können Sie prüfen, ob das ML-Modell wie gewünscht funktioniert. Wenn du mit einigen Funktionen einen Normalbereich aufbaust, wirst du den Eindruck haben, dass du Fortschritte machst.
Wähle 4–6 Merkmale mit starker Vorhersagekraft aus.
Du wirst diese Funktionen vielleicht irgendwann nutzen, aber es ist immer noch besser, mit weniger zu beginnen. Weniger Features bedeuten in der Regel auch weniger unnötige Komplikationen.
Wählen Sie so viele Features wie möglich aus, damit Sie beobachten können, welche Features die beste Vorhersageleistung haben.
Fangen Sie kleiner an. Mit jedem neuen Feature wird Ihrem Trainings-Dataset eine neue Dimension hinzugefügt. Wenn die Dimensionalität steigt, nimmt das Volumen des Gruppenbereichs so schnell zu, dass die verfügbaren Trainingsdaten spärlich werden. Je sparsamer die Daten sind, desto schwieriger wird es für ein Modell, die Beziehung zwischen den tatsächlich wichtigen Merkmalen und dem Label zu erkennen. Dieses Phänomen wird als Fluch der Dimensionalität bezeichnet.
Ihr Freund Sam freut sich auf die ersten Ergebnisse seiner statistischen Analyse. Er gibt an, dass die Daten einen positiven Zusammenhang zwischen der Anzahl der App-Downloads und der Anzahl der App-Bewertungsimpressionen zeigen. Allerdings weiß er nicht, ob er es ohne die Rezension heruntergeladen hätte. Welche Antwort ist für Sam am hilfreichsten?
Sie können einen Test durchführen, um das Verhalten von Nutzern zu vergleichen, die die Rezension nicht mit ähnlichen Nutzern gesehen haben.
Richtig! Wenn Sam feststellt, dass Nutzer, die die positive Rezension gesehen haben, die App wahrscheinlicher herunterladen als Nutzer, die dies nicht getan haben, dann hat er berechtigte Anhaltspunkte dafür, dass die positive Rezension Nutzer zum Kauf der App motiviert.
Daten vertrauen Es ist klar, dass diese tolle Rezension der Grund dafür ist, dass Nutzer die App herunterladen.
Falsch. Diese Antwort würde Sam nicht in die richtige Richtung führen. Die Ursache lässt sich nur anhand von Beobachtungsdaten ermitteln. Sam sieht eine Korrelation (d. h. eine statistische Abhängigkeit zwischen den Zahlen), die möglicherweise auf eine Ursache zurückzuführen ist. Lassen Sie Ihre Analysen nicht in den Rang der falschen Korrelationen fallen.