Stichproben und Aufteilung von Daten

Einführung in die Stichprobenerhebung

Es fällt oft schwer, genügend Daten für ein ML-Projekt zu sammeln. Manchmal sind jedoch zu viele Daten vorhanden und Sie müssen eine Teilmenge von Beispielen für das Training auswählen.

Wie wählen Sie diese Teilmenge aus? Nehmen wir als Beispiel die Google Suche. Mit welchem Detaillierungsgrad würden Sie die riesigen Datenmengen analysieren? Würden Sie zufällige Abfragen verwenden? Zufällige Sitzungen? Zufällige Nutzer?

Letztendlich hängt die Antwort vom Problem ab: Was möchten wir vorhersagen und welche Features wollen wir?

  • Wenn Sie die Funktion vorherige Abfrage verwenden möchten, müssen Sie eine Stichprobe auf Sitzungsebene erstellen, da Sitzungen eine Reihe von Abfragen enthalten.
  • Wenn Sie die Funktion Nutzerverhalten der letzten Tage verwenden möchten, müssen Sie eine Stichprobe auf Nutzerebene erstellen.

Nach personenidentifizierbaren Informationen filtern

Wenn Ihre Daten personenidentifizierbare Informationen enthalten, müssen Sie sie möglicherweise aus Ihren Daten herausfiltern. Durch eine Richtlinie kann es beispielsweise erforderlich sein, unregelmäßige Merkmale zu entfernen.

Dadurch wird die Verteilung verzerrt. Sie verlieren Informationen im Schwanz (der Teil der Verteilung mit sehr niedrigen Werten, der weit vom Mittelwert entfernt ist).

Diese Filterung ist hilfreich, da seltene Funktionen schwer zu erlernen sind. Es ist jedoch wichtig zu wissen, dass Ihr Dataset nach den Head-Abfragen verzerrt wird. Zum Zeitpunkt der Bereitstellung können Sie davon ausgehen, dass sich die Bereitstellung von Beispielen aus dem Schwanz verschlimmert, da dies die Beispiele waren, die aus Ihren Trainingsdaten herausgefiltert wurden. Diese Abweichung kann zwar nicht vermieden werden, aber Sie sollten sie bei der Analyse berücksichtigen.