Größe und Qualität eines Datensatzes

„Garbage in, Garbage Out“

Das vorherige Sprichwort gilt für maschinelles Lernen. Schließlich ist Ihr Modell nur so gut wie Ihre Daten. Aber wie können Sie die Qualität Ihres Datensatzes messen und verbessern? Und wie viele Daten benötigen Sie, um nützliche Ergebnisse zu erhalten? Die Antworten hängen von der Art des Problems ab, das Sie lösen.

Die Größe eines Datensatzes

Als Faustregel gilt, dass das Modell mit mindestens einer Größenordnung mehr Beispiele trainieren soll als trainierbare Parameter. Einfache Modelle gegenüber großen Datasets schlagen im Allgemeinen kleine Modelle in kleinen Datensätzen. Google war sehr erfolgreich darin, einfache lineare Regressionsmodelle mit großen Datenmengen zu trainieren.

Was zählt als „viel“ Daten? Das hängt vom Projekt ab. Berücksichtigen Sie die relative Größe dieser Datasets:

Datenpool Größe (Anzahl der Beispiele)
Iris-Blumenbestand 150 (insgesamt)
MovieLens (20 Mio. Datensatz) 20.000.263 (insgesamt)
Google Mail SmartReply 238.000.000 (Trainingssatz)
Google Books Ngram 468.000.000.000 (insgesamt)
Google Übersetzer Billionen

Wie Sie sehen, gibt es Datensätze in verschiedenen Größen.

Die Qualität eines Datensatzes

Es ist nutzlos, viele Daten zu erheben, wenn es sich um schlechte Daten handelt. Qualität ist ebenfalls wichtig. Aber was zählt als „Qualität“? Es ist ein verschwommener Begriff. Ziehen Sie einen empirischen Ansatz in Betracht und wählen Sie die Option aus, die das beste Ergebnis liefert. Mit dieser Einstellung ist ein hochwertiges Dataset wichtig, um das geschäftliche Problem mit Ihrem Unternehmen zu lösen. Mit anderen Worten: Die Daten sind gut, wenn sie die vorgesehene Aufgabe erfüllt.

Bei der Datenerhebung ist es jedoch hilfreich, eine genauere Definition von Qualität zu haben. Bestimmte Qualitätsmerkmale entsprechen eher Modellen mit besserer Leistung:

  • Zuverlässigkeit
  • Funktionsdarstellung
  • Verzerrung minimieren

Zuverlässigkeit

Der Begriff Zuverlässigkeit bezieht sich darauf, inwieweit Sie Ihren Daten vertrauen können. Ein Modell, das anhand eines zuverlässigen Datensatzes trainiert wurde, liefert mit höherer Wahrscheinlichkeit nützliche Vorhersagen als ein Modell, das auf unzuverlässigen Daten trainiert wurde. Um die Zuverlässigkeit zu messen, müssen Sie Folgendes bestimmen:

  • Wie häufig sind Labelfehler? Wenn deine Daten beispielsweise von Menschen gekennzeichnet wurden, machen Menschen manchmal Fehler.
  • Sind deine Funktionen laut? So können beispielsweise GPS-Messungen schwanken. Einige Geräusche sind erlaubt. Sie löschen niemals Ihr Datenbestand. Sie können auch weitere Beispiele erfassen.
  • Werden die Daten für Ihr Problem richtig gefiltert? Soll Ihr Datensatz beispielsweise Suchanfragen von Bots enthalten? Wenn Sie ein System zur Spamerkennung entwickeln, lautet die Antwort wahrscheinlich „Ja“, wenn Sie jedoch die Suchergebnisse für Menschen verbessern möchten, ist dies die Antwort „Nein“.

Was macht Daten unzuverlässig? Im Machine Learning Crash Course wird gezeigt, dass viele Beispiele in Datasets aus mindestens einem der folgenden Punkte unzuverlässig sind:

  • Ausgelassene Werte. Beispiel: Eine Person hat vergessen, einen Wert für das Alter eines Hauses einzugeben.
  • Doppelte Beispiele. Beispielsweise hat ein Server dieselben Logs zweimal zweimal hochgeladen.
  • Ungültige Labels Beispiel: Eine Person hat ein Bild einer Eichenasche fälschlicherweise als Ahorn gekennzeichnet.
  • Ungültige Featurewerte. Zum Beispiel hat jemand eine zusätzliche Ziffer eingegeben oder ein Thermometer wurde in der Sonne ausgelassen.

Google Übersetzer konzentrierte sich auf die Zuverlässigkeit der Auswahl der besten Teilmenge von Daten, d. h., manche Daten hatten höhere Qualitätslabels als andere Teile.

Darstellung von Merkmalen

Im Machine Learning Crash Course wird die Zuordnung von Daten zu nützlichen Features veranschaulicht. Sie sollten sich folgende Fragen stellen:

  • Wie werden dem Modell Daten angezeigt?
  • Solltest du numerische Werte normalisieren?
  • Wie sollten Sie mit Ausreißern umgehen?

Im Abschnitt Daten umwandeln dieses Kurses wird die Darstellung von Merkmalen behandelt.

Training vs. Vorhersage

Sagen wir, du bekommst offline tolle Ergebnisse. Im Live-Test werden diese Ergebnisse nicht gehalten. Woran könnte das liegen?

Dieses Problem deutet auf eine Abweichung zwischen Training und Bereitstellung hin, d. h. unterschiedliche Ergebnisse werden für Ihre Messwerte zum Trainings- und Auslieferungszeitpunkt berechnet. Ursachen von Verzerrungen können subtil sein, aber tödliche Auswirkungen auf die Ergebnisse haben. Berücksichtigen Sie immer, welche Daten für Ihr Modell zum Zeitpunkt der Vorhersage verfügbar sind. Verwenden Sie während des Trainings nur die Features, die Ihnen für die Bereitstellung zur Verfügung stehen. Sorgen Sie außerdem dafür, dass Ihr Trainings-Dataset für den Bereitstellungs-Traffic repräsentativ ist.