Datenvorbereitung und Feature Engineering in ML

Mit Machine Learning können wir Muster in Daten finden – Muster, mit denen wir Vorhersagen zu neuen Datenpunkten treffen können. Damit diese Vorhersagen richtig sind, müssen wir den Datensatz konstruieren und die Daten korrekt transformieren. In diesem Kurs werden diese beiden wichtigen Schritte behandelt. Wir gehen auch darauf ein, wie Trainings-/Bereitstellungsüberlegungen in diese Schritte einbezogen werden.

Ein Projekt für maschinelles Lernen, das in fünf Phasen unterteilt ist. 1. ein ML-Problem definieren und eine Lösung vorschlagen 2. Erstellen Sie Ihren Datenpool. 3. Daten transformieren.
4. Modell trainieren. 5. Mithilfe des Modells Vorhersagen treffen  In diesem Kurs erfahren Sie, wie Sie ein Dataset erstellen und Daten transformieren.

Voraussetzungen

Für diesen Kurs wird vorausgesetzt, dass Sie

Warum sollten Sie mehr über die Datenvorbereitung und Feature Engineering erfahren?

Sie können sich das Feature Engineering so vorstellen, dass das Modell den Datensatz genauso versteht wie Sie. Viele Lernende besuchen einen Machine-Learning-Kurs, in dem es um das Erstellen von Modellen geht, verbringen aber am Ende viel mehr Zeit damit, sich auf Daten zu konzentrieren.

Klicken Sie bei der folgenden Frage auf den gewünschten Pfeil, um Ihre Antwort zu prüfen:

Wenn Sie in Ihrem Projekt für maschinelles Lernen einen der unten aufgeführten Bereiche optimieren müssen, was hätte die größten Auswirkungen?
Qualität und Größe Ihrer Daten
Daten haben Vorrang. Wenn Sie den Lernalgorithmus oder die Modellarchitektur aktualisieren, können Sie zwar verschiedene Arten von Mustern lernen, aber wenn Ihre Daten schlecht sind, werden Sie am Ende Funktionen erstellen, die in die falsche Richtung passen. Die Qualität und Größe des Datensatzes ist viel wichtiger als der verwendete glänzende Algorithmus.
Neueste Optimierungsalgorithmen verwenden
Die Optimierungen könnten definitiv positive Auswirkungen haben, würden aber nicht so große Auswirkungen auf Ihr Modell haben wie ein anderes Element in dieser Liste.
Ein tieferes Netzwerk
Ein umfassendes Netzwerk kann Ihr Modell zwar verbessern, die Auswirkungen werden jedoch nicht so groß sein wie bei einem anderen Element in dieser Liste.
Die intelligentere Verlustfunktion
Fast geschafft! Eine bessere Verlustfunktion kann dir einen großen Gewinn verschaffen, ist aber trotzdem ein zweites Element in dieser Liste.

Warum ist es wichtig, gute Daten zu erfassen?

Google Übersetzer

„...einer unserer wirkungsvollsten Qualitätsverbesserungen, seit der neuronalen maschinellen Übersetzung die beste Teilmenge unserer Trainingsdaten ermittelt hat“

– Software Engineer, Google Übersetzer

Das Google Übersetzer-Team hat mehr Trainingsdaten, als es verwenden kann. Anstatt ihr Modell zu optimieren, hat das Team mit den besten Funktionen seiner Daten größere Erfolge erzielt.

 

 

 

„...in den meisten Fällen, in denen ich versucht habe, interessant aussehende Fehler manuell zu beheben, können sie auf Probleme mit den Trainingsdaten zurückgehen.“ – Softwareentwickler, Google Übersetzer

Interessante Fehler werden in der Regel durch die Daten verursacht. Fehlerhafte Daten können dazu führen, dass Ihr Modell die falschen Muster erkennt, unabhängig davon, welche Modellierungstechniken Sie ausprobieren.

 

 

Gehirnprojekt zur diabetischen Retinopathie

Das diabetische Retinopathieprojekt von Google Brain nutzte eine neuronale Netzwerkarchitektur, die als Ineption bezeichnet wird, um Krankheiten durch Klassifizierung von Bildern zu erkennen. Das Team hat keine Modelle optimiert. Stattdessen wurde ein Datensatz mit 120.000 Beispielen von Augenärzten erstellt. Weitere Informationen finden Sie unter https://research.google.com/pubs/pub43022.html.