Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Durch maschinelles Lernen finden wir Muster in Daten – Muster, die wir dann verwenden, um Vorhersagen über neue Datenpunkte zu treffen. Damit diese Vorhersagen richtig funktionieren, müssen wir das Datasetkonstruieren und die Daten korrekt transformieren.
In diesem Kurs werden diese beiden wichtigen Schritte behandelt. Außerdem sehen wir uns an, wie Training/Bereitstellung
bei diesen Schritten berücksichtigt wird.
Warum sollten Sie mehr über die Datenvorbereitung und Feature Engineering erfahren?
Sie können sich das Feature Engineering so vorstellen, dass das Modell das Dataset auf dieselbe Weise versteht. Die Lernenden absolvieren häufig einen Kurs zum maschinellen Lernen, der sich mit dem Erstellen von Modellen befasst, aber am Ende viel mehr Zeit für die Datenerfassung aufwenden muss.
Klicken Sie bei der folgenden Frage auf den gewünschten Pfeil, um Ihre Antwort zu prüfen:
Wenn Sie in Ihrem Projekt für maschinelles Lernen einen der unten aufgeführten Bereiche optimieren müssen, was würde die größte Auswirkung haben?
Qualität und Größe Ihrer Daten
Daten haben Vorrang. Wenn Sie Ihren Lernalgorithmus oder Ihre Modellarchitektur aktualisieren, können Sie zwar verschiedene Arten von Mustern lernen. Aber wenn Ihre Daten schlecht sind, werden Sie am Ende Funktionen erstellen, die ins Falsche passen. Qualität und Größe des Datensatzes sind viel wichtiger als der von Ihnen verwendete glänzende Algorithmus.
Den neuesten Optimierungsalgorithmus verwenden
Sie könnten definitiv einige Verbesserungen beim Übertragen von Optimierungstools feststellen, aber dies hätte nicht so große Auswirkungen auf Ihr Modell wie ein anderes Element in dieser Liste.
Ein tieferes Netzwerk
Ein tieferes Netzwerk kann zwar Ihr Modell verbessern, die Auswirkungen werden jedoch nicht so groß sein wie bei einem anderen Element in dieser Liste.
Intelligentere Verlustfunktion
Fast! Eine bessere Verlustfunktion kann dir zwar einen großen Vorteil verschaffen, sie ist aber immer noch an zweiter Stelle auf der Liste.
Warum ist es wichtig, einen guten Datensatz zu erstellen?
Google Übersetzer
Einer der wirkungsvollsten Qualitätsfortschritte seit der neuronalen maschinellen Übersetzung ist die Ermittlung der besten Teilmenge unserer zu verwendenden Trainingsdaten.
– Software Engineer, Google Übersetzer
Das Google Übersetzer-Team hat mehr Trainingsdaten, als es verwenden kann.
Anstatt das Modell zu optimieren, hat das Team durch die Verwendung der besten Funktionen in seinen Daten größere Erfolge erzielt.
In den meisten Fällen, in denen ich versucht habe, interessante Fehler manuell zu beheben, können diese auf Probleme mit den Trainingsdaten zurückgeführt werden."
– Software Engineer, Google Übersetzer
Interessante Fehler werden in der Regel durch die Daten verursacht. Fehlerhafte Daten können dazu führen, dass Ihr Modell die falschen Muster erkennt, unabhängig davon, welche Modellierungstechniken Sie versuchen.
Brainstorming-Projekt zur diabetischen Retinopathie
Google Brains Projekt für diabetische Retinopathie nutzte eine neuronale Netzwerkarchitektur namens Inception, um Krankheiten durch die Klassifizierung von Bildern zu erkennen. Das Team hat Modelle nicht angepasst.
Stattdessen wurde ein Datensatz von 120.000 Beispielen erstellt, die von Augenärzten mit einem Label versehen wurden. Weitere Informationen finden Sie unter https://research.google.com/pubs/pub43022.html.