Die Aufgaben des überwachten Lernens sind klar definiert und können auf eine Vielzahl von Szenarien angewendet werden, z. B. das Erkennen von Spam oder die Vorhersage von Niederschlag.
Grundlegende Konzepte für überwachtes Lernen
Beaufsichtigtes maschinelles Lernen basiert auf den folgenden Kernkonzepten:
- Daten
- Modell
- Training
- Wird bewertet
- Inferenz
Daten
Daten sind die treibende Kraft von ML. Daten liegen in Form von Wörtern und Zahlen vor, die in Tabellen gespeichert sind, oder als Werte von Pixeln und Wellenformen, die in Bildern und Audiodateien erfasst werden. Wir speichern verwandte Daten in Datasets. Zum Beispiel könnten wir ein Dataset mit Folgendem haben:
- Fotos von Katzen
- Wohnungspreise
- Wetterinformationen
Datasets bestehen aus einzelnen Beispielen, die Features und ein Label enthalten. Stellen Sie sich ein Beispiel als analog zu einer einzelnen Zeile in einer Tabellenkalkulation vor. Features sind die Werte, die ein überwachtes Modell verwendet, um das Label vorherzusagen. Das Label ist die „Antwort“ bzw. der Wert, den das Modell vorhersagen soll. In einem Wettermodell, das Niederschlag vorhersagt, können die Merkmale Breitengrad, Längengrad, Temperatur, Luftfeuchtigkeit, Wolkenabdeckung, Windrichtung und Atmosphärischer Druck sein. Das Label wäre dann rainfall amount.
Beispiele, die sowohl Merkmale als auch ein Label enthalten, werden als Beispiele mit Labels bezeichnet.
Zwei Beispiele mit Labels
Beispiele ohne Label enthalten hingegen Merkmale, aber kein Label. Nachdem Sie ein Modell erstellt haben, sagt das Modell das Label anhand der Features vorher.
Zwei Beispiele ohne Label
Dataset-Eigenschaften
Ein Dataset ist durch seine Größe und Vielfalt gekennzeichnet. Die Größe gibt die Anzahl der Beispiele an. Diversität gibt den Bereich an, den diese Beispiele abdecken. Gute Datasets sind sowohl groß als auch sehr vielfältig.
Einige Datasets sind sowohl groß als auch vielfältig. Einige Datasets sind jedoch groß, haben aber eine geringe Vielfalt, während andere klein, aber sehr vielfältig sind. Mit anderen Worten: Ein großes Dataset garantiert keine ausreichende Diversität und ein sehr vielfältiges Dataset garantiert nicht genügend Beispiele.
Beispielsweise kann ein Dataset Daten aus 100 Jahren enthalten, jedoch nur für den Monat Juli. Die Verwendung dieses Datasets zur Vorhersage des Niederschlags im Januar würde zu schlechten Vorhersagen führen. Umgekehrt kann ein Dataset auch nur ein paar Jahre umfassen, aber jeden Monat umfassen. Dieses Dataset kann schlechte Vorhersagen liefern, da es nicht genügend Jahre enthält, um Schwankungen zu berücksichtigen.
Verständnis überprüfen
Ein Dataset kann auch durch die Anzahl seiner Features gekennzeichnet werden. Einige Wetter-Datasets enthalten beispielsweise Hunderte von Merkmalen, von Satellitenbildern bis hin zu Werten für die Wolkenbedeckung. Andere Datasets enthalten möglicherweise nur drei oder vier Merkmale, z. B. Luftfeuchtigkeit, Luftdruck und Temperatur. Datasets mit mehr Features können einem Modell helfen, zusätzliche Muster zu erkennen und bessere Vorhersagen zu treffen. Allerdings erzeugen Datasets mit mehr Merkmalen nicht immer Modelle, die bessere Vorhersagen treffen, da einige Merkmale möglicherweise keine kausale Beziehung zum Label haben.
Modell
Beim überwachten Lernen ist ein Modell eine komplexe Sammlung von Zahlen, die die mathematische Beziehung von bestimmten Eingabefeaturemustern zu bestimmten Ausgabelabelwerten definieren. Das Modell erkennt diese Muster durch Training.
Training
Bevor ein überwachtes Modell Vorhersagen treffen kann, muss es trainiert werden. Um ein Modell zu trainieren, geben wir dem Modell ein Dataset mit beschrifteten Beispielen. Das Ziel des Modells besteht darin, die beste Lösung für die Vorhersage der Labels anhand der Features zu finden. Das Modell findet die beste Lösung, indem es den vorhergesagten Wert mit dem tatsächlichen Wert des Labels vergleicht. Basierend auf dem Unterschied zwischen den vorhergesagten und den tatsächlichen Werten – definiert als Verlust – aktualisiert das Modell seine Lösung schrittweise. Mit anderen Worten: Das Modell lernt die mathematische Beziehung zwischen den Merkmalen und dem Label, um die besten Vorhersagen für unbekannte Daten zu treffen.
Wenn das Modell beispielsweise 1.15 inches
für Regen vorhergesagt hat, der tatsächliche Wert aber .75 inches
war, ändert das Modell seine Lösung so, dass die Vorhersage näher an .75 inches
liegt. Nachdem sich das Modell jedes Beispiel im Dataset angesehen hat – in einigen Fällen mehrmals –, findet es eine Lösung, die im Durchschnitt die besten Vorhersagen für jedes der Beispiele trifft.
Im Folgenden wird das Trainieren eines Modells veranschaulicht:
Das Modell verwendet ein einzelnes mit Labels versehenes Beispiel und liefert eine Vorhersage.
Abbildung 1. Ein ML-Modell, das eine Vorhersage aus einem Beispiel mit Labels erstellt.
Das Modell vergleicht den vorhergesagten Wert mit dem tatsächlichen Wert und aktualisiert die Lösung.
Abbildung 2. Ein ML-Modell, das seinen vorhergesagten Wert aktualisiert.
Das Modell wiederholt diesen Vorgang für jedes beschriftete Beispiel im Dataset.
Abbildung 3. Ein ML-Modell, das seine Vorhersagen für jedes mit Labels versehene Beispiel im Trainings-Dataset aktualisiert.
Auf diese Weise lernt das Modell nach und nach die richtige Beziehung zwischen den Features und dem Label. Dieses allmähliche Verständnis ist auch der Grund, warum große und vielfältige Datasets zu einem besseren Modell führen. Das Modell hat mehr Daten mit einem größeren Wertebereich erkannt und die Beziehung zwischen den Merkmalen und dem Label verfeinert.
Während des Trainings können ML-Experten die Konfigurationen und Funktionen, die das Modell für Vorhersagen verwendet, geringfügig anpassen. Bestimmte Features haben beispielsweise eine höhere Vorhersagekraft als andere. Daher können ML-Experten auswählen, welche Features das Modell während des Trainings verwenden soll. Angenommen, ein Wetter-Dataset enthält das Feature time_of_day
. In diesem Fall kann ein ML-Experte während des Trainings time_of_day
hinzufügen oder entfernen, um zu sehen, ob das Modell mit oder ohne die Funktion bessere Vorhersagen trifft.
Wird bewertet
Wir evaluieren ein trainiertes Modell, um festzustellen, wie gut es gelernt hat. Bei der Bewertung eines Modells verwenden wir ein Dataset mit Label, dem Modell werden jedoch nur die Merkmale des Datasets zugewiesen. Anschließend vergleichen wir die Vorhersagen des Modells mit den tatsächlichen Werten des Labels.
Abbildung 4. Bewertung eines ML-Modells durch Vergleich seiner Vorhersagen mit den tatsächlichen Werten
Abhängig von den Vorhersagen des Modells müssen wir das Modell vor der Bereitstellung in einer realen Anwendung unter Umständen weiter trainieren und bewerten.
Verständnis überprüfen
Inferenz
Sobald wir mit den Ergebnissen der Modellbewertung zufrieden sind, können wir das Modell verwenden, um Vorhersagen, sogenannte Inferenzen, für Beispiele ohne Label zu treffen. In der Wetter-App würden wir dem Modell die aktuellen Wetterbedingungen wie Temperatur, Luftdruck und relative Luftfeuchtigkeit geben, um die Niederschlagsmenge vorherzusagen.