Diese Seite wurde von der Cloud Translation API übersetzt.

Glossar zum maschinellen Lernen: ML-Grundlagen

Auf dieser Seite finden Sie Glossarbegriffe zu den ML-Grundlagen. Hier finden Sie alle Glossarbegriffe.

A

Genauigkeit

#fundamentals

#Messwert

Die Anzahl der richtigen Klassifizierungsvorhersagen, dividiert durch die Gesamtzahl der Vorhersagen. Das bedeutet:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ein Modell, das beispielsweise 40 korrekte und 10 falsche Vorhersagen getroffen hat, hätte eine Genauigkeit von:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Bei der binären Klassifizierung werden bestimmte Namen für die verschiedenen Kategorien von richtigen Vorhersagen und falschen Vorhersagen verwendet. Die Formel für die Genauigkeit bei der binären Klassifizierung lautet also:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Dabei gilt:

TP ist die Anzahl der richtig positiven Ergebnisse (richtige Vorhersagen).
TN ist die Anzahl der richtig negativen Ergebnisse (richtige Vorhersagen).
FP ist die Anzahl der falsch positiven Ergebnisse (falsche Vorhersagen).
FN ist die Anzahl der falsch negativen Ergebnisse (falsche Vorhersagen).

Vergleichen Sie die Genauigkeit mit Trefferquote und Erinnerung.

Klicken Sie auf das Symbol, um Details zur Genauigkeit und zu Datasets mit ungleichmäßiger Klassenverteilung zu erhalten.

Die Genauigkeit ist zwar in einigen Situationen ein wertvoller Messwert, in anderen jedoch sehr irreführend. Die Genauigkeit ist in der Regel ein schlechter Messwert für die Bewertung von Klassifizierungsmodellen, die Datasets mit ungleichmäßiger Klassenverteilung verarbeiten.

Angenommen, in einer bestimmten subtropischen Stadt schneit es nur 25 Tage pro Jahrhundert. Da es in dieser Stadt viel mehr Tage ohne Schnee (die negative Klasse) als Tage mit Schnee (die positive Klasse) gibt, ist das Dataset für Schnee klassenungleichgewichtig. Stellen Sie sich ein binäres Klassifizierungsmodell vor, das jeden Tag entweder Schnee oder keinen Schnee vorhersagen soll, aber einfach jeden Tag „kein Schnee“ vorhersagt. Dieses Modell ist sehr genau, hat aber keine Vorhersagekraft. In der folgenden Tabelle sind die Ergebnisse für ein Jahrhundert von Vorhersagen zusammengefasst:

Kategorie	Zahl
RPE	0
TN	36499
FP	0
FNE	25

Die Genauigkeit dieses Modells ist daher:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Obwohl 99,93% Genauigkeit ein sehr beeindruckender Prozentsatz zu sein scheinen, hat das Modell tatsächlich keine Vorhersagekraft.

Precision und Recall sind in der Regel nützlichere Messwerte als Accuracy, um Modelle zu bewerten, die mit klassenungleichgewichteten Datasets trainiert wurden.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: Genauigkeit, Trefferquote, Präzision und zugehörige Messwerte.

Aktivierungsfunktion

#fundamentals

Eine Funktion, mit der neuronale Netze nicht lineare (komplexe) Beziehungen zwischen Features und dem Label erlernen können.

Beliebte Aktivierungsfunktionen sind:

ReLU
Sigmoid

Die Diagramme von Aktivierungsfunktionen sind nie einzelne gerade Linien. Das Diagramm der ReLU-Aktivierungsfunktion besteht beispielsweise aus zwei geraden Linien:

Ein kartesisches Diagramm mit zwei Linien. Die erste Zeile hat einen konstanten y-Wert von 0 und verläuft entlang der x-Achse von -infinity,0 bis 0,-0.
Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Steigung von +1 und verläuft daher von 0,0 bis +unendlich, +unendlich.

Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionales gekrümmtes Diagramm mit x-Werten, die den Bereich von minus unendlich bis plus unendlich abdecken, und y-Werten, die den Bereich von fast 0 bis fast 1 abdecken. Wenn x = 0, ist y = 0,5. Die Steigung der Kurve ist immer positiv.Sie ist bei 0,05 am höchsten und nimmt mit zunehmendem Absolutwert von x allmählich ab.

Klicken Sie auf das Symbol, um ein Beispiel zu sehen.

In einem neuronalen Netzwerk bearbeiten Aktivierungsfunktionen die gewichtete Summe aller Eingaben für ein Neuron. Um eine gewichtete Summe zu berechnen, addiert das Neuron die Produkte der relevanten Werte und Gewichte. Angenommen, die relevanten Eingaben für ein Neuron bestehen aus Folgendem:

Eingabewert	Gewichtung der Eingabe
2	–1,3
-1	0,6
3	0,4

Die gewichtete Summe ist also:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Angenommen, der Designer dieses neuronalen Netzwerks wählt die Sigmoid-Funktion als Aktivierungsfunktion aus. In diesem Fall berechnet das Neuron den Sigmoid von -2,0, der ungefähr 0,12 beträgt. Daher übergibt das Neuron 0,12 (und nicht -2,0) an die nächste Ebene im neuronalen Netzwerk. In der folgenden Abbildung wird der relevante Teil des Prozesses veranschaulicht:

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netze: Aktivierungsfunktionen.

künstliche Intelligenz

#fundamentals

Ein nicht menschliches Programm oder Modell, das anspruchsvolle Aufgaben lösen kann. Ein Programm oder Modell, das Text übersetzt, oder ein Programm oder Modell, das Krankheiten anhand von radiologischen Bildern erkennt, sind Beispiele für künstliche Intelligenz.

Maschinelles Lernen ist ein Teilbereich der künstlichen Intelligenz. In den letzten Jahren haben einige Organisationen jedoch begonnen, die Begriffe künstliche Intelligenz und maschinelles Lernen synonym zu verwenden.

AUC (Area Under the ROC Curve, Bereich unter der ROC-Kurve)

#fundamentals

#Messwert

Eine Zahl zwischen 0,0 und 1,0, die angibt, wie gut ein binäres Klassifizierungsmodell positive Klassen von negativen Klassen trennen kann. Je näher die AUC an 1,0 liegt, desto besser kann das Modell Klassen voneinander trennen.

Die folgende Abbildung zeigt beispielsweise ein Klassifikationsmodell, das positive Klassen (grüne Ovale) perfekt von negativen Klassen (lila Rechtecke) trennt. Dieses unrealistisch perfekte Modell hat einen AUC-Wert von 1,0:

Ein Zahlenstrahl mit 8 positiven Beispielen auf der einen Seite und 9 negativen Beispielen auf der anderen Seite.

Die folgende Abbildung zeigt dagegen die Ergebnisse für ein Klassifizierungsmodell, das zufällige Ergebnisse generiert hat. Dieses Modell hat einen AUC-Wert von 0,5:

Ein Zahlenstrahl mit 6 positiven und 6 negativen Beispielen.
Die Reihenfolge der Beispiele ist positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ.

Ja, das vorherige Modell hat einen AUC-Wert von 0,5, nicht 0,0.

Die meisten Modelle liegen irgendwo zwischen den beiden Extremen. Im folgenden Modell werden beispielsweise positive und negative Ergebnisse etwas getrennt. Daher liegt die AUC zwischen 0, 5 und 1, 0:

Ein Zahlenstrahl mit 6 positiven und 6 negativen Beispielen.
Die Reihenfolge der Beispiele ist negativ, negativ, negativ, negativ, positiv, negativ, positiv, positiv, negativ, positiv, positiv, positiv.

Bei der AUC wird jeder Wert ignoriert, den Sie für Klassifizierungsschwellenwert festlegen. Stattdessen werden bei der AUC alle möglichen Klassifizierungsschwellenwerte berücksichtigt.

Klicken Sie auf das Symbol, um mehr über die Beziehung zwischen AUC und ROC-Kurven zu erfahren.

AUC steht für den Bereich unter einer ROC-Kurve. Die ROC-Kurve für ein Modell, das positive und negative Werte perfekt trennt, sieht beispielsweise so aus:

AUC ist die Fläche des grauen Bereichs in der Abbildung oben. In diesem ungewöhnlichen Fall ist die Fläche einfach die Länge des grauen Bereichs (1,0) multipliziert mit der Breite des grauen Bereichs (1,0). Das Produkt von 1,0 und 1,0 ergibt also eine AUC von genau 1,0, was der höchstmögliche AUC-Wert ist.

Die ROC-Kurve für ein Klassifikationsmodell, das Klassen überhaupt nicht trennen kann, sieht so aus: Die Fläche dieses grauen Bereichs beträgt 0,5.

Eine typischere ROC-Kurve sieht ungefähr so aus:

Die Fläche unter dieser Kurve manuell zu berechnen, wäre mühsam. Daher werden die meisten AUC-Werte in der Regel von einem Programm berechnet.

Klicken Sie auf das Symbol, um eine formellere Definition von AUC zu erhalten.

Die AUC ist die Wahrscheinlichkeit, dass ein Klassifikationsmodell mit höherer Konfidenz davon ausgeht, dass ein zufällig ausgewähltes positives Beispiel tatsächlich positiv ist, als dass ein zufällig ausgewähltes negatives Beispiel positiv ist.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.

B

Rückpropagation

#fundamentals

Der Algorithmus, der den Gradientenabstieg in neuronalen Netzwerken implementiert.

Das Trainieren eines neuronalen Netzwerks umfasst viele Wiederholungen des folgenden Zwei-Pass-Zyklus:

Während des Forward Pass verarbeitet das System einen Batch von Beispielen, um Vorhersagen zu treffen. Das System vergleicht jede Vorhersage mit jedem Label-Wert. Die Differenz zwischen der Vorhersage und dem Labelwert ist der Verlust für dieses Beispiel. Das System fasst die Verluste für alle Beispiele zusammen, um den Gesamtverlust für den aktuellen Batch zu berechnen.
Während des Rückwärtsdurchlaufs (Backpropagation) wird der Verlust reduziert, indem die Gewichte aller Neuronen in allen verborgenen Schichten angepasst werden.

Neuronale Netze enthalten oft viele Neuronen in vielen verborgenen Schichten. Jedes dieser Neuronen trägt auf unterschiedliche Weise zum Gesamtverlust bei. Bei der Backpropagation wird ermittelt, ob die Gewichte, die auf bestimmte Neuronen angewendet werden, erhöht oder verringert werden müssen.

Die Lernrate ist ein Multiplikator, der steuert, in welchem Maße jeder Backward-Pass jedes Gewicht erhöht oder verringert. Bei einer großen Lernrate wird jedes Gewicht stärker erhöht oder verringert als bei einer kleinen Lernrate.

In der Analysis wird mit der Backpropagation die Kettenregel> implementiert. Bei der Backpropagation wird die partielle Ableitung des Fehlers in Bezug auf jeden Parameter berechnet.

Vor einigen Jahren mussten ML-Experten Code schreiben, um die Backpropagation zu implementieren. Moderne ML-APIs wie Keras implementieren die Backpropagation für Sie. Geschafft!

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netze.

Batch

#fundamentals

Die Menge der Beispiele, die in einer Trainings-Iteration verwendet werden. Die Batchgröße bestimmt die Anzahl der Beispiele in einem Batch.

Eine Erläuterung, wie sich ein Batch auf eine Epoche bezieht, finden Sie unter Epoche.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Batchgröße

#fundamentals

Die Anzahl der Beispiele in einem Batch. Wenn die Batchgröße beispielsweise 100 ist, verarbeitet das Modell 100 Beispiele pro Iteration.

Im Folgenden finden Sie einige beliebte Strategien für die Batchgröße:

Stochastic Gradient Descent (SGD), bei der die Batchgröße 1 ist.
Vollständiger Batch, bei dem die Batchgröße der Anzahl der Beispiele im gesamten Trainingsset entspricht. Wenn der Trainingssatz beispielsweise eine Million Beispiele enthält, beträgt die Batchgröße eine Million Beispiele. Die vollständige Batch-Verarbeitung ist in der Regel eine ineffiziente Strategie.
Minibatch, bei dem die Batch-Größe in der Regel zwischen 10 und 1.000 liegt. Die Mini-Batch-Strategie ist in der Regel die effizienteste.

Weitere Informationen finden Sie hier:

ML-Produktionssysteme: Statische und dynamische Inferenz im Crashkurs zum maschinellen Lernen.
Playbook zum Optimieren von Deep Learning

Bias (Ethik/Fairness)

#responsible

#fundamentals

1. Stereotypisierung, Vorurteile oder Bevorzugung bestimmter Dinge, Personen oder Gruppen gegenüber anderen. Diese Verzerrungen können sich auf die Erhebung und Interpretation von Daten, das Design eines Systems und die Interaktion von Nutzern mit einem System auswirken. Beispiele für diese Art von Bias:

2. Systematischer Fehler, der durch ein Sampling- oder Reportingverfahren eingeführt wird. Beispiele für diese Art von Bias:

Nicht zu verwechseln mit dem Bias-Term in Modellen für maschinelles Lernen oder dem Vorhersage-Bias.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Types of bias.

Bias (Mathematik) oder Bias-Term

#fundamentals

Ein Achsenabschnitt oder ein Offset von einem Ursprung. Bias ist ein Parameter in Modellen für maschinelles Lernen, der durch einen der folgenden Werte symbolisiert wird:

b
w₀

Bias ist beispielsweise das b in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In einer einfachen zweidimensionalen Linie bedeutet Bias einfach „y-Achsenabschnitt“. In der folgenden Abbildung ist der Bias der Linie beispielsweise 2.

Das Diagramm einer Linie mit einer Steigung von 0,5 und einem Bias (y-Achsenabschnitt) von 2.

Bias ist vorhanden, da nicht alle Modelle vom Ursprung (0,0) ausgehen. Ein Beispiel: Der Eintritt in einen Vergnügungspark kostet 2 € und für jede Stunde, die ein Kunde dort verbringt, werden zusätzlich 0,50 € berechnet. Ein Modell, das die Gesamtkosten abbildet, hat daher einen Bias von 2, da die niedrigsten Kosten 2 € betragen.

Bias ist nicht mit Bias in Bezug auf Ethik und Fairness oder Vorhersage-Bias zu verwechseln.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression.

Binärklassifizierung

#fundamentals

Eine Art von Klassifizierungsaufgabe, bei der eine von zwei sich gegenseitig ausschließenden Klassen vorhergesagt wird:

die positive Klasse
die negative Klasse

Die folgenden beiden Modelle für maschinelles Lernen führen beispielsweise jeweils eine binäre Klassifizierung durch:

Ein Modell, das bestimmt, ob E‑Mail-Nachrichten Spam (die positive Klasse) oder kein Spam (die negative Klasse) sind.
Ein Modell, das medizinische Symptome bewertet, um festzustellen, ob eine Person eine bestimmte Krankheit (die positive Klasse) hat oder nicht (die negative Klasse).

Im Gegensatz zur Klassifizierung mit mehreren Klassen.

Weitere Informationen finden Sie unter Logistische Regression und Klassifizierungsschwellenwert.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Classification.

Bucketing

#fundamentals

Umwandlung eines einzelnen Features in mehrere binäre Features, die in der Regel auf einem Wertebereich basieren und als Buckets oder Klassen bezeichnet werden. Das gechoppte Feature ist in der Regel ein kontinuierliches Feature.

Anstatt die Temperatur als einzelnes kontinuierliches Gleitkomma-Feature darzustellen, können Sie beispielsweise Temperaturbereiche in diskrete Gruppen unterteilen, z. B.:

<= 10 °C wäre der „kalte“ Bucket.
11–24 °C fallen in die Kategorie „gemäßigt“.
>= 25 °C wäre die Kategorie „warm“.

Im Modell werden alle Werte im selben Bucket identisch behandelt. Die Werte 13 und 22 befinden sich beispielsweise beide im Bucket „gemäßigt“, sodass das Modell die beiden Werte identisch behandelt.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Wenn Sie die Temperatur als kontinuierliches Feature darstellen, wird sie im Modell als einzelnes Feature behandelt. Wenn Sie die Temperatur in drei Gruppen einteilen, wird jede Gruppe vom Modell als separates Feature behandelt. Das bedeutet, dass ein Modell separate Beziehungen der einzelnen Buckets zum Label lernen kann. Ein Modell für lineare Regression kann beispielsweise separate Gewichtungen für jeden Bucket lernen.

Wenn Sie die Anzahl der Klassen erhöhen, wird Ihr Modell komplexer, da es mehr Beziehungen lernen muss. Die Kategorien „Kalt“, „Gemäßigt“ und „Warm“ sind beispielsweise drei separate Features, mit denen Ihr Modell trainiert werden kann. Wenn Sie zwei weitere Klassen hinzufügen, z. B. „Gefrierend“ und „Heiß“, muss Ihr Modell jetzt mit fünf separaten Features trainiert werden.

Woher wissen Sie, wie viele Klassen Sie erstellen oder welche Bereiche für die einzelnen Klassen gelten sollen? Die Antworten erfordern in der Regel eine Menge Tests.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerical Data: Binning.

C

kategoriale Daten

#fundamentals

Merkmale mit einer bestimmten Menge möglicher Werte. Nehmen wir als Beispiel ein kategoriales Feature mit dem Namen traffic-light-state an, das nur einen der folgenden drei möglichen Werte haben kann:

red
yellow
green

Wenn traffic-light-state als kategoriales Feature dargestellt wird, kann ein Modell die unterschiedlichen Auswirkungen von red, green und yellow auf das Fahrverhalten lernen.

Kategoriale Features werden manchmal auch als diskrete Features bezeichnet.

Im Gegensatz zu numerischen Daten.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Mit kategorischen Daten arbeiten.

Klasse

#fundamentals

Eine Kategorie, zu der ein Label gehören kann. Beispiel:

In einem binären Klassifizierungsmodell, das Spam erkennt, könnten die beiden Klassen Spam und Kein Spam sein.
In einem Klassifizierungsmodell mit mehreren Klassen, das Hunderassen identifiziert, könnten die Klassen Pudel, Beagle, Mops usw. sein.

Ein Klassifizierungsmodell sagt eine Klasse vorher. Im Gegensatz dazu sagt ein Regressionsmodell eine Zahl und keine Klasse vorher.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Classification.

Klassifikationsmodell

#fundamentals

Ein Modell, dessen Vorhersage eine Klasse ist. Beispiele für Klassifizierungsmodelle:

Ein Modell, das die Sprache eines Eingabesatzes vorhersagt (Französisch? Spanisch? Italienisch?).
Ein Modell, das Baumarten vorhersagt (Ahorn? Eiche? Baobab?).
Ein Modell, das die positive oder negative Klasse für einen bestimmten medizinischen Zustand vorhersagt.

Regressionsmodelle sagen im Gegensatz dazu Zahlen und nicht Klassen vorher.

Zwei gängige Arten von Klassifizierungsmodellen sind:

Binärklassifizierung
Klassifizierung mehrerer Klassen

Klassifizierungsschwellenwert

#fundamentals

Bei der binären Klassifizierung wird die Rohausgabe eines logistischen Regressionsmodells in eine Vorhersage für die positive Klasse oder die negative Klasse umgewandelt. Der Klassifizierungsschwellenwert wird von einem Menschen ausgewählt, nicht durch das Modelltraining.

Ein Modell für die logistische Regression gibt einen Rohwert zwischen 0 und 1 aus. Dann:

Wenn dieser Rohwert größer als der Klassifizierungsschwellenwert ist, wird die positive Klasse vorhergesagt.
Wenn dieser Rohwert kleiner als der Klassifizierungsschwellenwert ist, wird die negative Klasse vorhergesagt.

Angenommen, der Klassifizierungsschwellenwert ist 0,8. Wenn der Rohwert 0,9 ist, sagt das Modell die positive Klasse vorher. Wenn der Rohwert 0,7 ist, sagt das Modell die negative Klasse vorher.

Die Wahl des Klassifizierungsschwellenwerts hat einen großen Einfluss auf die Anzahl der falsch positiven und falsch negativen Ergebnisse.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Wenn sich Modelle oder Datasets weiterentwickeln, ändern Entwickler manchmal auch den Klassifizierungsschwellenwert. Wenn sich der Klassifizierungsschwellenwert ändert, können Vorhersagen für die positive Klasse plötzlich zu negativen Klassen werden und umgekehrt.

Betrachten Sie beispielsweise ein binäres Klassifizierungsmodell zur Vorhersage von Krankheiten. Angenommen, im ersten Jahr gilt Folgendes:

Der Rohwert für einen bestimmten Patienten ist 0,95.
Der Klassifizierungsschwellenwert ist 0,94.

Daher diagnostiziert das System die positive Klasse. (Der Patient keucht.) Oh nein! Ich bin krank!“

Ein Jahr später sehen die Werte vielleicht so aus:

Der Rohwert für denselben Patienten bleibt bei 0,95.
Der Klassifizierungsschwellenwert wird auf 0,97 geändert.

Daher klassifiziert das System diesen Patienten nun als die negative Klasse. („Happy day! Ich bin nicht krank.“) Derselbe Patient. Andere Diagnose.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Schwellenwerte und die Konfusionsmatrix.

Klassifikator

#fundamentals

Umgangssprachlicher Begriff für ein Klassifizierungsmodell.

Dataset mit Klassenungleichgewicht

#fundamentals

Ein Dataset für eine Klassifizierung, in dem sich die Gesamtzahl der Labels jeder Klasse deutlich unterscheidet. Betrachten Sie beispielsweise ein Dataset für die binäre Klassifizierung, dessen zwei Labels so aufgeteilt sind:

1.000.000 Labels für negative Balken
10 positive Labels

Das Verhältnis von negativen zu positiven Labels beträgt 100.000 zu 1. Es handelt sich also um einen Datensatz mit unausgewogenen Klassen.

Im Gegensatz dazu ist das folgende Dataset klassenbalanciert, da das Verhältnis von negativen zu positiven Labels relativ nahe bei 1 liegt:

517 Labels für negative Balken
483 positive Labels

Datasets mit mehreren Klassen können auch ein Klassenungleichgewicht aufweisen. Das folgende Dataset für die Multiklassenklassifizierung ist beispielsweise auch klassenungleichgewichtig, da ein Label viel mehr Beispiele als die anderen beiden enthält:

1.000.000 Labels mit der Klasse „green“ (grün)
200 Labels mit der Klasse „Lila“
350 Labels mit der Klasse „orange“

Das Trainieren von Datasets mit ungleichmäßiger Klassenverteilung kann besondere Herausforderungen mit sich bringen. Weitere Informationen finden Sie im Machine Learning Crash Course unter Imbalanced datasets.

Siehe auch Entropie, Mehrheitsklasse und Minderheitsklasse.

Clipping

#fundamentals

Eine Methode zum Verarbeiten von Ausreißern, indem Sie eine oder beide der folgenden Aktionen ausführen:

Funktionswerte, die über einem maximalen Schwellenwert liegen, werden auf diesen maximalen Schwellenwert reduziert.
Erhöhen von Feature-Werten, die unter einem Mindestschwellenwert liegen, bis zu diesem Mindestschwellenwert.

Angenommen, weniger als 0,5% der Werte für ein bestimmtes Merkmal liegen außerhalb des Bereichs 40–60. In diesem Fall haben Sie folgende Möglichkeiten:

Alle Werte über 60 (dem maximalen Schwellenwert) werden auf genau 60 gekürzt.
Alle Werte unter 40 (dem Mindestschwellenwert) werden auf genau 40 gekürzt.

Ausreißer können Modelle beschädigen und manchmal dazu führen, dass Gewichtungen während des Trainings überlaufen. Einige Ausreißer können auch Messwerte wie die Genauigkeit erheblich beeinträchtigen. Clipping ist eine gängige Methode, um Schäden zu begrenzen.

Gradient Clipping erzwingt Gradient-Werte innerhalb eines bestimmten Bereichs während des Trainings.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Normalisierung.

Wahrheitsmatrix

#fundamentals

Eine NxN-Tabelle, in der die Anzahl der richtigen und falschen Vorhersagen eines Klassifizierungsmodells zusammengefasst wird. Betrachten Sie beispielsweise die folgende Konfusionsmatrix für ein binäres Klassifikationsmodell:

	Tumor (prognostiziert)	Kein Tumor (prognostiziert)
Tumor (Ground Truth)	18 (TP)	1 (FN)
Kein Tumor (Ground Truth)	6 (FP)	452 (TN)

Die obige Wahrheitsmatrix zeigt Folgendes:

Von den 19 Vorhersagen, bei denen die Grundwahrheit „Tumor“ war, hat das Modell 18 richtig und 1 falsch klassifiziert.
Von den 458 Vorhersagen, bei denen die Grundwahrheit „Kein Tumor“ war, hat das Modell 452 richtig und 6 falsch klassifiziert.

Die Wahrheitsmatrix für ein Klassifizierungsproblem mit mehreren Klassen kann Ihnen helfen, Fehlermuster zu erkennen. Betrachten Sie beispielsweise die folgende Konfusionsmatrix für ein Multiklassen-Klassifikationsmodell mit drei Klassen, das drei verschiedene Schwertlilienarten (Virginica, Versicolor und Setosa) kategorisiert. Wenn die Ground Truth „Virginica“ war, zeigt die Wahrheitsmatrix, dass das Modell viel wahrscheinlicher fälschlicherweise „Versicolor“ als „Setosa“ vorhergesagt hat:

	Setosa (prognostiziert)	Versicolor (prognostiziert)	Virginica (prognostiziert)
Setosa (Ground Truth)	88	12	0
Versicolor (Ground Truth)	6	141	7
Virginica (Ground Truth)	2	27	109

Ein weiteres Beispiel: Eine Konfusionsmatrix könnte zeigen, dass ein Modell, das zum Erkennen handschriftlicher Ziffern trainiert wurde, dazu neigt, fälschlicherweise 9 anstelle von 4 oder 1 anstelle von 7 vorherzusagen.

Konfusionsmatrizen enthalten genügend Informationen, um eine Vielzahl von Leistungsmesswerten zu berechnen, darunter Genauigkeit und Trefferquote.

stetiges Feature

#fundamentals

Ein Gleitkomma-Feature mit einem unendlichen Bereich möglicher Werte, z. B. Temperatur oder Gewicht.

Im Gegensatz zu einem diskreten Feature

Konvergenz

#fundamentals

Ein Zustand, der erreicht wird, wenn sich die Werte für Verlust mit jeder Iteration nur sehr wenig oder gar nicht ändern. Die folgende Verlustkurve deutet beispielsweise auf eine Konvergenz bei etwa 700 Iterationen hin:

Kartesisches Diagramm. Die X-Achse ist der Verlust. Die Y-Achse gibt die Anzahl der Trainingsiterationen an. Der Verlust ist in den ersten Iterationen sehr hoch, sinkt dann aber stark. Nach etwa 100 Iteration sinkt der Verlust immer noch, aber viel langsamer. Nach etwa 700 Iterationen bleibt der Verlust konstant.

Ein Modell konvergiert, wenn zusätzliches Training das Modell nicht verbessert.

Beim Deep Learning bleiben die Verlustwerte manchmal über viele Iterationen hinweg konstant oder nahezu konstant, bevor sie schließlich sinken. Bei einem langen Zeitraum mit konstanten Verlustwerten kann es vorübergehend zu einem falschen Gefühl der Konvergenz kommen.

Weitere Informationen finden Sie unter Vorzeitiges Beenden.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Model convergence and loss curves.

D

DataFrame

#fundamentals

Ein beliebter pandas-Datentyp zur Darstellung von Datasets im Arbeitsspeicher.

Ein DataFrame ist analog zu einer Tabelle oder einer Tabellenkalkulation. Jede Spalte eines DataFrames hat einen Namen (einen Header) und jede Zeile wird durch eine eindeutige Nummer identifiziert.

Jede Spalte in einem DataFrame ist wie ein zweidimensionales Array strukturiert, mit der Ausnahme, dass jeder Spalte ein eigener Datentyp zugewiesen werden kann.

Weitere Informationen finden Sie auf der offiziellen Referenzseite zu pandas.DataFrame.

Dataset oder Dataset

#fundamentals

Eine Sammlung von Rohdaten, die in der Regel (aber nicht ausschließlich) in einem der folgenden Formate organisiert sind:

eine Tabelle
eine Datei im CSV-Format (Comma Separated Values, kommagetrennte Werte)

Deep-Modell

#fundamentals

Ein neuronales Netzwerk mit mehr als einer ausgeblendeten Ebene.

Ein Deep-Learning-Modell wird auch als neuronales Deep-Learning-Netzwerk bezeichnet.

Kontrast zum Wide-Modell.

vollbesetztes Feature

#fundamentals

Eine Funktion, bei der die meisten oder alle Werte ungleich null sind, in der Regel ein Tensor mit Gleitkommawerten. Der folgende Tensor mit 10 Elementen ist beispielsweise dicht, da 9 seiner Werte ungleich null sind:

Im Gegensatz dazu steht das dünnbesetzte Feature.

Tiefe

#fundamentals

Die Summe der folgenden Elemente in einem neuronalen Netzwerk:

die Anzahl der ausgeblendeten Ebenen
die Anzahl der Ausgabeschichten, die in der Regel 1 ist
die Anzahl der Einbettungsebenen

Ein neuronales Netzwerk mit fünf verborgenen Schichten und einer Ausgabeschicht hat beispielsweise eine Tiefe von 6.

Die Eingabeebene hat keinen Einfluss auf die Tiefe.

diskretes Feature

#fundamentals

Ein Feature mit einer endlichen Menge möglicher Werte. Ein Feature, dessen Werte nur Tier, Gemüse oder Mineral sein können, ist beispielsweise ein diskretes (oder kategorisches) Feature.

Im Gegensatz dazu steht das stetige Feature.

dynamic

#fundamentals

Etwas, das häufig oder kontinuierlich getan wird. Die Begriffe dynamisch und online sind im Bereich des maschinellen Lernens Synonyme. Im Folgenden finden Sie gängige Anwendungsfälle für dynamisch und online im Bereich des maschinellen Lernens:

Ein dynamisches Modell (oder Onlinemodell) ist ein Modell, das häufig oder kontinuierlich neu trainiert wird.
Dynamisches Training (oder Onlinetraining) ist der Prozess des häufigen oder kontinuierlichen Trainings.
Dynamische Inferenzen (oder Onlineinferenzen) sind der Prozess der bedarfsgesteuerten Generierung von Vorhersagen.

dynamisches Modell

#fundamentals

Ein Modell, das häufig (vielleicht sogar kontinuierlich) neu trainiert wird. Ein dynamisches Modell ist ein „lebenslanger Lernender“, der sich ständig an sich ändernde Daten anpasst. Ein dynamisches Modell wird auch als Onlinemodell bezeichnet.

Kontrast zum statischen Modell.

E

Vorzeitiges Beenden

#fundamentals

Eine Methode zur Regularisierung, bei der das Training beendet wird, bevor der Trainingsverlust nicht mehr sinkt. Beim vorzeitigen Beenden wird das Training des Modells absichtlich beendet, wenn der Verlust in einem Validierungs-Dataset zu steigen beginnt, d. h., wenn sich die Generalisierungsleistung verschlechtert.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Das vorzeitige Beenden mag kontraintuitiv erscheinen. Einem Modell zu sagen, dass das Training beendet werden soll, während der Verlust noch abnimmt, ist, als würde man einem Koch sagen, er solle aufhören zu kochen, bevor das Dessert fertig gebacken ist. Wenn Sie ein Modell jedoch zu lange trainieren, kann dies zu einer Überanpassung führen. Wenn Sie ein Modell zu lange trainieren, kann es die Trainingsdaten so genau anpassen, dass es keine guten Vorhersagen für neue Beispiele trifft.

Vorzeitiger Ausstieg

Einbettungsebene

#fundamentals

Eine spezielle verdeckte Ebene, die auf einem hochdimensionalen kategorialen Merkmal trainiert wird, um nach und nach einen Einbettungsvektor mit niedrigerer Dimension zu lernen. Eine Einbettungsebene ermöglicht es einem neuronalen Netzwerk, viel effizienter zu trainieren, als wenn nur das hochdimensionale kategorische Merkmal verwendet wird.

Google Earth unterstützt derzeit beispielsweise etwa 73.000 Baumarten. Angenommen, die Baumart ist ein Feature in Ihrem Modell. Die Eingabeschicht Ihres Modells enthält also einen One-Hot-Vektor mit 73.000 Elementen. baobab könnte beispielsweise so dargestellt werden:

Ein Array mit 73.000 Elementen. Die ersten 6.232 Elemente haben den Wert 0. Das nächste Element enthält den Wert 1. Die letzten 66.767 Elemente haben den Wert 0.

Ein Array mit 73.000 Elementen ist sehr lang. Wenn Sie dem Modell keine Einbettungsebene hinzufügen, wird das Training sehr zeitaufwendig,da 72.999 Nullen multipliziert werden. Vielleicht wählen Sie die Einbettungsebene mit 12 Dimensionen aus. Folglich lernt die Einbettungsebene nach und nach einen neuen Einbettungsvektor für jede Baumart.

In bestimmten Situationen ist Hashing eine sinnvolle Alternative zu einer Einbettungsebene.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Embeddings.

Epoche

#fundamentals

Ein vollständiger Trainingsdurchlauf über den gesamten Trainingsdatensatz, bei dem jedes Beispiel einmal verarbeitet wurde.

Eine Epoche entspricht N/Batchgröße Trainings-Iterationen, wobei N die Gesamtzahl der Beispiele ist.

Nehmen wir beispielsweise Folgendes an:

Das Dataset besteht aus 1.000 Beispielen.
Die Batchgröße beträgt 50 Beispiele.

Daher sind für eine Epoche 20 Iterationen erforderlich:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Beispiel

#fundamentals

Die Werte einer Zeile von features und möglicherweise ein label. Beispiele für überwachtes Lernen lassen sich in zwei allgemeine Kategorien einteilen:

Ein beispielhaftes Datenelement mit Label besteht aus einem oder mehreren Merkmalen und einem Label. Während des Trainings werden gelabelte Beispiele verwendet.
Ein Beispiel ohne Label besteht aus einem oder mehreren Merkmalen, aber keinem Label. Beispiele ohne Label werden während der Inferenz verwendet.

Angenommen, Sie trainieren ein Modell, um den Einfluss von Wetterbedingungen auf die Prüfungsergebnisse von Schülern zu ermitteln. Hier sind drei Beispiele mit Labels:

Funktionen			Label
Temperatur	Luftfeuchtigkeit	Luftdruck	Testergebnis
15	47	998	Gut
19	34	1020	Sehr gut
18	92	1012	Schlecht

Hier sind drei Beispiele ohne Label:

Temperatur	Luftfeuchtigkeit	Luftdruck
12	62	1014
21	47	1017
19	41	1021

Die Zeile eines Datasets ist in der Regel die Rohquelle für ein Beispiel. Ein Beispiel besteht in der Regel aus einer Teilmenge der Spalten im Dataset. Außerdem können die Features in einem Beispiel auch synthetische Features wie Feature-Kombinationen enthalten.

Weitere Informationen finden Sie im Kurs „Einführung in maschinelles Lernen“ unter Supervised Learning.

F

falsch negativ (FN)

#fundamentals

#Messwert

Ein Beispiel, in dem das Modell fälschlicherweise die negative Klasse vorhersagt. Das Modell sagt beispielsweise voraus, dass eine bestimmte E‑Mail-Nachricht kein Spam (die negative Klasse) ist, aber diese E‑Mail-Nachricht ist tatsächlich Spam.

Falsch positiv (FP)

#fundamentals

#Messwert

Ein Beispiel, in dem das Modell fälschlicherweise die positive Klasse vorhersagt. Das Modell sagt beispielsweise voraus, dass eine bestimmte E‑Mail-Nachricht Spam (die positive Klasse) ist, aber diese E‑Mail-Nachricht ist tatsächlich kein Spam.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Schwellenwerte und die Konfusionsmatrix.

Rate falsch positiver Ergebnisse (False Positive Rate, FPR)

#fundamentals

#Messwert

Der Anteil der tatsächlich negativen Beispiele, für die das Modell fälschlicherweise die positive Klasse vorhergesagt hat. Die Falsch-Positiv-Rate wird mit der folgenden Formel berechnet:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Die Rate falsch positiver Ergebnisse ist die X-Achse in einer ROC-Kurve.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.

Feature

#fundamentals

Eine Eingabevariable für ein Modell für maschinelles Lernen. Ein Beispiel besteht aus einem oder mehreren Merkmalen. Angenommen, Sie trainieren ein Modell, um den Einfluss von Wetterbedingungen auf die Prüfungsergebnisse von Schülern zu ermitteln. Die folgende Tabelle enthält drei Beispiele mit jeweils drei Features und einem Label:

Funktionen			Label
Temperatur	Luftfeuchtigkeit	Luftdruck	Testergebnis
15	47	998	92
19	34	1020	84
18	92	1012	87

Kontrast mit dem Label.

Weitere Informationen finden Sie im Kurs „Einführung in maschinelles Lernen“ unter Supervised Learning.

Featureverknüpfung

#fundamentals

Ein synthetisches Feature, das durch „Crossing“ von kategorialen oder in Buckets aufgeteilten Features gebildet wird.

Betrachten Sie beispielsweise ein Modell zur „Stimmungsprognose“, das die Temperatur in einem der folgenden vier Bereiche darstellt:

freezing
chilly
temperate
warm

und steht für die Windgeschwindigkeit in einem der folgenden drei Buckets:

still
light
windy

Ohne Feature-Kombinationen wird das lineare Modell unabhängig für jede der sieben vorherigen verschiedenen Gruppen trainiert. Das Modell wird also beispielsweise anhand von freezing unabhängig vom Training anhand von windy trainiert.

Alternativ können Sie auch eine Kreuzung von Temperatur und Windgeschwindigkeit erstellen. Dieses synthetische Feature hätte die folgenden 12 möglichen Werte:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Dank der Feature-Kombinationen kann das Modell Stimmungsunterschiede zwischen einem freezing-windy- und einem freezing-still-Tag erkennen.

Wenn Sie ein synthetisches Feature aus zwei Features erstellen, die jeweils viele verschiedene Klassen haben, hat die resultierende Feature-Kombination eine große Anzahl möglicher Kombinationen. Wenn beispielsweise ein Merkmal 1.000 Buckets und das andere Merkmal 2.000 Buckets hat, enthält das resultierende Feature-Cross 2.000.000 Buckets.

Formal ist ein Cross ein kartesisches Produkt.

Feature-Kombinationen werden hauptsächlich mit linearen Modellen verwendet und nur selten mit neuronalen Netzen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Kategorische Daten: Feature-Kombinationen.

Feature Engineering

#fundamentals

#TensorFlow

Ein Prozess, der die folgenden Schritte umfasst:

Ermitteln, welche Features für das Training eines Modells nützlich sein könnten.
Rohdaten aus dem Dataset in effiziente Versionen dieser Features umwandeln.

Sie stellen beispielsweise fest, dass temperature eine nützliche Funktion sein könnte. Anschließend können Sie mit Klassierung experimentieren, um zu optimieren, was das Modell aus verschiedenen temperature-Bereichen lernen kann.

Feature Engineering wird manchmal auch als Feature-Extraktion oder Featurisierung bezeichnet.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu TensorFlow zu erhalten.

In TensorFlow bedeutet Feature Engineering oft, dass Einträge aus Rohprotokolldateien in tf.Example-Pufferprotokolle konvertiert werden. Siehe auch tf.Transform.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Wie ein Modell Daten mithilfe von Feature-Vektoren aufnimmt.

Feature-Set

#fundamentals

Die Gruppe von Features, mit denen Ihr Modell für maschinelles Lernen trainiert wird. Ein einfaches Feature-Set für ein Modell, das Immobilienpreise vorhersagt, könnte beispielsweise aus Postleitzahl, Grundstücksgröße und Zustand des Grundstücks bestehen.

Featurevektor

#fundamentals

Das Array von feature-Werten, aus denen ein example besteht. Der Featurevektor wird während des Trainings und der Inferenz eingegeben. Der Merkmalsvektor für ein Modell mit zwei diskreten Merkmalen könnte beispielsweise so aussehen:

[0.92, 0.56]

Vier Schichten: eine Eingabeschicht, zwei verborgene Schichten und eine Ausgabeschicht.
Die Eingabeschicht enthält zwei Knoten, einen mit dem Wert 0,92 und den anderen mit dem Wert 0,56.

In jedem Beispiel werden unterschiedliche Werte für den Featurevektor angegeben. Der Featurevektor für das nächste Beispiel könnte so aussehen:

[0.73, 0.49]

Beim Feature Engineering wird festgelegt, wie Features im Featurevektor dargestellt werden. Ein binäres kategorisches Feature mit fünf möglichen Werten kann beispielsweise mit One-Hot-Codierung dargestellt werden. In diesem Fall würde der Teil des Feature-Vektors für ein bestimmtes Beispiel aus vier Nullen und einer einzelnen 1,0 an der dritten Position bestehen:

[0.0, 0.0, 1.0, 0.0, 0.0]

Angenommen, Ihr Modell besteht aus drei Features:

ein binäres kategorisches Merkmal mit fünf möglichen Werten, die mit One-Hot-Codierung dargestellt werden, z. B. [0.0, 1.0, 0.0, 0.0, 0.0]
ein weiteres binäres kategorisches Merkmal mit drei möglichen Werten, die mit One-Hot-Codierung dargestellt werden, z. B. [0.0, 0.0, 1.0]
ein Gleitkomma-Feature, z. B. 8.3.

In diesem Fall würde der Featurevektor für jedes Beispiel durch neun Werte dargestellt. Bei den Beispielwerten in der vorherigen Liste wäre der Featurevektor:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Wie ein Modell Daten mithilfe von Feature-Vektoren aufnimmt.

Feedbackschleife

#fundamentals

Im maschinellen Lernen eine Situation, in der die Vorhersagen eines Modells die Trainingsdaten für dasselbe oder ein anderes Modell beeinflussen. Ein Modell, das Filme empfiehlt, beeinflusst beispielsweise die Filme, die Nutzer sehen, was wiederum nachfolgende Modelle für Filmempfehlungen beeinflusst.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Production ML systems: Questions to ask.

G

Generalisierung

#fundamentals

Die Fähigkeit eines Modells, korrekte Vorhersagen für neue, bisher unbekannte Daten zu treffen. Ein Modell, das generalisieren kann, ist das Gegenteil eines Modells, das überangepasst ist.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Sie trainieren ein Modell anhand der Beispiele im Trainingsset. Folglich lernt das Modell die Besonderheiten der Daten im Trainings-Dataset. Bei der Generalisierung geht es im Wesentlichen darum, ob Ihr Modell gute Vorhersagen für Beispiele treffen kann, die nicht im Trainingsset enthalten sind.

Um die Verallgemeinerung zu fördern, hilft die Regularisierung einem Modell, weniger genau auf die Besonderheiten der Daten im Trainings-Dataset zu reagieren.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Generalization.

Verallgemeinerungskurve

#fundamentals

Ein Diagramm mit dem Trainingsverlust und dem Validierungsverlust als Funktion der Anzahl der Iteration.

Mithilfe einer Generalisierungskurve können Sie Overfitting erkennen. Die folgende Generalisierungskurve deutet beispielsweise auf eine Überanpassung hin, da der Validierungsverlust letztendlich deutlich höher als der Trainingsverlust ist.

Ein kartesisches Diagramm, in dem die Y-Achse mit „Verlust“ und die X-Achse mit „Iteration“ beschriftet ist. Es werden zwei Diagramme angezeigt. Ein Diagramm zeigt den Trainingsverlust und das andere den Validierungsverlust.
Die beiden Diagramme beginnen ähnlich, aber der Trainingsverlust sinkt schließlich viel niedriger als der Validierungsverlust.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Generalization.

Gradientenabstieg

#fundamentals

Eine mathematische Methode zur Minimierung des Verlusts. Beim Gradientenabstieg werden Gewichte und Biasse iterativ angepasst, um nach und nach die beste Kombination zur Minimierung des Verlusts zu finden.

Der Gradientenabstieg ist viel älter als das maschinelle Lernen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Gradientenabstieg.

Ground Truth

#fundamentals

Realität.

Was ist stattdessen passiert?

Nehmen wir als Beispiel ein binäres Klassifizierungsmodell, das vorhersagt, ob ein Student im ersten Studienjahr innerhalb von sechs Jahren seinen Abschluss machen wird. Die Grundwahrheit für dieses Modell ist, ob der Schüler oder Student tatsächlich innerhalb von sechs Jahren seinen Abschluss gemacht hat.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Wir bewerten die Modellqualität anhand der Grundwahrheit. Die Grundwahrheit ist jedoch nicht immer ganz wahr. Hier einige Beispiele für potenzielle Unvollkommenheiten in der Ground Truth:

Sind wir im Beispiel mit dem Schulabschluss sicher, dass die Abschlussdaten für jeden Schüler immer korrekt sind? Ist die Dokumentation der Universität fehlerfrei?
Angenommen, das Label ist ein Gleitkommawert, der mit Instrumenten (z. B. Barometern) gemessen wird. Wie können wir sicher sein, dass jedes Instrument identisch kalibriert ist oder dass jede Messung unter denselben Umständen durchgeführt wurde?
Wenn die Kennzeichnung auf menschlicher Meinung beruht, wie können wir sicher sein, dass jeder Rater Ereignisse auf dieselbe Weise bewertet? Um die Konsistenz zu verbessern, greifen manchmal erfahrene menschliche Prüfer ein.

H

versteckte Ebene

#fundamentals

Eine Schicht in einem neuronalen Netzwerk zwischen der Eingabeschicht (den Features) und der Ausgabeschicht (der Vorhersage). Jede verborgene Ebene besteht aus einem oder mehreren Neuronen. Das folgende neuronale Netzwerk enthält beispielsweise zwei verborgene Schichten, die erste mit drei Neuronen und die zweite mit zwei Neuronen:

Ein neuronales Deep-Learning-Netzwerk enthält mehr als eine verborgene Ebene. Die Abbildung oben zeigt beispielsweise ein tiefes neuronales Netzwerk, da das Modell zwei verborgene Schichten enthält.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netze: Knoten und verborgene Ebenen.

Hyperparameter

#fundamentals

Die Variablen, die Sie oder ein Hyperparameter-Abstimmungsdienst >bei aufeinanderfolgenden Durchläufen des Modelltrainings anpassen. Ein Beispiel ist die Lernrate. Sie könnten die Lernrate vor einer Trainingssitzung auf 0,01 festlegen. Wenn Sie feststellen, dass 0,01 zu hoch ist, können Sie die Lernrate für die nächste Trainingssitzung auf 0,003 festlegen.

Im Gegensatz dazu sind Parameter die verschiedenen Gewichtungen und Bias, die das Modell während des Trainings lernt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

I

unabhängig und identisch verteilt (i.i.d.)

#fundamentals

Daten, die aus einer unveränderlichen Verteilung stammen und bei denen jeder gezogene Wert nicht von zuvor gezogenen Werten abhängt. Eine i.i.d. ist das ideale Gas des maschinellen Lernens – ein nützliches mathematisches Konstrukt, das in der realen Welt jedoch fast nie genau zu finden ist. So kann die Verteilung der Besucher einer Webseite beispielsweise über einen kurzen Zeitraum hinweg unabhängig und identisch verteilt sein. Das bedeutet, dass sich die Verteilung in diesem kurzen Zeitraum nicht ändert und der Besuch einer Person im Allgemeinen unabhängig vom Besuch einer anderen Person ist. Wenn Sie diesen Zeitraum jedoch erweitern, können saisonale Unterschiede bei den Besuchern der Webseite auftreten.

Siehe auch Nichtstationarität.

Inferenz

#fundamentals

#generativeAI

Beim herkömmlichen maschinellen Lernen wird ein trainiertes Modell auf Beispiele ohne Label angewendet, um Vorhersagen zu treffen. Weitere Informationen finden Sie im Kurs „Einführung in ML“ unter Supervised Learning.

Bei Large Language Models ist die Inferenz der Prozess, bei dem ein trainiertes Modell verwendet wird, um eine Antwort auf einen Prompt zu generieren.

In der Statistik hat der Begriff „Inferenz“ eine etwas andere Bedeutung. Weitere Informationen finden Sie im Wikipedia-Artikel zur statistischen Inferenz.

Eingabelayer

#fundamentals

Die Ebene eines neuronalen Netzwerks, die den Merkmalsvektor enthält. Die Eingabeschicht stellt also Beispiele für das Training oder die Inferenz bereit. Die Eingabeschicht im folgenden neuronalen Netzwerk besteht beispielsweise aus zwei Features:

Vier Schichten: eine Eingabeschicht, zwei verborgene Schichten und eine Ausgabeschicht.

Interpretierbarkeit

#fundamentals

Die Fähigkeit, die Argumentation eines ML-Modells in für Menschen verständlicher Form zu erläutern oder zu präsentieren.

Die meisten linearen Regressionsmodelle sind beispielsweise sehr gut interpretierbar. Sie müssen sich lediglich die trainierten Gewichte für jedes Feature ansehen. Entscheidungsbäume sind außerdem sehr gut interpretierbar. Bei einigen Modellen ist jedoch eine komplexe Visualisierung erforderlich, um interpretierbar zu werden.

Mit dem Learning Interpretability Tool (LIT) können Sie ML-Modelle interpretieren.

Iteration

#fundamentals

Eine einzelne Aktualisierung der Parameter eines Modells – der Gewichtungen und Biases des Modells – während des Trainings. Die Batchgröße bestimmt, wie viele Beispiele das Modell in einer einzelnen Iteration verarbeitet. Wenn die Batchgröße beispielsweise 20 ist, verarbeitet das Modell 20 Beispiele, bevor die Parameter angepasst werden.

Beim Trainieren eines neuronalen Netzwerks umfasst eine einzelne Iteration die folgenden beiden Durchläufe:

Ein Forward-Pass zur Berechnung des Verlusts für einen einzelnen Batch.
Ein Backward-Pass (Backpropagation), um die Parameter des Modells basierend auf dem Verlust und der Lernrate anzupassen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Gradient Descent.

L

L₀-Regularisierung

#fundamentals

Eine Art der Regularisierung, bei der die Gesamtzahl der Gewichtungen in einem Modell, die nicht null sind, bestraft wird. Ein Modell mit 11 Gewichten ungleich null wird beispielsweise stärker bestraft als ein ähnliches Modell mit 10 Gewichten ungleich null.

Die L₀-Regularisierung wird manchmal auch als L0-Norm-Regularisierung bezeichnet.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

_{Die L₀-Regularisierung ist bei großen Modellen im Allgemeinen unpraktisch, da sie das Training in ein konvexes Optimierungsproblem verwandelt.}

L₁-Verlust

#fundamentals

#Messwert

Eine Verlustfunktion, die den absoluten Wert der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die ein Modell vorhersagt. Hier ist beispielsweise die Berechnung des L₁-Verlusts für einen Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels	Vom Modell prognostizierter Wert	Absoluter Wert des Deltas
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁-Verlust

Der _{L₁-Verlust reagiert weniger empfindlich auf Ausreißer als der L2}-Verlust.

Der mittlere absolute Fehler ist der durchschnittliche L₁-Verlust pro Beispiel.

Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

Dabei gilt:

$n$ ist die Anzahl der Beispiele.
$y$ ist der tatsächliche Wert des Labels.
$\hat{y}$ ist der Wert, den das Modell für $y$ vorhersagt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Verlust.

L₁-Regularisierung

#fundamentals

Eine Art der Regularisierung, bei der Gewichtungen proportional zur Summe der absoluten Werte der Gewichtungen bestraft werden. Die L₁-Regularisierung trägt dazu bei, die Gewichte irrelevanter oder kaum relevanter Features auf genau 0 zu setzen. Eine Funktion mit einem Gewicht von 0 wird effektiv aus dem Modell entfernt.

Kontrast zur L₂-Regularisierung.

L₂-Verlust

#fundamentals

#Messwert

Eine Verlustfunktion, die das Quadrat der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die ein Modell vorhersagt. Hier ist beispielsweise die Berechnung des L₂-Verlusts für einen Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels	Vom Modell prognostizierter Wert	Quadrat von Delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂-Verlust

Durch die Quadrierung verstärkt der L₂-Verlust den Einfluss von Ausreißern. Das bedeutet, dass der L₂-Verlust stärker auf schlechte Vorhersagen reagiert als der L₁-Verlust. Der L₁-Verlust für den vorherigen Batch wäre beispielsweise 8 statt 16. Ein einzelner Ausreißer macht 9 der 16 aus.

In Regressionsmodellen wird in der Regel der L₂-Verlust als Verlustfunktion verwendet.

Der mittlere quadratische Fehler ist der durchschnittliche L₂-Verlust pro Beispiel. Squared Loss ist ein anderer Name für den L₂-Verlust.

Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

Dabei gilt:

$n$ ist die Anzahl der Beispiele.
$y$ ist der tatsächliche Wert des Labels.
$\hat{y}$ ist der Wert, den das Modell für $y$ vorhersagt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Logistische Regression: Verlust und Regularisierung.

L₂-Regularisierung

#fundamentals

Eine Art der Regularisierung, bei der Gewichtungen proportional zur Summe der Quadrate der Gewichtungen bestraft werden. Die L₂-Regularisierung trägt dazu bei, Ausreißergewichte (mit hohen positiven oder niedrigen negativen Werten) näher an 0 heranzuführen, aber nicht ganz auf 0 zu setzen. Features mit Werten, die sehr nahe an 0 liegen, bleiben im Modell, haben aber nur einen geringen Einfluss auf die Vorhersage des Modells.

Die L₂-Regularisierung verbessert immer die Generalisierung in linearen Modellen.

Kontrast zur L₁-Regularisierung.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Overfitting: L2 regularization.

Label

#fundamentals

Im überwachten maschinellen Lernen ist das der „Antwort“- oder „Ergebnis“-Teil eines Beispiels.

Jedes beispielhafte Element mit Label besteht aus einem oder mehreren Features und einem Label. In einem Dataset zur Spamerkennung wäre das Label beispielsweise wahrscheinlich entweder „Spam“ oder „Kein Spam“. In einem Dataset zu Niederschlagsmengen könnte das Label die Menge an Regen sein, die in einem bestimmten Zeitraum gefallen ist.

Weitere Informationen finden Sie unter Supervised Learning in Introduction to Machine Learning.

Beispiel mit Label

#fundamentals

Ein Beispiel, das ein oder mehrere Merkmale und ein Label enthält. In der folgenden Tabelle sind beispielsweise drei gelabelte Beispiele aus einem Modell zur Hausbewertung aufgeführt, die jeweils drei Features und ein Label enthalten:

Anzahl der Schlafzimmer	Anzahl der Badezimmer	Alter des Hauses	Hauspreis (Label)
3	2	15	345.000 $
2	1	72	179.000 $
4	2	34	392.000 $

Beim überwachten maschinellen Lernen> werden Modelle mit gelabelten Beispielen trainiert und Vorhersagen für nicht gelabelte Beispiele getroffen.

Stellen Sie ein gelabeltes Beispiel nicht gelabelten Beispielen gegenüber.

Weitere Informationen finden Sie unter Supervised Learning in Introduction to Machine Learning.

Lambda

#fundamentals

Synonym für Regularisierungsrate.

Lambda ist ein überlasteter Begriff. Hier konzentrieren wir uns auf die Definition des Begriffs im Kontext von Regularisierung.

Layer

#fundamentals

Eine Gruppe von Neuronen in einem neuronalen Netzwerk. Im Folgenden sind drei gängige Arten von Layern aufgeführt:

Die Eingabeschicht, die Werte für alle Features bereitstellt.
Eine oder mehrere verborgene Schichten, die nicht lineare Beziehungen zwischen den Features und dem Label finden.
Die Ausgabeschicht, die die Vorhersage liefert.

Die folgende Abbildung zeigt beispielsweise ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht:

Ein neuronales Netzwerk mit einer Eingabe-, zwei verborgenen und einer Ausgabeschicht. Die Eingabeschicht besteht aus zwei Features. Die erste verborgene Schicht besteht aus drei Neuronen und die zweite verborgene Schicht aus zwei Neuronen. Die Ausgabeschicht besteht aus einem einzelnen Knoten.

In TensorFlow sind Ebenen auch Python-Funktionen, die Tensoren und Konfigurationsoptionen als Eingabe verwenden und andere Tensoren als Ausgabe erzeugen.

Lernrate

#fundamentals

Eine Gleitkommazahl, die dem Gradientenabstiegsalgorithmus angibt, wie stark Gewichte und Bias bei jeder Iteration angepasst werden sollen. Bei einer Lernrate von 0,3 werden Gewichte und Bias beispielsweise dreimal stärker angepasst als bei einer Lernrate von 0,1.

Die Lernrate ist ein wichtiger Hyperparameter. Wenn Sie die Lernrate zu niedrig festlegen, dauert das Training zu lange. Wenn Sie die Lernrate zu hoch einstellen, hat der Gradientenabstieg oft Schwierigkeiten, Konvergenz zu erreichen.

Klicken Sie auf das Symbol, um eine mathematischere Erklärung zu erhalten.

Bei jedem Durchlauf multipliziert der Gradient Descent-Algorithmus die Lernrate mit dem Gradienten. Das resultierende Produkt wird als Gradientenschritt bezeichnet.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Linear

#fundamentals

Eine Beziehung zwischen zwei oder mehr Variablen, die nur durch Addition und Multiplikation dargestellt werden kann.

Die Darstellung einer linearen Beziehung ist eine Linie.

Im Gegensatz dazu steht die nicht lineare.

Lineares Modell

#fundamentals

Ein Modell, das jedem Feature eine Gewichtung zuweist, um Vorhersagen zu treffen. Lineare Modelle enthalten auch einen Bias. Im Gegensatz dazu ist die Beziehung von Features zu Vorhersagen in Deep-Learning-Modellen in der Regel nicht linear.

Lineare Modelle sind in der Regel einfacher zu trainieren und besser interpretierbar als Deep-Learning-Modelle. Mit Deep-Learning-Modellen lassen sich jedoch komplexe Beziehungen zwischen Features erkennen.

Lineare Regression und logistische Regression sind zwei Arten von linearen Modellen.

Klicken Sie auf das Symbol, um die Berechnung zu sehen.

Ein lineares Modell folgt dieser Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dabei gilt:

y' ist die Rohvorhersage. Bei bestimmten Arten von linearen Modellen wird diese Rohvorhersage weiter modifiziert. Ein Beispiel finden Sie unter Logistische Regression.
b ist der Bias.
„w“ ist eine Gewichtung. „w₁“ ist also die Gewichtung des ersten Features, „w₂“ die des zweiten usw.
x ist ein Feature. x₁ ist also der Wert des ersten Features, x₂ der Wert des zweiten Features usw.

Angenommen, ein lineares Modell für drei Merkmale lernt die folgenden Bias- und Gewichtungswerte:

b = 7
w₁ = -2,5
w₂ = -1.2
w₃ = 1,4

Bei drei Features (x₁, x₂ und x₃) wird für jede Vorhersage die folgende Gleichung verwendet:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Angenommen, ein bestimmtes Beispiel enthält die folgenden Werte:

x₁ = 4
x₂ = -10
x₃ = 5

Wenn wir diese Werte in die Formel einsetzen, erhalten wir eine Vorhersage für dieses Beispiel:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Lineare Modelle umfassen nicht nur Modelle, die nur eine lineare Gleichung für Vorhersagen verwenden, sondern auch eine größere Gruppe von Modellen, die eine lineare Gleichung als nur eine Komponente der Formel verwenden, mit der Vorhersagen getroffen werden. Bei der logistischen Regression wird die Rohvorhersage (y') beispielsweise nachbearbeitet, um einen endgültigen Vorhersagewert zwischen 0 und 1 zu erhalten.

lineare Regression

#fundamentals

Ein Typ von Machine-Learning-Modell, bei dem beides zutrifft:

Das Modell ist ein lineares Modell.
Die Vorhersage ist ein Gleitkommawert. (Dies ist der Regressions-Teil der linearen Regression.)

Stellen Sie die lineare Regression der logistischen Regression gegenüber. Stellen Sie außerdem die Regression der Kontrastvariablen der Klassifizierung gegenüber.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression.

logistische Regression

#fundamentals

Ein Typ von Regressionsmodell, mit dem eine Wahrscheinlichkeit vorhergesagt wird. Logistische Regressionsmodelle haben die folgenden Merkmale:

Das Label ist kategorial. Der Begriff „logistische Regression“ bezieht sich in der Regel auf die binäre logistische Regression, d. h. auf ein Modell, das Wahrscheinlichkeiten für Labels mit zwei möglichen Werten berechnet. Eine weniger häufige Variante, die multinominale logistische Regression, berechnet Wahrscheinlichkeiten für Labels mit mehr als zwei möglichen Werten.
Die Verlustfunktion während des Trainings ist Log Loss. (Mehrere Log Loss-Einheiten können parallel für Labels mit mehr als zwei möglichen Werten platziert werden.)
Das Modell hat eine lineare Architektur und kein neuronales Deep-Learning-Netzwerk. Der Rest dieser Definition gilt jedoch auch für Deep-Modelle, die Wahrscheinlichkeiten für kategorische Labels vorhersagen.

Nehmen wir beispielsweise ein logistisches Regressionsmodell, das die Wahrscheinlichkeit berechnet, dass eine eingegebene E‑Mail entweder Spam oder kein Spam ist. Angenommen, das Modell sagt während der Inferenz 0,72 voraus. Das Modell schätzt also Folgendes:

Die Wahrscheinlichkeit, dass die E‑Mail Spam ist, liegt bei 72 %.
Die Wahrscheinlichkeit, dass die E-Mail kein Spam ist, liegt bei 28 %.

Ein logistisches Regressionsmodell verwendet die folgende zweistufige Architektur:

Das Modell generiert eine Rohvorhersage (y') durch Anwenden einer linearen Funktion von Eingabefeatures.
Das Modell verwendet diese Rohvorhersage als Eingabe für eine Sigmoid-Funktion, die die Rohvorhersage in einen Wert zwischen 0 und 1 (ausschließlich) konvertiert.

Wie bei jedem Regressionsmodell wird auch bei einem logistischen Regressionsmodell eine Zahl vorhergesagt. Diese Zahl wird jedoch in der Regel wie folgt Teil eines binären Klassifizierungsmodells:

Wenn die vorhergesagte Zahl größer als der Klassifizierungsschwellenwert ist, sagt das binäre Klassifizierungsmodell die positive Klasse vorher.
Wenn die vorhergesagte Zahl kleiner als der Klassifizierungsschwellenwert ist, sagt das binäre Klassifizierungsmodell die negative Klasse vorher.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Logistische Regression.

Logarithmischer Verlust

#fundamentals

Die Verlustfunktion, die in der binären logistischen Regression verwendet wird.

Klicken Sie auf das Symbol, um die Berechnung zu sehen.

Der Log-Loss wird mit der folgenden Formel berechnet:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

Dabei gilt:

$(x,y)\in D$ ist das Dataset, das viele mit Labels versehene Beispiele enthält, die $(x,y)$ Paare sind.
$y$ ist das Label in einem gelabelten Beispiel. Da es sich um eine logistische Regression handelt, muss jeder Wert von $y$ entweder 0 oder 1 sein.
$y'$ ist der vorhergesagte Wert (zwischen 0 und 1, exklusiv), basierend auf den Features in $x$.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Logistische Regression: Verlust und Regularisierung.

Log-Odds

#fundamentals

Der Logarithmus der Chance eines Ereignisses.

Klicken Sie auf das Symbol, um die Berechnung zu sehen.

Wenn das Ereignis eine binäre Wahrscheinlichkeit ist, bezieht sich Odds auf das Verhältnis der Erfolgswahrscheinlichkeit (p) zur Wahrscheinlichkeit des Misserfolgs (1–p). Angenommen, ein bestimmtes Ereignis hat eine Erfolgswahrscheinlichkeit von 90 % und eine Fehlerwahrscheinlichkeit von 10 %. In diesem Fall werden die Chancen so berechnet:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Der Logit ist einfach der Logarithmus der Chance. Konventionell bezieht sich „Logarithmus“ auf den natürlichen Logarithmus, aber der Logarithmus könnte tatsächlich jede Basis größer als 1 haben. Gemäß der Konvention lautet der Logit unseres Beispiels daher:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Die Log-Odds-Funktion ist die Umkehrfunktion der Sigmoid-Funktion.

Niederlage

#fundamentals

#Messwert

Beim Training eines überwachten Modells wird gemessen, wie weit die Vorhersage eines Modells von seinem Label entfernt ist.

Mit einer Verlustfunktion wird der Verlust berechnet.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Verlust.

Verlustkurve

#fundamentals

Ein Diagramm des Verlusts als Funktion der Anzahl der Trainingsiterationen. Das folgende Diagramm zeigt eine typische Verlustkurve:

Ein kartesisches Diagramm des Verlusts im Vergleich zu den Trainingsiterationen, das einen schnellen Rückgang des Verlusts für die ersten Iterationen, gefolgt von einem allmählichen Rückgang und dann einer flachen Steigung während der letzten Iterationen zeigt.

Anhand von Verlustkurven können Sie feststellen, wann Ihr Modell konvergiert oder überangepasst ist.

In Verlustkurven können alle folgenden Arten von Verlust dargestellt werden:

Trainingsverlust
Validierungsverlust
Testverlust

Siehe auch Verallgemeinerungskurve.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Overfitting: Interpreting loss curves.

Verlustfunktion

#fundamentals

#Messwert

Während des Trainings oder Tests wird eine mathematische Funktion verwendet, mit der der Verlust für einen Batch von Beispielen berechnet wird. Eine Verlustfunktion gibt einen niedrigeren Verlust für Modelle zurück, die gute Vorhersagen treffen, als für Modelle, die schlechte Vorhersagen treffen.

Das Ziel des Trainings besteht in der Regel darin, den Verlust zu minimieren, der von einer Verlustfunktion zurückgegeben wird.

Es gibt viele verschiedene Arten von Verlustfunktionen. Wählen Sie die geeignete Verlustfunktion für den Typ des Modells aus, das Sie erstellen. Beispiel:

L₂-Verlust (oder mittlerer quadratischer Fehler) ist die Verlustfunktion für die lineare Regression.
Logarithmischer Verlust ist die Verlustfunktion für die logistische Regression.

M

Machine Learning

#fundamentals

Ein Programm oder System, das ein Modell mit Eingabedaten trainiert. Das trainierte Modell kann für (komplett) neue Daten nützliche Vorhersagen treffen, die aus derselben Verteilung stammen wie die Daten, die zum Trainieren des Modells verwendet wurden.

Machine Learning bezieht sich auch auf den Forschungsbereich, der sich mit diesen Programmen oder Systemen befasst.

Weitere Informationen finden Sie im Kurs Einführung in maschinelles Lernen.

Mehrheitsklasse

#fundamentals

Das häufigere Label in einem Dataset mit unausgewogenen Klassen. Wenn ein Dataset beispielsweise 99% negative Labels und 1% positive Labels enthält, sind die negativen Labels die Mehrheitsklasse.

Kontrast zur Minderheitsklasse.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Datasets: Imbalanced datasets.

Mini-Batch

#fundamentals

Eine kleine, zufällig ausgewählte Teilmenge eines Batch, die in einer Iteration verarbeitet wird. Die Batchgröße eines Minibatches liegt in der Regel zwischen 10 und 1.000 Beispielen.

Angenommen, der gesamte Trainingsdatensatz (der vollständige Batch) besteht aus 1.000 Beispielen. Angenommen, Sie legen die Batchgröße jedes Mini-Batch auf 20 fest. Daher wird in jeder Iteration der Verlust für 20 zufällige der 1.000 Beispiele ermittelt und die Gewichte und Biasse entsprechend angepasst.

Es ist viel effizienter, den Verlust für einen Mini-Batch zu berechnen als für alle Beispiele im vollständigen Batch.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Minderheitsklasse

#fundamentals

Das weniger häufige Label in einem Dataset mit unausgeglichenen Klassen. Wenn ein Dataset beispielsweise 99% negative und 1% positive Labels enthält, sind die positiven Labels die Minderheitsklasse.

Kontrast zur Mehrheitsklasse.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Ein Trainingsset mit einer Million Beispielen klingt beeindruckend. Wenn die Minderheitenklasse jedoch schlecht vertreten ist, reicht möglicherweise auch ein sehr großer Trainingsdatensatz nicht aus. Achten Sie weniger auf die Gesamtzahl der Beispiele im Dataset und mehr auf die Anzahl der Beispiele in der Minderheitenklasse.

Wenn Ihr Dataset nicht genügend Beispiele für die Minderheitenklasse enthält, sollten Sie Downsampling (Definition im zweiten Aufzählungszeichen) verwenden, um die Minderheitenklasse zu ergänzen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Datasets: Imbalanced datasets.

Modell

#fundamentals

Im Allgemeinen ist das jedes mathematische Konstrukt, das Eingabedaten verarbeitet und eine Ausgabe zurückgibt. Anders ausgedrückt: Ein Modell ist die Menge der Parameter und der Struktur, die für ein System erforderlich sind, um Vorhersagen zu treffen. Beim überwachten maschinellen Lernen wird ein Beispiel als Eingabe verwendet und eine Vorhersage als Ausgabe abgeleitet. Innerhalb des überwachten maschinellen Lernens unterscheiden sich die Modelle etwas. Beispiel:

Ein lineares Regressionsmodell besteht aus einer Reihe von Gewichten und einem Bias.
Ein Modell für neuronale Netzwerke besteht aus:
- Eine Reihe von verborgenen Ebenen, die jeweils ein oder mehrere Neuronen enthalten.
- Die Gewichte und der Bias, die mit jedem Neuron verknüpft sind.
Ein Entscheidungsbaummodell besteht aus:
- Die Form des Baums, d. h. das Muster, in dem die Bedingungen und Blätter verbunden sind.
- Die Bedingungen und Blätter.

Sie können ein Modell speichern, wiederherstellen oder Kopien davon erstellen.

Beim unüberwachten maschinellen Lernen werden ebenfalls Modelle generiert, in der Regel eine Funktion, die ein Eingabebeispiel dem am besten geeigneten Cluster zuordnen kann.

Klicken Sie auf das Symbol, um algebraische und Programmierfunktionen mit ML-Modellen zu vergleichen.

Eine algebraische Funktion wie die folgende ist ein Modell:

  f(x, y) = 3x -5xy + y² + 17

Die oben genannte Funktion ordnet Eingabewerte (x und y) der Ausgabe zu.

Auch eine Programmierfunktion wie die folgende ist ein Modell:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Ein Aufrufer übergibt Argumente an die vorherige Python-Funktion und die Python-Funktion generiert eine Ausgabe (über die return-Anweisung).

Obwohl ein neuronales Deep-Learning-Netzwerk eine ganz andere mathematische Struktur als eine algebraische oder Programmierfunktion hat, nimmt es dennoch Eingaben (ein Beispiel) entgegen und gibt Ausgaben (eine Vorhersage) zurück.

Ein menschlicher Programmierer codiert eine Programmierfunktion manuell. Im Gegensatz dazu lernt ein Machine-Learning-Modell die optimalen Parameter während des automatisierten Trainings schrittweise.

Klassifizierung mit mehreren Klassen

#fundamentals

Beim überwachten Lernen ein Klassifizierungsproblem, bei dem das Dataset mehr als zwei Klassen von Labels enthält. Die Labels im Iris-Dataset müssen beispielsweise einer der folgenden drei Klassen entsprechen:

Iris setosa
Iris virginica
Iris versicolor

Ein Modell, das mit dem Iris-Dataset trainiert wurde und den Iris-Typ für neue Beispiele vorhersagt, führt eine Klassifizierung mit mehreren Klassen durch.

Klassifizierungsprobleme, bei denen genau zwei Klassen unterschieden werden, sind binäre Klassifizierungsmodelle. Ein E‑Mail-Modell, das entweder Spam oder Kein Spam vorhersagt, ist beispielsweise ein binäres Klassifizierungsmodell.

Bei Clustering-Problemen bezieht sich die Klassifizierung mit mehreren Klassen auf mehr als zwei Cluster.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netze: Multiklassenklassifizierung.

N

negative Klasse

#fundamentals

#Messwert

Bei der binären Klassifizierung wird eine Klasse als positiv und die andere als negativ bezeichnet. Die positive Klasse ist das Ding oder Ereignis, auf das das Modell testet, und die negative Klasse ist die andere Möglichkeit. Beispiel:

Die negative Klasse in einem medizinischen Test könnte „kein Tumor“ sein.
Die negative Klasse in einem Klassifizierungsmodell für E‑Mails könnte „Kein Spam“ sein.

Kontrast zur positiven Klasse.

neuronales Netzwerk

#fundamentals

Ein Modell mit mindestens einer verborgenen Ebene. Ein neuronales Deep-Learning-Netzwerk ist eine Art von neuronalem Netzwerk mit mehr als einer verborgenen Ebene. Das folgende Diagramm zeigt beispielsweise ein tiefes neuronales Netzwerk mit zwei verborgenen Schichten.

Ein neuronales Netzwerk mit einer Eingabe-, zwei verborgenen und einer Ausgabeschicht.

Jedes Neuron in einem neuronalen Netzwerk ist mit allen Knoten in der nächsten Schicht verbunden. Im obigen Diagramm ist zu sehen, dass jede der drei Neuronen in der ersten verborgenen Schicht separat mit beiden Neuronen in der zweiten verborgenen Schicht verbunden ist.

Neuronale Netzwerke, die auf Computern implementiert werden, werden manchmal als künstliche neuronale Netzwerke bezeichnet, um sie von neuronalen Netzwerken in Gehirnen und anderen Nervensystemen zu unterscheiden.

Einige neuronale Netze können extrem komplexe nichtlineare Beziehungen zwischen verschiedenen Features und dem Label nachbilden.

Siehe auch Convolutional Neural Network (CNN) und Recurrent Neural Network (RNN).

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netze.

Neuron

#fundamentals

Im Machine Learning eine separate Einheit in einer verdeckten Schicht eines neuronalen Netzwerks. Jedes Neuron führt die folgenden zwei Schritte aus:

Berechnet die gewichtete Summe der Eingabewerte, die mit ihren entsprechenden Gewichten multipliziert werden.
Übergibt die gewichtete Summe als Eingabe an eine Aktivierungsfunktion.

Ein Neuron in der ersten verborgenen Schicht akzeptiert Eingaben aus den Feature-Werten in der Eingabeschicht. Ein Neuron in einer beliebigen verborgenen Schicht nach der ersten akzeptiert Eingaben von den Neuronen in der vorherigen verborgenen Schicht. Ein Neuron in der zweiten verborgenen Ebene akzeptiert beispielsweise Eingaben von den Neuronen in der ersten verborgenen Ebene.

Die folgende Abbildung zeigt zwei Neuronen und ihre Eingaben.

Ein Neuron in einem neuronalen Netzwerk ahmt das Verhalten von Neuronen im Gehirn und anderen Teilen des Nervensystems nach.

Knoten (neuronales Netzwerk)

#fundamentals

Ein Neuron in einer versteckten Schicht.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netze.

nicht linear

#fundamentals

Eine Beziehung zwischen zwei oder mehr Variablen, die nicht nur durch Addition und Multiplikation dargestellt werden kann. Ein linearer Zusammenhang kann als Linie dargestellt werden, ein nichtlinearer Zusammenhang nicht. Betrachten Sie beispielsweise zwei Modelle, die jeweils ein einzelnes Feature mit einem einzelnen Label in Beziehung setzen. Das Modell auf der linken Seite ist linear, das Modell auf der rechten Seite ist nicht linear:

Zwei Diagramme. Eine Darstellung ist eine Linie, daher handelt es sich um eine lineare Beziehung.
Das andere Diagramm ist eine Kurve. Es handelt sich also um eine nicht lineare Beziehung.

Im Machine Learning Crash Course finden Sie unter Neuronale Netze: Knoten und verborgene Schichten weitere Informationen zum Experimentieren mit verschiedenen Arten von nichtlinearen Funktionen.

Nichtstationarität

#fundamentals

Ein Merkmal, dessen Werte sich über eine oder mehrere Dimensionen hinweg ändern, in der Regel über die Zeit. Hier einige Beispiele für Nichtstationarität:

Die Anzahl der in einem bestimmten Geschäft verkauften Badeanzüge variiert je nach Jahreszeit.
Die Menge einer bestimmten Frucht, die in einer bestimmten Region geerntet wird, ist einen Großteil des Jahres null, aber für einen kurzen Zeitraum groß.
Aufgrund des Klimawandels verschieben sich die jährlichen Durchschnittstemperaturen.

Kontrast zur Stationarität.

Normalisierung

#fundamentals

Im Allgemeinen wird dabei der tatsächliche Wertebereich einer Variablen in einen Standardwertebereich konvertiert, z. B.:

–1 bis +1
0 bis 1
Z-Werte (ungefähr -3 bis +3)

Angenommen, der tatsächliche Wertebereich eines bestimmten Merkmals liegt zwischen 800 und 2.400. Im Rahmen des Feature Engineering können Sie die tatsächlichen Werte auf einen Standardbereich wie -1 bis +1 normalisieren.

Die Normalisierung ist eine häufige Aufgabe beim Feature Engineering. Modelle werden in der Regel schneller trainiert und liefern bessere Vorhersagen, wenn alle numerischen Features im Feature-Vektor ungefähr denselben Bereich haben.

Weitere Informationen finden Sie unter Z-Score-Normalisierung.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Normalisierung.

Numerische Daten

#fundamentals

Features, die als Ganzzahlen oder reelle Zahlen dargestellt werden. Bei einem Modell zur Bewertung von Häusern würde die Größe eines Hauses (in Quadratfuß oder Quadratmetern) wahrscheinlich als numerische Daten dargestellt. Wenn Sie ein Feature als numerische Daten darstellen, bedeutet das, dass die Werte des Features eine mathematische Beziehung zum Label haben. Die Anzahl der Quadratmeter in einem Haus steht wahrscheinlich in einem mathematischen Verhältnis zum Wert des Hauses.

Nicht alle Ganzzahldaten sollten als numerische Daten dargestellt werden. Beispielsweise sind Postleitzahlen in einigen Teilen der Welt Ganzzahlen. Ganzzahlige Postleitzahlen sollten jedoch nicht als numerische Daten in Modellen dargestellt werden. Das liegt daran, dass eine Postleitzahl von 20000 nicht doppelt so (oder halb so) wirkungsvoll ist wie eine Postleitzahl von 10000. Außerdem korrelieren unterschiedliche Postleitzahlen zwar mit unterschiedlichen Immobilienwerten, aber wir können nicht davon ausgehen, dass Immobilienwerte mit der Postleitzahl 20000 doppelt so wertvoll sind wie Immobilienwerte mit der Postleitzahl 10000. Postleitzahlen sollten stattdessen als kategorische Daten dargestellt werden.

Numerische Merkmale werden manchmal auch als kontinuierliche Merkmale bezeichnet.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Mit numerischen Daten arbeiten.

O

offline

#fundamentals

Synonym für static.

Offlineinferenz

#fundamentals

Der Prozess, bei dem ein Modell einen Batch von Vorhersagen generiert und diese Vorhersagen dann im Cache speichert. Apps können dann auf die abgeleitete Vorhersage aus dem Cache zugreifen, anstatt das Modell noch einmal auszuführen.

Angenommen, ein Modell generiert alle vier Stunden lokale Wettervorhersagen (Prognosen). Nach jedem Modelllauf werden alle lokalen Wettervorhersagen im System zwischengespeichert. Wetter-Apps rufen die Vorhersagen aus dem Cache ab.

Die Offline-Inferenz wird auch als statische Inferenz bezeichnet.

Im Gegensatz dazu steht die Onlineinferenz. Weitere Informationen finden Sie im Machine Learning Crash Course unter Production ML systems: Static versus dynamic inference.

One-Hot-Codierung

#fundamentals

Kategorische Daten werden als Vektor dargestellt, in dem:

Ein Element ist auf 1 gesetzt.
Alle anderen Elemente werden auf 0 gesetzt.

Die One-Hot-Codierung wird häufig verwendet, um Strings oder Kennungen mit einer endlichen Anzahl möglicher Werte darzustellen. Angenommen, ein bestimmtes kategorisches Feature namens Scandinavia hat fünf mögliche Werte:

„Dänemark“
„Schweden“
„Norwegen“
„Finnland“
„Island“

Die fünf Werte könnten so als One-Hot-Codierung dargestellt werden:

Land	Vektor
„Dänemark“	1	0	0	0	0
„Schweden“	0	1	0	0	0
„Norwegen“	0	0	1	0	0
„Finnland“	0	0	0	1	0
„Island“	0	0	0	0	1

Dank der One-Hot-Codierung kann ein Modell auf Grundlage der einzelnen Länder unterschiedliche Verbindungen lernen.

Die Darstellung eines Merkmals als numerische Daten ist eine Alternative zur One-Hot-Codierung. Leider ist es nicht sinnvoll, die skandinavischen Länder numerisch darzustellen. Betrachten Sie beispielsweise die folgende numerische Darstellung:

„Denmark“ ist 0
„Schweden“ ist 1
„Norwegen“ ist 2
„Finnland“ ist 3
„Island“ ist 4

Bei der numerischen Codierung würde ein Modell die Rohzahlen mathematisch interpretieren und versuchen, anhand dieser Zahlen zu trainieren. Island ist aber nicht doppelt so viel (oder halb so viel) wie Norwegen, daher würde das Modell zu seltsamen Schlussfolgerungen kommen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Categorical data: Vocabulary and one-hot encoding.

One-vs.-All

#fundamentals

Bei einem Klassifizierungsproblem mit N Klassen besteht eine Lösung aus N separaten binären Klassifizierungsmodellen – einem binären Klassifizierungsmodell für jedes mögliche Ergebnis. Angenommen, Sie haben ein Modell, das Beispiele als Tier, Pflanze oder Mineral klassifiziert. Eine One-vs.-All-Lösung würde die folgenden drei separaten binären Klassifizierungsmodelle bereitstellen:

Tier oder kein Tier
Gemüse oder nicht
mineralisch oder nicht mineralisch

online

#fundamentals

Synonym für dynamisch.

Onlineinferenz

#fundamentals

Vorhersagen werden auf Anfrage generiert. Angenommen, eine App übergibt Eingaben an ein Modell und sendet eine Anfrage für eine Vorhersage. Ein System, das Onlineinferenz verwendet, reagiert auf die Anfrage, indem es das Modell ausführt und die Vorhersage an die App zurückgibt.

Offline-Inferenz

Weitere Informationen finden Sie im Machine Learning Crash Course unter Production ML systems: Static versus dynamic inference.

Ausgabeschicht

#fundamentals

Die „letzte“ Ebene eines neuronalen Netzwerks. Die Ausgabeschicht enthält die Vorhersage.

Die folgende Abbildung zeigt ein kleines Deep Neural Network mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht:

Überanpassung

#fundamentals

Ein Modell erstellen, das so genau mit den Trainingsdaten übereinstimmt, dass es keine korrekten Vorhersagen für neue Daten treffen kann.

Regularisierung kann Overfitting reduzieren. Das Training mit einem großen und vielfältigen Trainingssatz kann auch eine Überanpassung reduzieren.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Overfitting ist wie das strikte Befolgen der Ratschläge nur Ihres Lieblingslehrers. Sie werden in diesem Kurs wahrscheinlich erfolgreich sein, aber Sie passen sich möglicherweise zu sehr an die Ideen dieser Lehrkraft an und sind in anderen Kursen nicht erfolgreich. Wenn Sie sich von verschiedenen Kursleitern beraten lassen, können Sie sich besser an neue Situationen anpassen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Overfitting.

P

pandas

#fundamentals

Eine spaltenorientierte Datenanalyse-API, die auf numpy basiert. Viele Frameworks für maschinelles Lernen, darunter TensorFlow, unterstützen Pandas-Datenstrukturen als Eingaben. Weitere Informationen finden Sie in der pandas-Dokumentation.

Parameter

#fundamentals

Die Gewichtungen und Biases, die ein Modell während des Trainings lernt. In einem linearen Regressionsmodell bestehen die Parameter beispielsweise aus dem Bias (b) und allen Gewichten (w₁, w₂ usw.) in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Im Gegensatz dazu sind Hyperparameter die Werte, die Sie (oder ein Hyperparameter-Abstimmungsdienst) für das Modell bereitstellen. Die Lernrate ist beispielsweise ein Hyperparameter.

positive Klasse

#fundamentals

#Messwert

Die Klasse, die Sie testen.

Die positive Klasse in einem Krebsmodell könnte beispielsweise „Tumor“ sein. Die positive Klasse in einem E-Mail-Klassifizierungsmodell kann beispielsweise „Spam“ sein.

Im Gegensatz zur negativen Klasse.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Der Begriff positive Klasse kann verwirrend sein, da das „positive“ Ergebnis vieler Tests oft ein unerwünschtes Ergebnis ist. In vielen medizinischen Tests entspricht die positive Klasse beispielsweise Tumoren oder Krankheiten. Im Allgemeinen möchten Sie, dass ein Arzt Ihnen sagt: „Herzlichen Glückwunsch! Ihr Testergebnis war negativ.“ Unabhängig davon ist die positive Klasse das Ereignis, das im Test gefunden werden soll.

Sie testen gleichzeitig sowohl für die positive als auch für die negative Klasse.

Nachbearbeitung

#responsible

#fundamentals

Die Ausgabe eines Modells wird nach dem Ausführen des Modells angepasst. Mit der Nachbearbeitung lassen sich Fairness-Einschränkungen durchsetzen, ohne die Modelle selbst zu ändern.

Beispielsweise kann die Nachbearbeitung auf ein binäres Klassifikationsmodell angewendet werden, indem ein Klassifikationsschwellenwert festgelegt wird, sodass die Chancengleichheit für ein Attribut aufrechterhalten wird. Dazu wird geprüft, ob die Rate der richtig positiven Ergebnisse für alle Werte dieses Attributs gleich ist.

Precision

#fundamentals

#Messwert

Ein Messwert für Klassifizierungsmodelle, der die folgende Frage beantwortet:

Wenn das Modell die positive Klasse vorhergesagt hat, wie viel Prozent der Vorhersagen waren richtig?

Hier ist die Formel:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

Dabei gilt:

„Richtig positiv“ bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
„Falsch positiv“ bedeutet, dass das Modell die positive Klasse fälschlicherweise vorhergesagt hat.

Angenommen, ein Modell hat 200 positive Vorhersagen getroffen. Von diesen 200 positiven Vorhersagen:

150 Ergebnisse waren richtig positiv.
50 davon waren Fehlalarme.

In diesem Fall gilt:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Genauigkeit und Trefferquote im Vergleich.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: Genauigkeit, Trefferquote, Präzision und zugehörige Messwerte.

Vorhersage-

#fundamentals

Die Ausgabe eines Modells. Beispiel:

Die Vorhersage eines binären Klassifizierungsmodells ist entweder die positive oder die negative Klasse.
Die Vorhersage eines Klassifizierungsmodells mit mehreren Klassen ist eine Klasse.
Die Vorhersage eines linearen Regressionsmodells ist eine Zahl.

Proxy-Labels

#fundamentals

Daten, mit denen Labels angenähert werden, die in einem Dataset nicht direkt verfügbar sind.

Angenommen, Sie müssen ein Modell trainieren, um den Stresspegel von Mitarbeitern vorherzusagen. Ihr Dataset enthält viele Vorhersagefunktionen, aber kein Label mit dem Namen Stressniveau. Sie lassen sich nicht entmutigen und wählen „Arbeitsunfälle“ als Proxy-Label für das Stressniveau aus. Denn Mitarbeiter, die unter hohem Stress stehen, haben mehr Unfälle als entspannte Mitarbeiter. Oder doch? Vielleicht steigen und sinken Arbeitsunfälle aus mehreren Gründen.

Nehmen wir als zweites Beispiel an, Sie möchten, dass Regnet es? ein boolesches Label für Ihren Datensatz ist, Ihr Datensatz aber keine Regendaten enthält. Wenn Fotos verfügbar sind, können Sie Bilder von Personen mit Regenschirmen als Proxy-Label für Regnet es? verwenden. Ist das ein guter Proxy-Label? Möglicherweise, aber Menschen in einigen Kulturen verwenden Regenschirme eher zum Schutz vor der Sonne als vor Regen.

Proxy-Labels sind oft unvollkommen. Wählen Sie nach Möglichkeit tatsächliche Labels anstelle von Proxy-Labels aus. Wenn kein tatsächliches Label vorhanden ist, wählen Sie das Proxy-Label sehr sorgfältig aus und entscheiden Sie sich für das am wenigsten schlechte Proxy-Label.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Datasets: Labels.

R

RAG

#fundamentals

Abkürzung für Retrieval-Augmented Generation.

Bewerter

#fundamentals

Eine Person, die Labels für Beispiele bereitstellt. „Annotator“ ist eine andere Bezeichnung für „Rater“.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Kategorische Daten: Häufige Probleme.

Rückruf

#fundamentals

#Messwert

Ein Messwert für Klassifizierungsmodelle, der die folgende Frage beantwortet:

Wenn die Ground Truth die positive Klasse war, bei wie viel Prozent der Vorhersagen hat das Modell die positive Klasse richtig erkannt?

Hier ist die Formel:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

Dabei gilt:

„Richtig positiv“ bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
„Falsch negativ“ bedeutet, dass das Modell fälschlicherweise die negative Klasse vorhergesagt hat.

Angenommen, Ihr Modell hat 200 Vorhersagen für Beispiele getroffen, für die die Grundwahrheit die positive Klasse war. Von diesen 200 Vorhersagen:

180 Ergebnisse waren richtig positiv.
20 Ergebnisse waren falsch negativ.

In diesem Fall gilt:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Klicken Sie auf das Symbol für Hinweise zu Datasets mit ungleichmäßiger Klassenverteilung.

Der Recall ist besonders nützlich, um die Vorhersagekraft von Klassifikationsmodellen zu bestimmen, in denen die positive Klasse selten ist. Nehmen wir beispielsweise einen Datensatz mit ungleichgewichtigen Klassen an, in dem die positive Klasse für eine bestimmte Krankheit nur bei 10 von einer Million Patienten auftritt. Angenommen, Ihr Modell trifft fünf Millionen Vorhersagen, die zu den folgenden Ergebnissen führen:

30 richtig positive Ergebnisse
20 falsch negative Ergebnisse
4.999.000 richtig negative Ergebnisse
950 falsch positive Ergebnisse

Der Recall dieses Modells ist also:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Die Genauigkeit dieses Modells ist hingegen:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Dieser hohe Genauigkeitswert sieht beeindruckend aus, ist aber im Grunde bedeutungslos. Recall ist für Datasets mit unausgewogenen Klassen ein viel nützlicherer Messwert als die Genauigkeit.

Weitere Informationen

Rektifizierte lineare Einheit (ReLU)

#fundamentals

Eine Aktivierungsfunktion mit dem folgenden Verhalten:

Wenn die Eingabe negativ oder null ist, ist die Ausgabe 0.
Wenn die Eingabe positiv ist, entspricht die Ausgabe der Eingabe.

Beispiel:

Wenn die Eingabe -3 ist, ist die Ausgabe 0.
Wenn die Eingabe +3 ist, ist die Ausgabe 3,0.

Hier ist ein Diagramm von ReLU:

ReLU ist eine sehr beliebte Aktivierungsfunktion. Trotz ihres einfachen Verhaltens ermöglicht ReLU einem neuronalen Netzwerk, nichtlineare Beziehungen zwischen Features und dem Label zu lernen.

Regressionsmodell

#fundamentals

Ein Modell, das eine numerische Vorhersage generiert. Im Gegensatz dazu wird bei einem Klassifizierungsmodell eine Vorhersage für die Klasse generiert. Beispiele für Regressionsmodelle:

Ein Modell, das den Wert eines bestimmten Hauses in Euro vorhersagt,z. B. 423.000 €.
Ein Modell, das die Lebenserwartung eines bestimmten Baums in Jahren vorhersagt, z. B. 23,2.
Ein Modell, das die Menge an Regen in Zoll vorhersagt, die in den nächsten sechs Stunden in einer bestimmten Stadt fallen wird, z. B. 0,18.

Zwei gängige Arten von Regressionsmodellen sind:

Lineare Regression: Hier wird die Linie ermittelt, die am besten zu den Labelwerten und Features passt.
Logistische Regression: Hier wird eine Wahrscheinlichkeit zwischen 0,0 und 1,0 generiert, die von einem System in der Regel einer Klassenprognose zugeordnet wird.

Nicht jedes Modell, das numerische Vorhersagen ausgibt, ist ein Regressionsmodell. In einigen Fällen ist eine numerische Vorhersage eigentlich nur ein Klassifizierungsmodell mit numerischen Klassennamen. Ein Modell, mit dem eine numerische Postleitzahl vorhergesagt wird, ist beispielsweise ein Klassifikationsmodell und kein Regressionsmodell.

Regularisierung

#fundamentals

Jeder Mechanismus, der Overfitting reduziert. Beliebte Arten der Regularisierung sind:

L₁-Regularisierung
L₂-Regularisierung
Dropout-Regularisierung
Vorzeitiger Stopp: Dies ist keine formale Regularisierungsmethode, kann aber eine Überanpassung effektiv einschränken.

Regularisierung kann auch als die Strafe für die Komplexität eines Modells definiert werden.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Die Regularisierung ist kontraintuitiv. Eine stärkere Regularisierung erhöht in der Regel den Trainingsverlust. Das ist verwirrend, weil das Ziel doch eigentlich ist, den Trainingsverlust zu minimieren.

Nein. Das Ziel ist nicht, den Trainingsverlust zu minimieren. Ziel ist es, hervorragende Vorhersagen für Beispiele aus der Praxis zu treffen. Obwohl eine stärkere Regularisierung den Trainingsverlust erhöht, hilft sie Modellen in der Regel, bessere Vorhersagen für reale Beispiele zu treffen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Overfitting: Model complexity.

Regularisierungsrate

#fundamentals

Eine Zahl, die die relative Wichtigkeit der Regularisierung während des Trainings angibt. Wenn Sie die Regularisierungsrate erhöhen, wird die Überanpassung reduziert, die Vorhersagekraft des Modells kann jedoch abnehmen. Wenn Sie die Regularisierungsrate verringern oder weglassen, steigt das Risiko von Overfitting.

Klicken Sie auf das Symbol, um die Berechnung zu sehen.

Die Regularisierungsrate wird in der Regel als griechischer Buchstabe Lambda dargestellt. Die folgende vereinfachte loss-Gleichung zeigt den Einfluss von Lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

Dabei ist Regularisierung ein beliebiger Regularisierungsmechanismus, einschließlich:

L₁-Regularisierung
L₂-Regularisierung

Weitere Informationen finden Sie im Machine Learning Crash Course unter Overfitting: L2 regularization.

ReLU

#fundamentals

Abkürzung für Rectified Linear Unit (rektifizierte Lineareinheit).

Retrieval-Augmented Generation (RAG)

#fundamentals

Eine Technik zur Verbesserung der Qualität der Ausgabe von Large Language Models (LLMs) durch die Fundierung mit Wissensquellen, die nach dem Training des Modells abgerufen werden. RAG verbessert die Genauigkeit von LLM-Antworten, indem das trainierte LLM Zugriff auf Informationen erhält, die aus vertrauenswürdigen Wissensdatenbanken oder Dokumenten abgerufen werden.

Häufige Gründe für die Verwendung von Retrieval-Augmented Generation sind:

Die faktische Richtigkeit der vom Modell generierten Antworten erhöhen.
Dem Modell Zugriff auf Wissen geben, mit dem es nicht trainiert wurde.
Das Wissen ändern, das das Modell verwendet.
Das Modell kann Quellen zitieren.

Angenommen, eine Chemie-App verwendet die PaLM API, um Zusammenfassungen zu Nutzeranfragen zu generieren. Wenn das Backend der App eine Anfrage empfängt, passiert Folgendes:

Sucht nach Daten, die für die Anfrage des Nutzers relevant sind, und ruft sie ab.
Hängt die relevanten Chemie-Daten an die Nutzeranfrage an („erweitert“).
Weist das LLM an, eine Zusammenfassung auf Grundlage der angehängten Daten zu erstellen.

ROC-Kurve (Receiver Operating Characteristic)

#fundamentals

#Messwert

Ein Diagramm der Richtig-Positiv-Rate im Vergleich zur Falsch-Positiv-Rate für verschiedene Klassifizierungsschwellenwerte bei der binären Klassifizierung.

Die Form einer ROC-Kurve gibt Aufschluss darüber, wie gut ein binäres Klassifikationsmodell positive von negativen Klassen trennen kann. Angenommen, ein binäres Klassifizierungsmodell trennt alle negativen Klassen perfekt von allen positiven Klassen:

Ein Zahlenstrahl mit 8 positiven Beispielen auf der rechten Seite und 7 negativen Beispielen auf der linken Seite.

Die ROC-Kurve für das vorherige Modell sieht so aus:

Eine ROC-Kurve. Die X-Achse ist die Rate falsch positiver Ergebnisse und die Y-Achse die Rate richtig positiver Ergebnisse. Die Kurve hat eine umgekehrte L-Form. Die Kurve beginnt bei (0,0; 0,0) und verläuft senkrecht nach oben bis (0,0; 1,0). Die Kurve verläuft dann von (0,0,1,0) bis (1,0,1,0).

Im Gegensatz dazu zeigt die folgende Abbildung die Rohwerte der logistischen Regression für ein schlechtes Modell, das negative Klassen überhaupt nicht von positiven Klassen trennen kann:

Ein Zahlenstrahl mit positiven Beispielen und negativen Klassen, die sich vollständig vermischen.

Die ROC-Kurve für dieses Modell sieht so aus:

Eine ROC-Kurve, die eigentlich eine gerade Linie von (0,0) bis (1,1) ist.

In der realen Welt trennen die meisten binären Klassifizierungsmodelle positive und negative Klassen bis zu einem gewissen Grad, aber in der Regel nicht perfekt. Eine typische ROC-Kurve liegt also irgendwo zwischen den beiden Extremen:

Eine ROC-Kurve. Die X-Achse ist die Rate falsch positiver Ergebnisse und die Y-Achse die Rate richtig positiver Ergebnisse. Die ROC-Kurve ähnelt einem zittrigen Bogen, der die Himmelsrichtungen von West nach Nord durchläuft.

Der Punkt auf einer ROC-Kurve, der theoretisch am nächsten an (0,0,1,0) liegt, gibt den idealen Klassifizierungsschwellenwert an. Die Auswahl des idealen Klassifizierungsschwellenwerts wird jedoch von mehreren anderen realen Problemen beeinflusst. Falsch negative Ergebnisse verursachen beispielsweise möglicherweise viel mehr Probleme als falsch positive Ergebnisse.

Ein numerischer Messwert namens AUC fasst die ROC-Kurve in einem einzelnen Gleitkommawert zusammen.

Wurzel der mittleren Fehlerquadratsumme (RMSE)

#fundamentals

#Messwert

Die Quadratwurzel der mittleren quadratischen Abweichung.

S

Sigmoidfunktion

#fundamentals

Eine mathematische Funktion, die einen Eingabewert in einen eingeschränkten Bereich „quetscht“, in der Regel 0 bis 1 oder -1 bis +1. Das heißt, Sie können eine beliebige Zahl (2, eine Million, eine negative Milliarde usw.) an eine Sigmoidfunktion übergeben und die Ausgabe liegt trotzdem im eingeschränkten Bereich. Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Die Sigmoid-Funktion hat im Bereich des maschinellen Lernens mehrere Anwendungsbereiche, darunter:

Umwandlung der Rohausgabe eines logistischen Regressionsmodells oder multinomialen Regressionsmodells in eine Wahrscheinlichkeit.
Als Aktivierungsfunktion in einigen neuronalen Netzwerken.

Klicken Sie auf das Symbol, um die Berechnung zu sehen.

Die Sigmoid-Funktion für eine Eingabezahl x hat die folgende Formel:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Beim maschinellen Lernen ist x in der Regel eine gewichtete Summe.

Softmax-Funktion

#fundamentals

Eine Funktion, die Wahrscheinlichkeiten für jede mögliche Klasse in einem Klassifizierungsmodell mit mehreren Klassen bestimmt. Die Wahrscheinlichkeiten ergeben zusammen genau 1,0. In der folgenden Tabelle sehen Sie ein Beispiel dafür, wie mit der Softmax-Funktion verschiedene Wahrscheinlichkeiten verteilt werden:

Das Bild ist ein…	Probability
Hund	0,85
Katze	.13
Pferd	.02

Softmax wird auch als Full Softmax bezeichnet.

Im Gegensatz dazu steht das Auswählen von Kandidaten.

Klicken Sie auf das Symbol, um die Berechnung zu sehen.

Die Softmax-Gleichung lautet so:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

Dabei gilt:

$\sigma_i$ ist der Ausgabevektor. Jedes Element des Ausgabevektors gibt die Wahrscheinlichkeit dieses Elements an. Die Summe aller Elemente im Ausgabevektor ist 1,0. Der Ausgabevektor enthält dieselbe Anzahl von Elementen wie der Eingabevektor $z$.
$z$ ist der Eingabevektor. Jedes Element des Eingabevektors enthält einen Gleitkommawert.
$K$ ist die Anzahl der Elemente im Eingabevektor (und im Ausgabevektor).

Angenommen, der Eingabevektor ist:

[1.2, 2.5, 1.8]

Daher wird der Nenner bei der Softmax-Funktion so berechnet:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Die Softmax-Wahrscheinlichkeit jedes Elements ist daher:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Der Ausgabevektor ist also:

$$\sigma = [0.154, 0.565, 0.281]$$

Die Summe der drei Elemente in $\sigma$ ist 1,0. Geschafft!

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netze: Multiklassenklassifizierung.

dünnbesetztes Feature

#fundamentals

Ein Attribut, dessen Werte überwiegend null oder leer sind. Ein Feature, das einen einzelnen Wert von 1 und eine Million Werte von 0 enthält, ist beispielsweise spärlich. Im Gegensatz dazu hat ein dichtes Feature Werte, die überwiegend nicht null oder leer sind.

Beim maschinellen Lernen ist eine überraschend große Anzahl von Features spärlich. Kategoriale Merkmale sind in der Regel spärliche Merkmale. Von den 300 möglichen Baumarten in einem Wald kann ein einzelnes Beispiel beispielsweise nur einen Ahornbaum identifizieren. Oder von den Millionen möglicher Videos in einer Videobibliothek könnte ein einzelnes Beispiel nur „Casablanca“ identifizieren.

In einem Modell werden spärliche Merkmale in der Regel mit One-Hot-Codierung dargestellt. Wenn die One-Hot-Codierung groß ist, können Sie für mehr Effizienz eine Einbettungsebene über die One-Hot-Codierung legen.

dünnbesetzte Darstellung

#fundamentals

Es werden nur die Positionen von Elementen ungleich null in einem spärlichen Feature gespeichert.

Angenommen, ein kategoriales Feature namens species identifiziert die 36 Baumarten in einem bestimmten Wald. Nehmen Sie außerdem an, dass jedes Beispiel nur eine einzelne Art identifiziert.

Sie könnten einen One-Hot-Vektor verwenden, um die Baumart in jedem Beispiel darzustellen. Ein One-Hot-Vektor würde eine einzelne 1 (zur Darstellung der jeweiligen Baumart in diesem Beispiel) und 35 0 (zur Darstellung der 35 Baumarten, die nicht in diesem Beispiel enthalten sind) enthalten. Die One-Hot-Darstellung von maple könnte also so aussehen:

Ein Vektor, in dem die Positionen 0 bis 23 den Wert 0, Position 24 den Wert 1 und die Positionen 25 bis 35 den Wert 0 haben.

Alternativ würde die spärliche Darstellung einfach die Position der jeweiligen Art angeben. Wenn maple an Position 24 steht, wäre die spärliche Darstellung von maple einfach:

Die dünnbesetzte Darstellung ist viel kompakter als die One-Hot-Darstellung.

Klicken Sie auf das Symbol, um ein etwas komplexeres Beispiel aufzurufen.

Angenommen, jedes Beispiel in Ihrem Modell muss die Wörter eines englischen Satzes repräsentieren, nicht aber die Reihenfolge dieser Wörter. Die englische Sprache besteht aus etwa 170.000 Wörtern. Englisch ist also ein kategorisches Feature mit etwa 170.000 Elementen. Die meisten englischen Sätze verwenden nur einen sehr kleinen Teil dieser 170.000 Wörter. Die Menge der Wörter in einem einzelnen Beispiel besteht also mit ziemlicher Sicherheit aus spärlichen Daten.

Betrachten Sie den folgenden Satz:

My dog is a great dog

Sie könnten eine Variante des One-Hot-Vektors verwenden, um die Wörter in diesem Satz darzustellen. Bei dieser Variante können mehrere Zellen im Vektor einen Wert ungleich null enthalten. Außerdem kann eine Zelle in dieser Variante eine andere Ganzzahl als 1 enthalten. Die Wörter „mein“, „ist“, „ein“ und „toller“ kommen nur einmal im Satz vor, das Wort „Hund“ jedoch zweimal. Wenn wir diese Variante von One-Hot-Vektoren verwenden, um die Wörter in diesem Satz darzustellen, erhalten wir den folgenden Vektor mit 170.000 Elementen:

Eine spärliche Darstellung desselben Satzes wäre einfach:

Klicken Sie auf das Symbol, wenn Sie unsicher sind.

Der Begriff „spärliche Darstellung“ verwirrt viele, da die spärliche Darstellung selbst kein spärlicher Vektor ist. Die dünnbesetzte Darstellung ist vielmehr eine dichte Darstellung eines dünnbesetzten Vektors. Die Synonymdarstellung Indexdarstellung ist etwas klarer als „Sparse-Darstellung“.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Mit kategorischen Daten arbeiten.

dünnbesetzter Vektor

#fundamentals

Ein Vektor, dessen Werte größtenteils Nullen sind. Siehe auch Sparsamer Feature und Sparsity.

Quadratischer Verlust

#fundamentals

#Messwert

Synonym für L₂-Verlust.

Statisch

#fundamentals

Etwas, das einmalig statt kontinuierlich erledigt wird. Die Begriffe statisch und offline sind Synonyme. Im Folgenden finden Sie einige gängige Anwendungsfälle für statisch und offline im Bereich des maschinellen Lernens:

Ein statisches Modell (oder Offline-Modell) wird einmal trainiert und dann für eine Weile verwendet.
Statisches Training (oder Offlinetraining) ist der Prozess des Trainings eines statischen Modells.
Statische Inferenzen (oder Offline-Inferenzen) sind ein Prozess, bei dem ein Modell jeweils einen Batch von Vorhersagen generiert.

Im Gegensatz dazu steht dynamisch.

Statische Inferenz

#fundamentals

Synonym für Offlineinferenz.

Stationarität

#fundamentals

Ein Feature, dessen Werte sich über eine oder mehrere Dimensionen hinweg nicht ändern, in der Regel über die Zeit. Ein Feature, dessen Werte 2021 und 2023 ungefähr gleich sind, weist beispielsweise Stationarität auf.

In der Praxis weisen nur sehr wenige Merkmale Stationarität auf. Selbst Merkmale, die für Stabilität stehen (z. B. der Meeresspiegel), ändern sich im Laufe der Zeit.

Im Gegensatz dazu steht die Nicht-Stationarität.

Stochastic Gradient Descent (SGD)

#fundamentals

Ein Gradientenabstieg-Algorithmus, bei dem die Batchgröße 1 ist. Mit anderen Worten: SGD wird anhand eines einzelnen Beispiels trainiert, das gleichmäßig zufällig aus einem Trainingsset ausgewählt wird.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

überwachtes maschinelles Lernen

#fundamentals

Training eines Modells anhand von Features und den entsprechenden Labels. Überwachtes maschinelles Lernen ist vergleichbar mit dem Erlernen eines Themas durch das Bearbeiten einer Reihe von Fragen und der entsprechenden Antworten. Nachdem ein Schüler/Student die Zuordnung zwischen Fragen und Antworten beherrscht, kann er Antworten auf neue (noch nie gesehene) Fragen zum selben Thema geben.

Unüberwachtes maschinelles Lernen

Weitere Informationen finden Sie im Kurs „Einführung in ML“ unter Supervised Learning.

synthetisches Feature

#fundamentals

Ein Feature, das nicht zu den Eingabe-Features gehört, sondern aus einem oder mehreren von ihnen zusammengestellt wird. Es gibt verschiedene Methoden zum Erstellen synthetischer Features, darunter:

Kontinuierliches Feature in Bereichs-Bins aufteilen:
Feature Cross erstellen
Multiplikation (oder Division) eines Featurewerts mit anderen Featurewerten oder mit sich selbst. Wenn a und b beispielsweise Eingabefeatures sind, sind die folgenden Beispiele für synthetische Features:
- ab
- a²
Anwenden einer transzendenten Funktion auf einen Attributwert. Wenn c beispielsweise ein Eingabe-Feature ist, sind die folgenden Beispiele für synthetische Features:
- sin(c)
- ln(c)

Funktionen, die nur durch Normalisieren oder Skalieren erstellt werden, gelten nicht als synthetische Funktionen.

T

Testverlust

#fundamentals

#Messwert

Ein Messwert, der den Verlust eines Modells im Vergleich zum Test-Dataset darstellt. Beim Erstellen eines Modells versuchen Sie in der Regel, den Testverlust zu minimieren. Das liegt daran, dass ein geringer Testverlust ein stärkeres Qualitätssignal ist als ein geringer Trainingsverlust oder ein geringer Validierungsverlust.

Eine große Lücke zwischen Testverlust und Trainings- oder Validierungsverlust deutet manchmal darauf hin, dass Sie die Regularisierungsrate erhöhen müssen.

Training

#fundamentals

Der Prozess, bei dem die idealen Parameter (Gewichtungen und Bias) eines Modells ermittelt werden. Während des Trainings liest ein System Beispiele ein und passt die Parameter nach und nach an. Beim Training wird jedes Beispiel einige Male bis hin zu Milliarden Mal verwendet.

Weitere Informationen finden Sie im Kurs „Einführung in ML“ unter Supervised Learning.

Trainingsverlust

#fundamentals

#Messwert

Ein Messwert, der den Verlust eines Modells während eines bestimmten Trainingsdurchlaufs darstellt. Angenommen, die Verlustfunktion ist Mean Squared Error. Vielleicht beträgt der Trainingsverlust (der mittlere quadratische Fehler) für die 10.Iteration 2,2 und der Trainingsverlust für die 100.Iteration 1,9.

In einer Verlustkurve wird der Trainingsverlust im Verhältnis zur Anzahl der Iterationen dargestellt. Eine Verlustkurve kann folgende Hinweise zum Training geben:

Ein abwärts gerichteter Verlauf deutet darauf hin, dass sich das Modell verbessert.
Ein Aufwärtstrend bedeutet, dass das Modell schlechter wird.
Eine flache Steigung bedeutet, dass das Modell konvergiert ist.

Das folgende etwas idealisierte Verlustkurvenbeispiel zeigt:

Ein steiler Abwärtstrend in den ersten Iterationen, der auf eine schnelle Verbesserung des Modells hindeutet.
Ein allmählich abflachender (aber immer noch abwärts gerichteter) Verlauf bis kurz vor dem Ende des Trainings, was auf eine kontinuierliche Verbesserung des Modells hinweist, wenn auch etwas langsamer als in den ersten Iterationen.
Ein flacher Abfall gegen Ende des Trainings, der auf Konvergenz hindeutet.

Das Diagramm des Trainingsverlusts im Vergleich zu den Iterationen. Diese Verlustkurve beginnt mit einem steilen Abwärtstrend. Die Steigung flacht allmählich ab, bis sie null wird.

Der Trainingsverlust ist zwar wichtig, aber sehen Sie sich auch die Generalisierung an.

Abweichungen zwischen Training und Bereitstellung

#fundamentals

Der Unterschied zwischen der Leistung eines Modells während des Trainings und der Leistung desselben Modells während der Bereitstellung.

Trainings-Dataset

#fundamentals

Die Teilmenge des Datasets, die zum Trainieren eines Modells verwendet wird.

Traditionell werden Beispiele im Dataset in die folgenden drei unterschiedlichen Teilmengen unterteilt:

ein Trainings-Dataset
ein Validierungs-Dataset
ein Test-Dataset

Idealerweise sollte jedes Beispiel im Dataset nur zu einer der oben genannten Teilmengen gehören. Ein einzelnes Beispiel sollte beispielsweise nicht sowohl zum Trainings- als auch zum Validierungs-Dataset gehören.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Datasets: Dividing the original dataset.

richtig negativ (RN)

#fundamentals

#Messwert

Ein Beispiel, in dem das Modell die negative Klasse richtig vorhersagt. Das Modell leitet beispielsweise ab, dass eine bestimmte E‑Mail-Nachricht kein Spam ist, und diese E‑Mail-Nachricht ist tatsächlich kein Spam.

Richtig positiv (TP)

#fundamentals

#Messwert

Ein Beispiel, in dem das Modell die positive Klasse richtig vorhersagt. Das Modell leitet beispielsweise ab, dass eine bestimmte E‑Mail-Nachricht Spam ist, und diese E‑Mail-Nachricht ist tatsächlich Spam.

Rate richtig positiver Ergebnisse (True Positive Rate, TPR)

#fundamentals

#Messwert

Synonym für Rückruf. Das bedeutet:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Die Rate richtig positiver Ergebnisse ist die Y-Achse in einer ROC-Kurve.

U

Unteranpassung

#fundamentals

Ein Modell mit schlechter Vorhersagefähigkeit erstellen, weil das Modell die Komplexität der Trainingsdaten nicht vollständig erfasst hat. Unteranpassung kann viele Ursachen haben, darunter:

Das Training basiert auf den falschen Funktionen.
Das Training wurde für zu wenige Epochen oder mit einer zu niedrigen Lernrate durchgeführt.
Training mit einer zu hohen Regularisierungsrate.
Zu wenige versteckte Ebenen in einem tiefen neuronalen Netzwerk.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Overfitting.

Beispiel ohne Label

#fundamentals

Ein Beispiel, das Merkmale, aber kein Label enthält. In der folgenden Tabelle sind beispielsweise drei nicht gelabelte Beispiele aus einem Modell zur Hausbewertung aufgeführt, die jeweils drei Features, aber keinen Hauswert enthalten:

Anzahl der Schlafzimmer	Anzahl der Badezimmer	Alter des Hauses
3	2	15
2	1	72
4	2	34

Beim überwachten maschinellen Lernen> werden Modelle mit gelabelten Beispielen trainiert und Vorhersagen für nicht gelabelte Beispiele getroffen.

Beim halbüberwachten und unbeaufsichtigten Lernen werden während des Trainings Beispiele ohne Labels verwendet.

Stellen Sie ein Beispiel ohne Label einem Beispiel mit Label gegenüber.

unüberwachtes maschinelles Lernen

#clustering

#fundamentals

Ein Modell wird trainiert, um Muster in einem Dataset zu finden, in der Regel einem Dataset ohne Labels.

Die häufigste Anwendung von unbeaufsichtigtem maschinellem Lernen ist das Clustern von Daten in Gruppen ähnlicher Beispiele. Beispielsweise kann ein unbeaufsichtigter Algorithmus für maschinelles Lernen Songs anhand verschiedener Eigenschaften der Musik gruppieren. Die resultierenden Cluster können als Eingabe für andere Machine-Learning-Algorithmen dienen, z. B. für einen Musikempfehlungsdienst. Clustering kann hilfreich sein, wenn nützliche Labels nur in geringer Anzahl oder gar nicht vorhanden sind. In Bereichen wie Missbrauch und Betrug können Cluster beispielsweise dazu beitragen, dass Menschen die Daten besser verstehen.

Überwachtes maschinelles Lernen

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Ein weiteres Beispiel für unüberwachtes maschinelles Lernen ist die Hauptkomponentenanalyse (PCA). Wenn Sie beispielsweise die Hauptkomponentenanalyse auf einen Datensatz mit dem Inhalt von Millionen von Einkaufswagen anwenden, lässt sich möglicherweise feststellen, dass Einkaufswagen mit Zitronen häufig auch Antazida enthalten.

Weitere Informationen finden Sie im Kurs „Einführung in ML“ unter Was ist maschinelles Lernen?.

V

Validierung

#fundamentals

Die erste Bewertung der Qualität eines Modells. Bei der Validierung wird die Qualität der Vorhersagen eines Modells anhand des Validierungssets überprüft.

Da sich das Validierungs-Dataset vom Trainings-Dataset unterscheidet, kann durch die Validierung Überanpassung vermieden werden.

Die Bewertung des Modells anhand des Validierungssets kann als erste Testrunde betrachtet werden, die Bewertung des Modells anhand des Testsets als zweite Testrunde.

Validierungsverlust

#fundamentals

#Messwert

Eine Messwert, die den Verlust eines Modells im Validierungs-Dataset während eines bestimmten Trainingsdurchlaufs darstellt.

Siehe auch Verallgemeinerungskurve.

Validierungs-Dataset

#fundamentals

Die Teilmenge des Datasets, mit der eine erste Bewertung eines trainierten Modells durchgeführt wird. Normalerweise wird das trainierte Modell mehrmals anhand des Validierungssets bewertet, bevor es anhand des Testsets bewertet wird.

Normalerweise werden die Beispiele im Dataset in die folgenden drei unterschiedlichen Teilmengen unterteilt:

ein Trainings-Dataset
ein Validierungs-Dataset
ein Test-Dataset

Weitere Informationen finden Sie im Machine Learning Crash Course unter Datasets: Dividing the original dataset.

W

Gewicht

#fundamentals

Ein Wert, der von einem Modell mit einem anderen Wert multipliziert wird. Training ist der Prozess, bei dem die idealen Gewichte eines Modells bestimmt werden. Bei der Inferenz werden diese gelernten Gewichte verwendet, um Vorhersagen zu treffen.

Klicken Sie auf das Symbol, um ein Beispiel für Gewichte in einem linearen Modell zu sehen.

Stellen Sie sich ein lineares Modell mit zwei Features vor. Angenommen, beim Training werden die folgenden Gewichte (und Bias) ermittelt:

Der Bias „b“ hat den Wert 2,2.
Die Gewichtung w₁, die einem Feature zugeordnet ist, beträgt 1,5.
Das Gewicht w₂ für das andere Feature ist 0, 4.

Stellen Sie sich nun ein Beispiel mit den folgenden Feature-Werten vor:

Der Wert eines Features, x₁, ist 6.
Der Wert des anderen Merkmals, x₂, ist 10.

Dieses lineare Modell verwendet die folgende Formel, um eine Vorhersage (y') zu generieren:

$$y' = b + w_1x_1 + w_2x_2$$

Die Vorhersage lautet daher:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Wenn eine Gewichtung 0 ist, trägt das entsprechende Feature nicht zum Modell bei. Wenn w₁ beispielsweise 0 ist, ist der Wert von x₁ irrelevant.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression.

gewichtete Summe

#fundamentals

Die Summe aller relevanten Eingabewerte multipliziert mit ihren entsprechenden Gewichten. Angenommen, die relevanten Eingaben bestehen aus Folgendem:

Eingabewert	Gewichtung der Eingabe
2	–1,3
-1	0,6
3	0,4

Die gewichtete Summe ist also:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Eine gewichtete Summe ist das Eingabeargument für eine Aktivierungsfunktion.

Z

Z-Score-Normalisierung

#fundamentals

Eine Skalierungsmethode, bei der ein roher Feature-Wert durch einen Gleitkommawert ersetzt wird, der die Anzahl der Standardabweichungen vom Mittelwert dieses Features darstellt. Nehmen wir als Beispiel ein Feature mit einem Mittelwert von 800 und einer Standardabweichung von 100. In der folgenden Tabelle sehen Sie, wie der Rohwert durch die Z-Score-Normalisierung dem Z-Score zugeordnet wird:

Unverarbeiteter Wert	Z-Transformation
800	0
950	+1,5
575	-2,25

Das Machine-Learning-Modell wird dann anhand der Z-Werte für dieses Merkmal und nicht anhand der Rohwerte trainiert.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Normalisierung.

Glossar zum maschinellen Lernen: ML-Grundlagen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

A

Genauigkeit

Klicken Sie auf das Symbol, um Details zur Genauigkeit und zu Datasets mit ungleichmäßiger Klassenverteilung zu erhalten.

Aktivierungsfunktion

Klicken Sie auf das Symbol, um ein Beispiel zu sehen.

künstliche Intelligenz

AUC (Area Under the ROC Curve, Bereich unter der ROC-Kurve)

Klicken Sie auf das Symbol, um mehr über die Beziehung zwischen AUC und ROC-Kurven zu erfahren.

Klicken Sie auf das Symbol, um eine formellere Definition von AUC zu erhalten.

B

Rückpropagation

Batch

Batchgröße

Bias (Ethik/Fairness)

Bias (Mathematik) oder Bias-Term

Binärklassifizierung

Bucketing

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

C

kategoriale Daten

Klasse

Klassifikationsmodell

Klassifizierungsschwellenwert

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Klassifikator

Dataset mit Klassenungleichgewicht

Clipping

Wahrheitsmatrix

stetiges Feature

Konvergenz

D

DataFrame

Dataset oder Dataset

Deep-Modell

vollbesetztes Feature

Tiefe

diskretes Feature

dynamic

dynamisches Modell

E

Vorzeitiges Beenden

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Einbettungsebene

Epoche

Beispiel

F

falsch negativ (FN)

Falsch positiv (FP)

Rate falsch positiver Ergebnisse (False Positive Rate, FPR)

Feature

Featureverknüpfung

Feature Engineering

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu TensorFlow zu erhalten.

Feature-Set

Featurevektor

Feedbackschleife

G

Generalisierung

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Verallgemeinerungskurve

Gradientenabstieg

Ground Truth

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

H

versteckte Ebene

Hyperparameter

I

unabhängig und identisch verteilt (i.i.d.)

Inferenz

Eingabelayer

Interpretierbarkeit

Iteration

L

L0-Regularisierung

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

L1-Verlust

Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.

L1-Regularisierung

L2-Verlust

Glossar zum maschinellen Lernen: ML-Grundlagen

L₀-Regularisierung

L₁-Verlust

L₁-Regularisierung

L₂-Verlust

L₂-Regularisierung