Glossar zum maschinellen Lernen: ML-Grundlagen

Diese Seite enthält Glossarbegriffe zu ML-Grundlagen. Alle Glossarbegriffe finden Sie hier.

A

Genauigkeit

#fundamentals

Die Anzahl der richtigen Klassifizierungsvorhersagen geteilt durch die Gesamtzahl der Vorhersagen. Das bedeutet:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ein Modell, das 40 richtige und 10 falsche Vorhersagen getroffen hat, hätte beispielsweise eine Genauigkeit von:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Die binäre Klassifizierung gibt spezifische Namen für die verschiedenen Kategorien von richtigen Vorhersagen und falschen Vorhersagen. Die Genauigkeitsformel für die binäre Klassifizierung lautet also wie folgt:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

wobei

Vergleichen Sie die Genauigkeit mit Precision und Recall.

Aktivierungsfunktion

#fundamentals

Eine Funktion, die es neuronalen Netzwerken ermöglicht, nicht lineare (komplexe) Beziehungen zwischen Features und dem Label zu erlernen.

Zu den beliebten Aktivierungsfunktionen gehören:

Die Diagramme von Aktivierungsfunktionen sind nie einzelne gerade Linien. Beispielsweise besteht das Diagramm der ReLU-Aktivierungsfunktion aus zwei geraden Linien:

Ein kartesisches Diagramm aus zwei Linien. Die erste Linie hat einen konstanten y-Wert von 0 und verläuft entlang der x-Achse von -infinity,0 bis 0,-0.
          Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Steigung von +1, sodass sie von 0,0 bis +unendlich,+unendlich verläuft.

Ein Diagramm der Sigmoidaktivierungsfunktion sieht so aus:

Ein zweidimensionales, gebogenes Diagramm mit x-Werten, die sich über den gesamten Bereich erstrecken – unendlich bis +positiv, während y-Werte sich über den Bereich von fast 0 bis fast 1 erstrecken. Wenn x 0 ist, ist y 0,5. Die Steigung der Kurve ist immer positiv.Die höchste Steigung liegt bei 0,0,5 und die allmählich abnehmenden Steigungen, wenn der absolute Wert von x zunimmt.

künstliche Intelligenz

#fundamentals

Ein nicht menschliches Programm oder model, das anspruchsvolle Aufgaben lösen kann Zum Beispiel sind Programme oder Modelle, die Text übersetzen, oder Programme oder Modelle, die Krankheiten auf radiologischen Bildern erkennen, beide künstliche Intelligenz.

Formell ist maschinelles Lernen ein Teilgebiet der künstlichen Intelligenz. In den letzten Jahren haben einige Organisationen jedoch damit begonnen, die Begriffe künstliche Intelligenz und maschinelles Lernen synonym zu verwenden.

AUC (Bereich unter der ROC-Kurve)

#fundamentals

Eine Zahl zwischen 0,0 und 1,0, die die Fähigkeit eines binären Klassifizierungsmodells darstellt, positive Klassen von negativen Klassen zu trennen. Je näher der AUC an 1,0 liegt, desto besser kann das Modell Klassen voneinander trennen.

Die folgende Abbildung zeigt beispielsweise ein Klassifikatormodell, das positive Klassen (grüne Ovale) von negativen Klassen (lila Rechtecke) perfekt trennt. Dieses unrealistisch perfekte Modell hat einen AUC von 1,0:

Eine Zahlenzeile mit 8 positiven Beispielen auf der einen und 9 negativen Beispielen auf der anderen Seite.

Umgekehrt zeigt die folgende Abbildung die Ergebnisse für ein Klassifikatormodell, das zufällige Ergebnisse generiert hat. Dieses Modell hat einen AUC von 0,5:

Eine Zahlenzeile mit 6 positiven und 6 negativen Beispielen.
          Die Reihenfolge der Beispiele ist positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv negativ, positiv, negativ.

Ja, das vorherige Modell hat einen AUC von 0,5, nicht 0,0.

Die meisten Modelle befinden sich irgendwo zwischen den beiden Extremen. Das folgende Modell trennt beispielsweise Positive von Negativen etwas und hat daher einen AUC zwischen 0, 5 und 1, 0:

Eine Zahlenzeile mit 6 positiven und 6 negativen Beispielen.
          Die Abfolge der Beispiele ist negativ, negativ, negativ, negativ, positiv, negativ, positiv, positiv, negativ, positiv, positiv, positiv.

AUC ignoriert jeden Wert, den Sie für den Klassifizierungsschwellenwert festgelegt haben. Stattdessen berücksichtigt die AUC alle möglichen Klassifizierungsschwellenwerte.

B

Backpropagation

#fundamentals

Der Algorithmus, der den Gradientenabstieg in neuronalen Netzwerken implementiert.

Das Training eines neuronalen Netzwerks umfasst viele Iterationen des folgenden Zyklus mit zwei Durchgängen:

  1. Während des Vorwärtsdurchlaufs verarbeitet das System einen Batch von Beispielen, um Vorhersagen zu erhalten. Das System vergleicht jede Vorhersage mit jedem label-Wert. Die Differenz zwischen der Vorhersage und dem Labelwert ist der Verlust für dieses Beispiel. Das System aggregiert die Verluste für alle Beispiele, um den Gesamtverlust für den aktuellen Batch zu berechnen.
  2. Während der Rückpropagierung reduziert das System den Verlust, da die Gewichtung aller Neuronen in allen verborgenen Schichten angepasst wird.

Neuronale Netzwerke enthalten oft viele Neuronen auf vielen versteckten Schichten. Jedes dieser Neuronen trägt auf unterschiedliche Weise zum Gesamtverlust bei. Rückpropagierung bestimmt, ob die auf bestimmte Neuronen angewendeten Gewichtungen erhöht oder verringert werden sollen.

Die Lernrate ist ein Multiplikator, der steuert, wie stark jeder Rückwärtsdurchlauf jede Gewichtung erhöht oder verringert. Eine große Lernrate erhöht oder verringert jede Gewichtung stärker als eine kleine Lernrate.

In der Kalkulation wird bei der Rückpropagierung die Kettenregel von Kalkulus implementiert. Das heißt, die Rückpropagierung berechnet die teilweise Ableitung des Fehlers in Bezug auf jeden Parameter. Weitere Informationen finden Sie in dieser Anleitung im Absturzkurs für maschinelles Lernen.

Vor Jahren mussten ML-Fachleute Code schreiben, um Backpropagation zu implementieren. Moderne ML-APIs wie TensorFlow implementieren jetzt die Rückpropagierung für Sie. Geschafft!

Batch

#fundamentals

Die Beispiele, die in einer Trainingsiteration verwendet werden. Die Batchgröße bestimmt die Anzahl der Beispiele in einem Batch.

Eine Erläuterung dazu, wie ein Batch zu einer Epoche gehört, finden Sie unter Epoche.

Batchgröße

#fundamentals

Die Anzahl der Beispiele in einem Batch. Wenn die Batchgröße beispielsweise 100 beträgt, verarbeitet das Modell 100 Beispiele pro Iteration.

Gängige Strategien für die Batchgröße:

  • Stochastic Gradient Descent (SGD), bei dem die Batchgröße 1 ist.
  • Vollständiger Batch, bei dem die Batchgröße der Anzahl der Beispiele im gesamten Trainingssatz entspricht. Wenn das Trainings-Dataset beispielsweise eine Million Beispiele enthält, beträgt die Batchgröße eine Million Beispiele. Ein vollständiger Batch ist in der Regel eine ineffiziente Strategie.
  • Minibatch, bei dem die Batchgröße normalerweise zwischen 10 und 1.000 liegt. Mini-Batch ist in der Regel die effizienteste Strategie.

Voreingenommenheit (Ethik/Fairness)

#fairness
#fundamentals

1. Stereotype, Vorurteile oder Bevorzugung bestimmter Dinge, Menschen oder Gruppen gegenüber anderen. Diese Verzerrungen können sich auf die Erfassung und Interpretation von Daten, das Design eines Systems und die Interaktion von Nutzern mit einem System auswirken. Zu den Formen dieser Art von Verzerrung gehören:

2. Systematischer Fehler, der durch die Stichproben- oder Berichterstellung verursacht wird. Zu den Formen dieser Art von Verzerrung gehören:

Nicht zu verwechseln mit dem Begriff Verzerrung in Modellen für maschinelles Lernen oder Vorhersageverzerrung.

Bias (Mathematik) oder Bias-Begriff

#fundamentals

Ein Achsenabschnitt oder Offset von einem Ursprung. Die Verzerrung ist ein Parameter in Modellen für maschinelles Lernen, der durch einen der folgenden Parameter symbolisiert wird:

  • b
  • W0

Verzerrungen sind beispielsweise b in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In einer einfachen zweidimensionalen Linie bedeutet Verzerrung lediglich einen y-Achsenabschnitt. Die Verzerrung der Linie in der folgenden Abbildung beträgt beispielsweise 2.

Diagramm einer Linie mit einer Steigung von 0,5 und einer Verzerrung (y-Achsenabschnitt) von 2.

Es liegt eine Verzerrung vor, da nicht alle Modelle am Ursprung (0,0) beginnen. Angenommen, ein Freizeitpark kostet 2 € und zusätzlich 0,5 € pro Stunde. Daher hat ein Modell, das die Gesamtkosten darstellt, eine Verzerrung von 2, da die niedrigsten Kosten 2 € betragen.

Verzerrungen sind nicht zu verwechseln mit Voreingenommenheit in Ethik und Fairness oder Vorhersageverzerrung.

Binäre Klassifizierung

#fundamentals

Eine Art von Klassifizierungsaufgabe, die eine von zwei sich gegenseitig ausschließende Klassen vorhersagt:

Die folgenden beiden Modelle für maschinelles Lernen führen eine binäre Klassifizierung durch:

  • Ein Modell, das bestimmt, ob E-Mail-Nachrichten Spam (positive Klasse) oder kein Spam (negative Klasse) sind.
  • Ein Modell, das medizinische Symptome bewertet, um festzustellen, ob eine Person eine bestimmte Krankheit (positive Klasse) oder diese Krankheit (negative Klasse) hat.

Die Klassifizierung mehrerer Klassen bietet einen Kontrast.

Weitere Informationen finden Sie unter Logistische Regression und Klassifizierungsschwellenwert.

Bucketing

#fundamentals

Konvertieren eines einzelnen Features in mehrere binäre Merkmale, die als Buckets oder bins bezeichnet werden und in der Regel auf einem Wertebereich basieren Das Chopped-Feature ist in der Regel ein kontinuierliches Feature.

Anstatt die Temperatur beispielsweise als einzelne kontinuierliche Gleitkommafunktion darzustellen, können Sie Temperaturbereiche in separate Buckets zerteilen, z. B.:

  • <= 10 Grad Celsius wäre der „kalte“ Eimer.
  • 11 bis 24 Grad Celsius werden in diesem Fall in der Kategorie „Temperiert“ angezeigt.
  • >= 25 Grad Celsius wäre der „warme“ Eimer.

Das Modell behandelt jeden Wert in einem Bucket identisch. Beispielsweise befinden sich die Werte 13 und 22 beide im gemäßigten Bucket, sodass das Modell die beiden Werte identisch behandelt.

C

Kategoriale Daten

#fundamentals

Features mit einem bestimmten Satz möglicher Werte Betrachten Sie beispielsweise ein kategoriales Feature namens traffic-light-state, das nur einen der folgenden drei möglichen Werte haben kann:

  • red
  • yellow
  • green

Durch die Darstellung von traffic-light-state als kategoriales Feature kann ein Modell die unterschiedlichen Auswirkungen von red, green und yellow auf das Treiberverhalten lernen.

Kategoriale Merkmale werden manchmal als diskrete Features bezeichnet.

Im Gegensatz zu numerischen Daten

Klasse

#fundamentals

Eine Kategorie, zu der ein Label gehören kann. Beispiel:

Ein Klassifizierungsmodell sagt eine Klasse vorher. Im Gegensatz dazu sagt ein Regressionsmodell eine Zahl statt einer Klasse vorher.

Klassifizierungsmodell

#fundamentals

Ein model, dessen Vorhersage eine model ist. Im Folgenden finden Sie beispielsweise alle Klassifizierungsmodelle:

  • Ein Modell, das die Sprache eines Eingabesatzes vorhersagt (Französisch? Spanisch? Italienisch?).
  • Ein Modell, das Baumarten vorhersagt (Maple? Oak? Baobab?).
  • Ein Modell, das die positive oder negative Klasse für eine bestimmte medizinische Erkrankung vorhersagt.

Im Gegensatz dazu sagen Regressionsmodelle Zahlen statt Klassen vorherzusagen.

Zwei gängige Arten von Klassifizierungsmodellen sind:

Klassifizierungsschwellenwert

#fundamentals

In einer binären Klassifizierung eine Zahl zwischen 0 und 1, die die Rohausgabe eines logistischen Regressionsmodells in eine Vorhersage entweder der positiven Klasse oder der negativen Klasse umwandelt. Beachten Sie, dass der Klassifizierungsschwellenwert ein Wert ist, den ein Mensch auswählt, und kein Wert, der durch das Modelltraining ausgewählt wird.

Ein logistisches Regressionsmodell gibt einen Rohwert zwischen 0 und 1 aus. Dann:

  • Wenn dieser Rohwert größer als der Klassifizierungsschwellenwert ist, wird die positive Klasse vorhergesagt.
  • Wenn dieser Rohwert kleiner als der Klassifizierungsschwellenwert ist, wird die negative Klasse vorhergesagt.

Angenommen, der Klassifizierungsschwellenwert beträgt 0,8. Wenn der Rohwert 0,9 ist, sagt das Modell die positive Klasse vorher. Wenn der Rohwert 0,7 ist, sagt das Modell die negative Klasse vorher.

Der ausgewählte Klassifizierungsschwellenwert beeinflusst die Anzahl der falsch positiven und falsch negativen stark.

Dataset mit unausgeglichener Klasse

#fundamentals

Ein Dataset für ein Klassifizierungsproblem, bei dem die Gesamtzahl der Labels jeder Klasse erheblich unterschiedlich ist. Betrachten Sie beispielsweise ein binäres Klassifizierungs-Dataset, dessen zwei Labels so unterteilt sind:

  • 1.000.000 auszuschließende Labels
  • 10 positive Labels

Das Verhältnis von negativen zu positiven Labels beträgt 100.000 zu 1. Dies ist also ein Dataset mit unausgeglichener Klasse.

Im Gegensatz dazu ist das folgende Dataset nicht unausgeglichen, da das Verhältnis von negativen Labels zu positiven Labels relativ nahe bei 1 liegt:

  • 517 auszuschließende Labels
  • 483 positive Labels

Datasets mit mehreren Klassen können auch unausgeglichen sein. Das folgende Klassifizierungs-Dataset mit mehreren Klassen ist beispielsweise ebenfalls unausgeglichen, da ein Label weit mehr Beispiele enthält als die anderen beiden:

  • 1.000.000 Labels der Klasse „green“
  • 200 Labels mit der Klasse "Lila"
  • 350 Labels mit der Klasse „orange“

Weitere Informationen finden Sie unter Entropie, Mehrheitsklasse und Minderheitenklasse.

Clipping

#fundamentals

Verfahren zum Umgang mit Ausreißern durch eine oder beide der folgenden Schritte:

  • Die feature-Werte, die über einem maximalen Schwellenwert liegen, werden auf diesen maximalen Schwellenwert reduziert.
  • Featurewerte, die unter einem Mindestgrenzwert liegen, werden bis zu diesem Mindestgrenzwert erhöht.

Angenommen, <0,5% der Werte für ein bestimmtes Feature liegen außerhalb des Bereichs von 40–60. In diesem Fall könnten Sie Folgendes tun:

  • Begrenzt alle Werte über 60 (maximale Schwelle) so, dass sie genau 60 sind.
  • Beschneiden Sie alle Werte unter 40 (dem Mindestgrenzwert) so, dass sie genau 40 sind.

Ausreißer können Modelle beschädigen und zu einem Überlauf von Gewichten während des Trainings führen. Einige Ausreißer können Messwerte wie die Genauigkeit drastisch beeinträchtigen. Clipping ist eine gängige Technik, um den Schaden zu begrenzen.

Die Farbverlauf-Clipping-Funktion erzwingt während des Trainings Gradientenwerte innerhalb eines bestimmten Bereichs.

Wahrheitsmatrix

#fundamentals

Eine NxN-Tabelle, in der die Anzahl der richtigen und falschen Vorhersagen eines Klassifizierungsmodells zusammengefasst wird. Betrachten Sie beispielsweise die folgende Wahrheitsmatrix für ein binäres Klassifizierungsmodell:

Tumor (prognostiziert) Ohne Tumor (prognostiziert)
Tumor (Ground Truth) 18 (TP) 1 (FN)
Non-Tumor (Ground Truth) 6 (FP) 452 (TN)

Die obige Wahrheitsmatrix zeigt Folgendes:

  • Von den 19 Vorhersagen, bei denen Ground Truth Tumor war, hat das Modell 18 richtig klassifiziert und 1 falsch klassifiziert.
  • Von den 458 Vorhersagen, bei denen Ground Truth „Nicht-Tumor“ war, hat das Modell 452 richtig klassifiziert und 6 falsch klassifiziert.

Die Wahrheitsmatrix für ein Klassifizierungsproblem mit mehreren Klassen kann Ihnen helfen, Fehlermuster zu identifizieren. Betrachten Sie beispielsweise die folgende Wahrheitsmatrix für ein dreiklassiges Klassifizierungsmodell mit mehreren Klassen, das drei verschiedene Iris-Typen kategorisiert (Virginica, Versicolor und Setosa). Als Ground Truth war Virginica, zeigt die Wahrheitsmatrix, dass das Modell viel eher fälschlicherweise Versicolor vorhersagte als Setosa:

  Setosa (prognostiziert) Versicolor (vorhergesagt) Virginica (prognostiziert)
Setosa (Ground Truth) 88 12 0
Versicolor (Ground Truth) 6 141 7
Virginica (Ground Truth) 2 27 109

Als weiteres Beispiel könnte eine Wahrheitsmatrix zeigen, dass ein Modell, das für die Erkennung handschriftlicher Ziffern trainiert wurde, tendenziell fälschlicherweise 9 statt 4 oder fälschlicherweise 1 statt 7 vorhersagen.

Wahrheitsmatrizen enthalten genügend Informationen, um verschiedene Leistungsmesswerte wie Precision und Recall zu berechnen.

stetiges Feature

#fundamentals

Ein Gleitkomma mit einem unendlichen Bereich möglicher Werte, z. B. Temperatur oder Gewicht.

Kontrast mit diskreten Funktionen erstellen

Konvergenz

#fundamentals

Ein Zustand, der erreicht wird, wenn sich die loss-Werte bei jeder Iteration nur sehr wenig oder überhaupt nicht ändern. Die folgende Verlustkurve deutet beispielsweise auf eine Konvergenz bei etwa 700 Iterationen hin:

kartesisches Diagramm. Die X-Achse steht für den Verlust. Die Y-Achse ist die Anzahl der Trainingsdurchläufe. Der Verlust ist in den ersten Iterationen sehr hoch, fällt aber stark ab. Nach etwa 100 Durchläufen nimmt der Verlust zwar immer noch ab, aber viel mehr. Nach etwa 700 Iterationen bleibt der Verlust unverändert.

Ein Modell konvergiert, wenn zusätzliches Training das Modell nicht verbessert.

Bei Deep Learning bleiben Verlustwerte manchmal für viele Iterationen konstant oder fast so weit, bevor sie schließlich absteigen. Während eines langen Zeitraums konstanter Verlustwerte kann es vorkommen, dass Sie vorübergehend ein falsches Gefühl der Konvergenz bekommen.

Weitere Informationen finden Sie unter Vorzeitiges Beenden.

D

DataFrame

#fundamentals

Ein beliebter Pandas-Datentyp zur Darstellung von Datasets im Arbeitsspeicher.

Ein DataFrame ist analog zu einer Tabelle oder einer Tabellenkalkulation. Jede Spalte eines DataFrames hat einen Namen (eine Überschrift) und jede Zeile ist durch eine eindeutige Zahl gekennzeichnet.

Jede Spalte in einem DataFrame ist wie ein 2D-Array strukturiert. Allerdings kann jeder Spalte ein eigener Datentyp zugewiesen werden.

Weitere Informationen finden Sie auf der offiziellen Referenzseite zu pandas.DataFrame.

Dataset oder Dataset

#fundamentals

Eine Sammlung von Rohdaten, die in der Regel (aber nicht ausschließlich) in einem der folgenden Formate organisiert ist:

  • eine Tabellenkalkulation
  • eine Datei im CSV-Format (comma-separated values, kommagetrennte Werte)

Deep-Modell

#fundamentals

Ein neuronales Netzwerk mit mehr als einer ausgeblendeten Ebene.

Ein tiefes Modell wird auch als neuronales Deep-Learning-Netzwerk bezeichnet.

Kontrast mit breitem Modell festlegen.

vollbesetztes Feature

#fundamentals

Ein Feature, bei dem die meisten oder alle Werte ungleich null sind, in der Regel ein Tensor aus Gleitkommawerten. Der folgende Tensor mit 10 Elementen ist beispielsweise dicht, da 9 seiner Werte ungleich null sind:

8 3 7 5 2 4 0 4 9 6

Kontrast mit Sparse-Feature erstellen

depth

#fundamentals

Summe aus folgenden Werten in einem neuronalen Netzwerk:

Ein neuronales Netzwerk mit fünf verborgenen Ebenen und einer Ausgabeebene hat beispielsweise eine Tiefe von 6.

Beachten Sie, dass die Eingabeebene keinen Einfluss auf die Tiefe hat.

diskretes Feature

#fundamentals

Ein Feature mit einer endlichen Reihe möglicher Werte. Beispielsweise ist ein Merkmal, dessen Werte nur animal, Gemüse oder mineral lauten können, ein diskretes (oder kategorisches) Merkmal.

Die Funktion Kontinuierliche Funktion bietet Kontraste.

dynamic

#fundamentals

Etwas, das häufig oder kontinuierlich ausgeführt wird. Die Begriffe dynamisch und online sind beim maschinellen Lernen Synonyme. Im Folgenden werden häufig dynamische und Onlinefunktionen im maschinellen Lernen verwendet:

  • Ein dynamisches Modell (oder Online-Modell) ist ein Modell, das häufig oder kontinuierlich neu trainiert wird.
  • Dynamisches Training (oder Online-Training) ist ein Prozess, bei dem das Training häufig oder kontinuierlich ausgeführt wird.
  • Dynamische Inferenz (oder Online-Inferenz) ist der Prozess, bei dem Vorhersagen bei Bedarf generiert werden.

Dynamisches Modell

#fundamentals

Ein model, das häufig (oder sogar kontinuierlich) neu trainiert wird. Ein dynamisches Modell ist ein „lebenslanger Lerner“, der sich ständig an sich verändernde Daten anpasst. Ein dynamisches Modell wird auch als Online-Modell bezeichnet.

Kontrast mit statischem Modell

E

vorzeitiges Beenden

#fundamentals

Eine Methode für die Regularisierung, bei der das Training beendet wird, bevor der Trainingsverlust reduziert wird. Beim vorzeitigen Beenden wird das Training des Modells absichtlich beendet, wenn der Verlust für ein Validierungs-Dataset zunimmt, d. h. wenn sich die Leistung der Generalisierung verschlechtert.

Einbettungsebene

#language
#fundamentals

Eine spezielle verborgene Ebene, die mit einem hochdimensionalen kategorialen Feature trainiert, um schrittweise einen Einbettungsvektor mit niedrigeren Dimensionen zu lernen. Mit einer Einbettungsebene kann ein neuronales Netzwerk wesentlich effizienter trainieren als nur mit dem hochdimensionalen kategorialen Merkmal.

Zum Beispiel unterstützt Google Earth derzeit etwa 73.000 Baumarten. Angenommen, Baumarten sind ein Element in Ihrem Modell,sodass die Eingabeebene Ihres Modells einen One-Hot-Vektor mit 73.000 Elementen enthält. baobab wird beispielsweise so dargestellt:

Ein Array mit 73.000 Elementen. Die ersten 6.232 Elemente enthalten den Wert 0. Das nächste Element enthält den Wert 1. Die letzten 66.767 Elemente enthalten den Wert null.

Ein Array mit 73.000 Elementen ist sehr lang. Wenn Sie dem Modell keine Einbettungsebene hinzufügen, wird das Training aufgrund der Multiplikation von 72.999 Nullen sehr zeitaufwendig. Sie könnten die Einbettungsebene aus 12 Dimensionen auswählen. Folglich lernt die Einbettungsebene nach und nach einen neuen Einbettungsvektor für jede Baumart.

In bestimmten Situationen ist Hashing eine sinnvolle Alternative zu einer Einbettungsebene.

Epoche

#fundamentals

Ein vollständiger Trainingsdurchlauf für den gesamten Trainingssatz, sodass jedes Beispiel einmal verarbeitet wurde.

Eine Epoche stellt die Trainings-Iterationen N/Batchgröße dar, wobei N die Gesamtzahl der Beispiele ist.

Nehmen wir beispielsweise Folgendes an:

  • Das Dataset besteht aus 1.000 Beispielen.
  • Die Batchgröße beträgt 50 Beispiele.

Daher sind für eine einzelne Epoche 20 Iterationen erforderlich:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Beispiel

#fundamentals

Die Werte einer Zeile mit Features und möglicherweise einem Label. Beispiele für das beaufsichtigte Lernen lassen sich in zwei allgemeine Kategorien unterteilen:

  • Ein Beispiel mit Label besteht aus einem oder mehreren Elementen und einem Label. Beispiele mit Labels werden während des Trainings verwendet.
  • Ein Beispiel ohne Label besteht aus einem oder mehreren Features, aber ohne Label. Beispiele ohne Label werden während der Inferenz verwendet.

Angenommen, Sie trainieren ein Modell, um den Einfluss von Wetterbedingungen auf die Prüfungsergebnisse von Studenten zu ermitteln. Hier sind drei Beispiele mit Labels:

Features Label
Temperatur Luftfeuchtigkeit Luftdruck Prüfungsergebnis
15 47 998 Gut
19 34 1020 Großartig
18 92 1012 Schlecht

Hier sind drei Beispiele ohne Label:

Temperatur Luftfeuchtigkeit Luftdruck  
12 62 1014  
21 47 1017  
19 41 1021  

Die Zeile eines Datasets ist in der Regel die Rohquelle für ein Beispiel. Das heißt, ein Beispiel besteht in der Regel aus einer Teilmenge der Spalten im Dataset. Darüber hinaus können die Features in einem Beispiel auch synthetische Features wie Feature-Crosses umfassen.

F

Falsch-negativ (FN)

#fundamentals

Ein Beispiel, bei dem das Modell versehentlich die negative Klasse vorhersagt. Das Modell sagt beispielsweise voraus, dass eine bestimmte E-Mail-Nachricht kein Spam ist (die negative Klasse), aber diese E-Mail-Nachricht tatsächlich Spam ist.

Falsch positives Ergebnis (FP)

#fundamentals

Ein Beispiel, bei dem das Modell fälschlicherweise die positive Klasse vorhersagt. Das Modell sagt beispielsweise voraus, dass eine bestimmte E-Mail-Nachricht Spam (die positive Klasse) ist, diese E-Mail-Nachricht jedoch tatsächlich kein Spam ist.

Falsch-Positiv-Rate (FPR)

#fundamentals

Der Anteil tatsächlich negativer Beispiele, für die das Modell versehentlich die positive Klasse vorhergesagt hat. Die folgende Formel berechnet die falsch positive Rate:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Die Rate der falsch positiven Ergebnisse wird auf der x-Achse einer ROC-Kurve dargestellt.

Feature

#fundamentals

Eine Eingabevariable für ein Modell für maschinelles Lernen. Ein Beispiel besteht aus einem oder mehreren Features. Angenommen, Sie trainieren ein Modell, um den Einfluss von Wetterbedingungen auf die Prüfungsergebnisse von Studenten zu ermitteln. Die folgende Tabelle zeigt drei Beispiele, die jeweils drei Merkmale und ein Label enthalten:

Features Label
Temperatur Luftfeuchtigkeit Luftdruck Prüfungsergebnis
15 47 998 92
19 34 1020 84
18 92 1012 87

Stellen Sie einen Kontrast mit label her.

Featureverknüpfung

#fundamentals

Ein synthetisches Feature, das durch „Kreuzen“ von kategorialen oder Bucket-Features gebildet wird.

Stellen Sie sich beispielsweise ein Modell für Stimmungsprognosen vor, das die Temperatur in einem der folgenden vier Buckets darstellt:

  • freezing
  • chilly
  • temperate
  • warm

Und steht für die Windgeschwindigkeit in einem der folgenden drei Gruppen:

  • still
  • light
  • windy

Ohne Featureverknüpfungen wird das lineare Modell unabhängig auf jedem der vorherigen sieben Buckets trainiert. Das Modell wird also beispielsweise unabhängig vom Training mit freezing trainiert, z. B. mit windy.

Alternativ könnten Sie eine Feature-Kreuzung von Temperatur und Windgeschwindigkeit erstellen. Dieses synthetische Feature hätte die folgenden zwölf möglichen Werte:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dank der Featureverknüpfungen kann das Modell Stimmungsunterschiede zwischen einem freezing-windy-Tag und einem freezing-still-Tag erlernen.

Wenn Sie ein synthetisches Feature aus zwei Merkmalen erstellen, die jeweils viele verschiedene Buckets haben, ergeben sich für die resultierende Funktionsverknüpfung eine enorme Anzahl möglicher Kombinationen. Wenn ein Feature beispielsweise 1.000 Buckets und das andere 2.000 Buckets hat, ergeben sich für die Funktionsverknüpfung 2.000.000 Buckets.

Formell ist ein Kreuz ein kartesisches Produkt.

Feature Crosses werden meist mit linearen Modellen und selten mit neuronalen Netzwerken verwendet.

Feature Engineering

#fundamentals
#TensorFlow

Ein Prozess, der die folgenden Schritte umfasst:

  1. Bestimmen, welche Features für das Training eines Modells nützlich sein könnten
  2. Rohdaten aus dem Dataset in effiziente Versionen dieser Features konvertieren.

Sie könnten beispielsweise festlegen, dass temperature ein nützliches Feature ist. Anschließend können Sie mit Bucketing experimentieren, um zu optimieren, was das Modell aus verschiedenen temperature-Bereichen lernen kann.

Feature Engineering wird manchmal als Feature-Extraktion bezeichnet.

Feature-Set

#fundamentals

Die Gruppe der Features, mit der Ihr Modell für maschinelles Lernen trainiert wird. Beispielsweise können die Postleitzahl, die Größe der Unterkunft und der Immobilienzustand einen einfachen Featuresatz für ein Modell umfassen, das Immobilienpreise vorhersagt.

Featurevektor

#fundamentals

Das Array der feature-Werte, das ein Beispiel umfasst. Der Featurevektor wird während des Trainings und während der Inferenz eingegeben. Der Featurevektor für ein Modell mit zwei diskreten Merkmalen könnte beispielsweise so aussehen:

[0.92, 0.56]

Vier Ebenen: eine Eingabeebene, zwei versteckte Ebenen und eine Ausgabeebene
          Die Eingabeebene enthält zwei Knoten, einer mit dem Wert 0,92 und der andere mit dem Wert 0,56.

Jedes Beispiel stellt unterschiedliche Werte für den Featurevektor bereit, sodass der Featurevektor für das nächste Beispiel in etwa so aussehen könnte:

[0.73, 0.49]

Feature Engineering bestimmt, wie Features im Featurevektor dargestellt werden. Ein binäres kategoriales Feature mit fünf möglichen Werten kann beispielsweise mit One-Hot-Codierung dargestellt werden. In diesem Fall würde der Teil des Merkmalsvektors für ein bestimmtes Beispiel aus vier Nullen und einer einzelnen 1,0 an dritter Position bestehen:

[0.0, 0.0, 1.0, 0.0, 0.0]

Ein weiteres Beispiel: Ihr Modell besteht aus drei Merkmalen:

  • ein binäres kategoriales Feature mit fünf möglichen Werten, dargestellt mit One-Hot-Codierung. Beispiel: [0.0, 1.0, 0.0, 0.0, 0.0]
  • ein weiteres binäres kategoriales Feature mit drei möglichen Werten, die mit One-Hot-Codierung dargestellt werden. Beispiel: [0.0, 0.0, 1.0]
  • Ein Gleitkommafeature. Beispiel: 8.3.

In diesem Fall würde der Featurevektor für jedes Beispiel durch nine-Werte dargestellt werden. Bei den Beispielwerten in der vorherigen Liste würde der Featurevektor so aussehen:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Feedback Loop

#fundamentals

Beim maschinellen Lernen eine Situation, in der die Vorhersagen eines Modells die Trainingsdaten für dasselbe oder ein anderes Modell beeinflussen. Beispielsweise beeinflusst ein Modell, das Filme empfiehlt, die angezeigten Filme, was auch nachfolgende Filmempfehlungsmodelle beeinflusst.

G

Generalisierung

#fundamentals

Die Fähigkeit eines Modells, korrekte Vorhersagen für neue, zuvor nicht gesehene Daten zu treffen. Ein Modell, das verallgemeinern kann, ist das Gegenteil eines Modells mit Überanpassung.

Generalisierungskurve

#fundamentals

Diagramm des Trainingsverlusts und des Validierungsverlusts als Funktion der Anzahl der Iterationen.

Mit einer Generalisierungskurve können Sie eine mögliche Überanpassung erkennen. Die folgende Generalisierungskurve deutet beispielsweise auf eine Überanpassung hin, da der Validierungsverlust letztendlich deutlich höher ist als der Trainingsverlust.

Eine kartesische Grafik, in der die Y-Achse mit „Verlust“ und die X-Achse mit „Iterationen“ bezeichnet ist. Es werden zwei Diagramme angezeigt. Ein Diagramm zeigt den Trainingsverlust und das andere den Validierungsverlust.
          Die beiden Diagramme beginnen ähnlich, aber der Trainingsverlust sinkt letztendlich viel niedriger als der Validierungsverlust.

Gradientenabstieg

#fundamentals

Eine mathematische Technik zur Minimierung von Verlust. Beim iterativen Gradientenabstieg werden Gewichtungen und Verzerrungen schrittweise angepasst und nach und nach die beste Kombination ermittelt, um den Verlust zu minimieren.

Der Gradientenverlauf ist älter – viel, viel älter – als maschinelles Lernen.

Ground Truth

#fundamentals

Realität.

Das ist tatsächlich passiert.

Stellen Sie sich beispielsweise ein binäres Klassifizierungsmodell vor, das vorhersagt, ob ein Student im ersten Universitätsjahr innerhalb von sechs Jahren seinen Abschluss machen wird. Die Ground Truth für dieses Modell ist, ob der Student den Abschluss innerhalb von sechs Jahren gemacht hat.

H

versteckte Ebene

#fundamentals

Eine Ebene in einem neuronalen Netzwerk zwischen der Eingabeebene (den Features) und der Ausgabeebene (der Vorhersage). Jede verborgene Ebene besteht aus einem oder mehreren Neuronen. Das folgende neuronale Netzwerk enthält beispielsweise zwei verborgene Schichten, die erste mit drei Neuronen und die zweite mit zwei Neuronen:

Vier Ebenen. Die erste Ebene ist eine Eingabeebene mit zwei Elementen. Die zweite Schicht ist eine versteckte Schicht mit drei Neuronen. Die dritte Schicht ist eine versteckte Schicht mit zwei Neuronen. Die vierte Ebene ist eine Ausgabeebene. Jedes Merkmal hat drei Kanten, die jeweils auf ein anderes Neuron in der zweiten Schicht verweisen. Jedes Neuron der zweiten Schicht hat zwei Kanten, die jeweils auf ein anderes Neuron in der dritten Schicht verweisen. Jedes Neuron der dritten Schicht hat eine Kante, die jeweils auf die Ausgabeschicht verweist.

Ein neuronales Deep-Learning-Netzwerk enthält mehr als eine versteckte Ebene. Die obige Abbildung ist beispielsweise ein neuronales Deep-Learning-Netzwerk, da das Modell zwei verborgene Ebenen enthält.

Hyperparameter

#fundamentals

Die Variablen, die von Ihnen oder einem Hyperparameter-Abstimmungsdienstwährend aufeinanderfolgender Trainingsläufe eines Modells angepasst werden. Beispielsweise ist die Lernrate ein Hyperparameter. Sie könnten die Lernrate vor einer Trainingssitzung auf 0,01 setzen. Wenn Sie feststellen, dass 0,01 zu hoch ist, könnten Sie die Lernrate für die nächste Trainingssitzung auf 0,003 setzen.

Im Gegensatz dazu sind Parameter die verschiedenen Gewichtungen und Verzerrungen, die das Modell während des Trainings lernt.

I

unabhängig und identisch verteilt (i.i.d)

#fundamentals

Daten aus einer Verteilung, die sich nicht ändert und bei der jeder gezeichnete Wert nicht von zuvor gezeichneten Werten abhängt. Ein i.d.D. ist das ideale Gas des maschinellen Lernens – ein nützliches mathematisches Konstrukt, das in der realen Welt aber so gut wie nie genau zu finden ist. Zum Beispiel kann die Verteilung der Besucher einer Webseite in einem kurzen Zeitfenster i.d.R. sein, d. h., die Verteilung ändert sich in diesem kurzen Zeitraum nicht und der Besuch einer Person ist im Allgemeinen unabhängig vom Besuch einer anderen Person. Wenn Sie dieses Zeitfenster jedoch verlängern, können saisonale Unterschiede bei den Besuchern der Webseite auftreten.

Weitere Informationen finden Sie unter Nichtstationarität.

Inferenz

#fundamentals

Beim maschinellen Lernen der Prozess, bei dem Vorhersagen getroffen werden, indem ein trainiertes Modell auf Beispiele ohne Label angewendet wird.

Inferenz hat in der Statistik eine etwas andere Bedeutung. Weitere Informationen finden Sie im Wikipedia-Artikel zur statistischen Inferenz.

Eingabeebene

#fundamentals

Die Ebene eines neuronalen Netzwerks, das den Featurevektor enthält. Das heißt, die Eingabeebene enthält Beispiele für Training oder Inferenz. Die Eingabeebene im folgenden neuronalen Netzwerk besteht beispielsweise aus zwei Merkmalen:

Vier Ebenen: eine Eingabeebene, zwei versteckte Ebenen und eine Ausgabeebene

Interpretierbarkeit

#fundamentals

Die Fähigkeit, die Logik eines ML-Modells einem Menschen in verständlichen Worten zu erklären oder zu präsentieren.

Die meisten linearen Regressionsmodelle beispielsweise sind hochgradig interpretierbar. Sie müssen sich nur die trainierten Gewichtungen für jedes Feature ansehen. Auch Entscheidungsgesamtstrukturen sind äußerst gut interpretierbar. Einige Modelle erfordern jedoch eine ausgefeilte Visualisierung, um interpretiert werden zu können.

Sie können das Learning Interpretability Tool (LIT) verwenden, um ML-Modelle zu interpretieren.

Iteration

#fundamentals

Eine einzelne Aktualisierung der Modellparameter (Gewichtungen und Verzerrungen des Modells) während des Trainings. Die Batchgröße bestimmt, wie viele Beispiele das Modell in einer einzelnen Iteration verarbeitet. Wenn die Batchgröße beispielsweise 20 beträgt, verarbeitet das Modell 20 Beispiele, bevor die Parameter angepasst werden.

Beim Trainieren eines neuronalen Netzwerks umfasst ein einzelner Durchlauf die folgenden zwei Durchläufe:

  1. Ein Vorwärtsdurchlauf zur Auswertung des Verlusts bei einem einzelnen Batch.
  2. Eine Rückwärtsterminierung (Rückpropagation), um die Parameter des Modells auf der Grundlage des Verlusts und der Lernrate anzupassen.

L

L0-Regularisierung

#fundamentals

Eine Art der Regularisierung, die die Gesamtzahl der Gewichtungen ungleich null in einem Modell bestraft. Beispielsweise würde ein Modell mit 11 Gewichtungen ungleich null stärker benachteiligt werden als ein ähnliches Modell mit 10 Gewichtungen ungleich null.

Die L0-Regularisierung wird manchmal als L0-Norm-Regularisierung bezeichnet.

L1-Verlust

#fundamentals

Eine Verlustfunktion, die den absoluten Wert der Differenz zwischen tatsächlichen label-Werten und den Werten berechnet, die von einem Modell vorhergesagt werden. Hier sehen Sie beispielsweise die Berechnung des L1-Verlusts für einen Batch aus fünf Beispielen:

Tatsächlicher Wert des Beispiels Vorhergesagter Wert des Modells Absoluter Wert des Deltas
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = Verlust von L1

Der L1-Verlust reagiert weniger empfindlich auf Ausreißer als der L2-Verlust.

Der mittlere absolute Fehler ist der durchschnittliche L1-Verlust pro Beispiel.

L1-Regularisierung

#fundamentals

Art der Regularisierung, bei der Gewichtungen proportional zur Summe der absoluten Werte der Gewichtungen bestraft werden. Die L1-Regularisierung hilft, die Gewichtung irrelevanter oder kaum relevanter Features auf genau 0 zu erhöhen. Ein Feature mit der Gewichtung 0 wird effektiv aus dem Modell entfernt.

Im Gegensatz zur L2-Regularisierung

L2-Verlust

#fundamentals

Eine Verlustfunktion, die das Quadrat der Differenz zwischen tatsächlichen label-Werten und den Werten berechnet, die von einem Modell vorhergesagt werden. Hier sehen Sie beispielsweise die Berechnung des L2-Verlusts für einen Batch aus fünf Beispielen:

Tatsächlicher Wert des Beispiels Vorhergesagter Wert des Modells Quadrat des Deltas
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2-Verlust

Aufgrund der Quadratzahlen verstärkt der L2-Verlust den Einfluss von Ausreißern. Das heißt, der L2-Verlust reagiert stärker auf schlechte Vorhersagen als der L1-Verlust. Der L1-Verlust für den vorherigen Batch wäre beispielsweise 8 und nicht 16. Beachten Sie, dass ein einzelner Ausreißer 9 von 16 ausmacht.

Regressionsmodelle verwenden in der Regel den L2-Verlust als Verlustfunktion.

Der mittlere quadratische Fehler ist der durchschnittliche L2-Verlust pro Beispiel. Quadratischer Verlust ist eine andere Bezeichnung für L2-Verlust.

L2-Regularisierung

#fundamentals

Art der Regularisierung, bei der Gewichtungen proportional zur Summe der Quadrate der Gewichtungen bestraft werden. Die L2-Regularisierung hilft dabei, Ausreißer-Gewichtungen (Werte mit hohen positiven oder niedrigen negativen Werten) zu fördern, die näher an 0, aber nicht ganz an 0 liegen. Features mit Werten sehr nahe 0 bleiben im Modell, haben aber keinen großen Einfluss auf die Vorhersage des Modells.

Die L2-Regularisierung verbessert die Generalisierung in linearen Modellen immer.

Im Gegensatz zur L1-Regularisierung

Label

#fundamentals

Beim überwachten maschinellen Lernen der „Antwort“- oder „Ergebnis“-Teil eines Beispiels.

Jedes Beispiel mit Label besteht aus einem oder mehreren Features und einem Label. In einem Dataset zur Spamerkennung wäre das Label beispielsweise wahrscheinlich entweder „Spam“ oder „Kein Spam“. In einem Niederschlags-Dataset kann das Label die Regenmenge sein, die in einem bestimmten Zeitraum gefallen ist.

Beispiel mit Label

#fundamentals

Ein Beispiel, das ein oder mehrere Features und ein Label enthält. Die folgende Tabelle enthält beispielsweise drei mit Labels versehene Beispiele aus einem Hausbewertungsmodell mit jeweils drei Merkmalen und einem Label:

Anzahl der Schlafzimmer Anzahl der Badezimmer Hausalter Hauspreis (Label)
3 2 15 345.000 $
2 1 72 179.000 $
4 2 34 392.000 $

Im überwachten Machine Learning werden Modelle anhand von Beispielen mit Labels trainiert und Vorhersagen für Beispiele ohne Label getroffen.

Beispiel mit einem Label im Kontrast zu Beispielen ohne Label.

Lambda

#fundamentals

Synonym für Regularisierungsrate.

Lambda ist ein überladener Begriff. Hier konzentrieren wir uns auf die Definition des Begriffs im Rahmen der Regularisierung.

Layer

#fundamentals

Eine Reihe von Neuronen in einem neuronalen Netzwerk. Es gibt drei gängige Ebenentypen:

Die folgende Abbildung zeigt beispielsweise ein neuronales Netzwerk mit einer Eingabeschicht, zwei ausgeblendeten Ebenen und einer Ausgabeebene:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Ebenen und einer Ausgabeebene. Die Eingabeebene besteht aus zwei Merkmalen. Die erste verborgene Schicht besteht aus drei Neuronen und die zweite aus zwei Neuronen. Die Ausgabeebene besteht aus einem einzelnen Knoten.

In TensorFlow sind Ebenen auch Python-Funktionen, die Tensors und Konfigurationsoptionen als Eingabe verwenden und andere Tensoren als Ausgabe erzeugen.

Lernrate

#fundamentals

Eine Gleitkommazahl, die den Gradientenabstiegsalgorithmus angibt, wie stark die Gewichtungen und Verzerrungen bei jeder Iteration angepasst werden sollen. Beispielsweise werden mit einer Lernrate von 0,3 Gewichtungen und Verzerrungen dreimal stärker angepasst als bei einer Lernrate von 0,1.

Die Lernrate ist ein wichtiger Hyperparameter. Wenn Sie die Lernrate zu niedrig ansetzen, dauert das Training zu lange. Wenn Sie die Lernrate zu hoch ansetzen, hat der Gradientenabstieg oft Schwierigkeiten, die Konvergenz zu erreichen.

Linear

#fundamentals

Beziehung zwischen zwei oder mehr Variablen, die ausschließlich durch Addition und Multiplikation dargestellt werden kann.

Die Darstellung einer linearen Beziehung ist eine Linie.

Kontrast mit nonlinear

Lineares Modell

#fundamentals

Ein model, das eine model pro model zuweist, um model zu treffen. Lineare Modelle beinhalten auch eine Verzerrung. Im Gegensatz dazu ist das Verhältnis von Merkmalen zu Vorhersagen in tiefen Modellen in der Regel nicht linear.

Lineare Modelle sind in der Regel einfacher zu trainieren und interpretierbar als tiefe Modelle. tiefe Modelle können jedoch komplexe Beziehungen zwischen Merkmalen lernen.

Lineare Regression und logistische Regression sind zwei Arten linearer Modelle.

lineare Regression

#fundamentals

Art von Modell für maschinelles Lernen, bei dem die beiden folgenden Bedingungen zutreffen:

  • Das Modell ist ein lineares Modell.
  • Die Vorhersage ist ein Gleitkommawert. Dies ist der Teil der Regression der linearen Regression.

Vergleichen Sie die lineare Regression mit der logistischen Regression. Außerdem wird die Regression mit der Klassifizierung gegenübergestellt.

logistische Regression

#fundamentals

Art von Regressionsmodell, das eine Wahrscheinlichkeit vorhersagt. Logistische Regressionsmodelle haben folgende Eigenschaften:

  • Das Label ist kategorial. Der Begriff logistische Regression bezieht sich in der Regel auf eine binäre logistische Regression, d. h. ein Modell, das Wahrscheinlichkeiten für Labels mit zwei möglichen Werten berechnet. Eine weniger verbreitete Variante, die multinomiale logistische Regression, berechnet Wahrscheinlichkeiten für Labels mit mehr als zwei möglichen Werten.
  • Die Verlustfunktion während des Trainings ist Logverlust. Für Labels mit mehr als zwei möglichen Werten können mehrere Logverlusteinheiten parallel platziert werden.
  • Das Modell hat eine lineare Architektur, kein neuronales Deep-Learning-Netzwerk. Der Rest dieser Definition gilt jedoch auch für tiefe Modelle, die Wahrscheinlichkeiten für kategoriale Labels vorhersagen.

Stellen Sie sich beispielsweise ein logistisches Regressionsmodell vor, das die Wahrscheinlichkeit berechnet, mit der eine eingegebene E-Mail-Nachricht entweder Spam oder kein Spam ist. Angenommen, das Modell sagt während der Inferenz 0,72 vorher. Daher schätzt das Modell:

  • Eine 72-prozentige Wahrscheinlichkeit, dass die E-Mail Spam ist.
  • Eine 28-prozentige Wahrscheinlichkeit, dass die E-Mail kein Spam ist.

Ein logistisches Regressionsmodell verwendet die folgende zweistufige Architektur:

  1. Das Modell generiert eine Rohvorhersage (y') durch Anwendung einer linearen Funktion von Eingabemerkmalen.
  2. Das Modell verwendet diese Rohvorhersage als Eingabe für eine Sigmoidfunktion, die die Rohvorhersage in einen Wert zwischen 0 und 1 (ausschließlich) umwandelt.

Wie jedes Regressionsmodell sagt ein logistisches Regressionsmodell eine Zahl voraus. Diese Zahl wird jedoch in der Regel so Teil eines binären Klassifizierungsmodells:

  • Wenn die vorhergesagte Zahl größer ist als der Klassifizierungsschwellenwert, sagt das binäre Klassifizierungsmodell die positive Klasse vorher.
  • Wenn die vorhergesagte Zahl kleiner als der Klassifizierungsschwellenwert ist, sagt das binäre Klassifizierungsmodell die negative Klasse vorher.

Log-Verlust

#fundamentals

Die Verlustfunktion, die in der binären logistischen Regression verwendet wird.

Logarithme

#fundamentals

Logarithmus der Wahrscheinlichkeit eines Ereignisses

Niederlage

#fundamentals

Während des Trainings eines überwachten Modells wird gemessen, wie weit die Vorhersage eines Modells von seinem Label entfernt ist.

Eine Verlustfunktion berechnet den Verlust.

Verlustkurve

#fundamentals

Ein Diagramm des Verlusts als Funktion der Anzahl der Trainingsdurchläufe. Das folgende Diagramm zeigt eine typische Verlustkurve:

Eine kartesische Grafik von Verlusten im Vergleich zu Trainingsdurchläufen, die einen schnellen Verlust des Verlusts für die ersten Iterationen zeigt, gefolgt von einem allmählichen Abfall und einem flachen Anstieg während der letzten Iterationen.

Verlustkurven können Ihnen bei der Entscheidung helfen, wann Ihr Modell konvergent oder Überanpassung ist.

Verlustkurven können die folgenden Verlusttypen darstellen:

Weitere Informationen finden Sie unter Generalisierungskurve.

Verlustfunktion

#fundamentals

Während des Trainings oder der Tests eine mathematische Funktion, die den Verlust für einen Batch von Beispielen berechnet. Eine Verlustfunktion gibt einen niedrigeren Verlust für Modelle zurück, die gute Vorhersagen treffen, als für Modelle, die schlechte Vorhersagen treffen.

Ziel des Trainings ist es in der Regel, den Verlust zu minimieren, den eine Verlustfunktion zurückgibt.

Es gibt viele verschiedene Arten von Verlustfunktionen. Wählen Sie die entsprechende Verlustfunktion für die Art von Modell aus, die Sie erstellen. Beispiel:

M

Machine Learning

#fundamentals

Ein Programm oder System, das ein Modell anhand von Eingabedaten trainiert. Das trainierte Modell kann nützliche Vorhersagen aus neuen (noch nie gesehenen) Daten treffen, die aus derselben Verteilung stammen, die zum Trainieren des Modells verwendet wurde.

Maschinelles Lernen bezieht sich auch auf die Studien, die sich mit diesen Programmen oder Systemen

Mehrheitsklasse

#fundamentals

Das gebräuchlichere Label in einem Dataset mit unausgeglichener Klasse. Bei einem Dataset, das beispielsweise 99% negative Labels und 1% positive Labels enthält, sind die negativen Labels die Mehrheitsklasse.

Im Gegensatz zur Minderheitenklasse

Minibatch

#fundamentals

Eine kleine, zufällig ausgewählte Teilmenge eines Batch, die in einer Iteration verarbeitet wird. Die Batchgröße eines Minibatches liegt normalerweise zwischen 10 und 1.000 Beispielen.

Angenommen, der gesamte Trainingssatz (der vollständige Batch) besteht aus 1.000 Beispielen. Angenommen, Sie legen die Batchgröße jedes Minibatches auf 20 fest. Daher bestimmt jeder Durchlauf den Verlust an zufällig ausgewählten 20 der 1.000 Beispielen und passt dann die Gewichtungen und Verzerrungen entsprechend an.

Es ist viel effizienter, den Verlust eines Minibatches zu berechnen als der Verlust für alle Beispiele im vollständigen Batch.

Minderheitenklasse

#fundamentals

Das weniger gängige Label in einem Dataset mit unausgeglichener Klasse. Bei einem Dataset, das beispielsweise 99% negative Labels und 1% positive Labels enthält, sind die positiven Labels die Minderheitenklasse.

Im Gegensatz zur Mehrheitsklasse

model

#fundamentals

Im Allgemeinen jedes mathematische Konstrukt, das Eingabedaten verarbeitet und eine Ausgabe zurückgibt. Anders ausgedrückt: Ein Modell ist der Satz aus Parametern und der Struktur, die ein System benötigt, um Vorhersagen zu treffen. Beim überwachten maschinellen Lernen nimmt ein Modell ein Beispiel als Eingabe und leitet eine Vorhersage als Ausgabe ab. Beim überwachten maschinellen Lernen unterscheiden sich die Modelle leicht. Beispiel:

  • Ein lineares Regressionsmodell besteht aus einer Reihe von Gewichtungen und einer Verzerrung.
  • Ein neuronales Netzwerk besteht aus:
    • Eine Reihe ausgeblendeter Ebenen, die jeweils ein oder mehrere Neuronen enthalten
    • Gewichtungen und Verzerrungen, die jedem Neuron zugeordnet sind.
  • Ein Entscheidungsbaum-Modell besteht aus:
    • Die Form des Baums, also das Muster, in dem die Bedingungen und Blätter miteinander verbunden sind.
    • Die Bedingungen und Blätter.

Sie können ein Modell speichern, wiederherstellen oder kopieren.

Auch unüberwachtes maschinelles Lernen generiert Modelle. Dies ist in der Regel eine Funktion, die ein Eingabebeispiel dem am besten geeigneten Cluster zuordnen kann.

Klassifizierung mit mehreren Klassen

#fundamentals

Beim überwachten Lernen ist dies ein Klassifizierungsproblem, bei dem das Dataset mehr als zwei Klassen mit Labels enthält. Beispielsweise müssen die Labels im Iris-Dataset einer der folgenden drei Klassen entsprechen:

  • Iris Setosa
  • Iris Virginica
  • Iris Versicolor

Ein Modell, das mit dem Iris-Dataset trainiert wurde und den Iris-Typ für neue Beispiele vorhersagt, führt eine Klassifizierung mit mehreren Klassen durch.

Im Gegensatz dazu sind Klassifizierungsprobleme, die zwischen genau zwei Klassen unterscheiden, binäre Klassifizierungsmodelle. Ein E-Mail-Modell, das entweder Spam oder kein Spam vorhersagt, ist beispielsweise ein binäres Klassifizierungsmodell.

Bei Clustering-Problemen bezieht sich die Klassifizierung mit mehreren Klassen auf mehr als zwei Cluster.

N

negative Klasse

#fundamentals

Bei der binären Klassifizierung wird eine Klasse als positiv und die andere als negativ bezeichnet. Die positive Klasse ist das Objekt oder Ereignis, das bzw. das das Modell testet, und die negative Klasse ist die andere Möglichkeit. Beispiel:

  • Die negative Klasse in einem medizinischen Test könnte „kein Tumor“ sein.
  • Die negative Klasse in einem E-Mail-Klassifikator ist möglicherweise "kein Spam".

Im Kontrast zu einer positiven Klasse steht.

neuronales Netzwerk

#fundamentals

Ein model, das mindestens eine model enthält. Ein neuronales Deep-Learning-Netzwerk ist eine Art von neuronalem Netzwerk, das mehr als eine verborgene Ebene enthält. Das folgende Diagramm zeigt beispielsweise ein neuronales Deep-Learning-Netzwerk mit zwei verborgenen Schichten.

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Ebenen und einer Ausgabeebene.

Jedes Neuron in einem neuronalen Netzwerk ist mit allen Knoten der nächsten Schicht verbunden. Beachten Sie beispielsweise im obigen Diagramm, dass jedes der drei Neuronen in der ersten verborgenen Schicht separat mit beiden Neuronen der zweiten verborgenen Schicht verbunden ist.

Auf Computern implementierte neuronale Netzwerke werden manchmal als künstliche neuronale Netzwerke bezeichnet, um sie von neuronalen Netzwerken in Gehirnen und anderen Nervensystemen zu unterscheiden.

Einige neuronale Netzwerke können extrem komplexe nicht lineare Beziehungen zwischen verschiedenen Merkmalen und dem Label nachahmen.

Weitere Informationen finden Sie unter Convolutional Neural Network und Recurrent Neural Network.

Neuron

#fundamentals

Beim maschinellen Lernen eine bestimmte Einheit innerhalb einer verborgenen Ebene eines neuronalen Netzwerks. Jedes Neuron führt die folgende zweistufige Aktion aus:

  1. Berechnet die gewichtete Summe der Eingabewerte multipliziert mit ihren entsprechenden Gewichtungen.
  2. Übergibt die gewichtete Summe als Eingabe an eine Aktivierungsfunktion.

Ein Neuron in der ersten verborgenen Ebene akzeptiert Eingaben von den Featurewerten in der Eingabeebene. Ein Neuron auf einer versteckten Schicht jenseits der ersten nimmt Eingaben von den Neuronen der vorherigen verborgenen Schicht an. Beispielsweise akzeptiert ein Neuron in der zweiten versteckten Schicht Eingaben von den Neuronen der ersten verborgenen Schicht.

In der folgenden Abbildung sind zwei Neuronen und ihre Eingaben dargestellt.

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Ebenen und einer Ausgabeebene. Zwei Neuronen sind hervorgehoben: eines in der ersten versteckten Schicht und eines in der zweiten. Das in der ersten verborgenen Ebene hervorgehobene Neuron erhält Eingaben von beiden Features in der Eingabeebene. Das hervorgehobene Neuron in der zweiten versteckten Schicht empfängt Eingaben von jedem der drei Neuronen der ersten verborgenen Schicht.

Ein Neuron in einem neuronalen Netzwerk ahmt das Verhalten von Neuronen in Gehirnen und anderen Teilen von Nervensystemen nach.

Knoten (neuronales Netzwerk)

#fundamentals

Ein Neuron in einer verborgenen Ebene.

nicht linear

#fundamentals

Beziehung zwischen zwei oder mehr Variablen, die nicht ausschließlich durch Addition und Multiplikation dargestellt werden kann. Eine lineare Beziehung kann als Linie dargestellt werden, eine nicht lineare Beziehung nicht als Linie. Stellen Sie sich beispielsweise zwei Modelle vor, die jeweils ein einzelnes Feature mit einem einzelnen Label verknüpfen. Das Modell auf der linken Seite ist linear und das Modell auf der rechten Seite nicht linear:

Zwei Diagramme. Ein Diagramm ist eine Linie, es handelt sich also um eine lineare Beziehung.
          Das andere Diagramm ist eine Kurve, es handelt sich also um eine nicht lineare Beziehung.

Nichtstationarität

#fundamentals

Ein Element, dessen Werte sich in einer oder mehreren Dimensionen ändern, in der Regel die Zeit. Betrachten Sie zum Beispiel die folgenden Beispiele für Nichtstationarität:

  • Die Anzahl der in einem bestimmten Geschäft verkauften Badeanzüge variiert je nach Saison.
  • Die Menge einer bestimmten Früchte, die in einer bestimmten Region geerntet wird, ist für einen Großteil des Jahres bei null, aber für einen kurzen Zeitraum groß.
  • Aufgrund des Klimawandels ändern sich die jährlichen Mitteltemperaturen.

Steht im Kontrast zu Stationarität.

Normalisierung

#fundamentals

Ganz allgemein gesagt, der Vorgang der Umwandlung des tatsächlichen Wertebereichs einer Variablen in einen Standardbereich von Werten, z. B.:

  • -1 bis +1
  • 0 bis 1
  • die Normalverteilung

Angenommen, der tatsächliche Wertebereich eines bestimmten Merkmals liegt zwischen 800 und 2.400. Im Rahmen von Feature Engineering können Sie die tatsächlichen Werte bis auf einen Standardbereich wie -1 bis +1 normalisieren.

Normalisierung ist eine gängige Aufgabe im Feature Engineering. Modelle werden normalerweise schneller trainiert (und liefern bessere Vorhersagen), wenn jedes numerische Feature im Featurevektor ungefähr den gleichen Bereich hat.

numerische Daten

#fundamentals

Funktionen, die als Ganzzahlen oder reellwertige Zahlen dargestellt werden. Ein Hausbewertungsmodell würde beispielsweise die Größe eines Hauses (in Quadratfuß oder Quadratmetern) wahrscheinlich als numerische Daten darstellen. Die Darstellung eines Merkmals als numerische Daten weist darauf hin, dass die Werte des Elements in einer mathematischen Beziehung zum Label stehen. Das heißt, die Anzahl der Quadratmeter in einem Haus steht wahrscheinlich in einem mathematischen Verhältnis zum Wert des Hauses.

Nicht alle ganzzahligen Daten sollten als numerische Daten dargestellt werden. Beispielsweise sind Postleitzahlen in einigen Teilen der Welt Ganzzahlen. Postleitzahlen mit Ganzzahlen sollten jedoch in Modellen nicht als numerische Daten dargestellt werden. Das liegt daran, dass die Postleitzahl 20000 nicht doppelt (oder halb so hoch) wie die Postleitzahl 10000 ist. Obwohl verschiedene Postleitzahlen mit unterschiedlichen Immobilienwerten korrelieren, können wir nicht davon ausgehen, dass die Immobilienwerte der Postleitzahl 20000 doppelt so wertvoll sind wie die Immobilienwerte bei der Postleitzahl 10000. Postleitzahlen sollten stattdessen als kategoriale Daten dargestellt werden.

Numerische Features werden manchmal als kontinuierliche Features bezeichnet.

O

Offlinegerät

#fundamentals

Synonym für statisch.

Offline-Inferenz

#fundamentals

Prozess eines Modells, das einen Batch von Vorhersagen generiert und diese Vorhersagen dann im Cache speichert (speichert). Anwendungen können dann aus dem Cache auf die gewünschte Vorhersage zugreifen, anstatt das Modell noch einmal auszuführen.

Stellen Sie sich beispielsweise ein Modell vor, das alle vier Stunden lokale Wettervorhersagen (Vorhersagen) generiert. Nach jeder Modellausführung speichert das System alle lokalen Wettervorhersagen im Cache. Wetter-Apps rufen die Vorhersagen aus dem Cache ab.

Offlineinferenz wird auch als statische Inferenz bezeichnet.

Kontrast mit Online-Inferenz

One-Hot-Codierung

#fundamentals

Kategoriale Daten als Vektor darstellen, in dem:

  • Für ein Element ist „1“ festgelegt.
  • Alle anderen Elemente werden auf 0 gesetzt.

Die One-Hot-Codierung wird häufig verwendet, um Strings oder Kennungen darzustellen, die eine endliche Gruppe möglicher Werte haben. Angenommen, ein kategoriales Feature namens Scandinavia hat fünf mögliche Werte:

  • „Dänemark“
  • „Schweden“
  • „Norwegen“
  • „Finnland“
  • „Island“

Die One-Hot-Codierung könnte jeden der fünf Werte so darstellen:

country Vektor
„Dänemark“ 1 0 0 0 0
„Schweden“ 0 1 0 0 0
„Norwegen“ 0 0 1 0 0
„Finnland“ 0 0 0 1 0
„Island“ 0 0 0 0 1

Dank der One-Hot-Codierung kann ein Modell je nach den fünf Ländern unterschiedliche Verbindungen erlernen.

Die Darstellung eines Features als numerische Daten ist eine Alternative zur One-Hot-Codierung. Leider ist eine numerische Darstellung der skandinavischen Länder keine gute Wahl. Betrachten Sie beispielsweise die folgende numerische Darstellung:

  • „Dänemark“ ist 0
  • „Schweden“ ist 1
  • "Norwegen" ist 2
  • „Finnland“ ist 3
  • "Island" wird 4

Mit numerischer Codierung würde ein Modell die Rohzahlen mathematisch interpretieren und versuchen, mit diesen Zahlen zu trainieren. Island ist jedoch nicht doppelt so viel (oder halb so viel) wie Norwegen, sodass das Modell zu seltsamen Schlussfolgerungen kommen würde.

Eins im Vergleich zu allen

#fundamentals

Bei einem Klassifizierungsproblem mit N Klassen ist eine Lösung, die aus N separaten binären Klassifikatoren besteht – einem binären Klassifikator für jedes mögliche Ergebnis. Beispiel: Bei einem Modell, das Beispiele als „Tier“, „Gemüse“ oder „Mineral“ klassifiziert, würde eine 1-gegen-all-Lösung die folgenden drei separaten binären Klassifikatoren liefern:

  • Tier vs. kein Tier
  • „Gemüse“ oder „Kein Gemüse“
  • Mineralien statt Mineralstoffen

online

#fundamentals

Synonym für dynamisch.

Online-Inferenz

#fundamentals

Vorhersagen werden bei Bedarf generiert. Angenommen, eine Anwendung übergibt eine Eingabe an ein Modell und stellt eine Anfrage für eine Vorhersage aus. Ein System, das Onlineinferenz verwendet, antwortet auf die Anfrage, indem es das Modell ausführt und die Vorhersage an die Anwendung zurückgibt.

Stellen Sie einen Kontrast zur Offline-Inferenz her.

Ausgabeebene

#fundamentals

Die „letzte“ Ebene eines neuronalen Netzwerks. Die Ausgabeebene enthält die Vorhersage.

Die folgende Abbildung zeigt ein kleines neuronales Deep-Learning-Netzwerk mit einer Eingabeschicht, zwei ausgeblendeten Ebenen und einer Ausgabeebene:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Ebenen und einer Ausgabeebene. Die Eingabeebene besteht aus zwei Merkmalen. Die erste verborgene Schicht besteht aus drei Neuronen und die zweite aus zwei Neuronen. Die Ausgabeebene besteht aus einem einzelnen Knoten.

Überanpassung

#fundamentals

Ein model erstellen, das so genau mit den model übereinstimmt, sodass das Modell keine korrekten Vorhersagen für neue Daten trifft.

Regularisierung kann eine Überanpassung reduzieren. Das Training mit einem großen und vielfältigen Trainings-Dataset kann auch Überanpassung reduzieren.

P

pandas

#fundamentals

Eine spaltenorientierte Datenanalyse-API, die auf numpy basiert. Viele Frameworks für maschinelles Lernen, einschließlich TensorFlow, unterstützen Pandas-Datenstrukturen als Eingaben. Weitere Informationen finden Sie in der Pandas-Dokumentation.

Parameter

#fundamentals

Die Gewichtungen und Verzerrungen, die ein Modell während des Trainings lernt. In einem linearen Regressionsmodell bestehen die Parameter beispielsweise aus der Verzerrung (b) und allen Gewichtungen (w1, w2 usw.) in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Im Gegensatz dazu sind Hyperparameter die Werte, die Sie (oder ein Hyperparameter-Turn-Dienst) für das Modell bereitstellen. Beispielsweise ist die Lernrate ein Hyperparameter.

positive Klasse

#fundamentals

Der Kurs, für den Sie den Test durchführen.

Die positive Klasse in einem Krebsmodell könnte beispielsweise „Tumor“ sein. Die positive Klasse in einem E-Mail-Klassifikator kann "spam" sein.

Kontrast mit negativer Klasse erstellen.

Nachbearbeitung

#fairness
#fundamentals

Ausgabe eines Modells anpassen, nachdem das Modell ausgeführt wurde. Mit der Nachverarbeitung können Fairness-Einschränkungen durchgesetzt werden, ohne die Modelle selbst zu ändern.

Sie können beispielsweise die Nachverarbeitung auf einen binären Klassifikator anwenden, indem Sie einen Klassifizierungsschwellenwert so festlegen, dass die Chancengleichheit für ein bestimmtes Attribut aufrechterhalten wird. Dazu wird überprüft, ob die Rate echt positiver Ergebnisse für alle Werte dieses Attributs gleich ist.

prognostizierter Wert

#fundamentals

Die Ausgabe eines Modells. Beispiel:

  • Die Vorhersage eines binären Klassifizierungsmodells ist entweder die positive oder die negative Klasse.
  • Die Vorhersage eines Klassifizierungsmodells mit mehreren Klassen ist eine Klasse.
  • Die Vorhersage eines linearen Regressionsmodells ist eine Zahl.

Proxy-Labels

#fundamentals

Daten zum Annähern von Labels, die nicht direkt in einem Dataset verfügbar sind.

Angenommen, Sie müssen ein Modell trainieren, um den Stresspegel von Mitarbeitern vorherzusagen. Ihr Dataset enthält viele Vorhersagemerkmale, aber kein Label mit dem Namen Stresslevel. Unerschrocken wählen Sie „Arbeitsunfälle“ als Proxy-Label für den Stresspegel. Schließlich kommen Mitarbeitende unter hohem Stress mehr Unfalls als ruhige Mitarbeitende. Oder tun sie das? Vielleicht nehmen und fallen Unfälle am Arbeitsplatz aus mehreren Gründen zu.

Nehmen wir als zweites Beispiel an, dass es regnet? ein boolesches Label für Ihr Dataset sein soll, das Dataset jedoch keine Regendaten enthält. Wenn Fotos vorhanden sind, können Sie Bilder von Personen mit Regenschirmen als Proxy-Label für Regnet es? einrichten. Ist das ein gutes Proxy-Label? Es ist möglich, aber in manchen Kulturen ist es wahrscheinlicher, dass Regenschirme zum Schutz vor Sonnenlicht als Regenschirm verwendet werden.

Proxy-Labels sind oft fehlerhaft. Wenn möglich, sollten tatsächliche Labels anstelle von Proxy-Labels verwendet werden. Wenn jedoch ein tatsächliches Label nicht vorhanden ist, wählen Sie das Proxy-Label sehr sorgfältig aus und wählen Sie den am wenigsten schrecklichen Proxy-Label-Kandidaten aus.

R

Bewerter

#fundamentals

Ein Mensch, der Labels für Beispiele bereitstellt. „Annotator“ ist ein anderer Name für „Bewerter“.

Rektifizierte lineare Einheit (ReLU)

#fundamentals

Eine Aktivierungsfunktion mit folgendem Verhalten:

  • Wenn die Eingabe negativ oder null ist, ist die Ausgabe 0.
  • Wenn die Eingabe positiv ist, ist die Ausgabe gleich der Eingabe.

Beispiel:

  • Wenn die Eingabe -3 ist, ist die Ausgabe 0.
  • Wenn die Eingabe +3 ist, ist die Ausgabe 3,0.

Hier ist eine Darstellung von ReLU:

Ein kartesisches Diagramm aus zwei Linien. Die erste Linie hat einen konstanten y-Wert von 0 und verläuft entlang der x-Achse von -infinity,0 bis 0,-0.
          Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Steigung von +1, sodass sie von 0,0 bis +unendlich,+unendlich verläuft.

ReLU ist eine sehr beliebte Aktivierungsfunktion. Trotz seines einfachen Verhaltens ermöglicht ReLU einem neuronalen Netzwerk immer noch, nicht lineare Beziehungen zwischen Features und dem Label zu erlernen.

Regressionsmodell

#fundamentals

Informelles ein Modell, das eine numerische Vorhersage generiert. Im Gegensatz dazu generiert ein Klassifizierungsmodell eine Klassenvorhersage. Im Folgenden finden Sie beispielsweise alle Regressionsmodelle:

  • Ein Modell, das den Wert eines bestimmten Hauses vorhersagt,z. B. 423.000 €.
  • Ein Modell, das die Lebenserwartung eines bestimmten Baums, wie z. B. 23,2 Jahre, vorhersagt.
  • Ein Modell, das die Regenmenge vorhersagt, die in den nächsten sechs Stunden in einer bestimmten Stadt fallen wird, z. B. 0,18 Zoll.

Zwei gängige Arten von Regressionsmodellen sind:

  • Lineare Regression, die die Linie ermittelt, die den Labelwerten am besten entspricht.
  • Logistische Regression, bei der eine Wahrscheinlichkeit zwischen 0,0 und 1,0 generiert wird, die ein System dann normalerweise einer Klassenvorhersage zuordnet.

Nicht jedes Modell, das numerische Vorhersagen ausgibt, ist ein Regressionsmodell. In einigen Fällen ist eine numerische Vorhersage eigentlich nur ein Klassifizierungsmodell, das zufällig numerische Klassennamen hat. Ein Modell, das eine numerische Postleitzahl vorhersagt, ist beispielsweise ein Klassifizierungsmodell, kein Regressionsmodell.

Regularisierung

#fundamentals

Jeder Mechanismus, der Überanpassung reduziert. Zu den beliebten Arten der Regularisierung gehören:

Regularisierung kann auch als negativer Einfluss auf die Komplexität eines Modells definiert werden.

Regularisierungsrate

#fundamentals

Eine Zahl, die die relative Bedeutung der Regularisierung während des Trainings angibt. Eine Erhöhung der Regularisierungsrate reduziert die Überanpassung, kann aber die Vorhersageleistung des Modells verringern. Umgekehrt erhöht das Reduzieren oder Auslassen der Regularisierungsrate die Überanpassung.

ReLU

#fundamentals

Abkürzung für Rektifizierte lineare Einheit.

Abruf-erweiterte Generierung

#fundamentals

Eine Softwarearchitektur, die häufig in LLM-Anwendungen (Large Language Model) verwendet wird. Häufige Gründe für die Verwendung der Abruf-augmentierten Generierung sind:

  • Die faktische Genauigkeit der vom Modell generierten Antworten erhöhen
  • Dem Modell Zugriff auf Informationen gewähren, mit denen es nicht trainiert wurde
  • Ändern des Wissens, das für das Modell verwendet wird
  • Modell zum Zitieren von Quellen aktivieren

Angenommen, eine Chemieanwendung verwendet die PaLM API, um Zusammenfassungen in Bezug auf Nutzerabfragen zu generieren. Wenn das Back-End der Anwendung eine Abfrage empfängt, sucht das Back-End zuerst nach Daten, die für die Abfrage des Nutzers relevant sind, und hängt die relevanten Chemiedaten an die Abfrage des Nutzers an und weist das LLM an, eine Zusammenfassung basierend auf den angehängten Daten zu erstellen.

ROC-Kurve (Receiver Operating Characteristic, Grenzwertoptimierung)

#fundamentals

Ein Diagramm der Rate echt positiver Ergebnisse im Vergleich zur Rate falsch positiver Ergebnisse für verschiedene Klassifizierungsschwellenwerte bei der binären Klassifizierung.

Die Form einer ROC-Kurve deutet darauf hin, dass ein binäres Klassifizierungsmodell positive von negativen Klassen trennen kann. Angenommen, ein binäres Klassifizierungsmodell trennt alle negativen Klassen perfekt von allen positiven Klassen:

Eine Zahlenzeile mit 8 positiven Beispielen auf der rechten Seite und 7 negativen Beispielen auf der linken Seite.

Die ROC-Kurve für das vorherige Modell sieht so aus:

Eine ROC-Kurve. Die x-Achse ist die falsch positive Rate und die y-Achse die richtig positive Rate. Die Kurve hat eine umgekehrte L-Form. Die Kurve beginnt bei (0,0,0,0) und geht senkrecht nach oben bis (0,0,1,0). Dann geht die Kurve von (0,0;1,0) bis (1,0;1,0).

Im Gegensatz dazu werden in der folgenden Abbildung die rohen logistischen Regressionswerte für ein schlechtes Modell grafisch dargestellt, das negative Klassen überhaupt nicht von positiven Klassen trennen kann:

Eine Zahlenzeile mit vollständig vermischt positiven Beispielen und negativen Klassen.

Die ROC-Kurve für dieses Modell sieht so aus:

Eine ROC-Kurve, die eigentlich eine gerade Linie von (0.0;0.0) bis (1.0;1.0) ist.

In der realen Welt trennen die meisten binären Klassifizierungsmodelle positive und negative Klassen zu einem gewissen Grad, aber in der Regel nicht perfekt. Eine typische ROC-Kurve liegt also irgendwo zwischen diesen beiden Extremen:

Eine ROC-Kurve. Die x-Achse ist die falsch positive Rate und die y-Achse die richtig positive Rate. Die ROC-Kurve entspricht einem wackeligen Bogen, der die Kompasspunkte von West nach Nord durchquert.

Der Punkt auf einer ROC-Kurve, der (0,0;1,0) am nächsten ist, identifiziert theoretisch den idealen Klassifizierungsschwellenwert. Die Auswahl des idealen Klassifizierungsschwellenwerts wird jedoch von einigen anderen realen Problemen beeinflusst. Falsch negative Ergebnisse können beispielsweise viel mehr Schmerzen verursachen als falsch positive Ergebnisse.

Ein numerischer Messwert namens AUC fasst die ROC-Kurve in einem einzigen Gleitkommawert zusammen.

Wurzel des mittleren quadratischen Fehlers (RMSE)

#fundamentals

Die Quadratwurzel aus mittlerer quadratischer Fehlerzahl.

S

Sigmoidfunktion

#fundamentals

Eine mathematische Funktion, die einen Eingabewert in einen eingeschränkten Bereich verschiebt, in der Regel 0 bis 1 oder -1 bis +1. Sie können also eine beliebige Zahl (zwei, eine Million, negative Milliarde usw.) an ein Sigmoid übergeben und die Ausgabe befindet sich weiterhin im eingeschränkten Bereich. Ein Diagramm der Sigmoidaktivierungsfunktion sieht so aus:

Ein zweidimensionales, gebogenes Diagramm mit x-Werten, die sich über den gesamten Bereich erstrecken – unendlich bis +positiv, während y-Werte sich über den Bereich von fast 0 bis fast 1 erstrecken. Wenn x 0 ist, ist y 0,5. Die Steigung der Kurve ist immer positiv.Die höchste Steigung liegt bei 0,0,5 und die allmählich abnehmenden Steigungen, wenn der absolute Wert von x zunimmt.

Die Sigmoidfunktion kann beim maschinellen Lernen vielfältig eingesetzt werden, darunter:

Softmax-Funktion

#fundamentals

Eine Funktion, die Wahrscheinlichkeiten für jede mögliche Klasse in einem Klassifizierungsmodell mit mehreren Klassen bestimmt. Die Wahrscheinlichkeiten ergeben insgesamt genau 1,0. Die folgende Tabelle zeigt beispielsweise, wie Softmax verschiedene Wahrscheinlichkeiten verteilt:

Das Bild ist... Probability
Hund .85
Cat .13
Pferd 0,02

Softmax wird auch als vollständiges Softmax bezeichnet.

Dies steht im Gegensatz zur Stichprobenerhebung für Kandidaten.

dünnbesetztes Feature

#language
#fundamentals

Ein Feature, dessen Werte vorwiegend null oder leer sind. Beispiel: Ein Feature mit einem einzelnen 1-Wert und einer Million 0-Werten ist dünnbesetzt. Im Gegensatz dazu hat ein dichtes Merkmal Werte, die überwiegend nicht null oder leer sind.

Beim maschinellen Lernen gibt es erstaunlich viele Merkmale, die eher dünnbesetzt sind. Kategoriale Merkmale sind in der Regel dünnbesetzte Merkmale. Beispielsweise könnte von den 300 möglichen Baumarten in einem Wald in einem einzelnen Beispiel nur ein Ahornbaum identifiziert werden. Oder unter den Millionen möglicher Videos in einer Videobibliothek könnte ein einzelnes Beispiel nur „Casablanca“ nennen.

In einem Modell stellen Sie dünnbesetzte Features in der Regel mit One-Hot-Codierung dar. Wenn die One-Hot-Codierung groß ist, können Sie für eine höhere Effizienz eine Einbettungsebene auf die One-Hot-Codierung setzen.

dünnbesetzte Darstellung

#language
#fundamentals

Nur die position(en) von Elementen ungleich null in einem dünnbesetzten Feature speichern.

Angenommen, ein kategoriales Feature namens species identifiziert die 36 Baumarten in einem bestimmten Wald. Nehmen wir außerdem an, dass jedes Beispiel nur eine einzelne Art identifiziert.

Sie könnten einen One-Hot-Vektor verwenden, um die Baumarten in den einzelnen Beispielen darzustellen. Ein One-Hot-Vektor würde eine einzelne 1 (zur Darstellung der jeweiligen Baumart in diesem Beispiel) und 35 0s (um die 35 Baumarten darzustellen, nicht in diesem Beispiel). Die One-Hot-Darstellung von maple könnte also in etwa so aussehen:

Ein Vektor, in dem die Positionen 0 bis 23 den Wert 0, Position 24 den Wert 1 und die Positionen 25 bis 35 den Wert 0 enthalten.

Alternativ würde bei einer dünnbesetzten Darstellung einfach die Position der jeweiligen Art ermittelt werden. Wenn sich maple an Position 24 befindet, würde die dünnbesetzte Darstellung von maple einfach so aussehen:

24

Beachten Sie, dass die dünnbesetzte Darstellung viel kompakter ist als die One-Hot-Darstellung.

dünnbesetzter Vektor

#fundamentals

Ein Vektor, dessen Werte hauptsächlich Nullen sind. Weitere Informationen finden Sie unter dünnbesetztes Feature und sparsity.

quadratischer Verlust

#fundamentals

Synonym für L2-Verlust.

Statisch

#fundamentals

Etwas, das nur einmal und nicht kontinuierlich ausgeführt wird. Die Begriffe statisch und offline sind Synonyme. Im Folgenden werden static und offline beim maschinellen Lernen häufig verwendet:

  • Statisches Modell (oder Offline-Modell) ist ein Modell, das einmal trainiert und dann eine Zeit lang verwendet wird.
  • Statisches Training (oder Offline-Training) ist das Training eines statischen Modells.
  • Eine statische Inferenz (oder Offline-Inferenz) ist ein Prozess, bei dem ein Modell jeweils einen Batch von Vorhersagen generiert.

Kontrast mit dynamisch

statische Inferenz

#fundamentals

Synonym für Offlineinferenz.

Stationarität

#fundamentals

Ein Element, dessen Werte sich in einer oder mehreren Dimensionen nicht ändern, in der Regel die Zeit. Beispiel: Ein Element, dessen Werte in den Jahren 2021 und 2023 ungefähr gleich aussehen, weist Stationarität auf.

In der realen Welt sind nur sehr wenige Elemente statisch. Auch Features, die für Stabilität (wie der Meeresspiegel) gleichbedeutend sind, ändern sich im Laufe der Zeit.

Im Gegensatz zu Nichtstationarität.

stochastisches Gradientenverfahren (SGD)

#fundamentals

Einen Gradientenabstiegsalgorithmus mit einer Batchgröße von eins. Mit anderen Worten, SGD trainiert mit einem einzelnen Beispiel, das einheitlich aus einem Trainings-Dataset ausgewählt wird.

überwachtes maschinelles Lernen

#fundamentals

model anhand von model und den entsprechenden model trainieren Das überwachte maschinelle Lernen ist analog zum Erlernen eines Themas, indem eine Reihe von Fragen und die entsprechenden Antworten untersucht werden. Nachdem ein Schüler die Zuordnung von Fragen und Antworten gemeistert hat, kann er Antworten auf neue (noch nie gesehene) Fragen zum selben Thema geben.

Vergleichen Sie dies mit unüberwachtem maschinellem Lernen.

synthetisches Feature

#fundamentals

Ein Feature, das nicht unter den Eingabemerkmalen vorhanden ist, aber aus einem oder mehreren von ihnen zusammengestellt ist. Folgende Methoden zum Erstellen synthetischer Merkmale sind verfügbar:

  • Bucketing für ein kontinuierliches Feature in Bereichsbins
  • Feature-Cross erstellen
  • Multiplizieren (oder Dividieren) eines Merkmalswerts durch einen anderen Merkmalswert oder durch sich selbst. Wenn beispielsweise a und b Eingabefeatures sind, dann sind folgende Beispiele für synthetische Features:
    • ab
    • a2
  • Transzendentale Funktion auf einen Merkmalswert anwenden Wenn beispielsweise c ein Eingabefeature ist, dann sind folgende Beispiele für synthetische Merkmale:
    • sin(c)
    • ln(c)

Durch die Normalisierung oder Skalierung allein erstellte Features gelten nicht als synthetische Features.

T

Testverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells im Vergleich zum Test-Dataset darstellt. Beim Erstellen eines model versuchen Sie in der Regel, den Testverlust zu minimieren. Das liegt daran, dass ein geringer Testverlust ein besseres Qualitätssignal ist als ein niedriger Trainingsverlust oder ein geringer Validierungsverlust.

Eine große Lücke zwischen dem Test- und dem Trainings- oder Validierungsverlust weist manchmal darauf hin, dass Sie die Regularisierungsrate erhöhen müssen.

Training

#fundamentals

Prozess der Bestimmung der idealen Parameter (Gewichtungen und Verzerrungen), aus denen ein Modell besteht. Während des Trainings liest ein System Beispiele ein und passt Parameter schrittweise an. Beim Training werden die Beispiele einige Male bis hin zu mehreren Milliarden verwendet.

Trainingsverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells während eines bestimmten Trainingsdurchlaufs darstellt. Angenommen, die Verlustfunktion ist mittlerer quadratischer Fehler. Vielleicht beträgt der Trainingsverlust (der mittlere quadratische Fehler) für den 10.Durchlauf 2,2 und der Trainingsverlust für den 100.Durchlauf 1,9.

Eine Verlustkurve stellt den Trainingsverlust im Vergleich zur Anzahl der Iterationen dar. Eine Verlustkurve bietet folgende Hinweise zum Training:

  • Ein Abfall impliziert, dass sich das Modell verbessert.
  • Eine Steigung deutet darauf hin, dass sich das Modell verschlechtert.
  • Eine flache Linie impliziert, dass das Modell eine Konvergenz erreicht hat.

Die folgende etwas idealisierte Verlustkurve zeigt beispielsweise:

  • Ein starker Abfall in den ersten Iterationen, was eine schnelle Modellverbesserung impliziert.
  • Ein allmählicher Abfall (aber immer noch nach unten) bis kurz vor dem Ende des Trainings, was eine kontinuierliche Modellverbesserung in einem etwas langsameren Tempo als während der ersten Iterationen impliziert.
  • Ein flacher Anstieg gegen Ende des Trainings, was auf eine Konvergenz hindeutet.

Die Darstellung von Trainingsverlust im Vergleich zu Iterationen. Diese Verlustkurve beginnt mit einem steilen Abfall. Die Steigung nimmt allmählich ab, bis sie auf null fällt.

Obwohl der Verlust von Trainings wichtig ist, siehe auch Generalisierung.

Abweichungen zwischen Training und Bereitstellung

#fundamentals

Der Unterschied zwischen der Leistung eines Modells während des Trainings und der Leistung desselben Modells während der Bereitstellung.

Trainings-Dataset

#fundamentals

Die Teilmenge des Datasets, die zum Trainieren eines Modells verwendet wird.

Traditionell werden Beispiele im Dataset in die folgenden drei unterschiedlichen Teilmengen unterteilt:

Idealerweise sollte jedes Beispiel im Dataset nur zu einer der vorhergehenden Teilmengen gehören. Ein einzelnes Beispiel sollte beispielsweise nicht sowohl zum Trainings- als auch zum Validierungs-Dataset gehören.

richtig negativ (TN)

#fundamentals

Ein Beispiel, bei dem das Modell die negative Klasse richtig vorhersagt. Das Modell leitet beispielsweise ab, dass eine bestimmte E-Mail-Nachricht kein Spam ist und diese E-Mail in Wirklichkeit kein Spam ist.

richtig positiv (TP)

#fundamentals

Ein Beispiel, bei dem das Modell die positive Klasse richtig vorhersagt. Das Modell leitet beispielsweise ab, dass eine bestimmte E-Mail Spam ist und dass es sich bei dieser E-Mail-Nachricht wirklich um Spam handelt.

Rate richtig positiver Ergebnisse (TPR)

#fundamentals

Synonym für recall. Das bedeutet:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Die Rate richtig positiver Ergebnisse wird auf der Y-Achse einer ROC-Kurve angegeben.

U

Unteranpassung

#fundamentals

Erstellen eines model mit schlechter Vorhersagefähigkeit, da das Modell die Komplexität der Trainingsdaten nicht vollständig erfasst hat. Viele Probleme können zu einer Unteranpassung führen, darunter:

Beispiel für ohne Label

#fundamentals

Beispiel, das features, aber kein label enthält Die folgende Tabelle enthält beispielsweise drei Beispiele ohne Label aus einem Hausbewertungsmodell mit jeweils drei Merkmalen, aber ohne Hauswert:

Anzahl der Schlafzimmer Anzahl der Badezimmer Hausalter
3 2 15
2 1 72
4 2 34

Im überwachten Machine Learning werden Modelle anhand von Beispielen mit Labels trainiert und Vorhersagen für Beispiele ohne Label getroffen.

Beim halbüberwachten und unüberwachten Lernen werden während des Trainings Beispiele ohne Label verwendet.

Vergleichen Sie das Beispiel ohne Label mit einem Beispiel mit Label.

unüberwachtes maschinelles Lernen

#clustering
#fundamentals

model trainieren, um Muster in einem Dataset zu finden, in der Regel einem Dataset ohne Label.

Unüberwachtes maschinelles Lernen wird am häufigsten verwendet, um Daten in Gruppen ähnlicher Beispiele zu clustern. Beispielsweise kann ein nicht überwachter Algorithmus für maschinelles Lernen Songs anhand verschiedener Eigenschaften der Musik gruppieren. Die resultierenden Cluster können als Eingabe für andere Algorithmen für maschinelles Lernen verwendet werden, z. B. für einen Musikempfehlungsdienst. Clustering kann hilfreich sein, wenn nützliche Labels knapp oder nicht vorhanden sind. In Bereichen wie Missbrauch und Betrug können Cluster beispielsweise Menschen helfen, die Daten besser zu verstehen.

Das steht im Gegensatz zum überwachten maschinellen Lernen.

V

validation

#fundamentals

Die anfängliche Bewertung der Qualität eines Modells. Bei der Validierung wird die Qualität der Vorhersagen eines Modells mit dem Validierungs-Dataset verglichen.

Da sich das Validierungs-Dataset vom Trainings-Dataset unterscheidet, schützt die Validierung eine Überanpassung.

Sie können sich die Bewertung des Modells anhand des Validierungs-Datasets als erste Testrunde und die Bewertung des Modells anhand des Test-Datasets als zweite Testrunde vorstellen.

Validierungsverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells im Validierungs-Dataset während einer bestimmten Iteration des Trainings darstellt.

Weitere Informationen finden Sie unter Generalisierungskurve.

Validierungs-Dataset

#fundamentals

Die Teilmenge des Datasets, das eine erste Bewertung anhand eines trainierten Modells durchführt. In der Regel bewerten Sie das trainierte Modell mehrmals anhand des Validierungs-Datasets, bevor Sie es anhand des Test-Datasets evaluieren.

Traditionell unterteilen Sie die Beispiele im Dataset in die folgenden drei unterschiedlichen Teilmengen:

Idealerweise sollte jedes Beispiel im Dataset nur zu einer der vorhergehenden Teilmengen gehören. Ein einzelnes Beispiel sollte beispielsweise nicht sowohl zum Trainings- als auch zum Validierungs-Dataset gehören.

W

weight

#fundamentals

Wert, den ein Modell mit einem anderen Wert multipliziert. Training ist der Prozess, bei dem die Idealgewichte eines Modells bestimmt werden. Inferenz ist der Prozess, bei dem diese gelernten Gewichtungen für Vorhersagen verwendet werden.

gewichtete Summe

#fundamentals

Die Summe aller relevanten Eingabewerte multipliziert mit den entsprechenden Gewichtungen. Angenommen, die relevanten Eingaben bestehen aus Folgendem:

Eingabewert Eingabegewicht
2 -1.3
-1 0.6
3 0.4

Die gewichtete Summe lautet daher:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Eine gewichtete Summe ist das Eingabeargument für eine Aktivierungsfunktion.

Z

Z-Score-Normalisierung

#fundamentals

Skalierungstechnik, bei der ein Feature-Rohwert durch einen Gleitkommawert ersetzt wird, der die Anzahl der Standardabweichungen vom Mittelwert dieses Features darstellt. Betrachten wir beispielsweise ein Feature mit einem Mittelwert von 800 und einer Standardabweichung von 100. Die folgende Tabelle zeigt, wie die Normalisierung für den Z-Faktor den Rohwert seinem Z-Wert zuordnen würde:

Unverarbeiteter Wert Z-Wert
800 0
950 +0,7
575 -2.25

Das Modell für maschinelles Lernen wird dann mit den Z-Scores für dieses Feature und nicht mit den Rohwerten trainiert.