Glossar zum maschinellen Lernen: ML-Grundlagen

Diese Seite enthält Begriffe mit ML-Glossaren. Alle Glossarbegriffe finden Sie hier.

A

accuracy

#fundamentals

Die Anzahl der korrekten Vervollständigungen, geteilt durch die Gesamtzahl der Vorhersagen. Das bedeutet:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ein Modell, das 40 richtige Vorhersagen und 10 falsche Vorhersagen getroffen hat, würde beispielsweise eine Genauigkeit von:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Die binäre Klassifizierung enthält spezifische Namen für die verschiedenen Kategorien von richtigen Vorhersagen und falschen Vorhersagen. Die Genauigkeitsformel für die binäre Klassifizierung sieht also so aus:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

wobei

Vergleichen und vergleichen Sie die Genauigkeit mit Precision und Recall.

Aktivierungsfunktion

#fundamentals

Eine Funktion, mit der neuronale Netzwerke nicht lineare (komplexe) Beziehungen zwischen Features und dem Label erkennen können.

Beliebte Aktivierungsfunktionen:

Die Handlungsabläufe für Aktivierungsfunktionen sind nie einzelne gerade Linien. Die Darstellung der ReLU-Aktivierungsfunktion besteht z. B. aus zwei geraden Linien:

Ein kartesisches Diagramm aus zwei Linien. Die erste Zeile hat einen konstanten y-Wert von 0, der entlang der X-Achse von -infinity,0 bis 0,-0 verläuft.
          Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Neigung von +1 und ist in einer Linie zwischen 0,0 und +infinity,+infinity zu finden.

Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionales, geschwungenes Diagramm mit x-Werten zwischen „domain -infinity“ und „+positive“, während y-Werte fast zwischen 0 und fast 1 reichen können. Wenn x 0 ist, ist y 0,5. Die Neigung der Kurve ist immer positiv, wobei die höchste Neigung bei 0,0,5 und die allmählichen Abfälle abnehmen, wenn der absolute Wert von x steigt.

künstliche Intelligenz

#fundamentals

Ein nicht menschliches Programm oder Modell, das anspruchsvolle Aufgaben lösen kann. Ein Beispiel für ein Programm oder ein Modell, das Text übersetzt, oder ein Programm oder Modell, das Krankheiten auf radiologischen Bildern identifiziert, zeigt künstliche Intelligenz.

Machine Learning ist ein Teilbereich der künstlichen Intelligenz. In den letzten Jahren haben jedoch einige Organisationen die Begriffe künstliche Intelligenz und maschinelles Lernen synonym verwendet.

AUC (Fläche unter der ROC-Kurve)

#fundamentals

Eine Zahl zwischen 0,0 und 1,0, die die Fähigkeit eines binären Klassifizierungsmodells, positive Klassen von negativen Klassen zu trennen. Je näher der AUC-Wert an 1,0 liegt, desto besser können die Modelle Klassen voneinander trennen.

Die folgende Abbildung zeigt beispielsweise ein Klassifikatormodell, das positive Klassen (grüne Ovale) von negativen Klassen (violette Rechtecke) perfekt unterscheidet. Dieses unrealistisch perfekte Modell hat einen AUC-Wert von 1,0:

Eine Zahlzeile mit acht positiven Beispielen auf der einen und neun negativen Beispielen auf der anderen Seite.

Umgekehrt zeigt die folgende Abbildung die Ergebnisse für ein Klassifikatormodell, das zufällige Ergebnisse generiert hat. Dieses Modell hat einen AUC-Wert von 0,5:

Eine Zahlzeile mit sechs positiven und sechs negativen Beispielen
          Die Reihenfolge der Beispiele ist positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv negativ, positiv, negativ.

Ja. Das vorherige Modell hat einen AUC-Wert von 0,5, nicht 0,0.

Die meisten Modelle befinden sich irgendwo zwischen den beiden Extremen. Das folgende Modell trennt beispielsweise die positiven Ergebnisse von den negativen Punkten und hat daher einen AUC-Wert zwischen 0, 5 und 1, 0:

Eine Zahlzeile mit sechs positiven und sechs negativen Beispielen
          Die Reihenfolge der Beispiele ist negativ, negativ, negativ, negativ, positiv, negativ, positiv, positiv, negativ, positiv, positiv, positiv.

AUC ignoriert alle Werte, die Sie für den Klassifizierungsschwellenwert festgelegt haben. Stattdessen berücksichtigt die AUC alle möglichen Klassifizierungsschwellenwerte.

B

Rückpropagierung

#fundamentals

Der Algorithmus, der den Gradientenabstieg in neuronalen Netzwerken implementiert.

Das Training eines neuronalen Netzwerks umfasst viele Iterationen des folgenden Zweigänge-Zyklus:

  1. Während des Forward-Passes verarbeitet das System einen Batch von Beispielen für Vorhersagen. Das System vergleicht jede Vorhersage mit jedem Label-Wert. Die Differenz zwischen der Vorhersage und dem Labelwert ist der Verlust für dieses Beispiel. Das System aggregiert die Verluste für alle Beispiele, um den Gesamtverlust für den aktuellen Batch zu berechnen.
  2. Während der Rücksendung (Rückpropagierung) reduziert das System den Verlust, indem die Gewichtungen aller Neuronen in allen ausgeblendeten Ebenen angepasst werden.

Neurale Netzwerke enthalten oft viele Neuronen auf vielen verborgenen Schichten. Jedes dieser Neuronen trägt auf unterschiedliche Weise zum Gesamtverlust bei. Die Rückpropagierung bestimmt, ob die auf bestimmte Neuronen angewendeten Gewichtungen erhöht oder verringert werden.

Die Lernrate ist ein Multiplikator, mit dem festgelegt wird, um wie viel jeder Rücklauf die Gewichtung erhöht oder verringert. Eine hohe Lernrate erhöht oder verringert jede Gewichtung um mehr als eine kleine Lernrate.

In Bezug auf die Berechnung verwendet die Rückpropagation die Kettenregel. Bei der Rückpropagierung wird also die partielle Ableitung des Fehlers in Bezug auf jeden Parameter berechnet. Weitere Informationen finden Sie in dieser Anleitung im Crashkurs „Machine Learning“.

Vor einigen Jahren mussten ML-Experten Code schreiben, um Rückpropagierung zu implementieren. In modernen ML APIs wie TensorFlow wird jetzt Backpropagation für Sie implementiert. Geschafft!

Batch

#fundamentals

Die Beispiele, die in einer Trainingsausführung verwendet werden. Die Batchgröße bestimmt die Anzahl der Beispiele in einem Batch.

Weitere Informationen dazu, wie ein Batch mit einer Epoche zusammenhängt, finden Sie unter Epoche.

Batchgröße

#fundamentals

Die Anzahl der Beispiele in einem Batch. Wenn die Batchgröße beispielsweise 100 beträgt, verarbeitet das Modell 100 Beispiele pro Iteration.

Im Folgenden finden Sie beliebte Batchgrößenstrategien:

  • Stochastic Gradient Abcent (SGD), wobei die Batchgröße 1 ist.
  • vollständigen Batch, in dem die Batchgröße die Anzahl von Beispielen im gesamten Trainings-Dataset darstellt. Wenn das Trainings-Dataset beispielsweise eine Million Beispiele enthält, wäre die Batchgröße eine Million Beispiele. Ein vollständiger Batch ist in der Regel eine ineffiziente Strategie.
  • mini-batch, bei dem die Batchgröße normalerweise zwischen 10 und 1.000 liegt. Mini-Batches sind in der Regel die effizienteste Strategie.

Verzerrung (Ethik/Fairness)

#fairness
#fundamentals

1. Stereotypisierung, Vorurteile oder Bevorzugung gegenüber bestimmten Dingen, Personen oder Gruppen gegenüber anderen. Diese Verzerrungen können sich auf die Erfassung und Interpretation von Daten, das Design eines Systems und die Interaktion der Nutzer mit einem System auswirken. Zu dieser Art von Verzerrung gehören:

2. Systematischer Fehler, der durch ein Stichproben- oder Berichterstellungsverfahren eingeführt wurde. Zu dieser Art von Verzerrung gehören:

Nicht zu verwechseln mit dem Verzerrungsbegriff in ML-Modellen oder der Vorhersageverzerrung.

Verzerrung (Mathematik) oder Verzerrungsbegriff

#fundamentals

Ein Abfangen oder Versatz von einem Ursprung. „Bias“ ist ein Parameter in Modellen für maschinelles Lernen, der durch Folgendes dargestellt wird:

  • B
  • W0

Die Gewichtung ist beispielsweise in der folgenden Formel das b:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In einer einfachen zweidimensionalen Linie heißt Verzerrung einfach „y-Achsenabschnitt“. Die Verzerrung der Linie in der folgenden Abbildung ist beispielsweise 2.

Die Darstellung einer Linie mit einer Neigung von 0,5 und einem Verzerrungsgrad (y-Achsenabschnitt) von 2.

Verzerrung ist vorhanden, weil nicht alle Modelle vom Ursprung (0,0) beginnen. Angenommen, ein Freizeitpark kostet 2 € für die Einreise und weitere 0,5 € für jede Stunde, die ein Kunde übernachtet. Daher hat ein Modell, das die Gesamtkosten anpasst, eine Verzerrung von 2, da die niedrigsten Kosten 2 € sind.

Verzerrung sollte nicht mit Verzerrung in Bezug auf Ethik und Fairness oder Verzerrung bei der Vorhersage verwechselt werden.

Binärklassifizierung

#fundamentals

Eine Art von Klassifizierungsaufgabe, die eine von zwei sich gegenseitig ausschließenden Klassen vorhersagt:

Die folgenden beiden Modelle für maschinelles Lernen führen beispielsweise eine binäre Klassifizierung aus:

  • Ein Modell, das bestimmt, ob E-Mails Spam (die positive Klasse) oder kein Spam (die auszuschließende Klasse) sind.
  • Ein Modell, das medizinische Symptome evaluiert, um festzustellen, ob eine Person an einer bestimmten Krankheit leidet (die positive Klasse) oder nicht an dieser Krankheit leidet (die negative Klasse).

Verwenden Sie stattdessen einen Kontrast zur Klassifizierung mit mehreren Klassen.

Siehe auch logistische Regression und Grenzwert für die Klassifizierung.

Bucketing

#fundamentals

Konvertieren eines einzelnen Features in mehrere Binärfeatures namens Buckets oder bins, in der Regel basierend auf einem Wertebereich. Das gekürzte Merkmal ist in der Regel ein ständiges Merkmal.

Anstatt die Temperatur als einzelnes fortlaufendes Gleitkommaelement darzustellen, können Sie die Temperaturen in separate Buckets schneiden, z. B.:

  • <= 10 Grad Celsius wäre der „kalte“ Bucket.
  • Zwischen 11 und 24 Grad Celsius wäre es der „temperierte“ Bucket.
  • >= 25 Grad Celsius ist der „warme“ Bucket.

Das Modell behandelt jeden Wert im selben Bucket gleich. Die Werte 13 und 22 befinden sich beispielsweise beide im temporären Bucket, sodass das Modell die beiden Werte gleich behandelt.

C

kategoriale Daten

#fundamentals

Funktionen, die einen bestimmten Satz möglicher Werte haben. Sehen Sie sich beispielsweise das kategoriale Merkmal traffic-light-state an, das nur einen der folgenden drei möglichen Werte haben kann:

  • red
  • yellow
  • green

Wenn traffic-light-state als kategoriales Feature dargestellt wird, kann ein Modell die verschiedenen Auswirkungen von red, green und yellow auf das Fahrverhalten erkennen.

Kategoriale Features werden manchmal als eigenständige Features bezeichnet.

Im Gegensatz dazu solltest du numerische Daten verwenden.

Klasse

#fundamentals

Eine Kategorie, zu der ein Label gehören kann. Beispiel:

Ein Klassifizierungsmodell sagt eine Klasse vorher. Im Gegensatz dazu wird mit einem Rationsmodell eine Zahl statt einer Klasse vorhergesagt.

Klassifizierungsmodell

#fundamentals

Ein Modell, dessen Vorhersage eine Klasse ist. Hier sind zum Beispiel alle Klassifizierungsmodelle:

  • Ein Modell, das die Sprache eines Eingabesatzes vorhersagt (Französisch) Spanisch? Italienisch?).
  • Ein Modell, das Baumarten (Ahorn) vorhersagt? Eichenholz? Baobab?).
  • Ein Modell, das die positive oder negative Klasse für eine bestimmte medizinische Bedingung vorhersagt.

Im Gegensatz dazu werden mit Risikomodellen Zahlen anstelle von Klassen vorhergesagt.

Zwei gängige Arten von Klassifizierungsmodellen sind:

Klassifizierungsschwellenwert

#fundamentals

In einer binären Klassifizierung eine Zahl zwischen 0 und 1, die die Rohausgabe eines logistischen Regressionsmodells in eine Vorhersage der positiven Klasse oder der negativen Klasse konvertiert. Der Klassifizierungsschwellenwert ist ein Wert, den ein Mensch auswählt, nicht ein Wert, der beim Modelltraining ausgewählt wird.

Ein logistisches Regressionsmodell gibt einen Rohwert zwischen 0 und 1 aus. Dann:

  • Wenn dieser Rohwert größer als der Klassifizierungsschwellenwert ist, wird die positive Klasse vorhergesagt.
  • Wenn dieser Rohwert kleiner als der Klassifizierungsschwellenwert ist, wird die negative Klasse vorhergesagt.

Angenommen, der Klassifizierungsschwellenwert ist 0,8. Wenn der Rohwert 0,9 ist, sagt das Modell die positive Klasse vorher. Wenn der Rohwert 0,7 ist, sagt das Modell die negative Klasse vorher.

Die Auswahl des Klassifizierungsgrenzwerts wirkt sich stark auf die Anzahl der falsch positiven Ergebnisse und die falsch negativen Ergebnisse aus.

Dataset mit Klassenausgleich

#fundamentals

Ein Dataset für ein Klassifizierungsproblem, bei dem sich die Labels aller Klassen erheblich unterscheiden. Hier ein Beispiel für ein binäres Klassifizierungs-Dataset, dessen beiden Labels wie folgt aufgeteilt sind:

  • 1.000.000 auszuschließende Labels
  • 10 positive Labels

Das Verhältnis von negativen zu positiven Labels beträgt 100.000 zu 1, daher ist dies ein Dataset mit Ungleichgewicht in der Klasse.

Im Gegensatz dazu ist das folgende Dataset nicht class-unausgeglichen, da das Verhältnis von negativen Labels zu positiven Labels nah an 1 liegt:

  • 517 auszuschließende Labels
  • 483 positive Labels

Datasets mit mehreren Klassen können ebenfalls ungleichmäßig sein. Das folgende mehrklassige Klassifizierungs-Dataset ist ebenfalls ungleichmäßig, da ein Label wesentlich mehr Beispiele hat als die anderen beiden:

  • 1.000.000 Labels mit der Klasse „green“
  • 200 Labels mit der Klasse „lila“
  • 350 Labels mit der Klasse „Orange“

Siehe auch Entropie, Majority-Klasse und Nebenversionsklasse.

Abschneiden

#fundamentals

Eine Methode zum Umgang mit Ausreißern, indem mindestens einer der folgenden Schritte ausgeführt wird:

  • Feature-Werte, die größer sind als der maximale Grenzwert, werden bis auf den maximalen Grenzwert reduziert.
  • Erhöhen von Featurewerten, die unter einem Mindestgrenzwert bis zu diesem Mindestgrenzwert liegen.

Beispiel: < 0, 5% der Werte für ein bestimmtes Merkmal liegen außerhalb des Bereichs zwischen 40 und 60. In diesem Fall können Sie Folgendes tun:

  • Begrenzen Sie alle Werte über 60 (maximaler Schwellenwert) auf genau 60.
  • Begrenzen Sie alle Werte unter 40 (Mindestgrenzwert) auf genau 40.

Ausreißer können Modelle beschädigen und manchmal Gewichtungen während des Trainings überlaufen. Einige Ausreißer können auch Messwerte wie Accuracy erheblich beeinträchtigen. Das Zuschneiden ist eine gängige Methode, um den Schaden zu begrenzen.

Beim Farbverlauf werden Farbverlaufwerte während des Trainings innerhalb eines festgelegten Bereichs erzwungen.

Wahrheitsmatrix

#fundamentals

Eine NxN-Tabelle, die die Anzahl der korrekten und falschen Vorhersagen enthält, die von einem Klassifizierungsmodell getroffen wurden. Beispiel: Die folgende Wahrheitsmatrix für ein binäres Klassifikationsmodell:

Tumor (Prognose) Nicht-Tumor (Prognose)
Tumor (Ground Truth) 18 (TP) 1 (FN)
Nicht-Tumor (Ground Truth) 6 (fps) 452 (TN)

Die obige Verwirrungsmatrix enthält Folgendes:

  • Von den 19 Vorhersagen, bei denen Ground Truth Tumor war, hat das Modell 18 richtig und 1 falsch klassifiziert.
  • Von den 458 Vorhersagen, bei denen Ground Truth korrekt war, hat das Modell 452 richtig klassifiziert und 6 falsch klassifiziert.

Mit der Wahrheitsmatrix für ein Problem mit mehreren Klassen können Sie Fehlermuster identifizieren. Sehen Sie sich zum Beispiel die folgende Verwirrungsmatrix für ein mehrklassiges Klassifizierungsmodell mit drei Klassen an, mit dem drei verschiedene Iris-Typen kategorisiert werden: Virginica, Versicolor und Setosa. Als Ground Truth die Virginica war, zeigt die Verwirrungsmatrix, dass das Modell Versicolor mit größerer Wahrscheinlichkeit vorhersagen kann als Setosa:

  Setosa (voraussichtlich) Versicolor (voraussichtlich) Virginica (voraussichtlich)
Setosa (Ground Truth) 88 12 0
Versicolor (Ground Truth) 6 141 7
Virginica (Ground Truth) 2 27 109

Ein weiteres Beispiel: Eine Wahrheitsmatrix könnte zeigen, dass ein zur Erkennung von handgeschriebenen Ziffern trainiertes Modell tendenziell 9 anstelle von 4 oder 1 anstelle von 7 prognostiziert.

Verwirrungsmatrizen enthalten genügend Informationen, um eine Reihe von Leistungsmesswerten wie Precision und Recall zu berechnen.

stetiges Feature

#fundamentals

Ein Gleitkomma-Feature mit unendlichem Bereich möglicher Werte wie Temperatur oder Gewicht.

Sie sollten sich im Gegensatz zur diskreten Funktion befinden.

konvergenz

#fundamentals

Ein Status, der erreicht wird, wenn sich die loss-Werte bei jeder Iteration sehr oder überhaupt nicht ändern. Die folgende Verlustkurve schlägt beispielsweise eine Konvergenz bei ca. 700 Iterationen vor:

kartesische Handlung. Die X-Achse ist verloren. Die Y-Achse ist die Anzahl der Trainingsdurchläufe. Der Verlust ist in den ersten paar Iterationen sehr hoch, sinkt aber stark. Nach etwa 100 Iterationen nimmt der Verlust immer noch ab, aber viel weiter allmählich. Nach etwa 700 Wiederholungen bleibt der Verlust flach.

Ein Modell konvergiert, wenn das zusätzliche Training das Modell nicht verbessert.

Bei tiefem Lernen bleiben Verlustwerte für viele Iterationen manchmal konstant oder nahezu unverändert, bevor sie schließlich absteigen. Während eines längeren Zeitraums mit konstanten Verlustwerten kann es zu einem falschen Gefühl von Konvergenz kommen.

Weitere Informationen

D

DataFrame

#fundamentals

Beliebter Panama-Datentyp zum Darstellen von Datasets im Arbeitsspeicher.

Ein DataFrame ist mit einer Tabelle oder Tabelle vergleichbar. Jede Spalte eines DataFrames hat einen Namen (einen Header) und jede Zeile wird durch eine eindeutige Zahl gekennzeichnet.

Jede Spalte in einem DataFrame ist wie ein 2D-Array strukturiert, wobei jeder Spalte ein eigener Datentyp zugewiesen werden kann.

Weitere Informationen finden Sie auf der offiziellen Pandas.DataFrame-Referenzseite.

Dataset oder Dataset

#fundamentals

Eine Sammlung von Rohdaten, die üblicherweise (aber nicht ausschließlich) in einem der folgenden Formate organisiert ist:

  • eine Tabelle
  • Eine Datei im CSV-Format

Deep Model

#fundamentals

Ein neuronales Netzwerk mit mehr als einer verborgenen Ebene

Ein tiefes Modell wird auch als tiefes neuronales Netzwerk bezeichnet.

Verwenden Sie stattdessen ein breites Modell.

vollbesetztes Feature

#fundamentals

Ein Feature, bei dem die meisten oder alle Werte ungleich null sind, in der Regel ein Tensor aus Gleitkommawerten. Der folgende 10-Element-Tensor ist dicht, weil 9 der Werte ungleich null sind:

8 3 7 5 2 4 0 4 9 6

Du solltest die Kontrastfunktion gegenüber der Funktion „Sparse“ verwenden.

depth

#fundamentals

Die Summe der folgenden Elemente in einem neuronalen Netzwerk:

Beispiel: Ein neuronales Netzwerk mit fünf versteckten Schichten und einer Ausgabeebene hat eine Tiefe von 6.

Die Eingabeebene hat keinen Einfluss auf die Tiefe.

diskretes Feature

#fundamentals

Ein Feature mit einer begrenzten Gruppe möglicher Werte. Ein Feature, dessen Werte nur animal, gemüse oder mineralisch sind, ist ein diskretes (oder kategoriales) Merkmal.

Kontrast: Kontinuierliche Funktion

dynamisch

#fundamentals

Häufige oder regelmäßige Aktivitäten Die Begriffe dynamisch und online sind Synonyme im maschinellen Lernen. Im Folgenden werden gängige Anwendungsfälle von dynamischem und online im maschinellen Lernen verwendet:

  • Ein dynamisches Modell (oder Onlinemodell) ist ein Modell, das häufig oder kontinuierlich neu trainiert wird.
  • Dynamisches Training (oder Onlinetraining) ist ein Training, das häufig oder kontinuierlich durchgeführt wird.
  • Eine dynamische Inferenz (oder Online-Inferenz) ist der Vorgang, bei dem Vorhersagen nach Bedarf generiert werden.

Dynamisches Modell

#fundamentals

Ein Modell, das häufig (auch sogar kontinuierlich) neu trainiert wird. Ein dynamisches Modell ist ein „lebenslanger Lerner“, der sich ständig an sich verändernde Daten anpasst. Ein dynamisches Modell wird auch als Onlinemodell bezeichnet.

Kontrast zum statischen Modell

E

vorzeitiges Beenden

#fundamentals

Eine Methode zur Regularisierung, bei der das Training beendet wird, bevor der Verlust des Trainings abnimmt. Beim vorzeitigen Beenden beenden Sie das Training des Modells absichtlich, wenn der Verlust an einem Validierungs-Dataset zunimmt, d. h. wenn sich die Leistung der Generalisierung verschlechtert.

Einbettungsebene

#language
#fundamentals

Eine spezielle ausgeblendete Ebene, die mit einem hochdimensionalen kategorialen Feature trainiert wird, um nach und nach einen Einbettungsvektor mit niedrigerer Dimension zu erlernen. Mit einer Einbettungsebene kann ein neuronales Netzwerk viel effizienter trainieren als nur mit dem hochdimensionalen kategorialen Merkmal.

Beispielsweise unterstützt Google Earth derzeit etwa 73.000 Baumarten. Angenommen, Baumstrukturen sind ein Feature in Ihrem Modell. Die Eingabeebene Ihres Modells enthält also einen One-Hot-Vektor mit einer Länge von 73.000 Elementen. Zum Beispiel könnte baobab so aussehen:

Ein Array mit 73.000 Elementen. Die ersten 6.232 Elemente enthalten den Wert 0. Das nächste Element enthält den Wert 1. Die letzten 66.767 Elemente haben den Wert null.

Ein Array mit 73.000 Elementen ist sehr lang. Wenn Sie dem Modell keine Einbettungsebene hinzufügen, wird das Multiplizieren von 72.999 Nullen sehr zeitaufwendig. Sie können die Einbettungsebene auch aus 12 Dimensionen auswählen. Die Einbettungsschicht lernt daher nach und nach einen neuen Einbettungsvektor.

In bestimmten Situationen ist Hashing eine sinnvolle Alternative zu einer Einbettungsebene.

Epoche

#fundamentals

Ein vollständiger Trainingspass für das gesamte Trainings-Dataset, sodass jedes Beispiel einmal verarbeitet wurde.

Eine Epoche steht für N/Batchgrößen-Trainingsiterationen, wobei N die Gesamtzahl der Beispiele ist.

Beispiel:

  • Das Dataset besteht aus 1.000 Beispielen.
  • Die Batchgröße beträgt 50 Beispiele.

Für eine Epoche sind also 20 Wiederholungen erforderlich:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Beispiel

#fundamentals

Die Werte einer Zeile mit Features und möglicherweise einem Label. Beispiele für das überwachte Lernen lassen sich in zwei allgemeine Kategorien unterteilen:

  • Ein Beispiel mit Label besteht aus einem oder mehreren Features und einem Label. Während des Trainings werden Beispiele mit Labels verwendet.
  • Ein Beispiel ohne Label besteht aus einem oder mehreren Features, aber ohne Label. Während der Inferenz werden Beispiele ohne Labels verwendet.

Angenommen, Sie trainieren ein Modell, um die Auswirkung der Wetterbedingungen auf die Testergebnisse der Studenten zu bestimmen. Hier drei Beispiele:

Features Label
Temperatur Luftfeuchtigkeit Luftdruck Testergebnis
15 47 998 Gut
19 34 1.020 Hervorragend
18 92 1012 Schlecht

Hier sind drei Beispiele ohne Label:

Temperatur Luftfeuchtigkeit Luftdruck  
12 62 1014  
21 47 1017  
19 41 1021  

Die Zeile eines Datasets dient normalerweise als Rohquelle für ein Beispiel. Das heißt, ein Beispiel besteht normalerweise aus einer Teilmenge der Spalten im Dataset. Darüber hinaus können die Features in einem Beispiel auch synthetische Features enthalten, z. B. Feature Crosses.

F

falsch negative (FN)

#fundamentals

Ein Beispiel, bei dem das Modell fälschlicherweise die negative Klasse vorhersagt. Im Modell wird beispielsweise vorhergesagt, dass eine bestimmte E-Mail kein Spam ist (die negative Klasse), aber diese E-Mail ist tatsächlich Spam.

falsch positive Ergebnisse

#fundamentals

Ein Beispiel, bei dem das Modell fälschlicherweise die positive Klasse vorhersagt. Das Modell sagt beispielsweise aus, dass eine bestimmte E-Mail-Nachricht Spam (die positive Klasse) ist, aber dass diese E-Mail tatsächlich kein Spam ist.

Rate falsch positiver Ergebnisse

#fundamentals

Der Anteil der tatsächlichen negativen Beispiele, für die das Modell fälschlicherweise die positive Klasse vorhergesagt hat. Die folgende Formel berechnet die Falsch-Positiv-Rate:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Die Rate falsch positiver Ergebnisse ist die X-Achse in einer ROC-Kurve.

Feature

#fundamentals

Eine Eingabevariable für ein Modell für maschinelles Lernen. Ein Beispiel besteht aus einem oder mehreren Features. Angenommen, Sie trainieren ein Modell, um die Auswirkung der Wetterbedingungen auf die Testergebnisse der Schüler zu bestimmen. In der folgenden Tabelle sehen Sie drei Beispiele mit jeweils drei Features und einem Label:

Features Label
Temperatur Luftfeuchtigkeit Luftdruck Testergebnis
15 47 998 92
19 34 1.020 84
18 92 1012 87

Verwenden Sie stattdessen ein Label.

Featureverknüpfung

#fundamentals

Ein synthetisches Feature, das durch das Verknüpfen von kategorialen oder Bucket-Features gebildet wird.

Beispiel: Das Modell „Stimmungsprognose“ stellt die Temperatur in einem der folgenden vier Buckets dar:

  • freezing
  • chilly
  • temperate
  • warm

steht für die Windgeschwindigkeit in einem der folgenden drei Bereiche:

  • still
  • light
  • windy

Ohne Feature Crosses wird das lineare Modell unabhängig bei jedem der vorherigen sieben verschiedenen Buckets trainiert. Das Modell wird dann unabhängig von freezing, z. B. windy, auf dem Training trainiert.

Alternativ kannst du eine Merkmalstemperatur aus Temperatur und Windgeschwindigkeit erstellen. Dieses synthetische Feature hätte die folgenden 12 möglichen Werte:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dank der Feature Crosses kann das Modell Stimmungsunterschiede zwischen einem freezing-windy- und einem freezing-still-Tag erkennen.

Wenn Sie ein synthetisches Feature aus zwei Features erstellen, die jeweils viele verschiedene Buckets haben, hat das resultierende Feature-Cross eine große Anzahl von möglichen Kombinationen. Wenn ein Feature beispielsweise 1.000 Buckets und das andere Feature 2.000 Buckets hat, hat der resultierende Feature-Cross-Stream 2.000.000 Buckets.

Im Prinzip ist ein Kreuz ein kartesisches Produkt.

Feature-Crosses werden hauptsächlich mit linearen Modellen und nur selten mit neuronalen Netzwerken verwendet.

Feature Engineering

#fundamentals
#TensorFlow

Ein Prozess mit den folgenden Schritten:

  1. Ermitteln, welche Features zum Trainieren eines Modells nützlich sein können.
  2. Rohdaten aus dem Dataset in effiziente Versionen dieser Features umwandeln.

Sie könnten beispielsweise feststellen, dass temperature ein nützliches Feature ist. Anschließend können Sie mit Bucketing experimentieren, um das Modell mit verschiedenen temperature-Bereichen zu optimieren.

Feature Engineering wird manchmal als Featureextraktion bezeichnet.

Feature-Set

#fundamentals

Die Gruppe von Features, mit denen Ihr Modell trainiert wird. Beispielsweise können Postleitzahl, Immobiliengröße und -bedingung aus einem einfachen Feature-Set für ein Modell bestehen, das die Immobilienpreise vorhersagt.

Featurevektor

#fundamentals

Das Array mit Feature-Werten, die ein Beispiel enthalten. Der Featurevektor wird während des Trainings und während Inferenzen eingegeben. Der Featurevektor für ein Modell mit zwei separaten Merkmalen könnte beispielsweise so aussehen:

[0.92, 0.56]

Vier Ebenen: eine Eingabeebene, zwei verborgene Ebenen und eine Ausgabeebene.
          Die Eingabeebene enthält zwei Knoten, einen mit dem Wert 0,92 und den anderen mit dem Wert 0,56.

Jedes Beispiel stellt unterschiedliche Werte für den Featurevektor bereit. Der Featurevektor für das nächste Beispiel könnte also so aussehen:

[0.73, 0.49]

Feature Engineering bestimmt, wie Features im Featurevektor dargestellt werden. Beispielsweise kann ein binäres kategoriales Merkmal mit fünf möglichen Werten durch One-Hot-Codierung dargestellt werden. In diesem Fall würde der Teil des Featurevektors für ein bestimmtes Beispiel aus vier Nullen und einem einzelnen 1,0-Wert an der dritten Position bestehen:

[0.0, 0.0, 1.0, 0.0, 0.0]

Ein weiteres Beispiel: Ihr Modell besteht aus drei Features:

  • ein binäres kategoriales Feature mit fünf möglichen Werten, die mit One-Hot-Codierung dargestellt werden. Beispiel: [0.0, 1.0, 0.0, 0.0, 0.0]
  • ein weiteres binäres kategoriales Merkmal mit drei möglichen Werten, die durch One-Hot-Codierung dargestellt werden. Beispiel: [0.0, 0.0, 1.0]
  • ein Gleitkommaelement. Beispiel: 8.3.

In diesem Fall würde der Featurevektor für jedes Beispiel durch neun Werte dargestellt. Basierend auf den Beispielwerten in der vorherigen Liste würde der Featurevektor so aussehen:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Feedback Loop

#fundamentals

Beim maschinellen Lernen, bei dem die Vorhersagen eines Modells die Trainingsdaten für dasselbe oder ein anderes Modell beeinflussen. Ein Modell, das Filme empfiehlt, hat beispielsweise Einfluss auf die Filme, die Nutzer sehen. Das hat Einfluss auf die nachfolgenden Modelle für Filmempfehlungen.

G

Generalisierung

#fundamentals

Die Fähigkeit eines Modells, korrekte Vorhersagen zu neuen, zuvor unbekannten Daten zu treffen. Ein verallgemeinerbares Modell ist das Gegenteil eines Überanpassungs-Modells.

Generalisierungskurve

#fundamentals

Ein Diagramm mit dem Trainingsverlust und dem Validierungsverlust in Abhängigkeit von der Anzahl der Iterationen.

Mit einer Verallgemeinerungskurve können Sie eine mögliche Überanpassung ermitteln. Die folgende Generalisierungskurve empfiehlt beispielsweise eine Überanpassung, da der Validierungsverlust letztendlich erheblich höher ist als der Trainingsverlust.

Eine kartesische Grafik, in der die Y-Achse mit „Verlust“ und die X-Achse mit „Iterationen“ gekennzeichnet ist. Es werden zwei Handlungsstränge angezeigt. Ein Diagramm zeigt den Trainingsverlust und das andere den Validierungsverlust.
          Die beiden Diagramme beginnen ähnlich, aber der Trainingsverlust sinkt schließlich viel weiter als der Validierungsverlust.

Gradientenabstieg

#fundamentals

Eine mathematische Methode, um Verlust zu minimieren. Beim Gradientenabstieg werden Gewichtungen und Verzerrungen schrittweise angepasst, um die beste Kombination zu finden und den Verlust zu minimieren.

Der Gradientenabstieg ist älter – viel, viel älter – als das maschinelle Lernen.

Ground Truth

#fundamentals

Realität.

Das war der Fall.

Beispielsweise können Sie ein binäres Klassifizierungsmodell nutzen, das vorhersagt, ob ein Student innerhalb des ersten Universitätsjahres eines Hochschulstudiums innerhalb von sechs Jahren abschließen wird. Ground Truth für dieses Modell ist, ob dieser Schüler tatsächlich seinen Abschluss innerhalb von sechs Jahren gemacht hat.

H

Ebene „Ausgeblendet“

#fundamentals

Eine Ebene in einem neuronalen Netzwerk zwischen der Eingabeebene (Features) und der Ausgabeebene (Vorhersage). Jede verborgene Ebene besteht aus einem oder mehreren Neuronen. Das folgende neuronale Netzwerk enthält beispielsweise zwei verborgene Schichten, die erste mit drei Neuronen und die zweite mit zwei Neuronen:

Vier Ebenen. Die erste Ebene ist eine Eingabeebene mit zwei Features. Die zweite Schicht ist eine versteckte Schicht, die drei Neuronen enthält. Die dritte Schicht ist eine versteckte Schicht, die zwei Neuronen enthält. Die vierte Ebene ist eine Ausgabeebene. Jedes Merkmal enthält drei Kanten, die jeweils auf ein anderes Neuron in der zweiten Schicht verweisen. Jedes Neuron der zweiten Schicht enthält zwei Kanten, die jeweils auf ein anderes Neuron in der dritten Schicht verweisen. Jedes der Neuronen der dritten Schicht enthält jeweils einen Rand, der auf die Ausgabeebene verweist.

Ein tiefes neuronales Netzwerk enthält mehr als eine verborgene Ebene. Die obige Abbildung ist beispielsweise ein neuronales Deep-Learning-Netzwerk, da das Modell zwei verborgene Ebenen enthält.

Hyperparameter

#fundamentals

Die Variablen, die Sie oder ein Hyperparameter-Abstimmungsdienstbei aufeinanderfolgenden Trainingstrainings eines Modells anpassen. Die Lernrate ist beispielsweise ein Hyperparameter. Sie können die Lernrate vor einer Trainingseinheit auf 0,01 setzen. Wenn Sie feststellen, dass 0,01 zu hoch ist, können Sie die Lernrate möglicherweise für die nächste Trainingseinheit auf 0,003 festlegen.

Im Gegensatz dazu sind Parameter die verschiedenen Gewichtungen und Verzerrungen, die das Modell während des Trainings lernt.

I

unabhängig und identisch verteilt (d.h.)

#fundamentals

Daten, die aus einer Verteilung stammen, die sich nicht ändert und bei der jeder gezeichnete Wert nicht von Werten abhängt, die zuvor abgerufen wurden. Dies ist ein ideales Gas, das auf maschinellem Lernen basiert – ein nützliches mathematisches Konstrukt, das in der realen Welt fast nie gefunden wird. Beispielsweise kann die Verteilung der Besucher auf eine Webseite über einen kurzen Zeitraum verteilt werden, d. h., die Verteilung ändert sich während dieses kurzen Zeitraums nicht und der Besuch einer Person ist im Allgemeinen unabhängig vom Besuch einer anderen Person. Wenn Sie diesen Zeitraum verlängern, können jedoch saisonabhängige Abweichungen bei den Besuchern der Webseite auftreten.

Weitere Informationen finden Sie unter Nonstationarity.

Inferenz

#fundamentals

Im Bereich des maschinellen Lernens werden Vorhersagen getroffen, indem ein trainiertes Modell auf Beispiele ohne Labels angewendet wird.

Inferenz hat in der Statistik eine andere Bedeutung. Weitere Informationen finden Sie im Wikipedia-Artikel zur statistischen Inferenz.

Eingabeebene

#fundamentals

Die Ebene eines neuronalen Netzwerks, das den Featurevektor enthält. Das heißt, die Eingabeebene enthält Beispiele für Training oder Inferenz. Die Eingabeebene im folgenden neuronalen Netzwerk besteht beispielsweise aus zwei Features:

Vier Ebenen: eine Eingabeebene, zwei verborgene Ebenen und eine Ausgabeebene.

Interpretierbarkeit

#fundamentals

Die Möglichkeit, einem Menschen die Begründung eines ML-Modells in verständlichen Begriffen zu erklären oder vorzustellen.

Die meisten linearen Regressionsmodelle sind beispielsweise gut verständlich. Sie müssen sich nur die trainierten Gewichtungen für jedes Feature ansehen. Entscheidungsstrukturen sind ebenfalls sehr gut verständlich. Einige Modelle erfordern jedoch eine komplexe Visualisierung, um interpretiert werden zu können.

Iteration

#fundamentals

Eine einzelne Aktualisierung der Parameter für ein Modell – die Gewichtungen und die Verzerrungen des Modells – während des Trainings. Die Batchgröße bestimmt, wie viele Beispiele das Modell in einer einzelnen Iteration verarbeitet. Wenn die Batchgröße beispielsweise 20 beträgt, verarbeitet das Modell 20 Beispiele, bevor die Parameter angepasst werden.

Beim Trainieren eines neuronalen Netzwerks umfasst ein einzelner Durchlauf die folgenden beiden Karten/Tickets:

  1. Ein Forward-Pass, um den Verlust eines einzelnen Batches zu bewerten.
  2. Ein Rücklaufpass (Zurückpropagation), um die Parameter des Modells auf der Grundlage des Verlusts und der Lernrate anzupassen.

L

L0-Regularisierung

#fundamentals

Eine Art von Regularisierung, bei der die Gesamtzahl der Nicht-0-Gewichtungen in einem Modell bestraft wird. Beispiel: Ein Modell mit 11 Gewichtungen ungleich null wird mehr als ein ähnliches Modell mit 10 Gewichtungen ungleich null bestraft.

Die L0-Regularisierung wird manchmal als L0-Norm-Regularisierung bezeichnet.

L1 Verlust

#fundamentals

Eine Verlustfunktion, die den absoluten Wert der tatsächlichen Differenz zwischen den tatsächlichen Labelwerten und den Werten berechnet, die von einem Modell vorhergesagt werden. Hier ist ein Beispiel für die Berechnung des L1-Verlusts für einen Batch von fünf Beispielen:

Tatsächlicher Wert des Beispiels Prognostizierter Wert des Modells Absolutwert des Deltas
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 Verlust

L1-Verluste sind weniger anfällig für Ausreißer als L2-Verlust.

Der durchschnittliche absolute Fehler ist der durchschnittliche L1-Verlust pro Beispiel.

L1-Regularisierung

#fundamentals

Eine Art von Regularisierung, bei der Gewichtungen proportional zur Summe des absoluten Werts der Gewichtungen bestraft werden. L1-Regularisierung trägt dazu bei, die Gewichtung irrelevanter oder kaum relevanter Features auf genau 0 zu lenken. Ein Feature mit einer Gewichtung von 0 wird effektiv aus dem Modell entfernt.

Vergleichen Sie sie mit der L2-Regularisierung.

L2 Verlust

#fundamentals

Eine Verlustfunktion, die das Quadrat der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die von einem Modell vorhergesagt werden. So wird die L2-Verlust für einen Batch von fünf Beispielen berechnet:

Tatsächlicher Wert des Beispiels Prognostizierter Wert des Modells Quadratzahl des Deltas
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = 0 Verlust

Aufgrund von Quadrat verstärkt der Verlust von 2 den Einfluss von Ausreißern. L2-Verluste reagieren also stärker auf fehlerhafte Vorhersagen als L1-Verluste. Der L1Verlust für den vorherigen Batch wäre beispielsweise 8 statt 16. Ein einzelner Ausreißer macht 9 von 16 aus.

Retourenmodelle verwenden in der Regel L2-Verluste als Verlustfunktion.

Der mittlere quadratische Fehler ist der durchschnittliche L2-Verlust pro Beispiel. Quadratverlust ist ein anderer Name für L2-Verlust.

L2-Regularisierung

#fundamentals

Eine Art von Regularisierung, bei der Gewichtungen proportional zur Summe der Quadrate der Gewichtungen bestraft werden. Eine L2-Regularisierung trägt dazu bei, Ausreißer zu gewichten, die einen hohen positiven oder einen niedrigen negativen Wert haben, näher an 0, aber nicht ganz an 0. Features mit Werten, die sehr nah an 0 liegen, bleiben im Modell, haben jedoch keine großen Auswirkungen auf die Vorhersage des Modells.

Die L2-Regularisierung verbessert immer die Generalisierung in linearen Modellen.

Vergleichen Sie sie mit der L1-Regularisierung.

label

#fundamentals

Unter überwachtes maschinelles Lernen der „Antwort“- oder „Ergebnis“-Abschnitt eines Beispiels.

Jedes Beispiel mit Label besteht aus einem oder mehreren Features und einem Label. In einem Dataset zur Spamerkennung wäre dieses Label wahrscheinlich entweder „Spam“ oder „Kein Spam“. In einem Regendaten-Dataset kann das Label beispielsweise die Regenmenge sein, die in einem bestimmten Zeitraum gefallen ist.

Beispiel für Labels

#fundamentals

Ein Beispiel mit einem oder mehreren Features und einem Label. Die folgende Tabelle zeigt beispielsweise drei mit Labels versehene Beispiele aus einem Hausbewertungsmodell, jedes mit drei Merkmalen und einem Label:

Anzahl der Schlafzimmer Anzahl der Badezimmer Hausalter Hauspreis (Label)
3 2 15 345.000 €
2 1 72 179.000 €
4 2 34 392.000 €

In überwachten Machine Learning-Modellen werden Modelle anhand von Beispielen mit Labels trainiert und Vorhersagen für Beispiele ohne Labels getroffen.

Beispiel für Labels mit Beispielen ohne Label

Lambda

#fundamentals

Synonym für Regularisierungsrate.

Lambda ist eine Überlastung. Hier konzentrieren wir uns auf die Definition des Begriffs im Rahmen der Regularisierung.

Layer

#fundamentals

Eine Reihe von Neuronen in einem neuronalen Netzwerk. Es gibt drei gängige Arten von Ebenen:

Die folgende Abbildung zeigt beispielsweise ein neuronales Netzwerk mit einer Eingabeebene, zwei versteckten Ebenen und einer Ausgabeebene:

Ein neuronales Netzwerk mit einer Eingabeebene, zwei versteckten Ebenen und einer Ausgabeebene. Die Eingabeebene besteht aus zwei Funktionen. Die erste verborgene Schicht besteht aus drei Neuronen und die zweite verborgene Schicht besteht aus zwei Neuronen. Die Ausgabeebene besteht aus einem einzelnen Knoten.

In TensorFlow sind Ebenen auch Python-Funktionen, die Tensoren und Konfigurationsoptionen als Eingabe verwenden und andere Tensoren als Ausgabe erzeugen.

Lernrate

#fundamentals

Eine Gleitkommazahl, die dem Algorithmus für den Gradientenabstieg angibt, wie stark die Gewichtungen und Gewichtungen bei jeder Iteration angepasst werden sollen. Bei einer Lernrate von 0,3 werden Gewichtungen und Gewichtungen zum Beispiel dreimal so stark angepasst wie bei einer Lernrate von 0,1.

Die Lernrate ist ein wichtiger Hyperparameter. Wenn Sie die Lernrate zu niedrig festlegen, dauert das Training zu lange. Wenn Sie die Lernrate zu hoch festlegen, treten beim Gradientenabstieg häufig Probleme beim Konvergenz auf.

lineares Modell

#fundamentals

Ein Modell, das eine Gewichtung pro Feature für Vorhersagen zuweist. (Lineare Modelle beinhalten auch eine Bias.) Im Gegensatz dazu ist die Beziehung von Features zu Vorhersagen in tiefen Modellen im Allgemeinen nicht linear.

Lineare Modelle sind in der Regel einfacher zu trainieren und interpretierbarer als tiefe Modelle. Tiefgehende Modelle können jedoch komplexe Beziehungen zwischen Features erlernen.

Lineare Regression und logistische Regression sind zwei Arten von linearen Modellen.

Linear

#fundamentals

Eine Beziehung zwischen zwei oder mehr Variablen, die ausschließlich durch Hinzufügen und Multiplizieren dargestellt werden können.

Die Darstellung einer linearen Beziehung ist eine Linie.

Kontrast: nicht linear

lineare Regression

#fundamentals

Eine Art von Modell für maschinelles Lernen, bei der die folgenden beiden Punkte zutreffen:

  • Das Modell ist ein lineares Modell.
  • Die Vorhersage ist ein Gleitkommawert. Dies ist der Risiko der linearen Regression.

Lineare Regression mit logistischer Regression kontrastieren Beachten Sie außerdem die Kontrast Regression mit der Klassifizierung.

logistische Regression

#fundamentals

Eine Art von Risikomodell, das eine Wahrscheinlichkeit vorhersagt. Logistische Regressionsmodelle haben die folgenden Eigenschaften:

  • Das Label ist kategorial. Der Begriff „logistische Regression“ bezieht sich in der Regel auf eine binäre logistische Regression, d. h. ein Modell, das die Wahrscheinlichkeiten für Labels mit zwei möglichen Werten berechnet. Eine weniger gängige Variante, die multinomiale logistische Regression, berechnet die Wahrscheinlichkeiten für Labels mit mehr als zwei möglichen Werten.
  • Die Verlustfunktion während des Trainings ist Logverlust. Für Labels mit mehr als zwei möglichen Werten können mehrere Log Loss-Einheiten parallel platziert werden.
  • Das Modell hat eine lineare Architektur und kein tiefes neuronales Netzwerk. Der Rest dieser Definition gilt auch für tiefe Modelle, die Wahrscheinlichkeiten für kategoriale Labels vorhersagen.

Betrachten Sie beispielsweise ein logistisches Regressionsmodell, das die Wahrscheinlichkeit einer eingegebenen E-Mail entweder als Spam oder als Spam berechnet. Nehmen Sie während der Inferenz an, dass das Modell 0,72 vorhersagt. Daher wird das Modell geschätzt:

  • Die Wahrscheinlichkeit, dass es sich bei der E-Mail um Spam handelt, liegt bei 72 %.
  • Eine Wahrscheinlichkeit von 28 %, dass die E-Mail nicht als Spam eingestuft wird

Ein logistisches Regressionsmodell verwendet die folgende zweistufige Architektur:

  1. Das Modell generiert eine Rohvorhersage (y), indem eine lineare Funktion von Eingabefeatures angewendet wird.
  2. Das Modell verwendet diese Rohvorhersage als Eingabe für eine Sigmoidfunktion, die die Rohvorhersage in einen Wert zwischen 0 und 1 konvertiert, ausschließlich.

Wie jedes Regressionsmodell sagt ein logistisches Regressionsmodell eine Zahl vorher. Diese Zahl wird in der Regel jedoch Teil eines binären Klassifizierungsmodells:

  • Wenn die vorhergesagte Zahl größer ist als der Grenzwert für die Klassifizierung, sagt das binäre Klassifizierungsmodell die positive Klasse vorher.
  • Wenn die vorhergesagte Zahl weniger als der Klassifizierungsschwellenwert ist, prognostiziert das binäre Klassifizierungsmodell die negative Klasse.

Logarithmischer Verlust

#fundamentals

Die Verlustfunktion, die bei der binären logistischen Regression verwendet wird.

Logwahrscheinlichkeiten

#fundamentals

Der Logarithmus der Chancen eines Ereignisses

Niederlage

#fundamentals

Während des Trainings eines beaufsichtigten Modells wird ein Maß dafür angegeben, wie weit die Vorhersage eines Modells vom Label entfernt ist.

Mit einer Verlustfunktion wird der Verlust berechnet.

Verlustkurve

#fundamentals

Ein Diagramm des Verlusts in Funktion der Anzahl der Trainingsläufe. Das folgende Diagramm zeigt eine typische Verlustkurve:

Ein kartesischer Diagramm für den Verlust im Vergleich zu den Trainingsdurchläufen. Es zeigt einen schnellen Rückgang des Verlusts bei den ersten Iterationen, gefolgt von einem allmählichen Abfall und schließlich einem flachen Verlauf während der letzten Iterationen.

Mithilfe von Verlustkurven können Sie ermitteln, wann Ihr Modell konvergiert oder überanpassung wird.

Verlustkurven können die folgenden Arten von Verlusten darstellen:

Weitere Informationen finden Sie unter Generalisierungskurve.

Verlustfunktion

#fundamentals

Beim Training oder beim Testen eine mathematische Funktion, die den Verlust eines Batches von Beispielen berechnet. Eine Verlustfunktion gibt für Modelle, die gute Vorhersagen liefern, einen geringeren Verlust zurück als für Modelle, die schlechte Vorhersagen treffen.

Das Ziel des Trainings ist es in der Regel, den Verlust zu minimieren, den eine Verlustfunktion zurückgibt.

Es gibt viele verschiedene Arten von Verlustfunktionen. Wählen Sie die entsprechende Verlustfunktion für die Art des Modells aus, das Sie erstellen. Beispiel:

M

Machine Learning

#fundamentals

Ein Programm oder System, das eineinModellaus Eingabedaten trainiert. Das trainierte Modell kann nützliche Vorhersagen aus neuen (noch nie zuvor gesehenen) Daten treffen, die aus der Verteilung des Modells stammen, das zum Trainieren des Modells verwendet wurde.

Maschinelles Lernen bezieht sich auch auf das Fachgebiet dieser Programme oder Systeme.

Mehrheitsklasse

#fundamentals

Das gängige Label in einem Klasse mit Ungleichgewicht in der Klasse. Wenn Sie beispielsweise ein Dataset mit 99% negativen Labels und 1% positive Labels haben, sind die auszuschließenden Labels die Hauptklasse.

Kontrast Sie mit der Nebenversionsklasse.

Mini-Batch

#fundamentals

Eine kleine, zufällig ausgewählte Teilmenge eines Batches, der in einer Iteration verarbeitet wird. Die Batchgröße eines Mini-Batches liegt normalerweise zwischen 10 und 1.000 Beispielen.

Angenommen, der gesamte Trainingssatz (der vollständige Batch) besteht aus 1.000 Beispielen. Außerdem legen wir die Batchgröße der einzelnen Mini-Batches auf 20 fest. Daher wird durch jede Iteration der Verlust von 20 der 1.000 Beispiele ermittelt und die Gewichtungen sowie die Verzerrungen werden entsprechend angepasst.

Es ist viel effizienter, den Verlust eines Mini-Batches als den Verlust an allen Beispielen im vollständigen Batch zu berechnen.

Minderheitsklasse

#fundamentals

Das weniger gängige Label in einem Klasse-unausgeglichenen Dataset. Wenn beispielsweise ein Dataset 99% auszuschließende Labels und 1% positive Labels enthält, sind die positiven Labels die Minderheitsklasse.

Kontrast Sie mit der Mehrheitsklasse.

Modell

#fundamentals

Im Allgemeinen sind alle mathematischen Konstrukte, die Eingabedaten verarbeiten und Ausgaben zurückgeben. Ein Modell ist anders ausgedrückt als das Set von Parametern und Struktur, die für ein System für Vorhersagen erforderlich sind. In überwachtes maschinelles Lernen verwendet ein Modell ein Beispiel als Eingabe und leitet eine Vorhersage als Ausgabe ab. Bei überwachtem Machine Learning unterscheiden sich die Modelle ein wenig. Beispiel:

Sie können ein Modell speichern, wiederherstellen oder kopieren.

Nicht überwachtes maschinelles Lernen generiert ebenfalls Modelle. Dies ist normalerweise eine Funktion, mit der ein Eingabebeispiel dem am besten geeigneten Cluster zugeordnet werden kann.

Klassifizierung mit mehreren Klassen

#fundamentals

Beim überwachten Lernen ist es ein Klassifizierungsproblem, bei dem das Dataset mehr als zwei Klassen von Labels enthält. Die Labels im Iris-Dataset müssen beispielsweise eine der folgenden drei Klassen sein:

  • Iris-Setosa
  • Iris Jungfrau
  • Iris Versicolor

Ein auf dem Iris-Dataset trainiertes Modell, das den Iris-Typ für neue Beispiele vorhersagt, führt die Klassifizierung mit mehreren Klassen durch.

Im Gegensatz dazu sind Klassifizierungsprobleme, die sich genau zwischen zwei Klassen unterscheiden, binäre Klassifizierungsmodelle. Ein E-Mail-Modell, das entweder Spam oder kein Spam vorhersagt, ist ein binäres Klassifizierungsmodell.

Bei Clustering-Problemen bezieht sich die Klassifizierung mit mehreren Klassen auf mehr als zwei Cluster.

N

negative Klasse

#fundamentals

In der binären Klassifizierung wird eine Klasse als positiv und die andere als negativ bezeichnet. Die positive Klasse ist das, was das Modell testet, und die negative Klasse ist die andere Möglichkeit. Beispiel:

  • Die negative Klasse in einem medizinischen Test könnte „nicht tumor“ sein.
  • Die negative Klasse in einem E-Mail-Klassifikator ist möglicherweise "Kein Spam".

Vergleichen Sie sie mit der positiven Klasse.

neuronales Netzwerk

#fundamentals

Ein Modell, das mindestens eine ausgeblendete Ebene enthält. Ein tiefes neuronales Netzwerk ist ein neuronales Netzwerk, das mehr als eine verborgene Ebene enthält. Das folgende Diagramm zeigt beispielsweise ein tiefes neuronales Netzwerk mit zwei versteckten Schichten.

Ein neuronales Netzwerk mit einer Eingabeebene, zwei verborgenen Ebenen und einer Ausgabeebene.

Jedes Neuron in einem neuronalen Netzwerk stellt eine Verbindung zu allen Knoten auf der nächsten Schicht her. Im vorherigen Diagramm sehen Sie beispielsweise, dass jedes der drei Neuronen in der ersten verborgenen Schicht separat eine Verbindung zu den beiden Neuronen in der zweiten verborgenen Schicht herstellt.

Neurale auf Computern implementierte Netzwerke werden manchmal als künstliche neuronale Netzwerke bezeichnet, um sie von neuronalen Netzwerken zu unterscheiden, die in Gehirnen und anderen Nervensystemen gefunden werden.

Einige neuronale Netzwerke können extrem komplexe nicht lineare Beziehungen zwischen verschiedenen Merkmalen und dem Label nachahmen.

Siehe auch Convolutional Neural Network und Recurrent Neural Network.

Neuron

#fundamentals

Beim maschinellen Lernen wird eine deutliche Einheit in einer verborgenen Schicht eines neuronalen Netzwerks definiert. Jedes Neuron führt die folgende zwei Schritte aus:

  1. Berechnet die gewichtete Summe der Eingabewerte multipliziert mit den entsprechenden Gewichtungen.
  2. Übergibt die gewichtete Summe als Eingabe an eine Aktivierungsfunktion.

Ein Neuron in der ersten verborgenen Ebene akzeptiert Eingaben aus den Featurewerten in der Eingabeebene. Ein Neuron in einer verborgenen Schicht, die über das erste hinausgeht, akzeptiert Eingaben von den Neuronen in der vorherigen verborgenen Schicht. Ein Neuron in der zweiten verborgenen Schicht akzeptiert beispielsweise Eingaben von den Neuronen in der ersten verborgenen Schicht.

In der folgenden Abbildung sind zwei Neuronen und ihre Eingaben hervorgehoben.

Ein neuronales Netzwerk mit einer Eingabeebene, zwei verborgenen Ebenen und einer Ausgabeebene. Zwei Neuronen sind markiert: eines in der ersten und ein zweites in der zweiten. Das markierte Neuron in der ersten verborgenen Ebene empfängt Eingaben von beiden Merkmalen der Eingabeebene. Das markierte Neuron in der zweiten verborgenen Schicht empfängt Eingaben von jedem der drei Neuronen in der ersten verborgenen Schicht.

Ein Neuron in einem neuronalen Netzwerk ahmt das Verhalten von Neuronen in Gehirnen und anderen Teilen von Nervensystemen nach.

Knoten (neuronales Netzwerk)

#fundamentals

Ein Neuron in einer verborgenen Schicht.

nicht linear

#fundamentals

Eine Beziehung zwischen zwei oder mehr Variablen, die nicht allein durch Addition und Multiplikation dargestellt werden können. Eine lineare Beziehung kann nicht als Linie dargestellt werden. Eine nicht lineare Beziehung kann nicht als Linie dargestellt werden. Angenommen, zwei Modelle beziehen sich jeweils auf ein einzelnes Merkmal auf ein einzelnes Label. Das Modell auf der linken Seite ist linear und das Modell auf der rechten Seite nicht linear:

Zwei Handlungsstränge Ein Diagramm ist eine Linie. Es handelt sich also um eine lineare Beziehung.
          Das andere Diagramm ist eine Kurve. Es handelt sich also um eine nicht lineare Beziehung.

Nichtstationalität

#fundamentals

Eine Funktion, deren Werte sich in einer oder mehreren Dimensionen ändern, in der Regel im Zeitverlauf. Hier ein Beispiel für die Nicht-Stationalität:

  • Die Anzahl der Badeanzüge, die in einem bestimmten Geschäft verkauft werden, variiert je nach Saison.
  • Die Menge einer bestimmten Frucht, die in einer bestimmten Region geerntet wird, ist einen Großteil des Jahres null, aber für einen kurzen Zeitraum groß.
  • Aufgrund des Klimawandels ändern sich die durchschnittlichen jährlichen Temperaturen.

Kontrast: Stationität

Normalisierung

#fundamentals

Grundsätzlich wird der tatsächliche Wertebereich einer Variablen in einen Standardwertbereich konvertiert. Beispiele:

  • -1 bis +1
  • 0 bis 1
  • die Normalverteilung

Angenommen, der tatsächliche Wertebereich eines bestimmten Features beträgt 800 bis 2.400. Im Rahmen des Feature Engineering können Sie die tatsächlichen Werte auf einen Standardbereich normalisieren, z. B. -1 bis +1.

Die Normalisierung ist eine gängige Aufgabe bei Feature Engineering. Modelle werden in der Regel schneller trainiert (und bessere Vorhersagen liefern), wenn jedes numerische Merkmal im Featurevektor etwa denselben Bereich hat.

Numerische Daten

#fundamentals

Merkmale, die als Ganzzahlen oder reelle Werte dargestellt werden. Beispielsweise würde ein Hauswertmodell wahrscheinlich die Größe eines Hauses (in Quadratfuß oder Quadratmetern) als numerische Daten darstellen. Wenn ein Merkmal als numerische Daten dargestellt wird, bedeutet das, dass die Werte des Merkmals eine mathematische Beziehung zum Label haben. Das heißt, die Anzahl der Quadratmeter in einem Haus hat wahrscheinlich eine mathematische Beziehung zum Wert des Hauses.

Nicht alle Ganzzahldaten sollten als numerische Daten dargestellt werden. Beispielsweise sind Postleitzahlen in einigen Teilen der Welt Ganzzahlen. Ganzzahlen werden in den Modellen jedoch nicht als numerische Daten dargestellt. Der Grund dafür ist, dass die Postleitzahl 20000 nicht halb so hoch ist wie die Postleitzahl 10000. Außerdem können wir nicht davon ausgehen, dass verschiedene Immobilienwerte mit der Postleitzahl 20.000 doppelt so wertvoll sind wie Immobilienwerte mit der Postleitzahl 10.000, auch wenn verschiedene Postleitzahlen unterschiedliche Immobilienwerte korrelieren. Postleitzahlen sollten stattdessen als kategoriale Daten dargestellt werden.

Numerische Features werden manchmal als kontinuierliche Features bezeichnet.

O

Offlinegerät

#fundamentals

Synonym für statisch.

Offline-Inferenz

#fundamentals

Der Vorgang, bei dem ein Modell einen Batch von Vorhersagen generiert und dann diese im Cache speichert (speichert). Anwendungen können dann aus dem Cache auf die gewünschte Vorhersage zugreifen, anstatt das Modell noch einmal auszuführen.

Ein Beispiel ist ein Modell, das einmal alle vier Stunden lokale Wettervorhersagen (Vorhersagen) generiert. Nach jeder Modellausführung werden alle lokalen Wettervorhersagen im Cache gespeichert. Wetter-Apps rufen die Prognosen aus dem Cache ab.

Die Offline-Inferenz wird auch als statische Inferenz bezeichnet.

Vergleichen Sie dies mit dem Online-Inferenzmodus.

One-Hot-Codierung

#fundamentals

Kategoriale Daten als Vektor darstellen für:

  • Ein Element ist auf 1 gesetzt.
  • Alle anderen Elemente sind auf 0 gesetzt.

One-Hot-Codierung wird häufig verwendet, um Strings oder Kennungen darzustellen und einen endlichen Satz möglicher Werte zu haben. Angenommen, ein bestimmtes kategoriales Feature namens Scandinavia hat fünf mögliche Werte:

  • „Dänemark“
  • „Schweden“
  • „Norwegen“
  • „Finnland“
  • „Island“

Die One-Hot-Codierung könnte jeden der fünf Werte so darstellen:

country Vektor
„Dänemark“ 1 0 0 0 0
„Schweden“ 0 1 0 0 0
„Norwegen“ 0 0 1 0 0
„Finnland“ 0 0 0 1 0
„Island“ 0 0 0 0 1

Dank One-Hot-Codierung kann ein Modell basierend auf jedem der fünf Länder unterschiedliche Verbindungen lernen.

Eine Funktion als numerische Daten ist eine Alternative zur One-Hot-Codierung. Leider ist die numerische Darstellung der skandinavischen Länder keine gute Wahl. Beispiel:

  • „Dänemark“ ist 0
  • „Schweden“ ist 1
  • „Norwegen“ ist 2
  • „Finnland“ ist 3
  • „Island“ ist 4

Bei einer numerischen Codierung würde ein Modell die Rohzahlen mathematisch interpretieren und versuchen, mit diesen Zahlen zu trainieren. Island ist allerdings nicht einmal doppelt so stark wie Norwegen. Daher könnte das Modell zu ungewöhnlichen Ergebnissen kommen.

eine vs. alle

#fundamentals

Bei einem Klassifizierungsproblem mit N-Klassen besteht eine Lösung aus N separaten binären Klassifikatoren – einem binären Klassifikator für jedes mögliche Ergebnis. Bei einem Modell, das Beispiele als Tiere, Gemüse oder Mineralien klassifiziert, würde eine Eins-gegen-Alle-Lösung die folgenden drei binären Klassifikatoren liefern:

  • Tier vs. Tier
  • „Gemüse“ und „nicht vegetarisch“
  • Mineral vs. nicht Mineral

online

#fundamentals

Synonym für dynamisch.

Online-Inferenz

#fundamentals

Vorhersagen on demand generieren. Angenommen, eine Anwendung übergibt eine Eingabe an ein Modell und stellt eine Anfrage für eine Vorhersage. Ein System, das eine Online-Inferenz verwendet, antwortet auf die Anfrage, indem das Modell ausgeführt und die Vorhersage an die App zurückgegeben wird.

Kontrast: Offline-Inferenz

Ausgabeebene

#fundamentals

Die „letzte“ Ebene eines neuronalen Netzwerks. Die Ausgabeebene enthält die Vorhersage.

Die folgende Abbildung zeigt ein kleines neuronales Deep-Learning-Netzwerk mit einer Eingabeebene, zwei verborgenen Ebenen und einer Ausgabeebene:

Ein neuronales Netzwerk mit einer Eingabeebene, zwei versteckten Ebenen und einer Ausgabeebene. Die Eingabeebene besteht aus zwei Funktionen. Die erste verborgene Schicht besteht aus drei Neuronen und die zweite verborgene Schicht besteht aus zwei Neuronen. Die Ausgabeebene besteht aus einem einzelnen Knoten.

Überanpassung

#fundamentals

Erstellen eines Modells, das den Trainingsdaten so genau entspricht, dass das Modell keine richtigen Vorhersagen für neue Daten treffen kann.

Regularisierung kann die Überanpassung verringern. Auch das Training mit einem großen und vielfältigen Trainingsset kann die Überanpassung reduzieren.

P

pandas

#fundamentals

Eine spaltenorientierte Datenanalyse-API auf der Grundlage von numpy. Viele Frameworks für maschinelles Lernen, einschließlich TensorFlow, unterstützen Pandas-Datenstrukturen als Eingaben. Weitere Informationen finden Sie in der Panda-Dokumentation.

Parameter

#fundamentals

Die Gewichtungen und Verzerrungen, die ein Modell während des Trainings lernt. Bei einem linearen Regressionsmodell bestehen die Parameter beispielsweise aus der Verzerrung (b) und allen Gewichtungen (w1, w2 usw.) in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Im Gegensatz dazu sind Hyperparameter die Werte, die Sie (oder ein Hyperparameter-Wechseldienst) für das Modell bereitstellen. Beispielsweise ist Lernrate ein Hyperparameter.

Positive Klasse

#fundamentals

Der Kurs, für den Sie testen

Die positive Klasse in einem Krebsmodell kann zum Beispiel „Tumor“ sein. Die positive Klasse in einem E-Mail-Klassifikator ist möglicherweise „Spam“.

Kontrast Sie mit der negativen Klasse.

Nachbearbeitung

#fairness
#fundamentals

Die Ausgabe eines Modells anpassen, nachdem es ausgeführt wurde. Die Nachbearbeitung kann verwendet werden, um Fairness-Einschränkungen durchzusetzen, ohne Modelle selbst zu ändern.

Sie können beispielsweise die Nachbearbeitung auf einen binären Klassifikator anwenden, indem Sie einen Klassifizierungsschwellenwert festlegen, sodass die Chance der Empfehlung für ein Attribut beibehalten wird. Dazu muss überprüft werden, ob die wahre positive Rate für alle Werte dieses Attributs gleich ist.

prognostizierter Wert

#fundamentals

Die Ausgabe eines Modells. Beispiel:

  • Die Vorhersage eines binären Klassifizierungsmodells ist entweder die positive Klasse oder die negative Klasse.
  • Die Vorhersage eines Klassifizierungsmodells mit mehreren Klassen ist eine Klasse.
  • Die Vorhersage eines linearen Regressionsmodells ist eine Zahl.

Proxy-Labels

#fundamentals

Daten zum Annähern von Labels, die nicht direkt in einem Dataset verfügbar sind.

Angenommen, Sie müssen ein Modell trainieren, um den Stresslevel der Mitarbeiter vorherzusagen. Ihr Dataset enthält viele Prognosefunktionen, jedoch kein Label mit dem Namen Stressstufe. Unbeschadet wählen Sie als Arbeitsplatz-Label „Arbeitsunfälle“ aus. Schließlich werden Mitarbeiter mit hohem Stress mehr Unfällen ausgesetzt als ruhige Mitarbeiter. Oder? Möglicherweise steigen und fallen die Unfälle am Arbeitsplatz aus mehreren Gründen.

Nehmen wir als zweites Beispiel an, Sie möchten, ob es regnet? ein boolesches Label für Ihr Dataset sein, das Dataset enthält aber keine Regendaten. Wenn Fotos verfügbar sind, könnten Sie Bilder von Personen mit Regenschirmlabels als Muster für Ist es regnen? erstellen. Ist das ein gutes Proxy-Label? Es kann sein, dass in einigen Kulturen Menschen eher Regenschirme tragen als der Regen.

Proxy-Labels sind oft nicht perfekt. Wählen Sie nach Möglichkeit statt der tatsächlichen Labels die tatsächlichen Labels aus. Wenn kein tatsächliches Label vorhanden ist, wählen Sie das Proxylabel mit Bedacht aus, d. h., Sie wählen das am wenigsten schlimme Proxy-Label aus.

R

Evaluator

#fundamentals

Ein Nutzer, der Labels für Beispiele bereitstellt. „Annotator“ ist ein anderer Name für Evaluator.

Rektifizierte lineare Einheit (ReLU)

#fundamentals

Eine Aktivierungsfunktion mit folgendem Verhalten:

  • Wenn die Eingabe negativ oder null ist, ist die Ausgabe 0.
  • Bei einer positiven Eingabe entspricht die Ausgabe der Eingabe.

Beispiel:

  • Wenn die Eingabe -3 ist, ist die Ausgabe 0.
  • Wenn die Eingabe +3 ist, ist die Ausgabe 3.0.

Eine Handlung von ReLU:

Ein kartesisches Diagramm aus zwei Linien. Die erste Zeile hat einen konstanten y-Wert von 0, der entlang der X-Achse von -infinity,0 bis 0,-0 verläuft.
          Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Neigung von +1 und ist in einer Linie zwischen 0,0 und +infinity,+infinity zu finden.

ReLU ist eine sehr beliebte Aktivierungsfunktion. Trotz seines einfachen Verhaltens ermöglicht ReLU dennoch einem neuronalen Netzwerk, nicht lineare Beziehungen zwischen Features und dem Label zu erlernen.

Regressionsmodell

#fundamentals

Ein Modell, das eine numerische Vorhersage generiert. Im Gegensatz dazu generiert ein Klassifizierungsmodell eine Klassenvorhersage. Hier sehen Sie alle Regressionsmodelle:

  • Ein Modell, das den Wert eines bestimmten Hauses vorhersagt,z. B. 423.000 €.
  • Ein Modell, das die Lebenserwartung eines bestimmten Baumes vorhersagt, z. B. 23,2 Jahre.
  • Ein Modell, das die Menge an Regen vorhersagt, die in den nächsten sechs Stunden in einer bestimmten Stadt erwartet wird (z. B. 0,18 Zoll).

Zwei gängige Arten von Regressionsmodellen sind:

  • Lineare Regression: Hier wird die Linie ermittelt, die Labelwerte am besten anpasst.
  • Logistische Regression, die eine Wahrscheinlichkeit zwischen 0,0 und 1,0 erzeugt, die ein System normalerweise einer Klassenvorhersage zuordnet.

Nicht jedes Modell, das numerische Vorhersagen ausgibt, ist ein Regressionsmodell. In manchen Fällen ist eine numerische Vorhersage eigentlich nur ein Klassifizierungsmodell mit numerischen Klassennamen. Ein Modell, das eine numerische Postleitzahl vorhersagt, ist beispielsweise ein Klassifizierungsmodell und kein Regressionsmodell.

Regularisierung

#fundamentals

Einen Mechanismus, durch den Überanpassung vermieden wird. Beliebte Arten von Regularisierung:

Die Regularisierung kann auch als Strafe für die Komplexität eines Modells definiert werden.

Regulierungsrate

#fundamentals

Eine Zahl, die die relative Wichtigkeit der Regularisierung während des Trainings angibt. Durch eine Erhöhung der Regularisierungsrate wird die Überanpassung verringert, aber möglicherweise die Vorhersageleistung des Modells reduziert. Umgekehrt führt das Reduzieren oder Auslassen der Regularisierungsrate zu einer Überanpassung.

Logo: Relu

#fundamentals

Abkürzung für Rectified Linear Unit.

ROC-Kurve (Empfängerbetriebskurve)

#fundamentals

Ein Diagramm der wahren positiven Rate im Vergleich zur falsch positiven Rate für verschiedene Klassifizierungsschwellenwerte in der binären Klassifizierung.

Die Form einer ROC-Kurve deutet auf die Fähigkeit eines binären Klassifizierungsmodells hin, positive Klassen von negativen Klassen zu trennen. Nehmen wir beispielsweise an, dass ein binäres Klassifizierungsmodell perfekt alle negativen Klassen von allen positiven Klassen trennt:

Eine Zahlzeile mit acht positiven Beispielen auf der rechten Seite und sieben negativen Beispielen auf der linken Seite.

Die ROC-Kurve für das vorherige Modell sieht so aus:

Eine ROC-Kurve. Die x-Achse ist eine Rate von falsch positiven Ergebnissen und die y-Achse ist eine richtig positive Rate. Die Kurve hat eine umgekehrte L-Form. Die Kurve beginnt bei (0,0,0,0) und verläuft direkt nach oben (0,0,1,0). Dann geht die Kurve von (0,0,1,0) nach (1,0,1,0).

Im Gegensatz dazu wird in der folgenden Abbildung die unbearbeiteten logistischen Regressionswerte für ein schreckliches Modell dargestellt, das keine negativen Klassen von positiven Klassen trennen kann:

Eine Zahlenzeile mit positiven Beispielen und negativen Klassen, die vollständig vermischt sind.

Die ROC-Kurve für dieses Modell sieht so aus:

Eine ROC-Kurve, die eine gerade Linie von (0,0,0,0) nach (1,0,1,0) ist.

In der realen Welt trennen die meisten binären Klassifizierungsmodelle zu einem gewissen Grad positive und negative Klassen, aber normalerweise nicht perfekt. Eine typische ROC-Kurve liegt also irgendwo zwischen den beiden Extremen:

Eine ROC-Kurve. Die x-Achse ist eine Rate von falsch positiven Ergebnissen und die y-Achse ist eine richtig positive Rate. Die ROC-Kurve ist ein ungefährer Bogen, der die Kompasspunkte von West nach Norden durchquert.

Der Punkt auf einer ROC-Kurve, die dem Wert (0,0,1,0) am nächsten ist, erkennt theoretisch den idealen Klassifizierungsschwellenwert. Verschiedene andere Probleme in der realen Welt wirken sich jedoch auf die Auswahl des idealen Klassifizierungsschwellenwerts aus. Beispiel: Falsch negative Ergebnisse verursachen weitaus mehr Schmerzen als falsch positive Ergebnisse.

Der numerische Messwert AUC fasst die ROC-Kurve zu einem einzigen Gleitkommawert zusammen.

Mittlere mittlere Abweichung von der Wurzel (RMSE)

#fundamentals

Die Quadratwurzel des mittleren quadratischen Fehlers.

S

Sigmoidfunktion

#fundamentals

Eine mathematische Funktion, die einen Eingabewert in einen eingeschränkten Bereich schreibt (in der Regel 0 bis 1 oder -1 bis +1). Das heißt, Sie können eine beliebige Zahl (zwei, eine Million, negative Milliarden) an ein Sigmoid übergeben, sodass die Ausgabe immer im eingeschränkten Bereich liegt. Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionales, geschwungenes Diagramm mit x-Werten zwischen „domain -infinity“ und „+positive“, während y-Werte fast zwischen 0 und fast 1 reichen können. Wenn x 0 ist, ist y 0,5. Die Neigung der Kurve ist immer positiv, wobei die höchste Neigung bei 0,0,5 und die allmählichen Abfälle abnehmen, wenn der absolute Wert von x steigt.

Die Sigmoid-Funktion wird in mehreren Bereichen des maschinellen Lernens verwendet:

Softmax-Funktion

#fundamentals

Eine Funktion, die die Wahrscheinlichkeiten für jede mögliche Klasse in einem Klassifizierungsmodell mit mehreren Klassen bestimmt. Die Wahrscheinlichkeiten ergeben zusammen 1,0. Die folgende Tabelle zeigt beispielsweise, wie Softmax verschiedene Wahrscheinlichkeiten verteilt:

Bild ist... Probability
hund 0,85
katze 0,13
Pferd 0,02

Softmax wird auch als Full Softmax bezeichnet.

Kontrast: Befragung von Kandidaten

dünnbesetztes Feature

#language
#fundamentals

Ein Feature, dessen Werte überwiegend null oder leer sind. Ein Feature, das einen einzelnen 1-Wert und eine Million 0-Werte enthält, ist beispielsweise ein spärliches Merkmal. Im Gegensatz dazu hat ein dichtes Merkmal Werte, die vorwiegend nicht null oder leer sind.

Überraschende Merkmale des maschinellen Lernens sind dünnbesetzte Merkmale. Kategoriale Merkmale sind in der Regel dünnbesetzte Merkmale. Von den 300 möglichen Baumarten in einem Wald könnte beispielsweise nur ein Ahornbaum identifiziert werden. Oder von den Millionen der möglichen Videos in einer Videobibliothek könnte ein einzelnes Beispiel nur „Casablanca“ identifizieren.

In einem Modell stellen Sie in der Regel dünnbesetzte Features mit One-Hot-Codierung dar. Wenn die One-Hot-Codierung sehr groß ist, können Sie eine Einbettungsebene über die One-Hot-Codierung setzen, um die Effizienz zu erhöhen.

spärliche Darstellung

#language
#fundamentals

Nur die Position(en) von Elementen ungleich null in einem dünnbesetzten Feature speichern

Angenommen, ein kategoriales Feature namens species identifiziert die 36 Baumarten in einem bestimmten Wald. Außerdem wird angenommen, dass in jedem Beispiel nur eine Spezies identifiziert wird.

Mit einem One-Hot-Vektor können Sie die Baumarten in jedem Beispiel darstellen. Ein One-Hot-Vektor enthält eine einzelne 1 (für die jeweilige Baumart in diesem Beispiel) und 35 0s (für die 35 Baumarten nicht in diesem Beispiel). Die One-Hot-Darstellung von maple könnte also so aussehen:

Ein Vektor, in dem die Positionen 0 bis 23 den Wert 0 enthalten, die Position 24 den Wert 1 und die Positionen 25 bis 35 den Wert 0.

Alternativ dazu würde eine spärliche Darstellung einfach die Position der jeweiligen Spezies identifizieren. Wenn maple an Position 24 steht, ist die dünnbesetzte Darstellung von maple einfach so:

24

Die dünnbesetzte Darstellung ist deutlich kompakter als die One-Hot-Darstellung.

spärlicher Vektor

#fundamentals

Ein Vektor, dessen Werte überwiegend null sind Siehe auch dünn besetztes Feature und sparende Daten.

Quadratverlust

#fundamentals

Synonym für den Verlust von L2.

Statisch

#fundamentals

Etwas wurde einmal ausgeführt, nicht kontinuierlich. Die Begriffe statisch und offline sind Synonyme. Im Folgenden finden Sie gängige Einsatzmöglichkeiten von statischem und offline beim maschinellen Lernen:

  • Ein statisches Modell (oder Offlinemodell) ist ein Modell, das einmal trainiert und dann eine Zeit lang verwendet wird.
  • Das statische Training (oder Offlinetraining) ist der Vorgang des Trainierens eines statischen Modells.
  • Eine statische Inferenz (oder Offline-Inferenz) ist ein Prozess, bei dem ein Modell einen Batch von Vorhersagen gleichzeitig generiert.

Verwende einen dynamischen Kontrast.

statische Inferenz

#fundamentals

Synonym für Offline-Inferenz.

Stationärität

#fundamentals

Ein Merkmal, dessen Werte sich in einer oder mehreren Dimensionen nicht ändern, in der Regel im Zeitverlauf. Beispielsweise kann ein Feature, dessen Werte in den Jahren 2021 und 2023 ungefähr gleich aussehen, eine Stationarität aufweisen.

In der realen Welt zeigen sich nur sehr wenige Merkmale. Auch Merkmale, die Synonym für Stabilität (z. B. Meeresspiegel) haben, ändern sich mit der Zeit.

Kontrast: Unstationarität

snochhaster Gradientenabstieg (SGD)

#fundamentals

Ein Algorithmus für Gradientenabstieg, bei dem die Batchgröße eins ist. Mit anderen Worten: SGD trainiert anhand eines einzelnen Beispiels, das nach dem Zufallsprinzip aus einem Trainings-Dataset ausgewählt wird.

überwachtes maschinelles Lernen

#fundamentals

Modell aus Features und den entsprechenden Labels trainieren Bei dem überwachten maschinellen Lernen geht es ähnlich wie beim Lernen eines Themas um eine Reihe von Fragen und die zugehörigen Antworten. Nachdem ein Schüler die Zuordnung zwischen Fragen und Antworten gemeistert hat, kann er Antworten auf neue (noch nie zuvor gesehene) Fragen zum selben Thema geben.

Vergleichen Sie dies mit dem überwachten maschinellen Lernen.

synthetisches Feature

#fundamentals

Ein Feature, das unter den Eingabefeatures nicht vorhanden ist, sondern aus einem oder mehreren dieser Funktionen zusammengestellt wird. Methoden zum Erstellen von synthetischen Features sind:

  • Bucketing: ein fortlaufendes Feature in Bereichsbehältern
  • Feature Cross erstellen
  • Einen Merkmalswert mit anderen Merkmalswerten oder mit sich selbst multiplizieren (oder teilen). Wenn beispielsweise a und b Eingabefeatures sind, sind die folgenden Beispiele für synthetische Features:
    • ab
    • a2
  • Transzendentale Funktion auf einen Merkmalswert anwenden Wenn c beispielsweise ein Eingabemerkmal ist, sehen Sie hier Beispiele für synthetische Features:
    • sin(c)
    • Ln(C)

Merkmale, die nur durch Normalisierung oder Skalierung erstellt wurden, werden nicht als synthetische Features betrachtet.

D

Testverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells im Vergleich zum Test-Dataset darstellt. Beim Erstellen eines Modells versuchen Sie in der Regel, den Testverlust zu minimieren. Der Grund dafür, dass ein niedriger Testverlust ein besseres Signal ist als ein niedriger Trainingsverlust oder ein niedriger Validierungsverlust.

Eine große Lücke zwischen Test- und Trainingsverlusten oder Validierungsverlusten deutet manchmal darauf hin, dass Sie die Regularisierungsrate erhöhen müssen.

Training

#fundamentals

Das Festlegen der idealen Parameter (Gewichtung und Verzerrung) aus einem Modell. Während des Trainings liest ein System Beispiele und passt die Parameter nach und nach an. Im Training wird jedes Beispiel von einigen Malen bis zu Milliarden Mal genutzt.

Trainingsverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells während einer bestimmten Trainingsdurchläufe darstellt. Angenommen, die Verlustfunktion ist mittlerer quadratischer Fehler. Vielleicht ist der Trainingsverlust (der durchschnittliche Fehler) für den 10.Iteration 2,2 und der Trainingsverlust für den 100.Iteration 1,9.

In einer Verlustkurve wird der Trainingsverlust im Vergleich zur Anzahl der Iterationen dargestellt. Eine Verlustkurve enthält die folgenden Hinweise zum Training:

  • Ein abfallender Hang deutet darauf hin, dass sich das Modell verbessert.
  • Ein Anstieg, der darauf hinweist, dass sich das Modell verschlechtert.
  • Eine flache Steigung deutet darauf hin, dass das Modell die Konvergenz erreicht hat.

Das folgende Beispiel zeigt eine optimal ausgerichtete Verlustkurve:

  • Einen starken steilen Abfall während der anfänglichen Iterationen, was eine rasche Modellverbesserung impliziert.
  • Eine allmähliche Abflachung (aber nach unten) bis zum Ende des Trainings, was eine kontinuierliche Modellverbesserung in einem etwas langsameren Tempo als bei den anfänglichen Iterationen bedeutet.
  • Ein flacher Abfall am Ende des Trainings, der auf Konvergenz schließen lässt.

Vergleich zwischen Trainingsverlust und Iterationen Diese Verlustkurve beginnt mit einem steilen Abfall. Die Steigung wird allmählich flach, bis sie null wird.

Der Trainingsverlust ist aber wichtig. Weitere Informationen finden Sie unter Generalisierung.

Abweichungen zwischen Training und Bereitstellung

#fundamentals

Der Unterschied zwischen der Leistung eines Modells während des Trainings und der Leistung desselben Modells während der Bereitstellung.

Trainings-Dataset

#fundamentals

Die Teilmenge des Datasets, das zum Trainieren eines Modells verwendet wird.

Traditionell sind Beispiele im Dataset in folgende drei Teilmengen unterteilt:

Idealerweise sollte jedes Beispiel im Dataset nur zu einer der vorherigen Teilmengen gehören. Beispielsweise sollte ein einzelnes Beispiel nicht sowohl zum Trainings-Dataset als auch zum Validierungs-Dataset gehören.

Richtig negativ (TN)

#fundamentals

Ein Beispiel, bei dem das Modell die negative Klasse richtig vorhersagt. Das Modell leitet beispielsweise ab, dass eine bestimmte E-Mail kein Spam ist und dass diese E-Mail tatsächlich kein Spam ist.

Richtig positiv (TP)

#fundamentals

Ein Beispiel, bei dem das Modell die positive Klasse richtig vorhersagt. Das Modell leitet beispielsweise ab, dass eine bestimmte E-Mail Spam ist und diese E-Mail tatsächlich Spam ist.

Rate richtig positiver Ergebnisse (TPR)

#fundamentals

Synonym für recall. Das bedeutet:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Die Rate richtig positiver Ergebnisse ist die Y-Achse in einer ROC-Kurve.

U

Unteranpassung

#fundamentals

Das Erstellen eines Modells mit schlechter Vorhersagefähigkeit, da das Modell die Komplexität der Trainingsdaten nicht vollständig erfasst hat. Viele Probleme können zu einer Unteranpassung führen, darunter:

Beispiel ohne Label

#fundamentals

Ein Beispiel für features, aber ohne label. Die folgende Tabelle enthält beispielsweise drei Beispiele ohne Labels aus einem Bewertungsmodell für ein Haus, die jeweils drei Merkmale, aber keinen Hauswert haben:

Anzahl der Schlafzimmer Anzahl der Badezimmer Hausalter
3 2 15
2 1 72
4 2 34

In überwachten Machine Learning-Modellen werden Modelle anhand von Beispielen mit Labels trainiert und Vorhersagen für Beispiele ohne Labels getroffen.

Beim halbüberwachten und nicht beaufsichtigten Lernen werden Beispiele ohne Label beim Training verwendet.

Ein Kontrastbeispiel ohne Label mit einem Beispiel für Labels

unüberwachtes maschinelles Lernen

#clustering
#fundamentals

Modell trainieren, um Muster in einem Dataset zu finden, in der Regel ein Dataset ohne Label.

Am häufigsten werden unüberwachte Machine Learning-Technologien verwendet, um Daten in Gruppen von ähnlichen Beispielen zu clustern. Ein nicht überwachter Algorithmus für maschinelles Lernen kann beispielsweise Songs basierend auf verschiedenen Eigenschaften der Musik gruppieren. Die daraus resultierenden Cluster können als Eingabe für andere Machine-Learning-Algorithmen verwendet werden, z. B. in einen Musikempfehlungsdienst. Clustering kann hilfreich sein, wenn nützliche Labels nicht vorhanden sind oder nicht vorhanden sind. In Domains wie Missbrauch und Betrug können Cluster zum Beispiel helfen, die Daten besser zu verstehen.

Verwenden Sie stattdessen überwachtes maschinelles Lernen.

V

validation

#fundamentals

Die anfängliche Bewertung der Qualität eines Modells. Bei der Validierung wird die Qualität der Vorhersagen eines Modells mit dem Validierungs-Dataset verglichen.

Da sich das Validierungs-Dataset von dem Trainings-Dataset unterscheidet, trägt die Validierung zum Schutz vor Überanpassung bei.

Sie können das Modell in Bezug auf das Validierungs-Dataset als erste Testrunde und das Modell mit dem Test-Dataset als zweite Testrunde bewerten.

Validierungsverlust

#fundamentals

Ein Messwert, der den Verlust des Modells im Validierungs-Dataset während einer bestimmten Iteration darstellt.

Weitere Informationen finden Sie unter Generalisierungskurve.

Validierungs-Dataset

#fundamentals

Der Teil des Datasets, das die erste Bewertung anhand eines trainierten Modells ausführt. In der Regel vergleichen Sie das trainierte Modell mehrmals mit dem Validierungs-Dataset, bevor Sie es mit dem Test-Dataset bewerten.

Traditionell teilen Sie die Beispiele im Dataset in die folgenden drei Teilmengen auf:

Idealerweise sollte jedes Beispiel im Dataset nur zu einer der vorherigen Teilmengen gehören. Beispielsweise sollte ein einzelnes Beispiel nicht sowohl zum Trainings-Dataset als auch zum Validierungs-Dataset gehören.

W

weight

#fundamentals

Ein Wert, der mit einem Modell mit einem anderen Wert multipliziert wird. Beim Training wird die ideale Gewichtung eines Modells ermittelt. Inferenz ist der Prozess, mit dem diese ermittelten Gewichtungen für Vorhersagen verwendet werden.

Gewichtete Summe

#fundamentals

Die Summe aller relevanten Eingabewerte multipliziert mit den entsprechenden Gewichtungen. Nehmen wir an, dass die relevanten Eingaben so aussehen:

Eingabewert Eingabegewicht
2 -1,3
-1 0,6
3 0,4

Die gewichtete Summe lautet daher:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Eine gewichtete Summe ist das Eingabeargument für eine Aktivierungsfunktion.

Z

Z-Score-Normalisierung

#fundamentals

Eine Skalierungstechnik, die einen unbearbeiteten Feature-Wert durch einen Gleitkommawert ersetzt, der der Anzahl der Standardabweichungen von diesem Mittelwert entspricht. Angenommen, ein Feature mit einem Mittelwert von 800 und einer Standardabweichung von 100 ist möglich. Die folgende Tabelle zeigt, wie der Normalisierungswert bei der Z-Score-Normalisierung dem Z-Score zugeordnet wird:

Unverarbeiteter Wert Z-Score
800 0
950 +0,7
575 -2,25

Das Modell für maschinelles Lernen erfolgt dann anhand der Z-Scores für dieses Feature, anstatt mit den Rohwerten.