Glossar zum maschinellen Lernen: ML-Grundlagen

Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Diese Seite enthält Glossarbegriffe für ML Fundamentals. Alle Glossarbegriffe finden Sie hier.

A

Genauigkeit

#fundamentals

Die Anzahl der korrekten Vorhersagen, geteilt durch die Gesamtzahl der Vorhersagen. Das bedeutet:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ein Modell, das 40 richtige Vorhersagen und 10 falsche Vorhersagen erstellt hat, hat beispielsweise eine Genauigkeit von:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Unter Binäre Klassifizierung werden spezifische Namen für die verschiedenen Kategorien von richtigen Vorhersagen und falschen Vorhersagen angegeben. Die Genauigkeitsformel für die binäre Klassifizierung sieht so aus:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

wobei

Vergleichen Sie die Genauigkeit mit Precision und Recall.

Aktivierungsfunktion

#fundamentals

Eine Funktion, mit der neuronale Netzwerke nicht lineare (komplexe) Beziehungen zwischen Merkmalen und dem Label erkennen können.

Gängige Aktivierungsfunktionen:

Die Handlungsstränge sind nie einzelne gerade Linien. Die Darstellung der ReLU-Aktivierungsfunktion besteht beispielsweise aus zwei geraden Linien:

Ein kartesisches Diagramm aus zwei Linien. Die erste Zeile hat einen konstanten y-Wert von 0, der entlang der x-Achse von -infinity,0 bis 0,-0 verläuft.
          Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Steigung von +1 und verläuft von 0,0 bis +infinity,+infinity.

Eine Darstellung der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionales, gebogenes Diagramm mit x-Werten, die die Domain von -unendlich bis positiv betreffen, und y-Werte von fast 0 bis fast 1. Wenn x 0 ist, ist y 0,5. Die Steigung der Kurve ist immer positiv, wobei die höchste Steigung bei 0,0,5 liegt und die Steigungen allmählich abnehmen, wenn der absolute Wert von x steigt.

künstliche Intelligenz

#fundamentals

Ein nicht menschliches Programm oder Modell, das komplexe Aufgaben lösen kann. Ein Programm oder Modell, das Text übersetzt, ein Programm oder ein Modell, das Krankheiten aus radiologischen Bildern identifiziert, zeigt beispielsweise künstliche Intelligenz.

Das maschinelle Lernen ist ein Teilgebiet der künstlichen Intelligenz. In den letzten Jahren haben jedoch einige Organisationen damit begonnen, die Begriffe künstliche Intelligenz und maschinelles Lernen synonym zu verwenden.

AUC (Fläche unter der ROC-Kurve)

#fundamentals

Zahl zwischen 0,0 und 1,0, die ein binäres Klassifizierungsmodell darstellt, mit dem positive Klassen von negativen Klassen getrennt werden können. Je näher der AUC-Wert an 1.0 liegt, desto besser können die Modelle Klassen voneinander trennen.

Die folgende Abbildung zeigt beispielsweise ein Klassifikatormodell, bei dem positive Klassen (grüne Ovale) von negativen Klassen (violette Rechtecke) vollständig getrennt werden. Dieses unrealistisch perfekte Modell hat einen AUC von 1,0:

Eine Zahlenzeile mit acht positiven Beispielen auf der einen und neun negativen Beispielen auf der anderen Seite.

Umgekehrt zeigt die folgende Abbildung auch die Ergebnisse für ein Klassifikatormodell, das zufällige Ergebnisse generiert hat. Der AUC-Wert dieses Modells liegt bei 0,5:

Eine Zahlzeile mit sechs positiven und sechs negativen Beispielen
          Die Beispiele sind positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ.

Ja, der AUC-Wert für das vorherige Modell liegt bei 0,5, nicht bei 0,0.

Die meisten Modelle befinden sich zwischen den beiden Extremen. Das folgende Modell trennt beispielsweise positive und negative Ergebnisse ein wenig und hat daher einen AUC-Wert zwischen 0, 5 und 1, 0:

Eine Zahlzeile mit sechs positiven und sechs negativen Beispielen
          Die Beispiele sind negativ, negativ, negativ, negativ, positiv, negativ, positiv, positiv, negativ, positiv, positiv, positiv, positiv.

In AUC werden alle Werte ignoriert, die Sie für den Klassifizierungsschwellenwert festgelegt haben. Stattdessen berücksichtigt AUC alle möglichen Klassifizierungsschwellenwerte.

B

Rückpropagierung

#fundamentals

Der Algorithmus, der den Gradientenabstieg in neuronalen Netzwerken implementiert.

Das Training eines neuronalen Netzwerks umfasst viele Wiederholungen des folgenden Zyklus mit zwei Durchgängen:

  1. Während der Vorwärtsweitergabe verarbeitet das System einen Batch von Beispielen, um Prognosen zu erstellen. Das System vergleicht jede Vorhersage mit jedem label-Wert. Der Unterschied zwischen der Vorhersage und dem Labelwert ist der Verlust für dieses Beispiel. Das System fasst die Verluste für alle Beispiele zusammen, um den Gesamtverlust für den aktuellen Batch zu berechnen.
  2. Während des Rückwärtsdurchlaufs (Rückpropagierung) reduziert das System den Verlust, indem die Gewichtungen aller Neuronen in allen verborgenen Ebenen angepasst werden.

Neuronale Netzwerke enthalten häufig viele Neuronen auf vielen verborgenen Schichten. Jedes dieser Neurone trägt auf unterschiedliche Weise zum Gesamtverlust bei. Die Rückpropagierung bestimmt, ob die auf bestimmte Neuronen angewendete Gewichtung erhöht oder verringert wird.

Die Lernrate ist ein Multiplikator, mit dem festgelegt wird, um wie viel ein Rückwärtspass die Gewichtung erhöht oder verringert. Eine hohe Lernrate erhöht oder verringert jede Gewichtung stärker als eine kleine Lernrate.

Bei Differenzialausdrücken wird durch die Backpropagation eine Kettenregel implementiert. Bei der Backpropagation wird also die partielle Ableitung des Fehlers in Bezug auf jeden Parameter berechnet. Weitere Informationen finden Sie in dieser Anleitung im Crashkurs für maschinelles Lernen.

Vor einigen Jahren mussten ML-Anwender Code schreiben, um Backpropagation zu implementieren. In modernen ML-APIs wie TensorFlow wird Backpropagation jetzt umgesetzt. Geschafft!

Batch

#fundamentals

Gruppe von Beispielenin einem Training Iteration. Die Batchgröße bestimmt die Anzahl der Beispiele in einem Batch.

Eine Erläuterung, wie ein Batch mit einer Epoche zusammenhängt, finden Sie unter Epoche.

Batchgröße

#fundamentals

Die Anzahl der Beispiele in einem Batch Wenn die Batchgröße beispielsweise 100 ist, verarbeitet das Modell 100 Beispiele pro Iteration.

Folgende Batchgrößen sind sehr beliebt:

  • Stochastic Gradient Descent (SGD), bei dem die Batchgröße 1 ist.
  • Vollständiger Batch, wobei die Batchgröße die Anzahl der Beispiele im gesamten Trainingssatz ist. Wenn das Trainings-Dataset beispielsweise eine Million Beispiele enthält, beträgt die Batchgröße eine Million. Ein vollständiger Batch ist in der Regel eine ineffiziente Strategie.
  • mini-batch, bei der die Batchgröße normalerweise zwischen 10 und 1.000 liegt. Mini-Batch ist in der Regel die effizienteste Strategie.

Verzerrung (Ethik/Fairness)

#fairness
#fundamentals

1. Stereotype, Voreingenommenheit oder Bevorzugung gegenüber bestimmten Inhalten, Personen oder Gruppen gegenüber anderen. Diese Verzerrungen können sich auf die Erfassung und Interpretation von Daten, den Aufbau eines Systems und die Art und Weise auswirken, wie Nutzer mit einem System interagieren. Zu dieser Art von Verzerrung gehören:

2. Ein systematischer Fehler, der durch eine Stichproben- oder Berichterstellung verursacht wurde. Zu dieser Art von Verzerrung gehören:

Nicht zu verwechseln mit dem Verzerrungsbegriff in Modellen für maschinelles Lernen oder der Vorhersageverzerrung.

Verzerrung (Mathematik) oder Verzerrungsbegriff

#fundamentals

Ein Abfangen oder Offset von einem Ursprung aus. Verzerrung ist ein Parameter in Modellen für maschinelles Lernen, der durch eines der folgenden Elemente symbolisiert wird:

  • B
  • W0

Die Verzerrung ist beispielsweise das b in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In einer einfachen zweidimensionalen Linie bedeutet Verzerrung einfach y-Achsenabschnitt." Die Verzerrung der Linie in der folgenden Abbildung ist beispielsweise 2.

Das Diagramm einer Linie mit einer Steigung von 0,5 und einem Bias (Y-Achsenabschnitt) von 2.

Die Verzerrung ist vorhanden, da nicht alle Modelle am Ursprung beginnen (0,0). Angenommen, ein Freizeitpark kostet 2 € und zusätzlich 0,5 € für jede Stunde, die ein Kunde übernachtet. Daher hat ein Modell zur Zuordnung der Gesamtkosten eine Verzerrung von 2, da die niedrigsten Kosten 2 Euro sind.

Verzerrung ist nicht mit Verzerrung in Ethik und Fairness oder Vorhersageverzerrung zu verwechseln.

Binärklassifizierung

#fundamentals

Eine Art von Klassifizierungsaufgabe, die eine von zwei sich gegenseitig ausschließende Klassen vorhersagt:

Die folgenden beiden Modelle für maschinelles Lernen führen beispielsweise eine binäre Klassifizierung durch:

  • Ein Modell, das bestimmt, ob E-Mails Spam (die positive Klasse) oder kein Spam (die negative Klasse) sind.
  • Ein Modell, das medizinische Symptome bewertet, um festzustellen, ob eine Person an einer bestimmten Krankheit leidet (die positive Klasse) oder nicht an dieser Krankheit leidet (die negative Klasse).

Sie können die Klassifizierung mit mehreren Klassen verwenden.

Weitere Informationen finden Sie unter logistische Regression und Klassifizierungsschwellenwert.

Bucketing

#fundamentals

Konvertieren eines einzelnen Merkmals in mehrere binäre Merkmale, die als Buckets oder bins bezeichnet werden, in der Regel basierend auf einem Wertebereich. Das gehackte Merkmal ist in der Regel ein kontinuierliches Feature.

Anstatt die Temperatur als einzelnes kontinuierliches Gleitkommasystem darzustellen, können Sie Temperaturbereiche in separate Buckets aufteilen, z. B.:

  • <= 10 Grad Celsius sind der Kaltwecker.
  • Bei 11 bis 24 Grad Celsius würde es sich um den Bucket "temperate" handeln.
  • >= 25 Grad Celsius wären der wärmere Bucket.

Das Modell behandelt jeden Wert im selben Bucket gleich. Beispielsweise befinden sich die Werte 13 und 22 beide im temporären Bucket, sodass das Modell die beiden Werte gleich behandelt.

C

kategorische Daten

#fundamentals

Funktionen mit einem bestimmten Satz möglicher Werte. Ein kategoriales Feature namens traffic-light-state kann beispielsweise nur einen der folgenden drei möglichen Werte haben:

  • red
  • yellow
  • green

Wenn Sie traffic-light-state als kategorisches Merkmal darstellen, kann ein Modell die unterschiedlichen Auswirkungen von red, green und yellow auf das Treiberverhalten kennenlernen.

Kategoriale Merkmale werden manchmal als eigenständige Features bezeichnet.

Kontrast mit numerischen Daten.

Klasse

#fundamentals

Eine Kategorie, zu der ein Label gehören kann. Beispiel:

Ein Klassifizierungsmodell sagt eine Klasse vorher. Im Gegensatz dazu prognostiziert ein Randmodell eine Zahl statt einer Klasse.

Klassifizierungsmodell

#fundamentals

Ein Modell, dessen Vorhersage eine Klasse ist. Hier sehen Sie alle Klassifizierungsmodelle:

  • Ein Modell, das die Eingabesprache vorhersagt (Französisch? Spanisch? Italienisch?).
  • Ein Modell, das Baumarten (Ahorn? Eiche? Baobab?).
  • Ein Modell, das die positive oder negative Klasse für eine bestimmte Krankheit vorhersagt.

Im Gegensatz dazu vorhersagen Randmodelle Zahlen statt Klassen.

Zwei gängige Arten von Klassifizierungsmodellen sind:

Klassifizierungsschwellenwert

#fundamentals

Bei einer binären Klassifizierung eine Zahl zwischen 0 und 1, die die Rohausgabe eines logistischen Regressionsmodells in eine Vorhersage der positiven Klasse oder der negativen Klasse umwandelt. Beachten Sie, dass der Klassifizierungsschwellenwert ein Wert ist, den ein Mensch auswählt, und kein Wert, der vom Modelltraining ausgewählt wird.

Ein logistisches Regressionsmodell gibt einen Rohwert zwischen 0 und 1 aus. Dann:

  • Wenn dieser Rohwert größer als der Klassifizierungsschwellenwert ist, wird die positive Klasse vorhergesagt.
  • Wenn dieser Rohwert niedriger als der Klassifizierungsschwellenwert ist, wird die negative Klasse vorhergesagt.

Angenommen, der Klassifizierungsschwellenwert ist 0,8. Wenn der Rohwert 0,9 beträgt, sagt das Modell die positive Klasse vorher. Wenn der Rohwert 0,7 beträgt, sagt das Modell die negative Klasse vorher.

Die Auswahl des Klassifizierungsschwellenwerts beeinflusst stark die Anzahl der falsch positiven und falsch negativen.

Klasse-unausgeglichenes Dataset

#fundamentals

Ein Dataset für ein Klassifizierungsproblem, bei dem sich die Gesamtzahl der Labels jeder Klasse erheblich unterscheidet. Ein binäres Klassifizierungs-Dataset ist beispielsweise so aufgeteilt:

  • 1.000.000 auszuschließende Labels
  • 10 positive Labels

Das Verhältnis von negativen zu positiven Labels beträgt 100.000 bis 1. Dies ist ein Dataset mit Klassenausgleich.

Im Gegensatz dazu ist das folgende Dataset nicht Klassenausgleich, da das Verhältnis von negativen zu positiven Labels relativ 1 liegt:

  • 517 auszuschließende Labels
  • 483 positive Labels

Datasets mit mehreren Klassen können auch unausgeglichen sein. Das folgende Dataset für die Klassifizierung mit mehreren Klassen ist beispielsweise auch unausgeglichen, da ein Label weitaus mehr Beispiele als die anderen beiden enthält:

  • 1.000.000 Labels mit der Klasse "green"
  • 200 Labels mit der Klasse violett"
  • 350 Labels mit der Klasse &ort;orange"

Siehe auch Entropie, Mehrheitsklasse und Minderheitsklasse.

Zuschneiden

#fundamentals

Eine Methode zur Handhabung von Ausreißern, indem einer oder beide der folgenden Schritte ausgeführt wird:

  • Die feature-Werte, die größer sind als der maximale Grenzwert, werden auf diesen maximalen Grenzwert reduziert.
  • Erhöhen von Featurewerten, die unter einem bestimmten Grenzwert liegen.

Nehmen wir beispielsweise an, dass 0,5% der Werte für ein bestimmtes Merkmal außerhalb des Bereichs von 40 bis 60 liegen. In diesem Fall können Sie Folgendes tun:

  • Erhöhen Sie alle Werte über 60 (der maximale Grenzwert) auf genau 60.
  • Schneiden Sie alle Werte unter 40 (unterer Grenzwert) auf 40 genau zu.

Ausreißer können Modelle beschädigen. Dies kann dazu führen, dass Gewichte während des Trainings überlaufen. Einige Ausreißer können außerdem Messwerte wie die Genauigkeit erheblich beeinträchtigen. Das Zuschneiden ist eine gängige Technik zur Begrenzung des Schadens.

Beim Farbverlauf werden Farbverläufe innerhalb eines festgelegten Bereichs während des Trainings erzwungen.

Wahrheitsmatrix

#fundamentals

NxN-Tabelle, die die Anzahl der korrekten und falschen Vorhersagen eines Klassifizierungsmodells zusammenfasst. Sehen Sie sich beispielsweise die folgende Wahrheitsmatrix für ein binäres Klassifizierungsmodell an:

Tumor (prognostiziert) Ohne Tumor (Prognose)
Tumor (Ground Truth) 18 (TP) 1 (fps)
Nicht-Tumor (Ground Truth) 6 (FN) 452 (TN)

Die obige Verwirrungsmatrix zeigt Folgendes:

  • Von den 19 Vorhersagen, bei denen Ground Truth „Tumor“ war, hat das Modell „18“ richtig und „1“ falsch klassifiziert.
  • Von den 458 Vorhersagen, bei denen Ground Truth „Tumor“ war, hat das Modell 452 richtig und 6 falsch klassifiziert.

Die Wahrheitsmatrix für ein Problem mit mehreren Klassen kann Ihnen dabei helfen, Fehlermuster zu identifizieren. Betrachten Sie beispielsweise die folgende Verwirrungsmatrix für ein mehrklassiges Klassifizierungsmodell mit drei Klassen, das drei verschiedene Iristypen kategorisiert (Virginica, Versicolor und Setosa). Als „Ground Truth“ Virginica war, zeigt die Wahrheitsmatrix, dass das Modell Versicolor mit großer Wahrscheinlichkeit fälschlicherweise als Setosa vorhersagen konnte:

  Setosa (prognostiziert) Versicolor (prognostiziert) Virginica (prognostiziert)
Setosa (Ground Truth) 88 12 0
Versicolor (Ground Truth) 6 141 7
Virginica (Ground Truth) 2 27 109

Ein weiteres Beispiel: Eine Verwirrungsmatrix könnte ergeben, dass ein Modell, das für die Erkennung handschriftlicher Ziffern trainiert wurde, dazu neigt, 9 statt 4 oder 1 statt 7 vorherzusagen.

Wahrheitsmatrizes enthalten genügend Informationen, um eine Vielzahl von Leistungsmesswerten wie Genauigkeit und Trefferquote zu berechnen.

stetiges Feature

#fundamentals

Ein Gleitkomma-Merkmal mit einem unendlichen Bereich möglicher Werte wie Temperatur oder Gewicht.

Kontrast zum eigenständigen Feature

Konvergenz

#fundamentals

Ein Status, der erreicht wird, wenn sich die verlustwerte bei jeder Iteration kaum oder überhaupt nicht ändern. Die folgende Verlustkurve schlägt beispielsweise Konvergenz bei etwa 700 Wiederholungen vor:

kartesisches Diagramm. Die X-Achse ist verloren. Die Y-Achse entspricht der Anzahl der Trainingsdurchläufe. Der Verlust ist in den ersten Iterationen sehr hoch, sinkt jedoch stark. Nach etwa 100 Iterationen nimmt der Verlust immer noch ab, aber nach und nach. Nach etwa 700 Wiederholungen bleibt der Verlust flach.

Ein Modell konvergiert, wenn das zusätzliche Training das Modell nicht verbessert.

Beim tiefen Lernen bleiben die Verlustwerte für viele Iterationen manchmal konstant oder fast, bevor sie schließlich absteigen. Bei einer langen Konstante von konstanten Verlustwerten kann es vorübergehend zu einem falschen Konvergenz kommen.

Weitere Informationen

D

DataFrame

#fundamentals

Ein beliebter Pandas-Datentyp zur Darstellung von Datasets im Arbeitsspeicher.

Ein DataFrame ist mit einer Tabelle oder Tabelle vergleichbar. Jede Spalte eines DataFrames hat einen Namen (einen Header) und jede Zeile ist mit einer eindeutigen Zahl gekennzeichnet.

Jede Spalte in einem DataFrame ist wie ein 2D-Array strukturiert, wobei jeder Spalte ein eigener Datentyp zugewiesen werden kann.

Weitere Informationen finden Sie auf der offiziellen Referenzseite für pandas.DataFrame.

Dataset oder Dataset

#fundamentals

Eine Sammlung von Rohdaten, normalerweise (aber nicht ausschließlich) in einem der folgenden Formate:

  • eine Tabelle
  • Eine Datei im CSV-Format (kommagetrennte Werte)

Deep-Modell

#fundamentals

Ein neuronales Netzwerk mit mehr als einer verborgenen Ebene

Ein tiefes Modell wird auch als tiefes neuronales Netzwerk bezeichnet.

Kontrast zum breiten Modell.

vollbesetztes Feature

#fundamentals

Ein Merkmal, in dem die meisten oder alle Werte ungleich null sind, normalerweise ein Tensor aus Gleitkommawerten. Der folgende Tensor mit 10 Elementen ist beispielsweise dicht, weil 9 Werte ungleich null sind:

8 3 7 5 2 4 0 4 9 6

Kontrast zum dünnbesetzten Merkmal.

depth

#fundamentals

Die Summe aus Folgendem in einem neuronalen Netzwerk:

Ein neuronales Netzwerk mit fünf verborgenen Ebenen und einer Ausgabeebene hat beispielsweise eine Tiefe von 6.

Die Eingabeebene hat keinen Einfluss auf die Tiefe.

diskretes Feature

#fundamentals

Ein Merkmal mit einer Reihe möglicher Werte. Ein Merkmal, dessen Werte nur Tier, Gemüse oder Mineral sein können, ist ein diskretes (oder kategoriales) Merkmal.

Kontrast zum kontinuierlichen Feature

dynamisch

#fundamentals

Häufige oder ständige Aktion Die Begriffe dynamisch und online sind Synonyme beim maschinellen Lernen. Im Folgenden werden gängige Verwendungszwecke von dynamischem und Online-Content im Bereich des maschinellen Lernens erläutert:

  • Ein dynamisches Modell (oder Onlinemodell) ist ein Modell, das häufig oder kontinuierlich neu trainiert wird.
  • Dynamisches Training (oder Onlinetraining) ist der Prozess des Trainings häufig oder kontinuierlich.
  • Bei einer dynamischen Inferenz (oder Online-Inferenz) werden Vorhersagen bei Bedarf generiert.

Dynamisches Modell

#fundamentals

Ein Modell, das häufig (möglicherweise sogar kontinuierlich) neu trainiert wird. Ein dynamisches Modell ist ein lebenslanger Lerner, der sich ständig an neue Daten anpasst. Ein dynamisches Modell wird auch als Onlinemodell bezeichnet.

Kontrast zum statischen Modell.

E

vorzeitiges Beenden

#fundamentals

Eine Methode zur Normalisierung, bei der das Training beendet wird, bevor der Trainingsverlust abnimmt. Beim vorzeitigen Anhalten beenden Sie das Training des Modells absichtlich, wenn der Verlust für ein Validierungs-Dataset zunimmt, d. h. wenn sich die Generalisierungsleistung verschlechtert.

Einbettungsebene

#language
#fundamentals

Eine spezielle verborgene Schicht, die mit einem hochdimensionalen kategorialen Feature trainiert, um nach und nach einen eingebetteten Einbettungsvektor zu erlernen. Mit einer Einbettungsebene kann ein neuronales Netzwerk viel effizienter trainieren als nur mit dem hochdimensionalen kategorialen Feature.

Zum Beispiel unterstützt die Erde derzeit etwa 73.000 Baumarten. Angenommen, die Baumart ist ein Merkmal in Ihrem Modell,sodass die Eingabeebene Ihres Modells einen One-Hot-Vektor mit 73.000 Elementen enthält. Beispielsweise könnte baobab so aussehen:

Ein Array mit 73.000 Elementen. Die ersten 6.232 Elemente haben den Wert 0. Das nächste Element enthält den Wert „1“. Die letzten 66.767 Elemente haben den Wert null.

Ein Array mit 73.000 Elementen ist sehr lang. Wenn Sie dem Modell keine Einbettungsebene hinzufügen, wird das Training sehr viel Zeit in Anspruch nehmen,da 72.999 Nullen multipliziert werden. Vielleicht wählen Sie die Einbettungsebene aus 12 Dimensionen. Daher lernt die Einbettungsebene nach und nach einen neuen Einbettungsvektor für jede Baumart.

In bestimmten Situationen ist Hashing eine sinnvolle Alternative zu einer Einbettungsebene.

Epoche

#fundamentals

Ein vollständiger Trainingspass für das gesamte Trainings-Dataset, sodass jedes Beispiel einmal verarbeitet wurde.

Eine Epoche stellt die N/Batchgröße für das Training dar, wobei N die Gesamtzahl der Beispiele darstellt.

Beispiel:

  • Das Dataset besteht aus 1.000 Beispielen.
  • Die Batchgröße beträgt 50 Beispiele.

Daher sind für eine einzelne Epoche 20 Wiederholungen erforderlich:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Beispiel

#fundamentals

Die Werte einer Zeile von features und möglicherweise eines labels Beispiele für das überwachte Lernen lassen sich in zwei allgemeine Kategorien unterteilen:

  • Ein Beispiel mit Label besteht aus einem oder mehreren Merkmalen und einem Label. Während des Trainings werden Beispiele mit Label verwendet.
  • Ein Beispiel ohne Label besteht aus einem oder mehreren Merkmalen, aber ohne Label. Während der Inferenz werden Beispiele ohne Label verwendet.

Angenommen, Sie trainieren ein Modell, um den Einfluss der Wetterbedingungen auf die Testergebnisse der Schüler zu ermitteln. Hier drei Beispiele mit Labels:

Features Label
Temperatur Luftfeuchtigkeit Druck Testergebnis
15 47 998 Gut
19 34 1.020 Hervorragend
18 92 1012 Schlecht

Hier sind drei Beispiele ohne Label:

Temperatur Luftfeuchtigkeit Druck  
12 62 1014  
21 47 1017  
19 41 1021  

Die Zeile eines Datasets ist normalerweise die Rohquelle für ein Beispiel. Das heißt, ein Beispiel besteht normalerweise aus einer Teilmenge der Spalten im Dataset. Darüber hinaus können die Features in einem Beispiel auch synthetische Features wie Feature Crosses enthalten.

F

Falsch negativ (FN)

#fundamentals

Ein Beispiel, bei dem das Modell fälschlicherweise die negative Klasse vorhersagt. Beispielsweise prognostiziert das Modell, dass eine bestimmte E-Mail-Nachricht kein Spam (die negative Klasse) ist, sondern dass diese E-Mail tatsächlich Spam ist.

Falsch positiv (FP)

#fundamentals

Ein Beispiel, bei dem das Modell fälschlicherweise die positive Klasse vorhersagt. Das Modell sagt beispielsweise voraus, dass eine bestimmte E-Mail-Nachricht spam (die positive Klasse) ist, aber dass diese E-Mail tatsächlich kein Spam ist.

Rate falsch positiver Ergebnisse

#fundamentals

Der Anteil der tatsächlich negativen negativen Beispiele, für die das Modell die positive Klasse versehentlich vorhergesagt hat. Die folgende Formel berechnet die Rate falsch positiver Ergebnisse:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Die Rate falsch positiver Ergebnisse ist die X-Achse einer ROC-Kurve.

Feature

#fundamentals

Eine Eingabevariable für ein Modell für maschinelles Lernen. Ein Beispiel besteht aus einem oder mehreren Merkmalen. Angenommen, Sie trainieren ein Modell, um den Einfluss der Wetterbedingungen auf die Prüfungsergebnisse der Teilnehmer zu ermitteln. Die folgende Tabelle enthält drei Beispiele, die jeweils drei Features und ein Label enthalten:

Features Label
Temperatur Luftfeuchtigkeit Druck Testergebnis
15 47 998 92
19 34 1.020 84
18 92 1012 87

Kontrast zum Label

Featureverknüpfung

#fundamentals

Ein synthetisches Merkmal, das durch kategoriale oder kombinierte Merkmale gebildet wird.

Beispiel: Ein Modell für die Stimmungsvorhersage, das die Temperatur in einem der folgenden vier Buckets darstellt:

  • freezing
  • chilly
  • temperate
  • warm

Die Windgeschwindigkeit wird in einem der folgenden drei Bereiche angegeben:

  • still
  • light
  • windy

Ohne Merkmalsübergänge wird das lineare Modell unabhängig von den vorhergehenden sieben verschiedenen Buckets trainiert. Das Modell wird beispielsweise unabhängig von dem Training auf freezing trainiert, z. B. windy.

Alternativ können Sie eine funktionsübergreifende Kreuzfunktion für Temperatur und Windgeschwindigkeit erstellen. Dieses synthetische Feature hätte die folgenden 12 möglichen Werte:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dank Feature-Kreuzen kann das Modell Stimmungsunterschiede zwischen einem freezing-windy- und einem freezing-still-Tag erkennen.

Wenn Sie ein synthetisches Merkmal aus zwei Merkmalen erstellen, die jeweils viele verschiedene Buckets haben, bietet das daraus resultierende Feature Cross eine große Anzahl möglicher Kombinationen. Beispiel: Wenn ein Feature 1.000 Buckets und das andere 2.000 Buckets hat, hat das resultierende Feature Cross 2.000.000 Buckets.

Das Kreuz ist ein kartesisches Produkt.

Feature-Kreuze werden meistens mit linearen Modellen und nur selten mit neuronalen Netzwerken verwendet.

Feature Engineering

#fundamentals
#Bind

Ein Prozess, der die folgenden Schritte umfasst:

  1. Features ermitteln, die beim Trainieren eines Modells hilfreich sein können.
  2. Rohdaten aus dem Dataset in effiziente Versionen dieser Features umwandeln

So könnten Sie beispielsweise feststellen, dass temperature ein nützliches Feature ist. Anschließend können Sie mit dem Bucketing experimentieren, um zu optimieren, was das Modell aus verschiedenen temperature-Bereichen lernen kann.

Feature Engineering wird manchmal als Feature Extraktion bezeichnet.

Feature-Set

#fundamentals

Die Gruppe von Features, für die Ihr Modell trainiert wird. Beispielsweise können eine Postleitzahl, eine Unterkunftsgröße und ein Unterkunftszustand einen einfachen Merkmalssatz für ein Modell umfassen, das Immobilienpreise vorhersagt.

Featurevektor

#fundamentals

Das Array der feature-Werte, die ein Beispiel enthalten Der Featurevektor wird während Trainings und Inferenz eingegeben. Der Featurevektor für ein Modell mit zwei diskreten Features könnte beispielsweise so aussehen:

[0.92, 0.56]

Vier Ebenen: eine Eingabeebene, zwei ausgeblendete Ebenen und eine Ausgabeebene.
          Die Eingabeebene enthält zwei Knoten, einer mit dem Wert 0,92 und der andere mit dem Wert 0,56.

Jedes Beispiel stellt unterschiedliche Werte für den Featurevektor bereit. Der Featurevektor für das nächste Beispiel könnte also so aussehen:

[0.73, 0.49]

Feature Engineering bestimmt, wie Features im Featurevektor dargestellt werden. Beispielsweise kann ein binäres kategoriales Merkmal mit fünf möglichen Werten durch One-Hot-Codierung dargestellt werden. In diesem Fall würde der Teil des Merkmalsvektors für ein bestimmtes Beispiel aus vier Nullen und einem einzelnen 1,0-Wert an der dritten Position bestehen:

[0.0, 0.0, 1.0, 0.0, 0.0]

Ein weiteres Beispiel: Ihr Modell besteht aus drei Merkmalen:

  • Ein kategoriales binäres Merkmal mit fünf möglichen Werten, die durch One-Hot-Codierung dargestellt werden. Beispiel: [0.0, 1.0, 0.0, 0.0, 0.0]
  • ein weiteres binäres kategoriales Merkmal mit drei möglichen Werten, die durch One-Hot-Codierung dargestellt werden. Beispiel: [0.0, 0.0, 1.0]
  • eine Gleitkommafunktion. Beispiel: 8.3.

In diesem Fall würde der Featurevektor für jedes Beispiel durch neun Werte dargestellt werden. Bei den Beispielwerten aus der vorherigen Liste würde der Featurevektor so aussehen:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Feedback Loop

#fundamentals

Beim maschinellen Lernen eine Situation, in der die Vorhersagen eines Modells die Trainingsdaten für dasselbe oder ein anderes Modell beeinflussen. Beispielsweise wirkt sich ein Modell, das Filme empfiehlt, auf die Filme aus, die Nutzer sehen, was wiederum Einfluss auf die nachfolgenden Filmempfehlungsmodelle hat.

G

Generalisierung

#fundamentals

Ein Modell, mit dem neue Vorhersagen über neue, zuvor unbekannte Daten getroffen werden können. Ein verallgemeinerndes Modell ist das Gegenteil eines Überanpassung.

Generalisierungskurve

#fundamentals

Ein Diagramm, in dem der Trainingsverlust und der Validierungsverlust in Abhängigkeit von der Anzahl der Wiederholungen dargestellt werden

Mit einer Generalisierungskurve können Sie eine mögliche Überanpassung erkennen. Die folgende Verallgemeinerungskurve deutet beispielsweise auf eine Überanpassung hin, da der Validierungsverlust letztendlich deutlich größer wird als der Trainingsverlust.

Eine kartesische Grafik, in der die Y-Achse mit „Verlust“ und die X-Achse mit „Iterationen“ und „#39“ gekennzeichnet sind. Es werden zwei Handlungsstränge angezeigt. Eine Darstellung zeigt den Trainingsverlust und die andere den Validierungsverlust.
          Die beiden Diagramme beginnen ähnlich, der Trainingsverlust sinkt jedoch letztendlich deutlich unter dem Validierungsverlust.

Gradientenverfahren

#fundamentals

Mathematische Technik zur Minimierung des Verlusts Beim Gradientenabstieg werden Gewichtungen und Verzerrungen schrittweise angepasst, um die beste Kombination zu finden, um den Verlust zu minimieren.

Der Gradientenanstieg ist älter – viel, viel älter – als das maschinelle Lernen.

Ground Truth

#fundamentals

Realität.

Was tatsächlich passiert ist.

Beispielsweise können Sie ein binäres Klassifizierungsmodell verwenden, das vorhersagt, ob ein Student im ersten Hochschuljahr innerhalb von sechs Jahren abschließen wird. Ground Truth für dieses Modell ist, ob dieser Student tatsächlich innerhalb von sechs Jahren abgeschlossen hat.

H

ausgeblendete Ebene

#fundamentals

Eine Ebene in einem neuronalen Netzwerk zwischen der Eingabeebene (Features) und der Ausgabeebene (Vorhersage). Jede ausgeblendete Ebene besteht aus einem oder mehreren Neuronen. Das folgende neuronale Netzwerk enthält beispielsweise zwei verborgene Schichten, die erste mit drei Neuronen und die zweite mit zwei Neuronen:

Vier Ebenen. Die erste Ebene ist eine Eingabeebene mit zwei Features. Die zweite Schicht ist eine verborgene Schicht mit drei Neuronen. Die dritte Schicht ist eine verborgene Schicht, die zwei Neuronen enthält. Die vierte Ebene ist eine Ausgabeebene. Jedes Merkmal enthält drei Kanten, die jeweils auf ein anderes Neuron in der zweiten Schicht verweisen. Jedes Neuron der zweiten Schicht enthält zwei Kanten, die jeweils auf ein anderes Neuron der dritten Schicht verweisen. Jedes Neuron der dritten Schicht enthält einen Rand, der jeweils auf die Ausgabeebene verweist.

Ein tiefes neuronales Netzwerk enthält mehr als eine verborgene Ebene. Die obige Abbildung ist beispielsweise ein neuronales Deep-Learning-Netzwerk, da das Modell zwei verborgene Ebenen enthält.

Hyperparameter

#fundamentals

Die Variablen, die Sie oder ein Hyperparameter-Abstimmungsdienstbei aufeinanderfolgenden Trainingsläufen eines Modells anpassen. Beispielsweise ist die Lernrate ein Hyperparameter. Sie können die Lernrate vor einer Trainingssitzung auf 0,01 festlegen. Wenn Sie feststellen, dass 0,01 zu hoch ist, können Sie die Lernrate für die nächste Trainingssitzung vielleicht auf 0,003 festlegen.

Im Gegensatz dazu sind Parameter die verschiedenen Gewichtungen und Verzerrungen, die das Modell während des Trainings erlernt.

I

unabhängig und identisch verteilt (i.i.d)

#fundamentals

Daten aus einer Verteilung, die sich nicht ändert und bei denen jeder gezogene Wert nicht von den zuvor abgerufenen Werten abhängt. Eine IdD ist das ideale Gas des maschinellen Lernens. Es ist ein nützliches mathematisches Konstrukt, das in der Praxis jedoch fast nie zu finden ist. Beispiel: Die Verteilung der Besucher auf eine Webseite kann über einen kurzen Zeitraum erfolgen, d. h., die Verteilung ändert sich während dieses kurzen Zeitfensters nicht, während der Besuch einer Person im Allgemeinen unabhängig vom Besuch eines anderen Nutzers ist. Wenn Sie dieses Zeitfenster erweitern, können allerdings saisonabhängige Abweichungen auf der Webseite auftreten.

Weitere Informationen zur Nicht-Stationsbeteiligung

Inferenz

#fundamentals

Der Prozess zum Erstellen von Vorhersagen durch maschinelles Lernen durch Anwenden eines trainierten Modells auf Beispiele ohne Label.

In der Statistik wird die Bedeutung von Inferenz abgeleitet. Weitere Informationen finden Sie im Wikipedia-Artikel zur statistischen Inferenz.

Eingabeebene

#fundamentals

Die Ebene eines neuronalen Netzwerks, das den Merkmalsvektor enthält. Das heißt, die Eingabeebene enthält Beispiele für Trainings oder Inferenz. Die Eingabeebene im folgenden neuronalen Netzwerk besteht beispielsweise aus zwei Features:

Vier Ebenen: eine Eingabeebene, zwei ausgeblendete Ebenen und eine Ausgabeebene.

Lesbarkeit

#fundamentals

Die Fähigkeit, einem Menschen ein verständliches ML-Modell zu erläutern oder vorzustellen.

Die meisten linearen Regressionsmodelle sind beispielsweise in hohem Maße Interpretierbarkeit. Sie müssen sich nur die trainierten Gewichtungen für jedes Feature ansehen. Entscheidungsforen sind ebenfalls sehr gut verständlich. Einige Modelle erfordern jedoch eine komplexe Visualisierung, um interpretiert werden zu können.

Iteration

#fundamentals

Eine Aktualisierung der ModellmodelleGewichtungen und Verzerrungen – während des Trainings Die Batchgröße bestimmt, wie viele Beispiele das Modell in einer einzelnen Iteration verarbeitet. Wenn die Batchgröße beispielsweise 20 ist, verarbeitet das Modell 20 Beispiele, bevor die Parameter angepasst werden.

Beim Trainieren eines neuronalen Netzwerks umfasst ein einzelner Durchlauf die folgenden zwei Durchläufe:

  1. Ein Forward Pass zum Bewerten des Verlusts bei einem einzelnen Batch.
  2. Ein Rückwärtspass (Backpropagation), um die Parameter des Modells auf der Grundlage des Verlusts und der Lernrate anzupassen.

l

L0-Standardisierung

#fundamentals

Ein Typ von Regulierung, der die Gesamtzahl der Gewichtungen ungleich null in einem Modell bestraft. Beispiel: Ein Modell mit 11 Gewichten ungleich null wird mit mehr Strafen benachteiligt als ein ähnliches Modell mit 10 Gewichten ungleich null.

L0-Standardisierung wird selten verwendet.

L1 Verlust

#fundamentals

Eine Verlustfunktion, die den Absolutwert der Differenz zwischen tatsächlichen Labelwerten und den Werten eines Modells berechnet Hier ist zum Beispiel die Berechnung des Verlusts von L1 für einen Batch von fünf Beispielen:

Tatsächlicher Wert des Beispiels Vorhergesagter Wert des Modells Absolutwert des Deltas
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 Verlust

Der Verlust von L1 ist weniger empfindlich auf Ausreißer als der Verlust von L2.

Der mittlere absolute Fehler ist der durchschnittliche L1-Verlust pro Beispiel.

L1-Standardisierung

#fundamentals

Eine Art von Regulierung, bei der Gewichtungen proportional zur Summe des absoluten Werts der Gewichtungen bestraft werden. L1 Regelmäßigkeit hilft dabei, die Gewichtung irrelevanter oder kaum relevanter Features auf genau 0 zu lenken. Ein Merkmal mit einer Gewichtung von 0 wird effektiv aus dem Modell entfernt.

Kontrast zur L2-Normalisierung.

L2-Verlust

#fundamentals

Eine Verlustfunktion, die das Quadrat der Differenz zwischen tatsächlichen Labelwerten und den Werten eines Modells berechnet. Hier ist zum Beispiel die Berechnung des Verlusts von L2 für einen Batch von fünf Beispielen:

Tatsächlicher Wert des Beispiels Vorhergesagter Wert des Modells Delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 Verlust

Aufgrund der Quadratanzahl des Verlusts von L2 verstärkt sich der Einfluss von Ausreißern. Das heißt, der L2-Verlust reagiert stärker auf schlechte Vorhersagen als der L1-Verlust. Der L1-Verlust für den vorherigen Batch wäre beispielsweise 8 statt 16. Ein einzelner Ausreißer macht 9 von 16 aus.

Regressionsmodelle verwenden normalerweise den Verlust von L2 als Verlustfunktion.

Der mittlere quadratische Fehler ist der durchschnittliche L2-Verlust pro Beispiel. Quadratverlust ist ein anderer Name für L2-Verlust.

L2-Standardisierung

#fundamentals

Eine Art von Regulierung, bei der Gewichtungen proportional zur Summe der Quadrate der Gewichtungen bestraft werden. Eine L2-Standardisierung hilft dabei, Ausreißer-Gewichtungen (mit hohen positiven oder niedrigen negativen Werten) näher an 0, aber nicht ganz an 0 zu platzieren. Merkmale mit Werten, die sehr nahe 0 liegen, verbleiben im Modell, haben jedoch keinen großen Einfluss auf die Vorhersage des Modells.

Eine L2-Standardisierung verbessert die Generalisierung in linearen Modellen immer.

Kontrast zur L1-Normalisierung.

label

#fundamentals

Beim überwachten maschinellen Lernen der Teil eines Beispiels

Jedes Beispiel mit Label besteht aus einem oder mehreren Funktionen und einem Label. In einem Dataset zur Spamerkennung wäre das Label beispielsweise entweder „spam“ oder „notspam."“. In einem Dataset mit Niederschlägen kann das Label die Regenmenge sein, die in einem bestimmten Zeitraum fiel.

Beispiel mit Label

#fundamentals

Beispiel mit einem oder mehreren Funktionen und einem Label Die folgende Tabelle enthält beispielsweise drei beschriftete Beispiele aus einem Hausbewertungsmodell, jedes mit drei Features und einem Label:

Anzahl der Schlafzimmer Anzahl der Badezimmer Alter des Hauses Hauspreis (Label)
3 2 15 345.000 $
2 1 72 179.000 $
4 2 34 392.000 $

In überwachtes maschinelles Lernen werden Modelle anhand von Beispielen mit Labels trainiert und Vorhersagen für Beispiele ohne Label gemacht.

Kontrastbeispiel mit Label und Beispielen ohne Label.

Lambda

#fundamentals

Synonym für Normalisierungsrate

Lambda ist eine Überlastung. Hier konzentrieren wir uns auf die Definition des Begriffs in Regulierung.

Layer

#fundamentals

Ein Satz von Neuronen in einem neuronalen Netzwerk. Es gibt drei gängige Ebenentypen:

Die folgende Abbildung zeigt ein neuronales Netzwerk mit einer Eingabeebene, zwei ausgeblendeten Ebenen und einer Ausgabeebene:

Ein neuronales Netzwerk mit einer Eingabeebene, zwei ausgeblendeten Ebenen und einer Ausgabeebene. Die Eingabeebene besteht aus zwei Funktionen. Die erste ausgeblendete Schicht besteht aus drei Neuronen und die zweite ausgeblendete Schicht besteht aus zwei Neuronen. Die Ausgabeebene besteht aus einem einzelnen Knoten.

In TensorFlow sind Ebenen auch Python-Funktionen, die Tensoren und Konfigurationsoptionen als Eingabe verwenden und andere Tensoren als Ausgabe erzeugen.

Lernrate

#fundamentals

Eine Gleitkommazahl, die dem Algorithmus für den Gradientenabstieg angibt, wie stark Gewichtungen und Verzerrungen bei jeder Iteration angepasst werden sollen. Eine Lernrate von 0,3 würde beispielsweise Gewichtungen und Verzerrungen dreimal stärker anpassen als eine Lernrate von 0,1.

Die Lernrate ist ein wichtiger Hyperparameter. Wenn Sie die Lernrate zu niedrig festlegen, dauert das Training zu lange. Wenn Sie die Lernrate zu hoch ansetzen, treten oft Probleme mit dem Konvergenz auf.

Lineares Modell

#fundamentals

Ein Modell, das eine Gewichtung pro Merkmal für Vorhersagen zuweist. (Lineare Modelle enthalten auch eine Verzerrung.) Im Gegensatz dazu ist die Beziehung von Merkmalen zu Vorhersagen in tiefen Modellen im Allgemeinen nicht linear.

Lineare Modelle sind normalerweise einfacher zu trainieren und interpretierbarer als tiefe Modelle. Tiefe Modelle können jedoch komplexe Beziehungen zwischen Merkmalen erkennen.

Lineare Regression und logistische Regression sind zwei Arten von linearen Modellen.

Linear

#fundamentals

Eine Beziehung zwischen zwei oder mehr Variablen, die ausschließlich durch Addition und Multiplikation dargestellt werden können.

Das Diagramm einer linearen Beziehung ist eine Linie.

Kontrast zum nichtlinearen

lineare Regression

#fundamentals

Ein Modell des maschinellen Lernens, bei dem die beiden folgenden Bedingungen erfüllt sind:

  • Das Modell ist ein lineares Modell.
  • Die Vorhersage ist ein Gleitkommawert. Das ist der Rand der linearen Regression.

Kontrast zur linearen Regression mit der logistischen Regression. Außerdem lässt sich die Regression durch Klassifizierung kontrastieren.

logistische Regression

#fundamentals

Eine Art von Randmodellierung, die eine Wahrscheinlichkeit prognostiziert. Logistische Regressionsmodelle haben folgende Eigenschaften:

  • Das Label ist kategorial. Der Begriff logistische Regression bezieht sich in der Regel auf binäre logistische Regression, also ein Modell, das die Wahrscheinlichkeiten für Labels mit zwei möglichen Werten berechnet. Eine weniger verbreitete Variante, die multinomiale logistische Regression, berechnet die Wahrscheinlichkeiten für Labels mit mehr als zwei möglichen Werten.
  • Die Verlustfunktion während des Trainings ist Logverlust. Für Labels mit mehr als zwei möglichen Werten können mehrere Einheiten für den Logverlust parallel platziert werden.
  • Das Modell hat eine lineare Architektur, kein neuronales Deep-Learning-Netzwerk. Der Rest dieser Definition gilt aber auch für tiefe Modelle, die Wahrscheinlichkeiten für kategoriale Labels vorhersagen.

Nehmen wir als Beispiel ein logistisches Regressionsmodell, das die Wahrscheinlichkeit berechnet, dass eine Eingabe-E-Mail entweder Spam oder kein Spam ist. Nehmen wir während der Inferenz an, dass das Modell 0,72 vorhersagt. Daher wird das Modell geschätzt:

  • Die Wahrscheinlichkeit, dass es sich bei der E-Mail um Spam handelt, liegt bei 72 %.
  • Die Wahrscheinlichkeit, dass die E-Mail nicht als Spam eingestuft wird, liegt bei 28 %.

Ein logistisches Regressionsmodell verwendet die folgende zweistufige Architektur:

  1. Das Modell generiert eine Rohvorhersage (y'), indem eine lineare Funktion der Eingabemerkmale angewendet wird.
  2. Das Modell verwendet diese Rohrohvorhersage als Eingabe für eine Sigmoid-Funktion, die die Rohvorhersage in einen Wert zwischen 0 und 1 (ausschließlich) umwandelt.

Wie jedes Regressionsmodell prognostiziert ein logistisches Regressionsmodell eine Zahl. In der Regel wird diese Zahl jedoch in ein binäres Klassifizierungsmodell aufgenommen:

  • Wenn die vorhergesagte Anzahl größer als der Klassifizierungsschwellenwert ist, sagt das binäre Klassifizierungsmodell die positive Klasse vorher.
  • Wenn die vorhergesagte Anzahl niedriger ist als der Klassifizierungsschwellenwert, prognostiziert das binäre Klassifizierungsmodell die negative Klasse.

Logarithmischer Verlust

#fundamentals

Die Verlustfunktion, die bei der binären logistischen Regression verwendet wird.

Log-Wettzeiten

#fundamentals

Logarithmus der Wahrscheinlichkeit eines Ereignisses

Niederlage

#fundamentals

Während des Trainings eines betreuten Modells ist ein Maß dafür, wie weit eine Vorhersage von einem Modell von seinem Label entfernt ist.

Eine Verlustfunktion berechnet den Verlust.

Kurvenverlust

#fundamentals

Ein Diagramm des Verlusts in Abhängigkeit von der Anzahl der Trainingsdurchläufe Das folgende Diagramm zeigt eine typische Verlustkurve:

Ein kartesisches Diagramm des Verlusts im Vergleich zu den Trainingsdurchläufen. Es zeigt einen schnellen Abfall des Verlusts bei den ersten Iterationen, gefolgt von einem allmählichen Abfall und einem flachen Anstieg während der letzten Iterationen.

Verlustkurven können Ihnen helfen festzustellen, wann Ihr Modell konvergent oder überangepasst wird.

Verlustkurven können die folgenden Arten von Verlusten darstellen:

Weitere Informationen finden Sie unter Generalisierungskurve.

Verlustfunktion

#fundamentals

Beim Training oder beim Testen eine mathematische Funktion, die den Verlust für einen Batch von Beispielen berechnet. Eine Verlustfunktion gibt einen geringeren Verlust für Modelle zurück, die gute Vorhersagen treffen, als für Modelle, die schlechte Vorhersagen treffen.

Das Ziel des Trainings besteht normalerweise darin, den Verlust zu minimieren, den eine Verlustfunktion zurückgibt.

Es gibt viele verschiedene Arten von Verlustfunktionen. Wählen Sie die entsprechende Verlustfunktion für die Art des Modells aus, das Sie erstellen. Beispiel:

M

Machine Learning

#fundamentals

Ein Programm oder System, das ein Modell aus Eingabedaten trainiert. Das trainierte Modell kann nützliche Vorhersagen aus neuen (nie zuvor gesehenen) Daten treffen, die aus derselben Verteilung wie dem zum Trainieren des Modells verwendeten stammen.

Maschinelles Lernen ist auch ein Fach, das sich mit diesen Programmen oder Systemen beschäftigt.

Mehrheitsklasse

#fundamentals

Das übliche Label in einem Dataset mit Klassenungleichgewicht. Beispiel: Bei einem Dataset mit 99% negativen Labels und 1% positiven Labels sind die auszuschließenden Labels die Hauptklasse.

Kontrast zur Minderheitsklasse.

Mini-Batch

#fundamentals

Eine kleine, zufällig ausgewählte Teilmenge eines Batch, der in einer Iteration verarbeitet wird. Die Batchgröße eines Mini-Batches liegt normalerweise zwischen 10 und 1.000 Beispielen.

Angenommen, der gesamte Trainingssatz (der vollständige Batch) besteht aus 1.000 Beispielen. Außerdem legen Sie die Batchgröße jedes Mini-Batch-Elements auf 20 fest. Daher bestimmt jede Iteration den Verlust von 20 der 1.000 Beispiele und passt dann die Gewichtungen und Verzerrungen entsprechend an.

Es ist viel effizienter, den Verlust eines Mini-Batches als den Verlust aller Beispiele im vollständigen Batch zu berechnen.

Minderheitenklasse

#fundamentals

Das weniger gängige Label in einem Dataset mit Klassenungleichgewicht. Beispiel: Bei einem Dataset mit 99% negativen Labels und 1% positiven Labels sind die positiven Labels die Minderheitsklasse.

Kontrast zum Hauptraum.

Modell

#fundamentals

Im Allgemeinen sind alle mathematischen Konstrukte, die Eingabedaten verarbeiten und Ausgaben zurückgeben. Ein Modell ist anders ausgedrückt als der Satz von Parametern und der Struktur, die für ein System benötigt wird, um Vorhersagen zu treffen. Beim überwachten maschinellen Lernen leitet ein Modell ein Beispiel als Eingabe ab und leitet eine Vorhersage als Ausgabe ab. Beim überwachten maschinellen Lernen unterscheiden sich die Modelle geringfügig. Beispiel:

Sie können ein Modell speichern, wiederherstellen oder kopieren.

Nicht überwachtes maschinelles Lernen generiert auch Modelle. Dies ist in der Regel eine Funktion, die ein Eingabebeispiel dem am besten geeigneten Cluster zuordnen kann.

Klassifizierung mit mehreren Klassen

#fundamentals

Beim überwachten Lernen ein Klassifizierungsproblem, bei dem das Dataset mehr als zwei Klassen von Labels enthält. Die Labels im Iris-Dataset müssen beispielsweise eine der folgenden drei Klassen sein:

  • Iris Setosa
  • Iris Virginica
  • Iris Versicolor

Ein Modell, das mit dem Iris-Dataset trainiert wurde und den Iris-Typ für neue Beispiele vorhersagt, führt eine mehrklassige Klassifizierung durch.

Klassifizierungsprobleme, die genau zwischen zwei Klassen unterscheiden, sind binäre Klassifizierungsmodelle. Ein E-Mail-Modell, das entweder Spam oder kein Spam vorhersagt, ist beispielsweise ein binäres Klassifizierungsmodell.

Bei Clustering-Problemen bezieht sich die mehrklassige Klassifizierung auf mehr als zwei Cluster.

N

negative klasse

#fundamentals

Bei der binären Klassifizierung wird eine Klasse als positiv und die andere als negativ bezeichnet. Die positive Klasse ist die Sache oder das Ereignis, für die bzw. das das Modell getestet wird, und die negative Klasse ist die andere Möglichkeit. Beispiel:

  • Die negative Klasse in einem medizinischen Test könnte „nicht Tumor“ sein.
  • Die negative Klasse in einem E-Mail-Klassifikator ist möglicherweise "Kein Spam".

Kontrast zur positiven Klasse.

neuronales Netzwerk

#fundamentals

Ein Modell mit mindestens einer verborgenen Ebene Ein tiefes neuronales Netzwerk ist ein Typ neuronaler Netzwerke, das mehr als eine verborgene Ebene enthält. Das folgende Diagramm zeigt beispielsweise ein tiefes neuronales Netzwerk, das zwei verborgene Ebenen enthält.

Ein neuronales Netzwerk mit einer Eingabeebene, zwei ausgeblendeten Ebenen und einer Ausgabeebene.

Jedes Neuron in einem neuronalen Netzwerk stellt eine Verbindung zu allen Knoten auf der nächsten Ebene her. Beachten Sie beispielsweise im obigen Diagramm, dass jedes der drei Neuronen in der ersten ausgeblendeten Ebene separat mit beiden Neuronen in der zweiten ausgeblendeten Ebene verbunden ist.

Auf Computern implementierte neuronale Netzwerke werden manchmal als künstliche neuronale Netzwerke bezeichnet, um sie von neuronalen Netzwerken zu unterscheiden, die in Gehirnen und anderen Nervensystemen gefunden werden.

Einige neuronale Netzwerke können extrem komplexe nicht lineare Beziehungen zwischen verschiedenen Merkmalen und dem Label imitieren.

Weitere Informationen finden Sie unter Convolutional Neural Network und Recurrent Neural Network.

Neuron

#fundamentals

Beim maschinellen Lernen eine separate Einheit in einer verborgenen Ebene eines neuronalen Netzwerks. Jedes Neuron führt die folgende zweistufige Aktion aus:

  1. Berechnet die gewichtete Summe der Eingabewerte multipliziert mit den entsprechenden Gewichtungen.
  2. Übergibt die gewichtete Summe als Eingabe an eine Aktivierungsfunktion.

Ein Neuron der ersten ausgeblendeten Ebene akzeptiert Eingaben aus den Merkmalswerten in der Eingabeebene. Ein Neuron in einer verborgenen Schicht, das über das erste hinausgeht, nimmt Eingaben von den Neuronen der vorherigen verborgenen Schicht auf. Ein Neuron in der zweiten verborgenen Ebene akzeptiert beispielsweise Eingaben von den Neuronen auf der ersten verborgenen Ebene.

In der folgenden Abbildung sind zwei Neuronen und ihre Eingaben markiert.

Ein neuronales Netzwerk mit einer Eingabeebene, zwei ausgeblendeten Ebenen und einer Ausgabeebene. Zwei Neuronen sind hervorgehoben: eines in der ersten ausgeblendeten Ebene und eines in der zweiten ausgeblendeten Ebene. Das markierte Neuron in der ersten ausgeblendeten Ebene empfängt Eingaben von beiden Features in der Eingabeebene. Das markierte Neuron der zweiten verborgenen Ebene empfängt Eingaben von jedem der drei Neuronen in der ersten ausgeblendeten Ebene.

Ein Neuron in einem neuronalen Netzwerk ahmt das Verhalten von Neuronen in Gehirnen und anderen Teilen von Nervensystemen nach.

Knoten (neuronales Netzwerk)

#fundamentals

Ein Neuron in einer verborgenen Ebene

nicht linear

#fundamentals

Eine Beziehung zwischen zwei oder mehr Variablen, die nicht ausschließlich durch Addition und Multiplikation dargestellt werden können. Eine lineare Beziehung kann als Linie dargestellt werden. Eine nicht lineare Beziehung kann nicht als Linie dargestellt werden. Angenommen, zwei Modelle beziehen sich jeweils auf ein einziges Merkmal mit einem einzigen Label. Das Modell links ist linear und das Modell auf der rechten Seite nicht linear:

Zwei Parzellen. Ein Diagramm ist eine Linie. Das ist also eine lineare Beziehung.
          Das andere Diagramm ist eine Kurve. Das ist also eine nicht lineare Beziehung.

Nicht-Stationszugehörigkeit

#fundamentals

Ein Feature, dessen Werte sich über eine oder mehrere Dimensionen ändern, normalerweise für die Zeit. Hier sind einige Beispiele für Inhalte, die nicht zur Stationierung gehören:

  • Die Anzahl der Bademode, die in einem bestimmten Geschäft verkauft wird, variiert je nach Saison.
  • Die Menge einer bestimmten Frucht, die in einer bestimmten Region geerntet wurde, ist den Großteil des Jahres null, aber für kurze Zeit groß.
  • Aufgrund des Klimawandels ändern sich die durchschnittlichen Jahrestemperaturen.

Kontrast: Stationszugehörigkeit

Normalisierung

#fundamentals

Im Großen und Ganzen ist der Vorgang der Konvertierung des tatsächlichen Wertebereichs einer Variablen in einen Standardbereich von Werten, z. B.:

  • -1 bis +1
  • 0 : 1
  • die Normalverteilung

Angenommen, der tatsächliche Wertebereich eines bestimmten Merkmals beträgt 800 bis 2.400. Im Rahmen des Feature Engineering können Sie die tatsächlichen Werte auf einen Standardbereich normalisieren, z. B. -1 bis +1.

Normalisierung ist eine häufige Aufgabe im Feature Engineering. Modelle trainieren in der Regel schneller (und liefern bessere Vorhersagen), wenn jedes numerische Merkmal im Merkmalsvektor ungefähr denselben Bereich hat.

Numerische Daten

#fundamentals

Merkmale, die als Ganzzahlen oder reellwertige Zahlen dargestellt werden. Beispielsweise würde ein Hausbewertungsmodell wahrscheinlich die Größe eines Hauses (in Quadratfuß oder Quadratmetern) als numerische Daten darstellen. Wenn ein Feature als numerische Daten dargestellt wird, bedeutet dies, dass die Werte des Elements eine mathematische Beziehung zum Label haben. Das heißt, die Anzahl der Quadratmeter in einem Haus hat wahrscheinlich eine mathematische Beziehung zum Wert des Hauses.

Nicht alle Ganzzahldaten sollten als numerische Daten dargestellt werden. Beispielsweise sind Postleitzahlen in einigen Teilen der Welt Ganzzahlen. Ganzzahlige Postleitzahlen sollten jedoch nicht als numerische Daten in Modellen dargestellt werden. Das liegt daran, dass eine Postleitzahl 20000 nicht doppelt so stark (wie die Postleitzahl) 10000 ist. Auch wenn unterschiedliche Postleitzahlen unterschiedliche Immobilienwerte betreffen, können wir nicht davon ausgehen, dass Immobilienwerte mit der Postleitzahl 20000 doppelt so wertvoll sind wie Immobilienwerte mit der Postleitzahl 10000. Postleitzahlen sollten stattdessen als kategorische Daten dargestellt werden.

Numerische Features werden manchmal als kontinuierliche Features bezeichnet.

O

Offlinegerät

#fundamentals

Synonym für statisch.

Offline-Inferenz

#fundamentals

Der Prozess eines Modells, das einen Batch von Vorhersagen generiert und diese Vorhersagen dann im Cache speichert (speichert). Anwendungen können dann aus dem Cache auf die gewünschte Vorhersage zugreifen, anstatt das Modell noch einmal auszuführen.

Beispiel: Sie erstellen ein Modell, das alle vier Stunden lokale Wettervorhersagen (Vorhersagen) generiert. Nach jeder Modellausführung speichert das System alle lokalen Wettervorhersagen im Cache. Wetter-Apps rufen die Prognosen aus dem Cache ab.

Eine Offline-Inferenz wird auch als statische Inferenz bezeichnet.

Online-Inferenz

One-Hot-Codierung

#fundamentals

Kategoriale Daten als Vektor darstellen, in dem:

  • Ein Element ist auf 1 gesetzt.
  • Alle anderen Elemente sind auf 0 gesetzt.

Die One-Hot-Codierung wird häufig verwendet, um Strings oder Kennungen darzustellen, die einen endlichen Satz möglicher Werte haben. Beispiel: Ein bestimmtes kategoriales Merkmal mit dem Namen Scandinavia hat fünf mögliche Werte:

  • &dänisch
  • &schweden"
  • &norwegisch
  • &Fitland"
  • &Island"

Die One-Hot-Codierung kann jeden der fünf Werte folgendermaßen darstellen:

country Vektor
&dänisch 1 0 0 0 0
&schweden" 0 1 0 0 0
&norwegisch 0 0 1 0 0
&Fitland" 0 0 0 1 0
&Island" 0 0 0 0 1

Dank One-Hot-Codierung kann ein Modell je nach der fünf Länder unterschiedliche Verbindungen erlernen.

Eine Funktion als numerische Daten darzustellen, ist eine Alternative zur One-Hot-Codierung. Leider ist es nicht sinnvoll, die skandinavischen Länder numerisch darzustellen. Betrachten Sie beispielsweise die folgende numerische Darstellung:

  • &Dänemark; ist 0
  • &Schweden 1
  • &Norwegen" ist 2
  • &; Finnland&3
  • &island 4

Bei numerischer Codierung interpretiert ein Modell die Rohzahlen thematisch und versucht, sie zu trainieren. Island ist jedoch in Wirklichkeit nicht doppelt so viel (oder halb so viel) wie Norwegen, sodass das Modell zu einigen seltsamen Schlussfolgerungen kommen könnte.

vs. alle

#fundamentals

Bei einem Klassifizierungsproblem mit N-Klassen besteht eine Lösung aus N separaten binären Klassifikatoren – einem binären Klassifikator für jedes mögliche Ergebnis. Beispiel: Bei einem Modell, das Beispiele als Tier-, Gemüse- oder Mineralien klassifiziert, würde eine Eins-gegen-Alle-Lösung die folgenden drei binären Klassifikatoren bieten:

  • Tier vs. Tier
  • Gemüse im Vergleich zu nicht vegetarisch
  • Mineralien im Vergleich zu Mineralien

online

#fundamentals

Synonym für dynamisch.

Online-Inferenz

#fundamentals

Vorhersagen on demand generieren. Angenommen, eine Anwendung übergibt eine Eingabe an ein Modell und sendet eine Anfrage für eine Vorhersage. Ein System, das Online-Inferenz verwendet, antwortet auf die Anfrage, indem es das Modell ausführt (und die Vorhersage an die Anwendung zurückgibt).

Kontrast zum Offline-Inferenzmodus

Ausgabeebene

#fundamentals

Die letzte Schicht eines neuronalen Netzwerks. Die Ausgabeebene enthält die Vorhersage.

Die folgende Abbildung zeigt ein kleines neuronales Deep-Learning-Netzwerk mit einer Eingabeebene, zwei ausgeblendeten Ebenen und einer Ausgabeebene:

Ein neuronales Netzwerk mit einer Eingabeebene, zwei ausgeblendeten Ebenen und einer Ausgabeebene. Die Eingabeebene besteht aus zwei Funktionen. Die erste ausgeblendete Schicht besteht aus drei Neuronen und die zweite ausgeblendete Schicht besteht aus zwei Neuronen. Die Ausgabeebene besteht aus einem einzelnen Knoten.

Überanpassung

#fundamentals

Erstellen eines Modells, das mit den Trainingsdaten übereinstimmt, sodass das Modell keine korrekten Vorhersagen über neue Daten treffen kann.

Eine Normalisierung kann eine Überanpassung verhindern. Das Training mit einem großen und vielfältigen Trainingsset kann auch Überanpassung reduzieren.

P

pandas

#fundamentals

Eine spaltenorientierte Datenanalyse-API auf der Grundlage von numpy. Viele Frameworks für maschinelles Lernen, einschließlich TensorFlow, unterstützen Pandas-Datenstrukturen als Eingaben. Weitere Informationen finden Sie in der Dokumentation zu Pandas.

Parameter

#fundamentals

Die Gewichtungen und Verzerrungen, die ein Modell während des Trainings lernt. Beispielsweise bestehen die Parameter in einem linearen Regressionsmodell aus der Verzerrung (b) und allen Gewichtungen (w1, w2 usw.) in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Im Gegensatz dazu sind Hyperparameter die Werte, die Sie (oder ein Hyperparameter-Wechseldienst) für das Modell bereitstellen. Beispielsweise ist die Lernrate ein Hyperparameter.

positive Klasse

#fundamentals

Der Kurs, für den Sie testen.

Die positive Klasse in einem Krebsmodell könnte zum Beispiel "tumor." Die positive Klasse in einem E-Mail-Klassifikator könnte "spam."

Kontrast zur negativen Klasse.

Nachbearbeitung

#fairness
#fundamentals

Die Ausgabe eines Modells wird angepasst, nachdem das Modell ausgeführt wurde. Die Nachbearbeitung kann verwendet werden, um Fairness-Einschränkungen durchzusetzen, ohne Modelle selbst zu ändern.

Sie können beispielsweise die Nachbearbeitung auf einen binären Klassifikator anwenden, indem Sie einen Klassifizierungsschwellenwert festlegen, sodass die Chancengleichheit für ein Attribut beibehalten wird. Dazu muss die richtig positive Rate für alle Werte dieses Attributs gleich sein.

prognostizierter Wert

#fundamentals

Die Ausgabe eines Modells. Beispiel:

  • Die Vorhersage eines binären Klassifizierungsmodells ist entweder die positive Klasse oder die negative Klasse.
  • Die Vorhersage eines Klassifizierungsmodells mit mehreren Klassen ist eine Klasse.
  • Die Vorhersage eines linearen Regressionsmodells ist eine Zahl.

Proxy-Labels

#fundamentals

Daten für ungefähre Labels, die nicht direkt in einem Dataset verfügbar sind.

Angenommen, Sie müssen ein Modell trainieren, um das Stresslevel der Mitarbeiter vorherzusagen. Ihr Dataset enthält viele Vorhersagefeatures, enthält aber kein Label mit dem Namen Stresslevel. Undeoniert wählen Sie „Arbeitsunfälle“ als Proxy-Label für das Stressniveau aus. Schließlich haben Mitarbeiter mit hohem Stress mehr Unfälle als solche, die beruhigt sind. Oder doch? Vielleicht steigen und fallen Arbeitsunfälle sogar aus mehreren Gründen.

Ein zweites Beispiel: Angenommen, Sie möchten regnen? Sie möchten ein boolesches Label für Ihr Dataset sein, das Dataset enthält jedoch keine Regendaten. Wenn Fotos verfügbar sind, können Sie Bilder von Menschen mit Sonnenschirmen als Proxy für Ist es regnen? Ist das ein gutes Proxy-Label? Es kann vorkommen, dass Menschen in einigen Kulturen mit höherer Wahrscheinlichkeit Regenschirme tragen als der Regen.

Proxy-Labels sind oft nicht perfekt. Wählen Sie nach Möglichkeit tatsächliche Labels anstelle von Proxylabels aus. Wenn kein tatsächliches Label vorhanden ist, wählen Sie das Proxy-Label mit Bedacht aus. Wählen Sie dann das am wenigsten schreckliche Proxy-Label aus.

R

Evaluator

#fundamentals

Ein Mensch, der Labels für Beispiele bereitstellt. &nott;Annotator" ist ein anderer Name für Evaluator.

Rektifizierte lineare Einheit (ReLU)

#fundamentals

Eine Aktivierungsfunktion mit folgendem Verhalten:

  • Wenn die Eingabe negativ oder null ist, ist die Ausgabe 0.
  • Wenn die Eingabe positiv ist, entspricht die Ausgabe der Eingabe.

Beispiel:

  • Wenn die Eingabe -3 ist, ist die Ausgabe 0.
  • Wenn die Eingabe „+3“ ist, ist die Ausgabe „3.0“.

Hier ist eine Darstellung von ReLU:

Ein kartesisches Diagramm aus zwei Linien. Die erste Zeile hat einen konstanten y-Wert von 0, der entlang der x-Achse von -infinity,0 bis 0,-0 verläuft.
          Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Steigung von +1 und verläuft von 0,0 bis +infinity,+infinity.

ReLU ist eine sehr beliebte Aktivierungsfunktion. Trotz ihres einfachen Verhaltens ermöglicht ReLU einem neuronalen Netzwerk, nicht lineare Beziehungen zwischen Features und dem Label zu lernen.

Regressionsmodell

#fundamentals

Informell ein Modell, das eine numerische Vorhersage generiert. Im Gegensatz dazu generiert ein Klassifizierungsmodell eine Klassenvorhersage. Hier sehen Sie alle Regressionsmodelle:

  • Ein Modell, das den Wert eines bestimmten Hauses vorhersagt,z. B. 423.000 €.
  • Ein Modell, das die Lebenserwartung einer bestimmten Baumart prognostiziert, z. B. 23,2 Jahre.
  • Ein Modell, das vorhersagt, wie stark der Regen in einer bestimmten Stadt in den nächsten sechs Stunden voraussichtlich sein wird, z. B. 0,18 Zoll.

Zwei gängige Arten von Regressionsmodellen sind:

  • Lineare Regression, die die Zeile findet, die den Labelwerten am besten entspricht.
  • Logistische Regression, die eine Wahrscheinlichkeit zwischen 0,0 und 1,0 erzeugt, die ein System normalerweise einer Klassenvorhersage zuordnet.

Nicht jedes Modell, das numerische Vorhersagen ausgibt, ist ein Regressionsmodell. In manchen Fällen ist eine numerische Vorhersage eigentlich nur ein Klassifizierungsmodell mit numerischen Klassennamen. Ein Modell, das eine numerische Postleitzahl vorhersagt, ist beispielsweise ein Klassifizierungsmodell, kein Regressionsmodell.

Regularisierung

#fundamentals

Jeder Mechanismus, der eine Überanpassung reduziert. Zu den beliebten Arten der Normalisierung gehören:

Die Normalisierung kann auch als Strafe für die Komplexität eines Modells definiert werden.

Normalisierungsrate

#fundamentals

Eine Zahl, die die relative Wichtigkeit der Regulierung während des Trainings angibt. Durch eine Erhöhung der Normalisierungsrate wird die Überanpassung reduziert, aber möglicherweise die Vorhersageleistung des Modells verringert. Umgekehrt führt die Reduzierung oder Auslassen der Normalisierungsrate zu einer Überanpassung.

Logo: Relu

#fundamentals

Abkürzung für Rectified Linear Unit.

Kurve für ROC (Receiver Operation Objective)

#fundamentals

Ein Diagramm der richtig positiven Rate im Vergleich zur falsch positiven Rate für verschiedene Grenzwerte für die Klassifizierung bei der binären Klassifizierung.

Die Form einer ROC-Kurve deutet darauf hin, dass ein binäres Klassifizierungsmodell die positiven Klassen von negativen Klassen trennen kann. Angenommen, ein binäres Klassifizierungsmodell trennt alle negativen Klassen perfekt von allen positiven Klassen:

Eine Zahlzeile mit acht positiven Beispielen auf der rechten und sieben negativen Beispielen auf der linken Seite

Die ROC-Kurve für das vorherige Modell sieht so aus:

Eine ROC-Kurve. Die x-Achse hat eine falsch positive Rate und die y-Achse hat eine richtig positive Rate. Die Kurve hat eine umgekehrte L-Form. Die Kurve beginnt bei (0,0,0,0) und verläuft direkt nach oben (0,0,1,0). Dann wechselt die Kurve von (0.0,1.0) zu (1.0,1.0).

Im Gegensatz dazu werden in der folgenden Abbildung die logistischen Regressionswerte für ein schreckliches Modell dargestellt, das auszuschließende Klassen nicht von positiven Klassen trennen kann:

Eine Zahlenzeile mit positiven Beispielen und negativen Klassen, die vollständig vermischt sind

Die ROC-Kurve für dieses Modell sieht so aus:

Eine ROC-Kurve, die eigentlich eine gerade Linie von (0.0,0.0) bis (1.0,1.0) ist.

In der Praxis trennen die meisten binären Klassifizierungsmodelle gewissermaßen positive und negative Klassen, sind aber normalerweise nicht perfekt. Eine typische ROC-Kurve liegt also zwischen den beiden Extremen:

Eine ROC-Kurve. Die x-Achse hat eine falsch positive Rate und die y-Achse hat eine richtig positive Rate. Die ROC-Kurve nähert sich einem wackeligen Bogen, der die Kompasspunkte von West nach Norden durchquert.

Der Punkt auf einer ROC-Kurve, die 0,0,1,0 am nächsten ist, identifiziert theoretisch den idealen Klassifizierungsschwellenwert. Verschiedene andere Probleme in der Praxis beeinflussen jedoch die Auswahl des idealen Klassifizierungsschwellenwerts. Vielleicht verursachen falsch negative Ergebnisse viel mehr Schmerzen als falsch positive Ergebnisse.

Der numerische Messwert AUC fasst die ROC-Kurve zu einem einzelnen Gleitkommawert zusammen.

Wurzel des mittleren quadratischen Fehlers (RMSE)

#fundamentals

Die Quadratwurzel des mittleren quadratischen Fehlers

S

Sigmoidfunktion

#fundamentals

Mathematische Funktion, die einen Eingabewert in einen eingeschränkten Bereich einschließt, normalerweise 0 bis 1 oder -1 bis +1. Das heißt, Sie können eine beliebige Zahl (zwei, eine Million, eine negative Milliarde) an ein Sigmoid übergeben, wobei die Ausgabe weiterhin im eingeschränkten Bereich liegt. Eine Darstellung der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionales, gebogenes Diagramm mit x-Werten, die die Domain von -unendlich bis positiv betreffen, und y-Werte von fast 0 bis fast 1. Wenn x 0 ist, ist y 0,5. Die Steigung der Kurve ist immer positiv, wobei die höchste Steigung bei 0,0,5 liegt und die Steigungen allmählich abnehmen, wenn der absolute Wert von x steigt.

Die Sigmoidfunktion wird unter anderem für Folgendes verwendet:

Softmax-Funktion

#fundamentals

Eine Funktion, die die Wahrscheinlichkeiten für jede mögliche Klasse in einem Klassifizierungsmodell mit mehreren Klassen ermittelt. Die Wahrscheinlichkeiten ergeben zusammen genau 1,0. Die folgende Tabelle zeigt beispielsweise, wie Softmax verschiedene Wahrscheinlichkeiten verteilt:

Bild ist... Probability
dog 0,85
Katze 0,13
Pferd 0,02

Softmax wird auch als vollständiger Softmax bezeichnet.

Kontrast zur Auswahl von Kandidaten

dünnbesetztes Feature

#language
#fundamentals

Ein Merkmal, dessen Werte vorwiegend null oder leer sind. Ein Merkmal, das einen einzelnen 1-Wert und eine Million 0-Werte enthält, ist beispielsweise dünnbesetzt. Im Gegensatz dazu hat ein dichtes Merkmal Werte, die überwiegend nicht null oder leer sind.

Beim maschinellen Lernen handelt es sich um überraschende Funktionen. Kategoriale Merkmale sind in der Regel dünnbesetzte Merkmale. Beispielsweise könnten Sie unter den 300 möglichen Baumarten in einem Wald nur einen Ahornbaum identifizieren. Oder von den Millionen möglicher Videos in einer Videobibliothek könnte ein einzelnes Beispiel nur &Casablanca identifizieren."

In einem Modell stellen Sie dünnbesetzte Features in der Regel mit One-Hot-Codierung dar. Wenn die One-Hot-Codierung groß ist, können Sie zur Steigerung der Effizienz eine Einbettungsebene auf die One-Hot-Codierung setzen.

spärliche Darstellung

#language
#fundamentals

Nur die Position(en) von Elementen ungleich null in einem dünnbesetzten Merkmal speichern

Angenommen, ein kategoriales Merkmal mit dem Namen species identifiziert die 36 Baumarten in einem bestimmten Wald. Außerdem wird davon ausgegangen, dass in jedem Beispiel nur eine einzige Spezies identifiziert ist.

Sie könnten einen One-Hot-Vektor verwenden, um die Baumarten in jedem Beispiel darzustellen. Ein One-Hot-Vektor enthält einen einzelnen 1 (für die spezifische Baumart in diesem Beispiel) und 35 0s (um die 35 Baumarten in diesem Beispiel darzustellen). Die One-Hot-Repräsentation von maple könnte also so aussehen:

Ein Vektor, in dem die Positionen 0 bis 23 den Wert 0, die Positionen 24 den Wert 1 und die Positionen 25 bis 35 den Wert 0 enthalten.

Alternativ würde die dünnbesetzte Darstellung einfach die Position der bestimmten Arten bestimmen. Wenn maple an Position 24 liegt, wäre die dünnbesetzte Darstellung von maple einfach:

24

Die dünnbesetzte Darstellung ist viel kompakter als die One-Hot-Darstellung.

spärlicher Vektor

#fundamentals

Ein Vektor, dessen Werte hauptsächlich Nullen sind. Siehe auch spärliche Funktion und sparte Inhalte

Quadratverlust

#fundamentals

Synonym für L2 Verlust.

Statisch

#fundamentals

Etwas wurde einmal statt ständig wiederholt. Die Begriffe statisch und offline sind Synonyme. Im Folgenden werden gängige Einsatzmöglichkeiten von statischer und offline beim maschinellen Lernen aufgeführt:

  • Statisches Modell (oder Offlinemodell) ist ein Modell, das einmal trainiert und dann für eine Weile verwendet wird.
  • Statisches Training (oder Offlinetraining) ist der Prozess des Trainings eines statischen Modells.
  • Eine statische Inferenz (oder Offline-Inferenz) ist ein Prozess, bei dem ein Modell einen Batch von Vorhersagen gleichzeitig generiert.

Kontrast zum dynamischen Format

statische Inferenz

#fundamentals

Synonym für Offline-Inferenz.

Stationarität

#fundamentals

Ein Merkmal, dessen Werte sich in einer oder mehreren Dimensionen normalerweise nicht ändern. Eine Funktion, deren Werte in den Jahren 2020 und 2022 ähnlich aussehen, weist beispielsweise eine Stationarität auf.

In der Praxis zeigen sich nur sehr wenige Funktionen einer Stationarität. Selbst Funktionen mit gleichbleibender Stabilität (z. B. Meeresspiegel) ändern sich im Laufe der Zeit.

Kontrast zur Nicht- Stationarität

stochastischer Farbverlauf (SGD)

#fundamentals

Ein Algorithmus für den Gradientenabstieg, bei dem die Batchgröße eins ist. Mit anderen Worten: SGD trainiert für ein einzelnes Beispiel, das nach dem Zufallsprinzip aus einem Trainingssatz ausgewählt wird.

überwachtes maschinelles Lernen

#fundamentals

Trainieren eines Modells aus Funktionen und den entsprechenden Labels Beim überwachten maschinellen Lernen erfolgt das Analysieren eines Fachs anhand einer Reihe von Fragen und der entsprechenden Antworten analog dazu. Nachdem Sie die Zuordnung zwischen Fragen und Antworten gemeistert haben, kann ein Schüler Antworten auf neue (noch nie gesehene) Fragen zum selben Thema geben.

Im Vergleich zu nicht überwachtem Machine Learning

synthetisches Feature

#fundamentals

Ein Feature, das nicht unter den Eingabefeatures vorhanden ist, aber aus einem oder mehreren von diesen zusammengestellt wurde. Methoden zum Erstellen synthetischer Features sind:

  • Kontinuierliches Gruppieren von Elementen in Klassenbereichen
  • Feature Cross erstellen
  • Multiplizieren (oder Teilen) eines Featurewerts mit einem anderen Featurewert oder allein. Wenn beispielsweise a und b Eingabefeatures sind, sind die folgenden Beispiele für synthetische Features:
    • ab
    • a2
  • Transzendentale Funktion auf einen Merkmalswert anwenden Wenn c beispielsweise ein Eingabemerkmal ist, sind die folgenden Beispiele synthetisches Feature:
    • sin(c)
    • ln(c)

Merkmale, die nur durch Normalisierung oder Skalierung erstellt wurden, gelten nicht als synthetische Merkmale.

T

Testverlust

#fundamentals

Ein Messwert, der einen Verlust eines Modells gegenüber dem Test-Dataset darstellt. Beim Erstellen eines Modells versuchen Sie normalerweise, den Testverlust zu minimieren. Das liegt daran, dass ein niedriger Testverlust ein stärkeres Qualitätssignal ist als ein geringer Trainingsverlust oder ein niedriger Validierungsverlust.

Eine große Lücke zwischen Test- und Trainingsverlust oder Validierungsverlusten deutet möglicherweise darauf hin, dass Sie die Standardisierungsrate erhöhen müssen.

Training

#fundamentals

Das Festlegen der idealen Parameter (Gewichte und Verzerrungen) bestehend aus einem Modell. Während des Trainings liest ein System Beispiele ein und passt die Parameter nach und nach an. Beim Training werden die einzelnen Beispiele zwischen ein paar Mal und mehreren Milliarden Malen verwendet.

Trainingsverlust

#fundamentals

Ein Messwert, der einen Verlust eines Modells während einer bestimmten Trainingsausführung darstellt. Angenommen, die Verlustfunktion lautet mittlerer quadratischer Fehler. Vielleicht ist der Trainingsverlust (der mittlere quadratische Fehler) für die zehnte Iteration 2,2 und der Trainingsverlust für die 100. Iteration 1,9.

In einer Verlustkurve wird der Trainingsverlust im Vergleich zur Anzahl der Iterationen dargestellt. Eine Verlustkurve enthält die folgenden Hinweise zum Training:

  • Ein Abfall nach unten zeigt an, dass das Modell verbessert wird.
  • Ein Anstieg nach oben bedeutet, dass das Modell zunimmt.
  • Eine flache Neigung deutet darauf hin, dass das Modell die Konvergenz erreicht hat.

Die folgende etwas ideale Verlustkurve zeigt beispielsweise:

  • Ein steiler Abfall während der ersten Iterationen, was eine schnelle Modellverbesserung impliziert.
  • Eine allmähliche Abflachung (aber immer weiter nach unten) bis zum Ende des Trainings, die eine kontinuierliche Modellverbesserung mit einer etwas langsameren Geschwindigkeit als bei den ersten Iterationen impliziert.
  • Eine flache Linie zum Ende des Trainings, die auf Konvergenz hindeutet.

Das Diagramm des Trainingsverlusts im Vergleich zu den Iterationen. Diese Verlustkurve beginnt mit einem steilen Abfall. Die Steigung wird allmählich flach, bis sie null wird.

Der Trainingsverlust ist zwar wichtig, siehe aber auch die Generalisierung.

Abweichungen zwischen Training und Bereitstellung

#fundamentals

Der Unterschied zwischen der Leistung eines Modells während des Trainings und der Leistung desselben Modells während der Bereitstellung.

Trainings-Dataset

#fundamentals

Die Teilmenge des Datasets, das zum Trainieren eines Modells verwendet wird.

Traditionell werden Beispiele im Dataset in die folgenden drei Untergruppen unterteilt:

Im Idealfall sollte jedes Beispiel im Dataset nur zu einer der vorhergehenden Untergruppen gehören. Beispielsweise sollte ein einzelnes Beispiel nicht sowohl zum Trainings- als auch zum Validierungs-Dataset gehören.

Richtig negativ (TN)

#fundamentals

Ein Beispiel, bei dem das Modell die negative Klasse richtig prognostiziert. Das Modell leitet beispielsweise daraus ab, dass eine bestimmte E-Mail-Nachricht kein Spam ist und dass diese E-Mail tatsächlich kein Spam ist.

Richtig positiv (TP)

#fundamentals

Ein Beispiel, bei dem das Modell die positive Klasse richtig prognostiziert. Das Modell leitet z. B. ab, dass eine bestimmte E-Mail Spam ist und diese E-Mail tatsächlich Spam ist.

Rate richtig positiver Ergebnisse (TPR)

#fundamentals

Synonym für Trefferquote. Das bedeutet:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Die Rate richtig positiver Ergebnisse ist die Y-Achse einer ROC-Kurve.

U

Unteranpassung

#fundamentals

Erstellen eines Modells mit schlechter Vorhersagefunktion, da das Modell die Komplexität der Trainingsdaten nicht vollständig erfasst hat. Viele Probleme können zu einer Unteranpassung führen, darunter:

Beispiel ohne Label

#fundamentals

Beispiel mit Funktionen, aber ohne Label Die folgende Tabelle enthält beispielsweise drei unbeschriftete Beispiele aus einem Hausbewertungsmodell, jedes mit drei Merkmalen, aber ohne Hauswert:

Anzahl der Schlafzimmer Anzahl der Badezimmer Alter des Hauses
3 2 15
2 1 72
4 2 34

In überwachtes maschinelles Lernen werden Modelle anhand von Beispielen mit Labels trainiert und Vorhersagen für Beispiele ohne Label gemacht.

Beim halbüberwachten und nicht beaufsichtigten Lernen werden Beispiele ohne Label während des Trainings verwendet.

Kontrastbeispiel ohne Label mit Beispiel mit Label.

unbeaufsichtigtes maschinelles Lernen

#clustering
#fundamentals

Trainieren eines Modells, um Muster in einem Dataset zu finden, normalerweise ein Dataset ohne Label.

Am häufigsten wird das nicht überwachte maschinelle Lernen zum Clustern von Gruppen mit ähnlichen Beispielen verwendet. Ein nicht überwachter Algorithmus für maschinelles Lernen kann beispielsweise Songs basierend auf verschiedenen Eigenschaften der Musik gruppieren. Die daraus resultierenden Cluster können als Eingabe für andere Algorithmen für maschinelles Lernen verwendet werden, z. B. für einen Musikempfehlungsdienst. Clustering kann hilfreich sein, wenn nützliche Labels nicht verfügbar sind oder nicht vorhanden sind. In Domains wie Anti-Missbrauch und Betrug können Cluster beispielsweise dabei helfen, die Daten besser zu verstehen.

Im Gegensatz dazu steht das überwachte maschinelle Lernen im Vordergrund.

V

validation

#fundamentals

Die erste Bewertung der Qualität eines Modells. Bei der Validierung wird die Qualität der Vorhersagen eines Modells mit dem Validierungs-Dataset verglichen.

Da sich das Validierungs-Dataset vom Trainings-Dataset unterscheidet, hilft die Validierung vor Überanpassung.

Sie können das Modell mit dem Validierungs-Dataset als erste Testrunde bewerten und das Modell mit dem Test-Dataset als zweite Testrunde bewerten.

Validierungsverlust

#fundamentals

Ein Messwert, der einen Verlust eines Modells im Validierungs-Dataset während einer bestimmten Wiederholungskampagne darstellt.

Weitere Informationen finden Sie unter Generalisierungskurve.

Validierungs-Dataset

#fundamentals

Die Teilmenge des Datasets, das die erste Bewertung anhand eines trainierten Modells ausführt. Normalerweise wird das trainierte Modell mehrmals mit dem Validierungs-Dataset verglichen, bevor es mit dem Test-Dataset verglichen wird.

Traditionell teilen Sie die Beispiele im Dataset in die folgenden drei Untergruppen auf:

Im Idealfall sollte jedes Beispiel im Dataset nur zu einer der vorhergehenden Untergruppen gehören. Beispielsweise sollte ein einzelnes Beispiel nicht sowohl zum Trainings- als auch zum Validierungs-Dataset gehören.

W

weight

#fundamentals

Ein Wert, der mit einem anderen Modell multipliziert wird. Beim Training wird die ideale Gewichtung eines Modells ermittelt. Inferenz ist der Vorgang, bei dem diese erlernten Gewichtungen für Vorhersagen verwendet werden.

gewichtete Summe

#fundamentals

Die Summe aller relevanten Eingabewerte multipliziert mit den entsprechenden Gewichtungen. Angenommen, die relevanten Eingaben umfassen Folgendes:

Eingabewert Eingabegewicht
2 -1,3
-1 0,6
3 0,4

Die gewichtete Summe beträgt daher:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Eine gewichtete Summe ist das Eingabeargument für eine Aktivierungsfunktion.

Z

Normalisierung des Z-Faktors

#fundamentals

Eine Skalierungstechnik, die einen unbearbeiteten Merkmalswert durch einen Gleitkommawert ersetzt, der die Anzahl der Standardabweichungen von diesem Merkmalsmittel darstellt. Nehmen wir beispielsweise ein Merkmal mit einem Mittelwert von 800 und einer Standardabweichung von 100. In der folgenden Tabelle ist zu sehen, wie der Normalisierungswert des Z-Scores seinem Z-Wert zugeordnet wird:

Unverarbeiteter Wert Z-Wert
800 0
950 +0,7
575 -2,25

Das Modell für maschinelles Lernen wird dann anhand der Z-Scores für dieses Feature trainiert, anstatt für die Rohwerte.