Framing: Wissenstest

Beaufsichtigtes Lernen

Sehen Sie sich die folgenden Optionen an.

Angenommen, Sie möchten ein Modell für überwachtes maschinelles Lernen entwickeln, um vorherzusagen, ob eine bestimmte E-Mail „&spam“ oder „kein Spam“ ist. Welche der folgenden Aussagen ist richtig?
E-Mails, die nicht als „Spam“ oder „Kein Spam“ markiert wurden, sind Beispiele.
Da unser Label aus den Werten „&“ und „Kein Spam“ besteht, gilt jede E-Mail, die noch nicht als Spam oder nicht als Spam markiert wurde, als Beispiel.
Wörter in der Betreffzeile sind gute Labels.
Wörter in der Betreffzeile eignen sich zwar hervorragend, sind aber nicht unbedingt gut.
Zum Trainieren des Modells verwenden wir Beispiele ohne Label.
Zum Trainieren des Modells verwenden wir Beispiele mit Labels. Wir können das trainierte Modell dann anhand von Beispielen ohne Label ausführen, um festzustellen, ob die E-Mails ohne Label Spam sind oder nicht.
Die auf einige Beispiele angewendeten Labels sind möglicherweise nicht zuverlässig.
Auf jeden Fall. Es ist wichtig, die Zuverlässigkeit Ihrer Daten zu überprüfen. Die Labels für dieses Dataset stammen wahrscheinlich von E-Mail-Nutzern, die bestimmte E-Mails als Spam markieren. Da die meisten Nutzer nicht jede verdächtige E-Mail als Spam markieren, können wir möglicherweise nicht wissen, ob eine E-Mail Spam ist. Darüber hinaus könnten Spammer unser Modell absichtlich vergiften, indem sie fehlerhafte Labels angeben.

Funktionen und Labels

Sehen Sie sich die folgenden Optionen an.

Ein Beispiel: Ein Onlineshop für Schuhe möchte ein Modell für betreutes ML erstellen, das Nutzern personalisierte Schuhempfehlungen liefert. Das heißt, dass Marty bestimmte Schuhpaare und Janet verschiedene Schuhe empfehlen. Das System verwendet Verlaufsdaten zum Nutzerverhalten, um Trainingsdaten zu generieren. Welche der folgenden Aussagen ist richtig?
„Schuhgröße“ ist eine nützliche Funktion.
„Schuhgröße“ ist ein quantifizierbares Signal, das sich stark darauf auswirkt, ob dem Nutzer die empfohlenen Schuhe gefallen. Wenn Marty beispielsweise eine Größe von 9 trägt, sollte das Modell Schuhe der Größe 7 nicht empfehlen.
„Schuh-Beauty“ ist eine nützliche Funktion.
Gute Merkmale sind konkret und quantifizierbar. Beauty ist zu vage, um als nützliche Funktion zu dienen. Schönheit ist wahrscheinlich eine Mischung aus bestimmten Betonelementen, wie Stil und Farbe. Stil und Farbe wären in jedem Fall besser als Schönheit.
Der Nutzer hat auf die Beschreibung des Schuhs geklickt und ist ein nützliches Label.
Nutzer möchten wahrscheinlich nur mehr über diese Schuhe erfahren, die ihnen gefallen. Klicks von Nutzern sind daher ein beobachtbarer, quantifizierbarer Messwert, der ein gutes Trainingslabel sein kann. Da unsere Trainingsdaten aus dem bisherigen Nutzerverhalten abgeleitet werden, müssen unsere Labels von objektivem Verhalten wie Klicks abgeleitet werden, die in hohem Maße mit den Nutzereinstellungen zusammenhängen.
„Schuhe, die ein Nutzer liebt“ ist ein nützliches Label.
„Adoration“ ist kein beobachtbarer, quantifizierbarer Messwert. Am besten suchen wir nach beobachtbaren Proxymesswerten für die Dekoration.