Sehen Sie sich die folgenden Optionen an.
Angenommen, Sie möchten ein Modell für überwachtes maschinelles Lernen entwickeln, um vorherzusagen, ob eine bestimmte E-Mail „&spam“ oder „kein Spam“ ist. Welche der folgenden Aussagen ist richtig?
E-Mails, die nicht als „Spam“ oder „Kein Spam“ markiert wurden, sind Beispiele.
Da unser Label aus den Werten „&“ und „Kein Spam“ besteht, gilt jede E-Mail, die noch nicht als Spam oder nicht als Spam markiert wurde, als Beispiel.
Wörter in der Betreffzeile sind gute Labels.
Wörter in der Betreffzeile eignen sich zwar hervorragend, sind aber nicht unbedingt gut.
Zum Trainieren des Modells verwenden wir Beispiele ohne Label.
Zum Trainieren des Modells verwenden wir Beispiele mit Labels. Wir können das trainierte Modell dann anhand von Beispielen ohne Label ausführen, um festzustellen, ob die E-Mails ohne Label Spam sind oder nicht.
Die auf einige Beispiele angewendeten Labels sind möglicherweise nicht zuverlässig.
Auf jeden Fall. Es ist wichtig, die Zuverlässigkeit Ihrer Daten zu überprüfen. Die Labels für dieses Dataset stammen wahrscheinlich von E-Mail-Nutzern, die bestimmte E-Mails als Spam markieren. Da die meisten Nutzer nicht jede verdächtige E-Mail als Spam markieren, können wir möglicherweise nicht wissen, ob eine E-Mail Spam ist. Darüber hinaus könnten Spammer unser Modell absichtlich vergiften, indem sie fehlerhafte Labels angeben.