Machine Learning | Google for Developers

此页面由 Cloud Translation API 翻译。

查看以下选项。

假设您想开发一种监督式机器学习模型来预测指定的电子邮件是“垃圾邮件”还是“非垃圾邮件”。下列哪些陈述是正确的？

未标记为“垃圾邮件”或“不是垃圾邮件”的电子邮件是无标签样本。

由于我们的标签由值“垃圾邮件”和“非垃圾邮件”组成，因此任何未标记为垃圾邮件或非垃圾邮件的电子邮件都是无标签样本。

主题标头中的字词会成为良好的标签。

主题标头中的字词可能具有出色的特征，但并不适合用作标签。

我们将使用无标签样本来训练模型。

我们将使用有标签样本来训练模型。然后，我们可以针对无标签样本运行经过训练的模型，以推断无标签的电子邮件是垃圾邮件还是非垃圾邮件。

应用于某些示例的标签可能不可靠。

当然可以。请务必检查数据的可靠性。此数据集的标签可能来自将特定电子邮件标记为垃圾邮件的电子邮件用户。由于大多数用户不会将每封可疑的电子邮件都标记为垃圾邮件，因此我们可能不知道电子邮件是否为垃圾邮件。此外，垃圾内容发布者可能会故意提供错误的标签来误导我们的模型。