可行性

在构思和规划阶段,您需要研究机器学习解决方案的各个要素。在问题框架化任务中,您需要从机器学习解决方案的角度来框架化问题。机器学习问题框架简介课程详细介绍了这些步骤。在规划任务期间,您需要评估解决方案的可行性、规划方法并设置成功指标。

虽然机器学习在理论上可能是一个不错的解决方案,但您仍需评估其在现实世界中的可行性。例如,某个解决方案在技术上可能可行,但实际上却难以或无法实施。以下因素会影响项目的可行性:

  • 数据可用性
  • 问题难度
  • 预测质量
  • 技术要求
  • 费用

数据可用性

机器学习模型的优劣只取决于用于训练它们的数据的质量。它们需要大量优质数据才能做出优质预测。回答以下问题有助于您判断自己是否拥有训练模型所需的数据:

  • 数量。您能否获得足够的高质量数据来训练模型?带标签的示例是否稀缺、难以获取或过于昂贵? 例如,获取带标签的医学图片或稀有语言的翻译非常困难。为了做出良好的预测,分类模型需要为每个标签提供大量示例。如果训练数据集中某些标签的示例数量有限,模型就无法做出良好的预测。

  • 提供时的功能可用性。训练中使用的所有功能在提供服务时是否都可用?团队花费了大量时间训练模型,但后来才发现,某些功能在模型需要它们时并未提供,而是过了几天才提供。

    例如,假设某个模型用于预测客户是否会点击网址,而训练中使用的特征之一包含 user_age。不过,当模型提供预测时,user_age 不可用,可能是因为用户尚未创建账号。

  • 法规。获取和使用数据有哪些法规和法律要求?例如,某些要求对存储和使用特定类型的数据设置了限制。

生成式 AI

预训练的 生成式 AI 模型通常需要精心挑选的数据集才能在特定领域的任务中表现出色。您可能需要数据集来满足以下使用场景:

  • 提示工程 参数高效调优 微调 根据应用场景,您可能需要 10 到 10,000 个高质量示例,才能进一步优化模型的输出。例如,如果需要对模型进行微调,使其在回答医疗问题等特定任务方面表现出色,您需要一个高质量的数据集,该数据集应能代表模型将被问到的问题类型以及应回答的答案类型。

    下表提供了估计值,用于说明需要多少示例才能通过特定技术优化生成式 AI 模型的输出:

  • 技术 所需示例数量
    零样本提示 0
    少样本提示 ~10 秒到 100 秒
    参数高效调优 1 数百到数万
    微调 数千到数万(或更多)
    1 低秩自适应 (LoRA) 和提示调优。
  • 最新信息。预训练完成后,生成式 AI 模型就拥有了固定的知识库。如果模型网域中的内容经常变化,您需要制定策略来确保模型保持最新状态,例如:

问题难度

问题的难度可能很难估计。最初看似可行的方法实际上可能是一个开放的研究问题;看似实用且可行的做法可能实际上不切实际或不可行。回答以下问题有助于评估问题的难度:

  • 类似问题是否已得到解决?例如,您组织中的团队是否曾使用类似(或相同)的数据来构建模型?组织外部的人员或团队是否曾解决过类似问题,例如在 KaggleTensorFlow Hub 上?如果是,您很可能可以使用其模型的部分内容来构建自己的模型。

  • 问题性质是否复杂?了解任务的人类基准可以帮助我们了解问题的难度。例如:

    • 人类对图片中的动物类型进行分类的准确率约为 95%。
    • 人类可以以大约 99% 的准确率对手写数字进行分类。

    上述数据表明,创建用于对动物进行分类的模型比创建用于对手写数字进行分类的模型更难。

  • 是否存在潜在的不法分子?是否会有人积极尝试利用您的模型?如果是这样,您将需要不断更新模型,以免其被滥用。例如,当有人利用该模型创建看起来合法的电子邮件时,垃圾邮件过滤器就无法捕获新型垃圾邮件。

生成式 AI

生成式 AI 模型存在潜在的漏洞,可能会增加问题的难度:

  • 输入源。输入将来自何处?对抗性提示是否会泄露训练数据、序言材料、数据库内容或工具信息?
  • 输出使用。输出将如何使用?模型会输出原始内容,还是会通过中间步骤测试并验证其是否合适?例如,向插件提供原始输出可能会导致许多安全问题。
  • 微调。使用损坏的数据集进行微调可能会对模型的权重产生负面影响。这种损坏会导致模型输出不正确、有害或有偏见的内容。如前所述,微调需要使用经过验证包含高质量示例的数据集。

预测质量

您需要仔细考虑模型的预测对用户的影响,并确定模型所需的预测质量。

所需的预测质量取决于预测类型。例如,推荐系统所需的预测质量与用于标记违规行为的模型的预测质量不同。推荐错误的视频可能会导致用户体验不佳。不过,错误地将视频标记为违反平台政策可能会产生支持费用,甚至更糟糕的是,还会产生法律费用。

您的模型是否需要具有非常高的预测质量,因为错误的预测会带来极高的成本?一般来说,所需的预测质量越高,问题就越难。遗憾的是,随着您尝试提高质量,项目往往会达到收益递减点。例如,将模型的精确度从 99.9% 提高到 99.99% 可能会使项目的费用增加 10 倍(甚至更多)。

预测质量越高,项目费用就越高。

图 2. 随着所需预测质量的提高,机器学习项目通常需要越来越多的资源。

生成式 AI

分析生成式 AI 输出时,请考虑以下几点:

  • 事实准确性。虽然生成式 AI 模型可以生成流畅连贯的内容,但无法保证内容真实可靠。生成式 AI 模型给出的错误陈述称为虚构。 例如,生成式 AI 模型可能会虚构内容,生成不正确的文本总结、错误的数学问题答案或关于世界的虚假陈述。许多应用场景仍需要人工验证生成式 AI 输出,然后才能在生产环境中使用,例如 LLM 生成的代码。

    与传统机器学习一样,对事实准确性的要求越高,开发和维护成本就越高。

  • 输出质量。不良输出(例如有偏见、剽窃或有害的内容)会带来哪些法律和财务后果(或伦理影响)?

技术要求

模型有许多技术要求,这些要求会影响模型的可行性。 以下是您需要满足的主要技术要求,以便确定项目的可行性:

  • 延迟时间。延迟要求是什么?需要以多快的速度提供预测?
  • 每秒查询次数 (QPS)。QPS 要求是什么?
  • RAM 使用情况。训练和传送的 RAM 要求是什么?
  • 平台:模型将在何处运行:在线(发送到 RPC 服务器的查询)、WebML(在网络浏览器内)、ODML(在手机或平板电脑上)还是离线(保存在表格中的预测)?
  • 可解释性。预测结果是否需要可解释?例如,您的产品是否需要回答以下问题:“为什么特定内容被标记为垃圾内容?”或“为什么某个视频被判定为违反平台政策?”

  • 重新训练频率。如果模型的基础数据快速变化,可能需要频繁或持续重新训练模型。不过,频繁的重新训练可能会导致高昂的费用,这可能会抵消更新模型预测带来的好处。

在大多数情况下,您可能需要牺牲模型质量才能符合其技术规范。在这些情况下,您需要确定是否仍能生成足以投入生产的模型。

生成式 AI

使用生成式 AI 时,请考虑以下技术要求:

  • 平台:许多预训练模型都有多种尺寸,因此可以在各种具有不同计算资源的平台上运行。例如,预训练模型的大小可以从数据中心规模到适合在手机上运行。选择模型大小时,您需要考虑产品或服务的延迟时间、隐私权和质量限制。这些限制条件往往会相互冲突。例如,隐私权限制可能要求在用户设备上运行推理。不过,由于设备缺乏生成理想结果所需的计算资源,输出质量可能较差。
  • 延迟时间。模型输入和输出大小会影响延迟时间。特别是,输出大小对延迟的影响大于输入大小。 虽然模型可以并行处理输入,但只能按顺序生成输出。换句话说,输入 500 字或 10 字的延迟时间可能相同,但生成 500 字摘要所需的时间要比生成 10 字摘要长得多。
  • 工具和 API 使用情况。模型是否需要使用工具和 API(例如搜索互联网、使用计算器或访问电子邮件客户端)来完成任务?通常,完成任务所需的工具越多,传播错误和增加模型漏洞的可能性就越大。

费用

机器学习实现的成本是否值得?如果机器学习解决方案的实施和维护成本高于其产生的(或节省的)资金,那么大多数机器学习项目都不会获得批准。机器学习项目会产生人工费用和机器费用。

  • 人工成本。项目从概念验证阶段到生产阶段需要多少人?随着机器学习项目的发展,费用通常会增加。例如,与创建原型相比,机器学习项目需要更多的人员来部署和维护可用于生产的系统。尝试估算项目在每个阶段所需的角色数量和类型。

  • 机器费用。训练、部署和维护模型需要大量计算资源和内存。例如,您可能需要 TPU 配额来训练模型和提供预测,还需要为数据流水线提供必要的基础设施。您可能需要付费才能获得带标签的数据,或者支付数据许可费用。在训练模型之前,请考虑估计长期构建和维护机器学习功能的机器费用。

  • 推理费用。模型是否需要进行数百次或数千次推理,而这些推理的成本高于所产生的收入?

注意事项

如果遇到与上述任何主题相关的问题,实现机器学习解决方案可能会面临挑战,而紧迫的截止期限会加剧这些挑战。尝试根据问题的难易程度规划和预算足够的时间,然后尝试预留比非机器学习项目可能需要的更多开销时间。

检查您的理解情况

您在一家自然保护公司工作,负责管理该公司的植物识别软件。您希望创建一个模型来对 60 种入侵性植物物种进行分类,以帮助环保人士管理濒危动物的栖息地。

您找到了可解决类似植物识别问题的示例代码,并且实现解决方案的估计费用在项目预算范围内。虽然该数据集包含大量训练示例,但对于五种最具入侵性的物种,只有少数示例。领导层并未要求模型预测结果可解释,而且似乎也没有与不良预测结果相关的负面后果。您的机器学习解决方案是否可行?

否。
正确。虽然大部分可行性标准都已满足,但可能没有足够的每个物种的示例来训练模型,使其能够做出良好的预测。
是。
虽然大部分可行性标准都已满足,但每种物种的样本数量不足,无法训练出能够做出良好预测的模型。