安全 AI 框架 (SAIF):安全 AI 系统的概念框架

AI 一直在飞速发展,有效的风险管理策略也在随之不断演变。安全 AI 框架 (SAIF) 是安全 AI 系统的概念框架,旨在帮助实现这种发展。

随着 AI 功能日益集成到全球各地的产品中,遵守大胆负责的框架将变得更加重要。

SAIF 旨在帮助降低 AI 系统特有的风险,例如窃取模型对训练数据中的数据投毒、通过提示注入注入恶意输入,以及在训练数据中提取机密信息

SAIF 框架

SAIF 有六个核心元素:

1. 将坚实的安全基础扩展至 AI 生态系统

这包括利用默认安全的基础架构防护功能,以及过去二十年中积累的专业知识来保护 AI 系统、应用和用户。同时,培养组织专业知识,以与 AI 技术的发展保持一致,并开始在 AI 和不断变化的威胁模型的情况下扩缩和调整基础架构保护措施。例如,SQL 注入等注入技术已经存在一段时间,组织可以调整缓解措施(例如输入排错和限制)来帮助更好地防范即时注入式攻击。

2. 扩大检测和响应范围,将 AI 技术融入组织的威胁宇宙

及时性对于检测和响应 AI 相关的网络突发事件至关重要,并将威胁情报和其他功能扩展到组织可以提高两者。对于组织,这包括监控生成式 AI 系统的输入和输出以检测异常情况,并使用威胁情报来预测攻击。这项工作通常需要与信任和安全团队、威胁情报和反滥用团队协作。

3. 自动防御,以应对现有和新威胁

最新的 AI 创新可以提高对安全突发事件响应工作的规模和速度。攻击者可能会使用 AI 来扩大影响,因此务必使用 AI 及其目前和新兴的功能保持灵活性和成本效益,以防范他们。

4. 协调平台级控制措施,确保整个组织的安全性

跨控制框架的一致性可支持 AI 风险缓解和跨不同平台和工具的规模保护,以确保以可扩展且具有成本效益的方式为所有 AI 应用提供最佳保护。在 Google,这包括将默认的安全保护扩展到 Vertex AI 和 Security AI Workbench 等 AI 平台,并将控制和保护措施内置到软件开发生命周期中。涉及通用用例的功能(如 Perspective API)可以帮助整个组织受益于先进的保护功能。

5. 调整控件以调整缓解措施,并为 AI 部署创建更快的反馈循环

通过持续学习持续测试实现,可以确保检测和保护功能可以应对不断变化的威胁环境。这包括基于突发事件和用户反馈的强化学习等技术,包括更新训练数据集、微调模型以从战略上应对攻击,以及允许构建模型以进一步在上下文中嵌入安全性(例如检测异常行为)等步骤。组织还可以定期开展红色团队培训,以提高 AI 产品和产品的安全保障。

6. 将 AI 系统风险置于周围的业务流程中

最后,与组织将如何部署 AI 相关的端到端风险评估有助于做出明智决策。这包括评估端到端业务风险,例如针对特定类型的应用的数据沿袭、验证和运营行为监控。此外,组织还应构建自动检查来验证 AI 性能。

其他资源

有关实现 SAIF 的从业者指南。本指南将介绍一些实用的实践知识,让您了解组织可如何着手将 SAIF 方法应用于现有或新的 AI 技术。

为什么 Red Teams 在帮助组织保障 AI 系统方面发挥核心作用是一份深入的报告,介绍了为支持 SAIF 框架部署的一项关键功能:红队。这涉及到三个重要方面:

  1. 什么是红队及其重要性
  2. 红色团队会模拟哪些类型的攻击
  3. 经验教训,可以与他人分享