在实现 Prompt API 时,确保提示的质量和可靠性至关重要。
如需评估提示质量,您应针对自己的使用场景开发一套全面的输入和预期输出。
为了评估您的提示是否符合每个 Gemini Nano 模型版本的质量标准,我们建议您采用以下工作流程:
- 运行评估数据集并记录输出结果。
- 手动评估结果,或使用 LLM-as-a-judge。
- 如果评估结果不符合您的质量标准,请迭代优化提示。 例如,让 Gemini Pro 等更强大的 LLM 根据预期输出与实际输出之间的差异来改进提示。
提示工程可提升任务性能,而迭代优化提示是关键。我们建议至少重复 3-5 次上述步骤。请注意,这种方法有局限性,因为优化最终会带来边际效益递减。
或者,为了快速大规模地改进提示,您可以使用数据驱动型优化器,该优化器可以定位到设备端模型,例如 gemma-3n-e4b-it。
安全
为确保 Gemini Nano 向用户返回安全的结果,我们实施了多层保护措施来限制有害或意外的结果:
- 原生模型安全性:所有 Gemini 模型(包括 Gemini Nano)都经过训练,可开箱即用。这意味着安全考虑因素已融入模型的核心,而不仅仅是事后添加。
- 输入和输出安全过滤:在将结果提供给应用之前,系统会根据我们的安全过滤条件对输入提示和 Gemini Nano 运行时生成的结果进行评估。这有助于防止不安全内容漏网,同时不会损失任何质量。
不过,由于每款应用都有自己的用户安全内容标准,因此您应评估应用特定使用情形下的安全风险,并据此进行测试。
其他资源
- 您的 AI 有多出色?各个阶段的生成式 AI 评估,详解 - 一篇介绍如何使用生成式 AI 评估服务的博文。
- Gen AI Evaluation Service 概览 - 介绍了如何评估生成式 AI 模型以支持模型比较、提示改进和微调等任务的文档。
- 运行基于计算的评估流水线 - 有关如何评估模型性能的文档。