Prompt API を実装する際は、プロンプトの品質と信頼性を確保することが重要です。
プロンプトの品質を評価するには、ユースケースの入力と出力の包括的なセットを開発する必要があります。
各 Gemini Nano モデル バージョンでプロンプトが品質基準を満たしているかどうかを評価するには、次のワークフローをおすすめします。
- 評価データセットを実行し、出力を記録します。
- 結果を手動で評価するか、LLM-as-a-judge を使用します。
- 評価が品質基準を満たしていない場合は、プロンプトを繰り返し調整します。たとえば、Gemini Pro などのより強力な LLM に、目的の出力と実際の出力に基づいてプロンプトを改善するようリクエストします。
プロンプト エンジニアリングはタスクのパフォーマンスを向上させます。プロンプトを繰り返し調整することが重要です。上記の手順を 3 ~ 5 回繰り返すことをおすすめします。このアプローチには限界があります。最適化を繰り返しても、最終的には効果が薄れていきます。
また、データドリブン オプティマイザーを使用して、gemma-3n-e4b-it などのオンデバイス モデルをターゲットにすることで、プロンプトを大規模かつ迅速に改善することもできます。
安全性
Gemini Nano がユーザーに安全な結果を返すように、有害な結果や意図しない結果を制限するために、複数の保護レイヤが実装されています。
- ネイティブ モデルの安全性: Gemini Nano を含むすべての Gemini モデルは、最初から安全性を認識するようにトレーニングされています。つまり、安全性に関する考慮事項は、後から追加されるのではなく、モデルのコアに組み込まれています。
- 入力と出力の安全フィルタ: Gemini Nano ランタイムによって生成された入力プロンプトと結果の両方が、アプリに結果を提供する前に安全フィルタと照合して評価されます。これにより、品質を損なうことなく、安全でないコンテンツが漏れ出るのを防ぐことができます。
ただし、ユーザーにとって安全なコンテンツと見なされる基準はアプリごとに異なるため、アプリの特定のユースケースにおける安全性のリスクを評価し、それに応じてテストする必要があります。
参考情報
- あらゆる段階での生成 AI の評価方法を解き明かす - Gen AI Evaluation Service の使用方法について説明するブログ投稿。
- Gen AI Evaluation Service の概要 - モデルの比較、プロンプトの改善、ファインチューニングなどのタスクをサポートするために、生成 AI モデルを評価する方法について説明するドキュメント。
- コンピューティング ベースの評価パイプラインを実行する - モデルのパフォーマンスを評価する方法に関するドキュメント。