Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

プレフィックスキャッシュを使用して推論速度を最適化する

プレフィックスキャッシングは、共有され繰り返し使用されるプロンプトのプレフィックス部分を処理する LLM の中間状態を保存して再利用することで、推論時間を短縮する機能です。プレフィックスキャッシングを有効にするには、API リクエストで静的なプレフィックスと動的なサフィックスを分離するだけです。

現在、プレフィックスキャッシングはテキストのみの入力をサポートしています。プロンプトで画像を提供している場合は、この機能を使用しないでください。

プレフィックスキャッシングを実装するには、暗黙的または明示的な 2 つの方法があります。

暗黙的なプレフィックスキャッシングは、アプリケーションがプロンプトの共有部分を定義するだけで済む軽量な方法です。
明示的なプレフィックスキャッシングを使用すると、アプリケーションはキャッシュの作成、クエリ、削除など、キャッシュをより細かく制御できます。

プレフィックスキャッシングを暗黙的に使用する

プレフィックスキャッシングを有効にするには、次のコードスニペットに示すように、プロンプトの共有部分を promptPrefix フィールドに追加します。

Kotlin

val promptPrefix = "Reverse the given sentence: "
val dynamicSuffix = "Hello World"

val result = generativeModel.generateContent(
  generateContentRequest(TextPart(dynamicSuffix)) {
    promptPrefix = PromptPrefix(promptPrefix)
  }
)

Java

String promptPrefix = "Reverse the given sentence: ";
String dynamicSuffix = "Hello World";

GenerateContentResponse response = generativeModelFutures.generateContent(
    new GenerateContentRequest.Builder(new TextPart(dynamicSuffix))
    .setPromptPrefix(new PromptPrefix(promptPrefix))
    .build())
    .get();

上記のスニペットでは、dynamicSuffix がメインコンテンツとして渡され、promptPrefix が個別に提供されます。

推定されるパフォーマンスの向上

プレフィックスキャッシングなし

プレフィックスキャッシュヒットあり

（プレフィックスを初めて使用する場合はプレフィックスキャッシュミスが発生する可能性があります）

300 トークンの固定プレフィックスと 50 トークンの動的サフィックスプロンプトを使用する Google Pixel 9

0.82 秒

0.45 秒

1,000 トークンの固定プレフィックスと 100 トークンの動的サフィックスプロンプトを使用する Google Pixel 9

2.11 秒

0.5 秒

ストレージに関する考慮事項

暗黙的なプレフィックスキャッシングを使用すると、キャッシュファイルがクライアントアプリケーションのプライベートストレージに保存されるため、アプリのストレージ使用量が増加します。暗号化されたキャッシュファイルと、元のプレフィックステキストなどの関連メタデータが保存されます。ストレージに関する次の考慮事項に留意してください。

キャッシュの数は、LRU（Least Recently Used）メカニズムによって管理されます。キャッシュの合計最大量を超えると、最も使用されていないキャッシュが自動的に削除されます。
プロンプトキャッシュのサイズは、プレフィックスの長さによって異なります。
プレフィックスキャッシングで作成されたすべてのキャッシュをクリアするには、 generativeMode.clearImplicitCaches() メソッドを使用します。

注: clearImplicitCaches() メソッドは試験運用版であり、今後変更される可能性があります。

明示的なキャッシュ管理を使用する

Prompt API には、キャッシュの作成、検索、使用、削除の方法をデベロッパーがより細かく制御できるように、明示的なキャッシュ管理メソッドが含まれています。これらの手動操作は、システムの自動キャッシュ処理とは独立して実行されます。

この例では、明示的なキャッシュ管理を初期化して推論を実行する方法を示します。

Kotlin

val cacheName = "my_cache"
val promptPrefix = "Reverse the given sentence: "
val dynamicSuffix = "Hello World"

// Create a cache
val cacheRequest = createCachedContextRequest(cacheName, PromptPrefix(promptPrefix))
val cache = generativeModel.caches.create(cacheRequest)

// Run inference with the cache
val response = generativeModel.generateContent(
  generateContentRequest(TextPart(dynamicSuffix)) {
    cachedContextName = cache.name
  }
)

Java

String cacheName = "my_cache";
String promptPrefix = "Reverse the given sentence: ";
String dynamicSuffix = "Hello World";

// Create a cache
CachedContext cache = cachesFutures.create(
  new CreateCachedContextRequest.Builder(cacheName, new PromptPrefix(promptPrefix))
  .build())
  .get();

// Run inference with the cache
GenerateContentResponse response = generativeModelFutures.generateContent(
  new GenerateContentRequest.Builder(new TextPart(dynamicSuffix))
  .setCachedContextName(cache.getName())
  .build())
  .get();

この例では、generativeModel.caches を使用して、明示的に管理されるキャッシュのクエリ、取得、削除を行う方法を示します。

Kotlin

val cacheName = "my_cache"

// Query pre-created caches
for (cache in generativeModel.caches.list()) {
  // Do something with cache
}

// Get specific cache
val cache = generativeModel.caches.get(cacheName)

// Delete a pre-created cache
generativeModel.caches.delete(cacheName)

Java

String cacheName = "my_cache";

// Query pre-created caches
for (PrefixCache cache : cachesFutures.list().get()) {
  // Do something with cache
}

// Get specific cache
PrefixCache cache = cachesFutures.get(cacheName).get();

// Delete a pre-created cache
cachesFutures.delete(cacheName);

プレフィックス キャッシュを使用して推論速度を最適化する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

プレフィックス キャッシングを暗黙的に使用する

Kotlin

Java

推定されるパフォーマンスの向上

ストレージに関する考慮事項

明示的なキャッシュ管理を使用する

Kotlin

Java

Kotlin

Java

プレフィックスキャッシュを使用して推論速度を最適化する

プレフィックスキャッシングを暗黙的に使用する