Otimizar a velocidade de inferência com o armazenamento em cache de prefixos

O armazenamento em cache de prefixos é um recurso que reduz o tempo de inferência armazenando e reutilizando o estado intermediário do LLM ao processar uma parte compartilhada e recorrente do prefixo do comando. Para ativar o cache de prefixo, basta separar o prefixo estático do sufixo dinâmico na solicitação de API.

No momento, o cache de prefixo só aceita entradas de texto. Portanto, não use esse recurso se você estiver fornecendo uma imagem no comando.

Há duas abordagens para implementar o cache de prefixo: implícita ou explícita:

Usar o armazenamento em cache de prefixo implicitamente

Para ativar o cache de prefixo, adicione a parte compartilhada da solicitação ao campo promptPrefix, conforme mostrado nos snippets de código a seguir:

Kotlin

val promptPrefix = "Reverse the given sentence: "
val dynamicSuffix = "Hello World"

val result = generativeModel.generateContent(
  generateContentRequest(TextPart(dynamicSuffix)) {
    promptPrefix = PromptPrefix(promptPrefix)
  }
)

Java

String promptPrefix = "Reverse the given sentence: ";
String dynamicSuffix = "Hello World";

GenerateContentResponse response = generativeModelFutures.generateContent(
    new GenerateContentRequest.Builder(new TextPart(dynamicSuffix))
    .setPromptPrefix(new PromptPrefix(promptPrefix))
    .build())
    .get();

No snippet anterior, o dynamicSuffix é transmitido como o conteúdo principal, e o promptPrefix é fornecido separadamente.

Ganhos de performance estimados

Sem armazenamento em cache de prefixo

Com prefixo cache-hit

(O prefixo cache-miss pode ocorrer quando o prefixo é usado pela primeira vez)

Comando do Pixel 9 com um prefixo fixo de 300 tokens e um sufixo dinâmico de 50 tokens

0,82 segundo

0,45 segundos

Pixel 9 com um prefixo fixo de 1.000 tokens e um sufixo dinâmico de 100 tokens

2,11 segundos

0,5 segundo

Considerações sobre armazenamento

Com o cache de prefixo implícito, os arquivos de cache são salvos no armazenamento privado do aplicativo cliente, o que aumenta o uso de armazenamento do app. Os arquivos de cache criptografados e os metadados associados, incluindo o texto do prefixo original, são armazenados. Lembre-se das seguintes considerações sobre armazenamento:

  • O número de caches é gerenciado por um mecanismo LRU (usado há menos tempo). Os caches menos usados são excluídos automaticamente quando excedem o valor máximo total de cache.
  • Os tamanhos do cache de comandos dependem do comprimento do prefixo.
  • Para limpar todos os caches criados com o armazenamento em cache de prefixo, use o método generativeMode.clearImplicitCaches().

Usar o gerenciamento explícito de cache

A API Prompt inclui métodos explícitos de gerenciamento de cache para dar aos desenvolvedores um controle mais preciso sobre como os caches são criados, pesquisados, usados e removidos. Essas operações manuais são executadas de forma independente do processamento automatizado de cache do sistema.

Este exemplo ilustra como inicializar o gerenciamento explícito de cache e realizar inferências:

Kotlin

val cacheName = "my_cache"
val promptPrefix = "Reverse the given sentence: "
val dynamicSuffix = "Hello World"

// Create a cache
val cacheRequest = createCachedContextRequest(cacheName, PromptPrefix(promptPrefix))
val cache = generativeModel.caches.create(cacheRequest)

// Run inference with the cache
val response = generativeModel.generateContent(
  generateContentRequest(TextPart(dynamicSuffix)) {
    cachedContextName = cache.name
  }
)

Java

String cacheName = "my_cache";
String promptPrefix = "Reverse the given sentence: ";
String dynamicSuffix = "Hello World";

// Create a cache
CachedContext cache = cachesFutures.create(
  new CreateCachedContextRequest.Builder(cacheName, new PromptPrefix(promptPrefix))
  .build())
  .get();

// Run inference with the cache
GenerateContentResponse response = generativeModelFutures.generateContent(
  new GenerateContentRequest.Builder(new TextPart(dynamicSuffix))
  .setCachedContextName(cache.getName())
  .build())
  .get();

Este exemplo demonstra como consultar, recuperar e excluir caches gerenciados explicitamente usando generativeModel.caches:

Kotlin

val cacheName = "my_cache"

// Query pre-created caches
for (cache in generativeModel.caches.list()) {
  // Do something with cache
}

// Get specific cache
val cache = generativeModel.caches.get(cacheName)

// Delete a pre-created cache
generativeModel.caches.delete(cacheName)

Java

String cacheName = "my_cache";

// Query pre-created caches
for (PrefixCache cache : cachesFutures.list().get()) {
  // Do something with cache
}

// Get specific cache
PrefixCache cache = cachesFutures.get(cacheName).get();

// Delete a pre-created cache
cachesFutures.delete(cacheName);