प्रीफ़िक्स कैशिंग एक ऐसी सुविधा है जो शेयर किए गए और बार-बार इस्तेमाल होने वाले प्रॉम्प्ट प्रीफ़िक्स के हिस्से को प्रोसेस करने के लिए, एलएलएम की इंटरमीडिएट स्टेट को सेव और रीयूज़ करके, अनुमान लगाने में लगने वाले समय को कम करती है. प्रीफ़िक्स कैशिंग की सुविधा चालू करने के लिए, आपको एपीआई के अनुरोध में, स्टैटिक प्रीफ़िक्स को डाइनैमिक सफ़िक्स से अलग करना होगा.
फ़िलहाल, प्रीफ़िक्स कैशिंग की सुविधा सिर्फ़ टेक्स्ट वाले इनपुट के साथ काम करती है. इसलिए, अगर प्रॉम्प्ट में कोई इमेज दी जा रही है, तो इस सुविधा का इस्तेमाल न करें.
प्रीफ़िक्स कैशिंग को लागू करने के दो तरीके हैं: इंप्लिसिट या एक्सप्लिसिट:
- इंप्लिसिट प्रीफ़िक्स कैशिंग एक आसान तरीका है. इसमें ऐप्लिकेशन को सिर्फ़ प्रॉम्प्ट का शेयर किया गया हिस्सा तय करना होता है.
- एक्सप्लिसिट प्रीफ़िक्स कैशिंग की मदद से, ऐप्लिकेशन को कैश पर ज़्यादा कंट्रोल मिलता है. इसमें कैश बनाना, क्वेरी करना, और मिटाना शामिल है.
प्रीफ़िक्स कैशिंग का इंप्लिसिट तरीके से इस्तेमाल करना
प्रीफ़िक्स कैशिंग की सुविधा चालू करने के लिए, प्रॉम्प्ट के शेयर किए गए हिस्से को promptPrefix फ़ील्ड में जोड़ें. इसके लिए, यहां दिए गए कोड स्निपेट देखें:
Kotlin
val promptPrefix = "Reverse the given sentence: "
val dynamicSuffix = "Hello World"
val result = generativeModel.generateContent(
generateContentRequest(TextPart(dynamicSuffix)) {
promptPrefix = PromptPrefix(promptPrefix)
}
)
Java
String promptPrefix = "Reverse the given sentence: ";
String dynamicSuffix = "Hello World";
GenerateContentResponse response = generativeModelFutures.generateContent(
new GenerateContentRequest.Builder(new TextPart(dynamicSuffix))
.setPromptPrefix(new PromptPrefix(promptPrefix))
.build())
.get();
ऊपर दिए गए स्निपेट में, dynamicSuffix को मुख्य कॉन्टेंट के तौर पर पास किया गया है. वहीं, promptPrefix को अलग से दिया गया है.
परफ़ॉर्मेंस में होने वाले अनुमानित फ़ायदे
प्रीफ़िक्स कैशिंग के बिना |
प्रीफ़िक्स कैश हिट के साथ (प्रीफ़िक्स का पहली बार इस्तेमाल करने पर, प्रीफ़िक्स कैश मिस हो सकता है) |
|
Pixel 9, जिसमें 300 टोकन वाला फ़िक्स्ड प्रीफ़िक्स और 50 टोकन वाला डाइनैमिक सफ़िक्स प्रॉम्प्ट है |
0.82 सेकंड |
0.45 सेकंड |
Pixel 9, जिसमें 1,000 टोकन वाला फ़िक्स्ड प्रीफ़िक्स और 100 टोकन वाला डाइनैमिक सफ़िक्स प्रॉम्प्ट है |
2.11 सेकंड |
0.5 सेकंड |
स्टोरेज से जुड़ी ज़रूरी बातें
इंप्लिसिट प्रीफ़िक्स कैशिंग की सुविधा के साथ, कैश फ़ाइलें क्लाइंट ऐप्लिकेशन के प्राइवेट स्टोरेज में सेव की जाती हैं. इससे आपके ऐप्लिकेशन के स्टोरेज का इस्तेमाल बढ़ जाता है. एन्क्रिप्ट की गई कैश फ़ाइलें और उनसे जुड़ा मेटाडेटा सेव किया जाता है. इसमें ओरिजनल प्रीफ़िक्स टेक्स्ट भी शामिल होता है. स्टोरेज से जुड़ी इन बातों का ध्यान रखें:
- कैश की संख्या को एलआरयू (लीस्ट रिसेंटली यूज़्ड) मैकेनिज़्म से मैनेज किया जाता है. कैश की कुल संख्या की सीमा पार होने पर, कम इस्तेमाल किए गए कैश अपने-आप मिट जाते हैं.
- प्रॉम्प्ट कैश का साइज़, प्रीफ़िक्स की लंबाई पर निर्भर करता है.
प्रीफ़िक्स कैशिंग से बनाए गए सभी कैश को मिटाने के लिए,
generativeMode.clearImplicitCaches()तरीके का इस्तेमाल करें.
एक्सप्लिसिट कैश मैनेजमेंट का इस्तेमाल करना
Prompt API में, एक्सप्लिसिट कैश मैनेजमेंट के तरीके शामिल हैं. इनकी मदद से, डेवलपर को इस बात पर ज़्यादा सटीक कंट्रोल मिलता है कि कैश कैसे बनाया जाता है, खोजा जाता है, इस्तेमाल किया जाता है, और हटाया जाता है. ये मैन्युअल ऑपरेशन, सिस्टम के ऑटोमेटेड कैश हैंडलिंग से अलग काम करते हैं.
इस उदाहरण में, एक्सप्लिसिट कैश मैनेजमेंट को शुरू करने और अनुमान लगाने का तरीका बताया गया है:
Kotlin
val cacheName = "my_cache"
val promptPrefix = "Reverse the given sentence: "
val dynamicSuffix = "Hello World"
// Create a cache
val cacheRequest = createCachedContextRequest(cacheName, PromptPrefix(promptPrefix))
val cache = generativeModel.caches.create(cacheRequest)
// Run inference with the cache
val response = generativeModel.generateContent(
generateContentRequest(TextPart(dynamicSuffix)) {
cachedContextName = cache.name
}
)
Java
String cacheName = "my_cache";
String promptPrefix = "Reverse the given sentence: ";
String dynamicSuffix = "Hello World";
// Create a cache
CachedContext cache = cachesFutures.create(
new CreateCachedContextRequest.Builder(cacheName, new PromptPrefix(promptPrefix))
.build())
.get();
// Run inference with the cache
GenerateContentResponse response = generativeModelFutures.generateContent(
new GenerateContentRequest.Builder(new TextPart(dynamicSuffix))
.setCachedContextName(cache.getName())
.build())
.get();
इस उदाहरण में, generativeModel.caches का इस्तेमाल करके, एक्सप्लिसिट तरीके से मैनेज किए गए कैश के लिए क्वेरी करने, उन्हें वापस पाने, और मिटाने का तरीका दिखाया गया है:
Kotlin
val cacheName = "my_cache"
// Query pre-created caches
for (cache in generativeModel.caches.list()) {
// Do something with cache
}
// Get specific cache
val cache = generativeModel.caches.get(cacheName)
// Delete a pre-created cache
generativeModel.caches.delete(cacheName)
Java
String cacheName = "my_cache";
// Query pre-created caches
for (PrefixCache cache : cachesFutures.list().get()) {
// Do something with cache
}
// Get specific cache
PrefixCache cache = cachesFutures.get(cacheName).get();
// Delete a pre-created cache
cachesFutures.delete(cacheName);