כשמטמיעים את Prompt API, חשוב מאוד לוודא שההנחיה איכותית ואמינה.
כדי להעריך את איכות ההנחיה, צריך ליצור קבוצה מקיפה של קלט ופלט צפויים לתרחיש השימוש.
כדי לבדוק אם ההנחיה עומדת ברף האיכות שלכם בכל גרסה של Gemini Nano, מומלץ לפעול לפי תהליך העבודה הבא:
- מריצים את מערך הנתונים של ההערכה ומתעדים את התוצאות.
- אפשר לבחון את התוצאות באופן ידני או להשתמש בLLM-as-a-judge.
- אם התוצאה של ההערכה לא עומדת ברף האיכות שהגדרתם, כדאי לשנות את ההנחיה. לדוגמה, אפשר לבקש מ-LLM מתקדם יותר כמו Gemini Pro לשפר את ההנחיה על סמך הפלט הרצוי לעומת הפלט בפועל.
הנדסת הנחיות משפרת את ביצועי המשימות, וחשוב לבצע איטרציות על ההנחיות. מומלץ לבצע לפחות 3-5 איטרציות של השלבים שלמעלה. חשוב לזכור שיש מגבלות לגישה הזו, כי בסופו של דבר האופטימיזציות יניבו תשואות פוחתות.
לחלופין, כדי לשפר את ההנחיות במהירות ובקנה מידה גדול, אפשר להשתמש בכלי האופטימיזציה מבוסס הנתונים, שיכול לטרגט מודלים במכשיר כמו gemma-3n-e4b-it.
בטיחות
כדי להבטיח ש-Gemini Nano יחזיר תוצאות בטוחות למשתמשים, אנחנו מיישמים כמה שכבות של הגנה כדי להגביל תוצאות מזיקות או לא מכוונות:
- בטיחות מובנית במודל: כל מודלי Gemini, כולל Gemini Nano, מאומנים להיות מודעים לבטיחות כבר מההתחלה. המשמעות היא ששיקולי בטיחות מוטמעים בבסיס של המודל, ולא רק מתווספים לו בדיעבד.
- מסנני בטיחות בקלט ובפלט: גם הנחיית הקלט וגם התוצאות שנוצרות על ידי זמן הריצה של Gemini Nano נבדקות באמצעות מסנני הבטיחות שלנו לפני שהתוצאות מוצגות באפליקציה. כך אפשר למנוע מתוכן לא בטוח לחמוק החוצה, בלי לפגוע באיכות.
עם זאת, לכל אפליקציה יש קריטריונים משלה לגבי תוכן שנחשב בטוח למשתמשים, ולכן כדאי להעריך את סיכוני הבטיחות לתרחיש השימוש הספציפי של האפליקציה ולבדוק בהתאם.
מקורות מידע נוספים
- מה רמת ה-AI שלך? הערכה של AI גנרטיבי בכל שלב, עם הסבר – פוסט בבלוג שמתאר איך להשתמש בשירות ההערכה של AI גנרטיבי.
- סקירה כללית של שירות הערכת AI גנרטיבי – מסמכים שמתארים איך להעריך מודלים של AI גנרטיבי כדי לתמוך במשימות כמו השוואת מודלים, שיפור הנחיות ושינוי פרמטרים.
- הפעלת צינור להערכה מבוססת-חישוב – מסמכים בנושא הערכת ביצועי המודל.