בדיקת דחייה ב-AI כללי

בדיקות אסינכרוניות הן שיטה להערכה שיטתית של מודל למידת מכונה, במטרה ללמוד איך הוא מתנהג אם הוא מקבל קלט זדוני או מזיק. במדריך הזה מתוארת דוגמה לתהליך עבודה של בדיקה אספרסבית ב-AI גנרי.

מהי בדיקת אפריטיבר?

הבדיקות הן חלק חיוני בפיתוח של אפליקציות AI חזקות ובטוחות. בדיקת נוזלים כרוכה בניסיון יזום "לפרוץ" את האפליקציה, על ידי שליחת הנתונים הסבירים ביותר שיובילו לפלט בעייתי. שאילתות נפוצות עשויות לגרום לכשל במודל באופן לא בטוח (כלומר הפרות של מדיניות בטיחות), ועלול לגרום לשגיאות שקל לזהות את המשתמשים, אבל מכונות יכולות לזהות אותן.

שאילתות יכולות להיות "אכסניות" בדרכים שונות. שאילתות בוטות יכולות להכיל ניסוחים שמפירים את המדיניות, או לבטא נקודות מבט של המדיניות, או לנסות לתמרן את המודל כדי לומר משהו לא בטוח, מזיק או פוגעני. שאילתות משתמעות בצורה משתמעת עלולות להיראות תמימות, אבל הן יכולות להכיל נושאים רגישים שיש בהם תוכן רגיש, רגיש מבחינה תרבותית או פוטנציאל לגרימת נזק. ההמלצות יכולות לכלול מידע על דמוגרפיה, בריאות, כספים או דת.

בדיקות שוטפות יכולות לעזור לצוותים לשפר את המודלים והמוצרים, כי הם חושפים כשלים קיימים בהמסלולים לצמצום הבעיה, כמו כוונון עדין, מסנני מודלים והגנה. בנוסף, תוכלו לקבל החלטות לגבי השקת מוצרים על ידי מדידת סיכונים שעשויים להיות בלתי ממוזגים, כמו הסבירות שמודל עם תוכן שיפר את מדיניות הפלט.

כשיטות מומלצות מתפתחות ל-AI אחראית, המדריך הזה מספק דוגמה לתהליך עבודה של בדיקת מודלים מחוללים ומודלים מחוללים.

תהליך עבודה לדוגמה של בדיקת Adversral

הבדיקה של פעולת האפריטיב מתבצעת לפי תהליך עבודה שדומה להערכת מודל רגילה.

זיהוי והגדרה של נתוני קלט

בשלב הראשון של תהליך הבדיקה של האספרס, צריך להגדיר מקורות מידע כדי להבין איך המערכת מתנהגת כשמתקפה מכוונת ומוערכת. קלט מכוון יכול להשפיע ישירות על היעילות של תהליך הבדיקה. הפרטים הבאים יכולים לעזור לכם להגדיר את ההיקף והמטרות של בדיקה אספרסלית:

  • מדיניות המוצר ומצבי כשל
  • תרחישים לדוגמה
  • דרישות מגוון

מדיניות המוצר ומצבי כשל

מוצרי AI גנריים צריכים להגדיר מדיניות בטיחות המתארת התנהגות של מוצרים ופלטי מודלים אסורים (כלומר, נחשבים "לא בטוחים"). המדיניות צריכה לספור מצבי כשל שנחשבים להפרות מדיניות. כדאי להשתמש ברשימה הזו של מצבים של כישלונים כבסיס לבדיקה אסינכרונית. דוגמאות למצבי כשל עשויות לכלול תוכן שכולל שפה גסה או עצות פיננסיות, משפטיות או רפואיות.

תרחישים לדוגמה

קלט חשוב נוסף לבדיקות הפיכה הוא תרחישי השימוש שבמודל הכללי או במוצר שמבקשים להציג, כדי שנתוני הבדיקה יכללו ייצוג מסוים של הדרכים שבהן משתמשים יקיימו אינטראקציה עם המוצר בעולם האמיתי. לכל מוצר כללי יש תרחישי שימוש שונים, אבל חלקם נפוצים: איתור עובדות, סיכום והפקת קוד למודלים של שפות, או יצירת רקעים לפי רקע גיאוגרפי, פני שטח, אומנות או ביגוד.

דרישות מגוון

מערכי הנתונים של בדיקות האברסליים צריכים להיות מגוונים מספיק, והם מייצגים את כל מצבי הכשל והתרחישים לדוגמה. מדידה של מגוון מערכי נתונים מאפשרת לזהות הטיות פוטנציאליות, ולהבטיח שהמודלים נבדקים בצורה נרחבת כדי להתחשב באוכלוסייה מגוונת של משתמשים.

שלוש דרכים לחשוב על גיוון הן:

  • מגוון תרבותי: הקפידו שלשאילתות יהיה מגוון אורכים שונים (למשל, ספירת מילים), שימוש במגוון רחב של אוצרות, שהן לא מכילות כפילויות והן מייצגות ניסוחים שונים של שאילתות (כמו שאלות, בקשות ישירות ועקיפות).
  • סמנטיקה סמנטית: יש לוודא ששאילתות מכסות מגוון רחב של נושאים שונים בכל מדיניות (למשל, סוכרת לבריאות), כולל מאפיינים רגישים ומבוססי זהות (כמו מגדר, מוצא אתני) בתרחישים שונים ובהקשרים גלובליים.
  • מגוון תרחישים של מדיניות ושימוש: ודאו שהשאילתות מכסות את כל הפרות המדיניות (למשל, דברי שטנה) ותרחישים לדוגמה (למשל, עצות של מומחים).

חיפוש או יצירה של מערכי נתונים לבדיקה

מערכי הנתונים לבדיקה של הבדיקות האספרסליות נוצרים באופן שונה מקבוצות של בדיקות הערכה רגילות. בהערכות מודל רגילות, מערכי הנתונים של הבדיקה אמורים בדרך כלל לשקף במדויק את התפלגות הנתונים שהמודל יראה במוצר. בבדיקות של adversaria, נתוני הבדיקה נבחרים כדי ליצור פלט בעייתי מהמודל. לשם כך צריך להוכיח את אופן הפעולה של המודל בדוגמאות של חריגה מההפצה ובתרחישים לדוגמה שרלוונטיים למדיניות הבטיחות. קבוצת בדיקות באיכות גבוהה של למידה צדדית צריכה לכלול את כל המאפיינים של מדיניות הבטיחות, ולמקסם את השימוש בתרחישים לדוגמה שהמודל אמור לתמוך בהם. השפה הזו צריכה להיות מגוונת ביותר (למשל, עם שאילתות באורכים ובשפות שונים) מבחינה סמנטית (למשל, כדי לכסות נושאים שונים ודמוגרפיות שונות).

בודקים את מערכי הנתונים הקיימים כדי לאתר מדיניות בטיחות, מצבי כישלון ותרחישי שימוש במודל של יצירת טקסט וטקסט. צוותים יכולים להשתמש במערכי נתונים קיימים כדי לקבוע בסיס לביצועי המוצרים שלהם, ואז לבצע ניתוחים מעמיקים יותר של מצבי כשל ספציפיים שבהם המוצרים שלהם מתקשים.

אם מערכי הנתונים הקיימים לא מספיקים, צוותים יכולים ליצור נתונים חדשים כדי לטרגט מצבים ספציפיים ותרחישי כשל ספציפיים. אחת מהדרכים ליצור מערכי נתונים חדשים היא להתחיל על ידי יצירה ידנית של מערך נתונים קטן של שאילתות (כלומר, עשרות דוגמאות לכל קטגוריה), ולאחר מכן להרחיב את מערך הנתונים "הזרוע" באמצעות כלי סינתזת נתונים.

מערכי הנתונים של הזרעים צריכים לכלול דוגמאות דומות ככל האפשר למה שהמערכת יכולה להיתקל בהן בסביבת הייצור, ושנוצרות במטרה ליזום הפרת מדיניות. סביר להניח ששפה רעילה ביותר תזוהה על ידי תכונות בטיחות, לכן כדאי להשתמש בניסוח יצירתי ובקלט משתמע.

במערך הנתונים של הבדיקה אפשר להשתמש באזכורים ישירים או עקיפים של מאפיינים רגישים (למשל: גיל, מגדר, גזע, דת). חשוב לזכור שהשימוש במונחים האלה עשוי להשתנות בין תרבויות. מגוון גוונים, מבנה משפט, בחירת מילה ומשמעות. דוגמאות להחלת מספר תוויות (למשל, דברי שטנה לעומת גסויות) עלולות ליצור רעש וכפילות, וייתכן שלא יטופלו כראוי על ידי מערכות הערכה או הדרכה.

צריך לנתח את קבוצות הבדיקה של האפריטיברל כדי להבין את ההרכב שלהן במונחים של מגוון מילוני וסמנטי, כיסוי של הפרות מדיניות ותרחישים לדוגמה, ואת האיכות הכוללת מבחינת ייחודיות, יריביות ורעש.

יצירת פלטים של מודלים

השלב הבא הוא יצירת פלטים במודל על סמך מערך הנתונים לבדיקה. התוצאות יבהירו לצוותי המוצרים איך המודלים שלהם עשויים להניב ביצועים טובים כשהם ייחשפו למשתמשים זדוניים, או כתוצאה מ קלט לא מכוון. הזיהוי של התנהגויות המערכת ודפוסי התגובה האלה יכול לספק מדידות בסיסיות שתוכלו לצמצם בפיתוח בעתיד של המודלים.

הוספת הערות לפלטים

ברגע שנוצרים פלטים מבדיקות האיברסליות, מוסיפים להן הערות כדי לסווג אותן למצבי כשל ו/או נזקים. התוויות האלה יכולות לספק אותות בטיחות לתוכן טקסט ולתמונה. בנוסף, האותות יכולים לעזור למדוד ולצמצם נזקים במודלים ובמוצרים שונים.

אפשר להשתמש במסווגי בטיחות כדי להוסיף הערות באופן אוטומטי לפלטים של המודלים (או לערכי קלט) במקרה של הפרות מדיניות. יכול להיות שהדיוק של האותות שמנסים לזהות מבניים שלא מוגדרים באופן מלא, כמו דברי שטנה, נמוך. באותות כאלה, חשוב מאוד להשתמש במדרגים אנושיים כדי לבדוק ולתקן תוויות שנוצרו על ידי המסווגים, שהציון שלהן הוא 'לא בטוח'.

בנוסף להערה אוטומטית, אפשר גם למנף מדרגים כדי להוסיף דגימה לנתונים. חשוב לציין שהוספת הערות למודלים כחלק מבדיקה של פרסום נגדי כוללת בהכרח בדיקה של טקסט או תמונות שלא מטרידים, בדומה לניהול תוכן באופן ידני. בנוסף, מדרגים עשויים להוסיף הערות לאותו תוכן על סמך הרקע, הידע או האמונות שלהם. כדאי לפתח הנחיות או תבניות למדרגים, ולזכור שמגוון מאגרי הדירוג יכול להשפיע על התוצאות של ההערות.

דיווח וצמצום

השלב האחרון הוא סיכום תוצאות הבדיקה בדוח. תוכלו לחשב את מדדי התוצאות ואת התוצאות בדוחות כדי לספק שיעורי בטיחות, רכיבים חזותיים ודוגמאות לכשלים בעייתיים. התוצאות האלה יכולות להנחות את המשתמשים לשפר את המודלים ולעדכן את אמצעי ההגנה שלהם, כמו מסננים או רשימות חסימה. הדוחות חשובים גם לתקשורת עם בעלי עניין ועם מקבלי החלטות.

מקורות נוספים

צוות AI Red של Google: ההאקרים האתיים משפרים את אבטחת ה-AI

מודלים אדומים של שפות צוותים עם מודלים של שפות

בדיקת הוגנות מוצרים למפתחי למידת מכונה (סרטון):

בדיקת הוגנות מוצרים למפתחים (Codelab)