יחידה 1: שואלים

1. טיפולוגיה של בעלי עניין

לפני שמתחילים במאמצים ליצירת שקיפות בנוגע לתיעוד של מערך הנתונים וליצירת כרטיסי נתונים, חשוב לזהות את בעלי העניין ולהזמין אותם מכל שלבי מחזור החיים של מערך הנתונים. כך קל יותר ליצור כרטיסי נתונים, כי יש לכם את כל מה שצריך כדי לקבל החלטות מושכלות יותר כשאתם יוצרים תוכן.

כדי לעזור לכם לבחון ולהבין איך בעלי עניין חוצי-תחומים מעורבים בתהליך מחזור החיים של מערך נתונים, יצרנו טיפולוגיה שמאפשרת לכם לחשוף הנחות שלעתים קרובות מניחים לגבי בעלי עניין פרטיים. הטיפולוגיה שלנו מחולקת לשלוש קבוצות של בעלי עניין שמעורבים במחזור החיים של מערך נתונים: יוצרים, סוכנים ומשתמשים.

הטיפולוגיה הזו מייצגת רצף של צרכים וציפיות שמשתנים כל הזמן לגבי מערכי נתונים והתיעוד שלהם. אין פתרון אחד שמתאים לכולם.

Producers

מפיקים הם יוצרים של מערכי נתונים ומסמכים, והם אחראים לאיסוף, לבעלות, להשקה ולתחזוקה של מערכי נתונים.

בבסיס, אפשר לחשוב על היוצרים כאחראים על הייצור והפרסום של מערכי נתונים, ועל ההשקה, האימוץ ו/או ההצלחה.

יכול להיות שהמפיקים הם גם האנשים או הקבוצות שגויסו כדי לאסוף או לתייג את הנתונים, ולספק ייעוץ לגבי שיטות או פרשנות בנקודות שונות במהלך מחזור החיים של הנתונים.

בהתאם להקשר, המפיקים יכולים להיות גם חברי צוות בהווה ובעתיד, שותפים, לקוחות או פלטפורמות לאירוח נתונים – כולם אחראים לתחזוקה, לפריסה ולמעקב של מערך הנתונים.

נציגים

סוכנים הם בעלי עניין שקוראים את התיעוד של מערך הנתונים או את כרטיס הנתונים ותיעוד אחר שקשור למודלים של למידת מכונה (ML), ויש להם את הסמכות להשתמש במערכי הנתונים או במערכות ה-AI המתוארים או לקבוע איך הם או אחרים יכולים להשתמש בהם.

בהתאם לדומיינים שלהם, לסוכנים יכולים להיות תפקידים תפעוליים או תפקידי בודקים, כמו חוקר במסגרת אקדמית שרוצה לאמוד את השימוש המתאים במערך נתונים, או מדען נתונים בצוות מוצר שרוצה לקבוע את ההתאמה הכוללת של מערך הנתונים בהקשר של שילוב מוצרים.

ההבחנה הזו חשובה כי בודקים כוללים בעלי עניין שאולי אף פעם לא ישתמשו ישירות במערך הנתונים, אבל עדיין יתקשרו עם כרטיס הנתונים, כמו יועצים בתחום, עיתונאים חוקרים, נציגי קהילה וישויות משפטיות. יכול להיות שלסוכנים יש מומחיות טכנית שתאפשר להם להתמצא במידע שמוצג בתיעוד של מערך נתונים טיפוסי, אבל לרוב יש להם גישה למומחיות לפי הצורך.

משתמשים

משתמשים הם אנשים ונציגים שיוצרים אינטראקציה עם מוצרים שמסתמכים על מודלים שאומנו על מערכי נתונים.

יכול להיות שמשתמשים יסכימו לספק את הנתונים שלהם כחלק מחוויית השימוש במוצר, אבל בדרך כלל הם ידרשו לקבל הסברים ואמצעי בקרה שונים באופן משמעותי, שקשורים לחוויית השימוש במוצר, גם כשמדובר במערכי נתונים.

סיכום

בטבלה הבאה מופיע סיכום של קבוצות בעלי העניין לפי תיאורים, תחומי אחריות, דוגמאות ומשימות נפוצות:

קבוצת בעלי עניין

תיאור

תחומי אחריות

דוגמאות

משימות נפוצות

מפיקים

ליצור מערכי נתונים או מסמכים.

עיצוב, יצירה, בדיקת איכות, תיעוד, השקה, אימוץ, תחזוקה ועדכון של מערכי נתונים.

חוקרים, מדעני נתונים ואנליסטים, מהנדסי תוכנה ומנהלי מוצרים ותוכניות

אימוץ מערכי נתונים, גילוי נאות, עמידות בפני שינויים, הוגנות ואבטחה, ושיפורים

סוכנים

להעריך את מערך הנתונים ולהשתמש בו בעבודה, במוצרים, בארגונים או בקהילות שלהם.

משתמשים בכרטיס הנתונים, אבל יכול להיות שלא תהיה להם אינטראקציה עם מערך הנתונים עצמו.

מהנדסי למידת מכונה או מוצרים, חוקרים, ספקי צד שלישי, מומחים בתחום, גורמים בתעשייה, יועצים, מומחי מדיניות, ספקי שירותי נתונים, מנהיגים או מנהלים

ניהול מורכבות, אחריות, פשרות, פריסה בסביבת ייצור, ארכיון

משתמשים

אינטראקציה עם מוצרים, מכשירים ואפליקציות שנוצרו על ידי נציגים שמשתמשים במערכי הנתונים של היוצר.

יכול להיות שהם יתרמו את הנתונים שלהם באמצעות מוצרים, ויספקו אותות מועילים למפיקים ולסוכנים.

תורמי נתונים, משתמשי מוצר ונציגים של קבוצות בעלות מאפיינים משותפים

שימוש במוצרים, הבנת נתונים ופרטיות, שליחת משוב והעלאת חששות

2. מיפוי בעלי העניין

אחרי שמתרגלים לטיפולוגיה שלנו, אפשר לבדוק את מחזור החיים של מערך הנתונים כדי לזהות את בעלי העניין באמצעות פעילות מיפוי בסיסית. במהלך העיון בפעילות, כדאי לשים לב למי שיכול להיות שיקיים אינטראקציה עם מערך הנתונים או עם התיעוד שלו. כדאי גם לחשוב איך בעלי עניין יכולים לתרום לכרטיסי הנתונים.

כדי למפות את בעלי העניין:

  1. רשימת היוצרים שיצרו את כרטיסי הנתונים.

9019cf76931e3ae5.png

  1. מפרטים את הסוכנים שיקראו את כרטיסי הנתונים וישתמשו בהם.

a6c5bfc2fadd8cb5.png

  1. מפרטים את המשתמשים שישתמשו במערך הנתונים או שיושפעו ממנו, כפי שמתואר בכרטיס הנתונים.

210d18c6ec533955.png

  1. אפשר להשתמש בתבנית הבאה כדי ליצור מפה של בעלי העניין, התפקידים שלהם ביצירת כרטיסי נתונים והמטרה של כרטיסי הנתונים שלהם. המפה הזו מאפשרת לכם להבין את הצרכים של תיעוד מערך הנתונים בהמשך התהליך, ולתעדף את המשימות ולחלק את האחריות בין חברי הצוות במהלך תהליך תיעוד מערך הנתונים.

d24cf1a113189a25.png

3. תהליכי עבודה עם נציג (AIJ)

אחרי שמיפיתם את בעלי העניין, תוכלו לקבוע מה חשוב להעביר לסוכנים – בעלי העניין העיקריים שלכם – בכרטיס הנתונים, כדי שתוכלו להכין אותם להצלחה.

בדרך כלל, החוויה של אדם באינטראקציה עם טכנולוגיה נקראת תהליך שהמשתמש עובר בדרך להמרה. עם זאת, אנחנו מדברים על סוכן שצריך לקבל מספיק מידע על מערך נתונים כדי לקבל החלטה מושכלת, ולכן אנחנו קוראים לחוויות האלה מסע מידע של סוכן (AIJ).

המטרה של AIJ היא להבין את הדברים הבאים:

  • המשימות שעבורן סוכנים עשויים לרצות מערך נתונים.
  • המידע שהנציגים צריכים כדי להשלים את המשימות שלהם.
  • התהליך שבו סוכנים מסיקים מידע.

התאמות מלאי כוללות את הפעולות הבאות:

51ce23c7a9aaa9e4.png

דוגמה

לדוגמה, נניח שאחד מהנציגים שלכם הוא מדען נתונים. דוגמה ל-AIJ של מדען נתונים:

בתור מדען נתונים, אני רוצה לדעת מה המבנה של מערך הנתונים, ולכן אני שואל…

... מהו פורמט הנתונים?

… what is the modality of the dataset?

... כמה תכונות יש במערך הנתונים?

… כמה תכונות מתוכננות?

... אילו תכונות קשורות זו לזו באופן חזק?

... אם יש תלויות במבנה?

דוגמה נוספת לסוכן שעובד במדיניות מוצרים וקובע הנחיות שקשורות להפקה ולפיתוח של מוצר:

בתור עוזר/ת לגיבוש מדיניות, אני רוצה לדעת איך יכול להיות שייעשה שימוש לרעה בנתונים, ולכן אני שואל/ת...

… מה היה השימוש המיועד של מערך הנתונים?

… איזו אפליקציה יצרה את מערך הנתונים?

… what are known dangerous or risky applications of the dataset?

... מה הסיכון לקבוצות ספציפיות?

... איך השימושים המיועדים של מערך הנתונים הזה משפיעים על קהלים?

... איך אפשר לבקש סעד?

4. כתיבת AIJ

  1. תכתוב כמה תיאורים של תמונות שנוצרו על ידי AI על סמך ההנחיות הבאות:

ab594f2e5ce86029.png

  1. שימו לב שלא רק חשבתם על בעלי העניין, אלא גם על כמה שאלות ראשוניות שאתם חושבים שהם ירצו לקבל עליהן תשובות אחרי שיקראו את כרטיס הנתונים. המשמעות היא שאתם קרובים יותר לקבוצת השאלות הסופית שצריך לכלול בכרטיס הנתונים.

5. אופטיקה

יכול להיות ששמתם לב לשימוש במונחים פרספקטיבה, עדשה והיקף כדי לתאר את ה-AIJ. המונחים האלה הוגדרו קודם, אבל הם בעצם חלק ממטפורה מנחה שאנחנו קוראים לה אופטיקה. יצרנו אותם כדי לעזור לכם להבין איך הסוכנים שלכם יכולים להגיע להבנה של מערך הנתונים שלכם.

היקפים

באופטיקה, משתמשים בעדשות ובמראות כדי לזהות, לצפות, להגדיל, לשקף ואפילו לבדוק חומרים. בהקשר של מערכי נתונים, זו מטאפורה מצוינת כי אתם מתמקדים בשאלות ומנסחים אותן כדי לחשוף היבטים ברורים, לא ברורים, גלויים וסמויים.

אנחנו קוראים לזה היקפים – דרך לשאול סדרה של שאלות ברצף כדי להבין מערכי נתונים. על ידי שילוב של היקפי נתונים ברמות פירוט שונות, אפשר ליצור תוכן שיעזור לנציגים להבין את מערכי הנתונים בצורה מקיפה באמצעות דוחות שקיפות.

בטבלה הבאה מפורטים שלושת סוגי ההיקפים במסגרת שלנו, לצד תיאור, דוגמה והמטרה של כל אחד מהם:

היקף

תיאור

דוגמה

מטרה

טלסקופי

שאלות לגבי מאפיינים שנפוצים בכמה מערכי נתונים. הם מתייגים מאפיינים.

האם מערך הנתונים הזה מכיל פרטים אישיים מזהים (PII)?

כדאי להוסיף הקדמה ורקע למידע נוסף שיעזור לנציגים להתמצא בכרטיס הנתונים או בארטיפקט השקיפות.

פריסקופי

שאלות לגבי מאפיינים ספציפיים למערך הנתונים של היוצר. הן מתארות תצפיות.

כמה תכונות מכילות מידע אישי?

בדרך כלל שמור למתן מידע תפעולי, כמו הצורה והגודל של מערך הנתונים, או מידע פונקציונלי, כמו מקורות או כוונות.

מיקרוסקופי

שאלות לגבי היבטים שלא ניתן לצפות בהם במערכי נתונים, כמו החלטות, תהליכים והשפעות. הם דורשים הסברים.

איך בוצעה אנונימיזציה של פרטים אישיים מזהים במערך הנתונים הזה?

לקבל הסברים מפורטים על החלטות או סיכומים של מסמכים ארוכים יותר שמתארים תהליכים שקובעים את התשובות לשאלות המתאימות שמתמקדות בפרטים או בראייה רחבה.

חשוב לקחת בחשבון את שלושת סוגי ההיקפים האלה במהלך תהליך יצירת כרטיס הנתונים. כרטיס נתונים עם טלסקופים בלבד מתאר מידע ברור על מערך הנתונים ולא מוסיף ערך ייחודי. כרטיס נתונים שמכיל רק נתונים של פריסקופים יכול להיות טכני מדי בלי פרטים על ההקשר, הרלוונטיות או החשיבות. אם כרטיס הנתונים יכלול רק מיקרוסקופים, יכול להיות שהנציגים יתמקדו יותר מדי בפרטים ויפספסו את התמונה הגדולה.

לכן אנחנו רואים שהנוכחות או ההיעדר של רמות ההיקף האלה משפיעות מאוד על הפרשנויות של כרטיס נתונים. השאלות האלה מאפשרות לסוכנים ולמפיקים להעריך את הסיכון, לתכנן אמצעים לצמצום הסיכון, ובמקרים הרלוונטיים, לזהות הזדמנויות ליצירת מערכי נתונים טובים יותר. השילוב של טלסקופים, פריסקופים ומיקרוסקופים מספק פרטים שימושיים, כך שבעלי עניין רבים יכולים להתמצא בכרטיס הנתונים בלי להתבלבל או ללכת לאיבוד.

דוגמה

בקטע מסלולי מידע לסוכנים (AIJ) ראיתם כמה דוגמאות ל-AIJ, כולל אחת למדען נתונים. אם תתבוננו בדוגמה הזו, יכול להיות שתגלו שאפשר לקבץ חלק מהשאלות לפי היקפים, כולל השאלות הבאות:

בתור מדען נתונים, אני רוצה לדעת מה המבנה של מערך הנתונים, ולכן אני שואל…

Telescopic

... מהו פורמט הנתונים?

… what is the modality of the dataset?

Periscopic

... כמה תכונות יש במערך הנתונים?

… כמה תכונות מתוכננות?

מיקרוסקופי

... אילו תכונות קשורות זו לזו באופן חזק?

... אם יש תלויות במבנה?

סביר מאוד שכבר חשבתם על כמה שאלות טלסקופיות, פריסקופיות ומיקרוסקופיות שמתאימות לסוכנים שלכם.

6. שינוי המבנה של קובצי AIJ באמצעות היקפים

  • כדי לשנות את המבנה של AIJ עם היקפים, משתמשים בהנחיה לדוגמה הבאה:

2b6e2a7a041060f4.png

7. מזל טוב

מעולה! התחלתם ליצור כרטיס נתונים. עכשיו אפשר להעריך את השאלות.