1. הגדרת מסקנות עיקריות
החלטתם על קבוצת שאלות שאתם רוצים לכלול בכרטיס הנתונים – שאלות שלדעתכם חשובות לקוראים. עם זאת, לא מספיק לענות על השאלות האלה כדי ליצור כרטיס נתונים. כדי להבטיח שכרטיס הנתונים הסופי יהיה אופטימלי לחוויית הקריאה, צריך להקדיש מחשבה רבה לתהליך.
כשקוראים כרטיסי נתונים, רוצים לקבל החלטות מאוד ספציפיות, כמו:
- האם מערך הנתונים הזה מתאים לתרחיש השימוש שלי?
- האם אפשר לאפשר לאחרים להשתמש במערך הנתונים הזה?
- איך אפשר להשתמש במערך הנתונים הזה בצורה בטוחה בלי להוסיף סיכון למודלים שלי?
אם הקוראים יכולים לגשת למידע הנכון ביעילות, הם יכולים לקבל החלטות שקשורות למערך הנתונים בהקשר שלהם. החשיבות או התועלת של המידע תלויה בסוג ההחלטה שהקורא צריך לקבל וברקע שלו. לדוגמה, כשקצין תאימות מחליט אם להשתמש במערך נתונים, הוא בודק את הרישיונות שמשויכים אליו, אבל מהנדס בודק את המערך הטכני. שני הקוראים שואלים את אותן שאלות, אבל מצפים לתשובות שונות.
כרטיסי הנתונים צריכים לתאר את מערך הנתונים בצורה מקיפה, כדי שהקוראים יוכלו לקבל החלטות בביטחון. התיאורים המקיפים האלה עוזרים לכם להחליט מה אתם רוצים שהקוראים יקבלו מכרטיס הנתונים, ולקבוע איזה מידע מדויק, מהימן ומאורגן כדאי לתעד בו. הבעיה היא שאי אפשר לדעת את כל ההחלטות האפשריות שקוראי כרטיס הנתונים צריכים לקבל.
2. תכנון כרטיס הנתונים
- כדי להחליט אילו החלטות הקוראים של כרטיס הנתונים צריכים לקבל וכמה פרטים כרטיס הנתונים צריך לכלול, עונים על השאלה לכל קטגוריה בטבלה הבאה:
משתמשים עם הרשאת קריאה | החלטות | מטרות עסקיות | רלוונטיות | Nuance |
מי קהל היעד העיקרי? | אילו החלטות הם יקבלו לגבי מערך הנתונים? | מה הם רוצים לדעת מכרטיס הנתונים? | איזה תוכן ספציפי הם צריכים מכרטיס הנתונים כדי להשיג את המטרות שלהם? | בהתחשב במה שאתה יודע על הקורא, עד כמה התוכן צריך להיות מפורט או מדויק? |
דוגמה: מהנדסי תוכנה לפיתוח | דוגמה: האם כדאי להשתמש במערך הנתונים כדי לבדוק מודל של למידת מכונה (ML) שנמצא בייצור? | דוגמה: תן לי סקירה כללית של מערך הנתונים. איך זה מיושם? | דוגמה: שימושים מיועדים ושימושים לא מתאימים, שימוש קודם ותוצאות במודלים קודמים. | דוגמה: מורכב מאוד. הדגש הוא על שימוש טכני ועל שימושיות לצורך שילוב במערכות ייצור. |
אתם יכולים להשתמש בטבלה כדי להעריך את כרטיס הנתונים ולוודא שהקוראים שהכי חשובים לכם ימצאו את כרטיס הנתונים מועיל. יש הרבה דרכים להעריך את כרטיס הנתונים, אבל אנחנו ממליצים לדרג את חומרת בעיות השימושיות.
ההגדרות המדויקות עשויות להשתנות, אבל סולם החומרה הבא מספק דירוג של מידת הבעיה וההשפעה שלה, בלי להתייחס לסדר העדיפויות. בהקשר הזה, אנחנו מתייחסים לשימושיות של כרטיס הנתונים. אם לא נטפל בבעיות שקשורות לשימושיות, הן עלולות לפגוע באמון של הקורא בכרטיס הנתונים ובמידת התועלת שלו.
- כדי להעריך את מידת התועלת של מצב כרטיס הנתונים לכל קבוצת קהלים בטבלה שהצגת קודם, עליך לענות על השאלות בסולם החומרה הבא:
הפרה | רמת החומרה | תיקון |
אילו תשובות לא מועילות לקורא? | עד כמה דחוף לדעתך לתקן את הבעיה הזו בסולם של 1 עד 5? (מסמנים את תיבת הסימון המתאימה):
| מה הפתרון? |
3. מנסים להשיג מספיק
ברוב המקרים, אחד משני הדברים הבאים קורה כשיוצרים את כרטיס הנתונים הראשון:
- יותר מדי מידע עלול להציף את הקוראים.
- אם תספקו מעט מדי מידע, הקוראים עלולים להתבלבל.
כיוצרים של כרטיס נתונים, אתם צריכים לבחור את המידע שיופיע בו ולתת לו עדיפות. פריט מידע טוב לשקיפות מספק לקוראים מספיק הקשר כדי להבין את התוכן. אם לא, המערכת תגיד להם לאן לעבור.
אתם רוצים לספק מידע שיעזור להבין את מערך הנתונים ולהשתמש בו בקלות. לפעמים מורכבות מערך הנתונים עולה, וזה משפיע על צפיפות המידע וההסברים שצריך לסכם בכרטיס הנתונים.
לא משנה מה רמת המומחיות של הקוראים, כל אחד יכול לחוות הצפה של מידע, ולכן חשוב להציג את המידע הנכון, שכולל את הפרטים הבאים:
- סוג המידע שצריך לספק.
- כמה מידע יש לכם להציע.
- הפרטים שמופיעים בו.
התשובות צריכות לסכם את כל הנתונים בצורה הטובה ביותר, בלי לפרט כל דבר, ולשקף את ההקשר שדרוש לקוראים כדי לקבל תובנות לגבי מערך הנתונים.
היוריסטיקה
יצרנו קבוצה של היוריסטיקות שבעזרתן אפשר לתת ציון לחוויה הכוללת של קריאת כרטיס הנתונים. אנחנו רואים בהיוריסטיקות האלה יעדים שכרטיסי הנתונים צריכים לעמוד בהם כדי שהשימוש בהם יהיה מוצלח ויתבצע בצורה מתאימה בפועל ובקנה מידה גדול. בטבלה הבאה מפורטים היעדים האלה והתיאורים שלהם:
המטרה | תיאור |
ערך צומת | כרטיסי הנתונים צריכים להיות ניתנים להשוואה זה לזה, ללא קשר לאופן הצגת הנתונים או לדומיין, כדי שיהיה קל לפרש את הטענות ולאמת אותן בהקשר של השימוש. פריסת כרטיסי נתונים חד-פעמיים היא יחסית פשוטה, אבל אנחנו רואים שצוותים וארגונים צריכים לשמור על יכולת השוואה כשהם מרחיבים את השימוש בכרטיסים. |
מקיף | במקום ליצור כרטיס נתונים כשלב האחרון במחזור החיים של מערך נתונים, צריך להיות קל ליצור אותו במקביל למערך הנתונים. בנוסף, האחריות למילוי השדות בכרטיס נתונים צריכה להיות מחולקת ומוקצית לאדם המתאים ביותר. לשם כך נדרשות שיטות סטנדרטיות שחורגות ממה שמוצג בכרטיס הנתונים, ורלוונטיות לדוחות השונים שנוצרים במהלך מחזור החיים של קבוצת הנתונים. |
ברור ותמציתי | לכל קורא יש רמת מיומנות שונה, וזה משפיע על האופן שבו הוא מפרש את כרטיס הנתונים. בתרחישים שבהם רמת המיומנות של בעלי העניין שונה, אנשים עם המודל המנטלי החזק ביותר של מערך הנתונים הופכים למקבלי ההחלטות בפועל. לבסוף, משימות דחופות או מורכבות יותר עלולות להפחית את ההשתתפות של בעלי עניין לא מסורתיים בהחלטות, שמועברות לטיפול של "המומחה". כך יש סיכון להשמטת נקודות מבט קריטיות שמשקפות את הצרכים הספציפיים של בעלי עניין במורד הזרם ובצדדים. כרטיס נתונים צריך להעביר את המידע בצורה יעילה לקוראים עם רמת הבקיאות הנמוכה ביותר, ולאפשר לקוראים עם רמת בקיאות גבוהה יותר למצוא מידע נוסף לפי הצורך. התוכן והעיצוב צריכים לקדם את תהליך השיקול של הקורא בלי להעמיס עליו, ולעודד שיתוף פעולה בין בעלי העניין כדי להגיע למודל מנטלי משותף של מערך הנתונים לצורך קבלת החלטות. |
4. הערכת ההיוריסטיקות
- כדי לבדוק את התשובות בכרטיס הנתונים, אפשר להשתמש בכרטיס הניקוד הבא שיצרנו כדי לתת ציון לכל היוריסטיקה. בסיום, תוכלו לסכם את הניקוד הכולל של כרטיס הנתונים, כדי לעקוב אחרי ההתקדמות. אפשר גם להוסיף הערות כדי לספק הקשר נוסף ורשימה של פעולות שצריך לבצע כדי לשפר כל היוריסטיקה.
היוריסטיקה | קריטריונים | תגובות | ניקוד |
אפשר לתת לעצמכם ציון לכרטיס הנתונים שהשלמתם על סמך ההיוריסטיקות הבאות. | קריטריונים להיוריסטיקה | חשוב במיוחד לשים לב לתחומים שבהם אפשר לשפר את כרטיס הנתונים. | מספרים בלבד, ציון עצמי (0-10) |
מובן |
| . | . |
מקיף |
| . | . |
עקבי |
| . | . |
תמציתי |
| . | . |
הציון הכולל = (סך הנקודות/120) | . | . | /120 |
5. ניתוח מעמיק
אנחנו יודעים שנתונים הם מידע על אנשים, תרבויות או עסקים שנאסף בצורה מובנית למטרה ספציפית. עם זאת, כפי שצוין שוב ושוב, כולם מורכבים, ומשולבים בכמה מימדים בדרגות שונות. כך, הניתוח שאתם מבצעים במערך הנתונים מאפשר לכם להבין את המחשבה שהושקעה במערך הנתונים עצמו, ועוזר לכם להבין את המורכבות שלו.
לדוגמה, בניתוח מצטלב של אנשים אפשר לבדוק את השילובים של גורמים אנושיים בתוך מערך נתונים כדי לזהות תוצאות לא פרופורציונליות פוטנציאליות, למשל כשמודל שאומן על מערך נתונים מסוים מניב ביצועים טובים יותר עבור קבוצת משנה מסוימת מאשר עבור קבוצות אחרות. ניתוח מפורק מפרק את מערך הנתונים על סמך גורמים שונים כדי לחשוף דפוסים חשובים עבור קבוצות משנה או אוכלוסיות מוחלשות, שבדרך כלל מוסתרים על ידי נתונים מצטברים גדולים יותר, כדי שהקוראים יוכלו לצפות את התוצאות.
לכן, אנחנו סבורים שניתוחים של הצלבות (intersectionality) וניתוחים מפורקים (IDA) הם דרכים יעילות להצגת מגוון של תוצאות סבירות בנסיבות שונות בכרטיס נתונים, באמצעות יצירת קשרים ברורים במערך נתונים. ה-IDA יכול לספק לקוראים רמזים חיוניים לגבי הייצוג במערך הנתונים, למשל איך התוויות קשורות לישויות רגישות, פערים במערך הנתונים, למשל אם מערך הנתונים כולל רק תמונות שצולמו במהלך היום, והקשר בין משתנים שיכולים לגרום בהמשך למודלים של AI ללמוד קורלציות מזויפות או לבחור משתנים חלופיים. הניתוחים האלה הופכים לשימושיים עוד יותר כשהם מתבצעים בנסיבות מהעולם האמיתי, שמשקפות את החוויה של משתמשים מושפעים עם מוצר או שירות שמשתמשים במערך הנתונים שלכם.
לדוגמה, הצגת התוצאות של IDA בכרטיס נתונים עוזרת לקוראים לבנות באופן יזום אינטואיציה לגבי הביצועים של מודל ה-ML שלהם בקבוצות משנה – שנקראות גם פרוסות – במערך הנתונים. הדבר הזה מחייב את יוצרי מערכי הנתונים להיות קפדניים יותר בניתוחים שלהם של מערך הנתונים ובאופן שבו הוא מוצג בכרטיס הנתונים, אבל בסופו של דבר הוא יכול להוביל לתוצאות טובות יותר של המוצר עבור בעלי העניין.
ה-IDA יכול לעזור לקוראים להבין טוב יותר איך להשתמש במערך הנתונים שלכם במודלים שלהם. אם נתקלתם בבעיות, תוכלו להיעזר במומחים, בצוותי המוצר ובאנשים עם ניסיון חיים כדי לנסח את הניתוחים. ה-IDA מושרש לעיתים קרובות בהקשרים שצריך להסביר לקוראים או שדורשים תמיכה נוספת כדי שהקוראים יוכלו לפרש אותם בצורה מתאימה.
6. ניתוח הנתונים
כדי לנתח את מערך הנתונים, פועלים לפי השלבים הבאים:
- כדאי לעיין בנתונים לפני שמתחילים בניתוח. כדי לפתח אינטואיציה לגבי ההטיות וחוסר האיזון במערך הנתונים, אפשר להשתמש בכלי כמו TensorFlow Data Validation (TFDV) או Learning Interpretability Tool (LIT). התוצאות יעזרו לכם להחליט איך לעצב את הניתוח.
- תכננו את הניתוח בקפידה. התוצאות של הניתוח מושפעות מאוד מהיעדים של ההערכה, מהגישה למומחיות ולמשאבים לביצוע הניתוח, מתי ואיפה מתבצע הניתוח ומההקשרים של מודלי ה-AI שבהם מתבצע הניתוח.
- מתחילים עם גורמים שרלוונטיים לשימוש המיועד. כדאי להגדיר גורמים דמוגרפיים, סוציו-תרבותיים, התנהגותיים ומורפולוגיים שיכולים להשפיע הכי הרבה על תרחישי השימוש המיועדים, ואז להרחיב את ההגדרות האלה.
- דיווח, לא תגובה. חשוב לזכור שיש גורמים והנחות שמשפיעים על ניתוחי הוגנות, והם קיימים במבנים חברתיים ספציפיים מבחינה היסטורית ותרבותית שקשה לכמת. היזהרו מהוספת תגובות שעלולות לבלבל את הקורא. במקום זאת, כדאי לספק דרכים לשחזור ניתוחים שיעזרו לקוראים לכייל את התוצאות בהקשר שלהם.
- תכנון העתיד. כדי להתחשב בגורמים נוספים שעשויים להופיע בעתיד, אפשר לבחון את הייצוג במערך הנתונים, לשמור על ערכים קבועים בתרחישים שונים או לשלב את הניתוח עם טווח ערכים של גורמים נוספים שרלוונטיים למערך הנתונים.
- לספק יותר הקשר לתוצאות שלא ניתן לשחזר. אם בעלי עניין במורד הזרם לא יכולים לשחזר את המדדים, צריך לספק מספיק הקשר לגבי הניתוח. אם הקוראים יכולים להשתמש במידע הזה כדי לשקול את היתרונות והחסרונות של מערך הנתונים, הם יכולים לבטוח במערך הנתונים.
7. מזל טוב
מעולה! יש כמה דרכים לספק את התשובות הנכונות בכרטיס הנתונים. עכשיו אפשר לבדוק אותם.