1. רכישת ידע
הנושאים עולים באופן טבעי כשבודקים את הטיפולוגיה של בעלי העניין, מתעדים את הצרכים הייחודיים שלהם לגבי מידע ומנסחים את השאלות ברמות פירוט שונות. כדי לעזור לכם למיין ולבנות את נושא השאלות, יצרנו מסגרת לרכישת ידע שמספקת גישה חזקה, מכוונת וניתנת לחזרה ליצירת מסמכי שקיפות.
רכישת ידע היא תהליך של מיצוי, מבנה וארגון של ידע ממקור אחד – בדרך כלל ממומחים אנושיים – כך שאפשר להשתמש בו, למשל, במוצר או בטכנולוגיה שאתם עובדים עליהם.
המסגרת שלנו נקראת OFTEn, כלי קונספטואלי לבחינה שיטתית של האופן שבו נושאים מתפשטים בכל חלקי כרטיס הנתונים. יצרנו אותו באמצעות בדיקות מפורטות של שקיפות מערכי נתונים, אינדוקטיביות ודדוקטיביות.
OFTEn
OFTEn הוא ראשי תיבות של השלבים הכלליים במחזור החיים של מערך הנתונים: Origins (מקורות), Factuals (נתונים בפועל), Transformations (טרנספורמציות), Experience (חוויה) ו-n = 1 (דוגמאות).
Origins
שלב המקורות כולל את פעילויות התכנון השונות שקובעות את התוצאה הסופית, כמו הגדרת הדרישות, שיטות האיסוף או המקורות, והחלטות לגבי עיצוב ומדיניות.
הנושאים שעולים משאלות מסוג מקור כוללים את הדברים הבאים:
- מחברים ובעלים
- גורמים מניעים
- אפליקציות מיועדות
- שיטות איסוף
- רישיונות
- גרסאות
- מקורות
- Errata
- גורמים אחראיים
Factuals
שלב העובדות מייצג את המאפיינים הסטטיסטיים והעובדתיים האחרים שמתארים את מערך הנתונים, את הסטיות מהתוכנית המקורית וכל ניתוח שבוצע לפני ארגון הנתונים.
הנושאים שעולים משאלות עובדתיות כוללים:
- מספר המופעים
- מספר התכונות
- מספר התוויות
- מקור התוויות
- מקור הנתונים
- פירוט של קבוצות משנה
- צורת התכונות
- תיאור התכונות
- חסרים או כפולים
- קריטריון להכללה
טרנספורמציות
השלב 'טרנספורמציות' כולל סיכומים של משימות תיוג, הערות או אימות. בהתאם למערך הנתונים, יכול להיות שיהיו כאן תהליכי הכרעה בין מעריכים. בנוסף, שינויים שנעשים כדי לטפל בפרטיות, באבטחה או בפרטים אישיים מזהים (PII) נחשבים כטרנספורמציות.
נושאים שקשורים לשאלות מסוג טרנספורמציה:
- דירוג או הערה
- סינון
- בעיבוד
- אימות
- מאפיינים סטטיסטיים
- תכונות סינתטיות
- טיפול בפרטים אישיים מזהים
- משתנים רגישים
- ההשפעה על ההוגנות
- הטיות או דעות קדומות
חוויית צפייה
בשלב ההתנסות, משתמשים בנתונים למשימות ספציפיות, עוברים הדרכה בנושא גישה, מבצעים שינויים כדי להתאים את הנתונים למשימה, מקבלים תוצאות ומשווים אותן למערכי נתונים דומים אחרים, ומתעדים התנהגויות צפויות או לא צפויות.
דוגמאות לנושאים שקשורים לשאלות על חוויה:
- רמת הביצועים המיועדת
- אפליקציה לא מכוונת
- ביצועים לא צפויים
- נקודות שצריך לשים לב אליהן:
- תובנות
- חוויות
- סטוריז
- שימוש
- הערכת תרחיש שימוש
n = 1 (Samples)
בשלב n = 1 (דוגמאות) מוצגים נתונים על נקודות הפצה, הדגמה של נקודות נתונים חשובות עם מאפיינים ספציפיים, ובמקרים הרלוונטיים, מודלים של תוצאות על סמך הנתונים.
הנושאים שמוצגים בשאלות לדוגמה כוללים:
- דוגמאות או קישורים לדוגמאות טיפוסיות ולערכים חריגים.
- דוגמאות שמניבות תוצאות חיוביות כוזבות או תוצאות שליליות כוזבות.
- דוגמאות שממחישות טיפול בערכי מאפיינים שהם null או אפס.
דוגמה
לדוגמה, קבוצת השאלות הבאה סודרה באמצעות OFTEn:
מי | מה | מתי | איפה | סיבה | איך | |
מקורות | מי מפרסם את מערך הנתונים? האם הם שונים מבעלי מערך הנתונים? | מהם התמריצים למומחים, לספקים ולמתווכי נתונים שמועסקים לצורך יצירת מערך הנתונים הזה? | מתי נוצר מערך הנתונים הזה? הושק? | מאיפה הגיע המימון? | למה נוצר מערך הנתונים הזה? מה היה התהליך לפני כן? | איך הוחלט על השיטות, וכמה צדדים היו מעורבים? |
תוכניות עובדתיות | על מי הנתונים מתייחסים? האם התוויות מייצגות את האנשים בנתונים? | מהן קבוצות המשנה בנתונים שיכולות להשפיע על התוצאות בלמידת מכונה? | מהי תקופת הזמן הרלוונטית לנתונים? מתי תוקף הנתונים פג או שהם חריגים? | איפה אפשר לגשת למערך הנתונים? איפה הנתונים נאספו או נוצרו? | למה נבחרו המדדים שדווחו? למה נבחרו התוויות הספציפיות? | כמה תוויות ייחודיות קיימות במערך הנתונים? איך הם נוצרו? |
טרנספורמציות | איך טופל מידע אישי מזהה במערך הנתונים הזה? האם אפשר להשתמש בתוצאות של מערך הנתונים הזה כדי לזהות אנשים פרטיים? | באילו שיטות השתמשת כדי לנקות או לאמת את מערך הנתונים הזה? | מתי צריך לתכנן תכונות ואיך עושים את זה? צריך לעדכן את ההגדרות האלה? | האם יש קשר בין תכונות שקשורות למיקום לבין תכונות רגישות אחרות? | למה הטרנספורמציות שנבחרו הוחלו על מערך הנתונים? | איך מוטים או פרטים אישיים מזהים (PII) מטופלים בנתונים? |
ניסיון | מי יכול להשתמש במערך הנתונים הזה, ובאילו משימות? האם יש הכשרות שנדרשות? | מה היו השיטות, התוצאות או השגיאות שהתגלו כשנעשה שימוש במערך הנתונים? | באילו נסיבות ומתי אין להשתמש במערך הנתונים הזה? | איפה בעולם אפשר לגשת למערך הנתונים הזה? איפה נעשה בו שימוש? | למה הייצוג הצפוי של מערך הנתונים שונה מהייצוג שנצפה? | מה העלות של נתונים בחלקים שונים בעולם? |
n = 1 (דוגמאות) | האם נקודת הנתונים היא טיפוסית או לא טיפוסית? איך המודלים מתנהגים כאן? | מה הגודל של נקודת הנתונים? מהו תהליך ההסכמה, הצנזורה והביטול של התערבות בנקודת נתונים? | מתי התוצאה בנקודת נתונים משתנה? אפשר לראות דוגמאות באמצעות תרחישים היפותטיים? | אילו גורמים נכללים בנקודת הנתונים? מהם הסיכונים אם יש בעיות בתחזיות? | למה נקודת הנתונים של התמונה הזו נחתכה בצורה מסוימת? למה קטגוריות מסוימות לא מאוכלסות בנקודת הנתונים הזו? | איך נקודת הנתונים הזו קשורה לקלט בעולם האמיתי? איך התוצאה קשורה לפלט בעולם האמיתי? |
גילינו שקל להרחיב ולעדכן כרטיסי נתונים עם מבנה ברור של OFTEn. באמצעות OFTEn, כרטיסי נתונים יכולים להתרחב עם הזמן ולכלול נושאים שבדרך כלל לא נכללים בתיעוד, כמו משוב מסוכנים במורד הזרם, הבדלים משמעותיים בין גרסאות וביקורות או חקירות אד-הוק של מפיקים או סוכנים.
סיכום
בטבלה הבאה מופיע סיכום של מסגרת OFTEn ותיאור של השלבים הכלליים במחזור החיים של מערך נתונים:
Stage | תיאור |
מקורות | בשלבים הראשונים של מחזור החיים של מערך נתונים, כשמתקבלות החלטות לגבי יצירת מערך נתונים. |
תוכניות עובדתיות | תהליכים בפועל של איסוף נתונים ותוצאות גולמיות. |
טרנספורמציות | נתונים גולמיים עוברים טרנספורמציה לצורה שניתן להשתמש בה באמצעות פעולות כמו סינון, אימות, ניתוח, עיצוב וניקוי. |
ניסיון | מערך הנתונים נבדק, נמדד או נפרס בפועל (ניסוי, הפקה או מחקר). |
n = 1 (דוגמאות) | דוגמאות בפועל ממערך הנתונים – או וינייטות – שמייצגות נקודות נתונים רגילות וחריגות. |
יש שתי דרכים להשתמש ב-OFTEn כשיוצרים כרטיס נתונים:
- באופן אינדוקטיבי, OFTEn תומכת בפעילויות עם סוכנים כדי לגבש שאלות לגבי מערכי נתונים ומודלים קשורים שחשובים לקבלת החלטות. גילינו שכאשר הרבה סוכנים מתכנסים כדי לערוך סיעור מוחות על שאלות עם מבנה OFTEn, הם חושפים מידע שנדרש לקבלת החלטות ממוקדות.
- באופן דדוקטיבי, אפשר להשתמש ב-OFTEn כדי להעריך אם כרטיס הנתונים מייצג בצורה מדויקת את מערך הנתונים, וכתוצאה מכך להשפיע על התיעוד ומערך הנתונים. לדוגמה, מערכי נתונים בשלב מוקדם נוטים יותר להתבסס על מקורות ועל עובדות, בעוד שמערכי נתונים בוגרים צפויים להתבסס על חוויה.
בעזרת OFTEn, תוכלו לערוך סיעור מוחות ולבדוק עד כמה השאלות שלכם מכסות את מחזור החיים של מערך הנתונים, וכך לוודא שהתוכן יהיה מקיף ויעיל. הוא לא רק עוזר לכם למצוא כפילויות בסוגי השאלות שאתם יוצרים, אלא גם מטפל בפערים שאתם עשויים למצוא במהלך התהליך.
2. איך מנסחים שאלות באמצעות OFTEn
- כדאי לחשוב על חלק מבעלי העניין ועל מסלולי המידע של הנציגים (AIJ) שגיבשתם במודול הקודם, ואז להשתמש בהנחיות הבאות כדי לארגן את המחשבות.
- אם חלק מהשאלות שלכם כבר משתייכות לאחת מהקטגוריות של OFTEn, תייגו אותן בהתאם.
- אם השאלות שלכם לא משתייכות לאחת מהקטגוריות של OFTEn, בוחרים אחד מהסוכנים שלכם מהמודול הקודם ואז יוצרים לפחות שאלה אחת לכל קטגוריה של OFTEn עבור הסוכן.
- כדי להרחיב את עומק הקטגוריה OFTEn, כדאי ליצור שאלות נוספות על סמך חמשת ה-W (מי, מה, איפה, מתי ולמה) וה-H (איך).
- אם רלוונטי, חוזרים על השלבים האלה עבור הסוכן הבא.
3. מידות
אחרי שהבנתם מהו OFTEn ויצרתם שאלות שיופיעו בכרטיס הנתונים, אתם יכולים לעבור על כרטיס הנתונים כדי לקבל תובנות לגבי השאלות. לכן אנחנו מציגים מאפיינים, שהם תיאורים ברמה גבוהה של סוגי השיפוט השונים שהקוראים מבצעים, ומספקים תובנות לגבי השימושיות והקריאות של כרטיס הנתונים. במילים אחרות, האם כרטיס הנתונים עוזר לקוראים להגיע למסקנה מושכלת לגבי מערך הנתונים?
אחראי
כרטיס נתונים שאפשר לסמוך עליו הוא כרטיס שנמצא בבעלות של אנשים שמפגינים אחריות מספקת, שיקול דעת, חשיבה שיטתית וקבלת החלטות שיטתית לגבי מערך הנתונים והשימוש בו, והם גם אלה שמתחזקים אותו.
אזורים לדוגמה | שאלות לדוגמה |
זהות היוצר, אחריות, תחזוקה, כוונות | בתור [נקודת מבט], אני רוצה לדעת... |
תועלת או שימוש
כרטיס נתונים שימושי מספק פרטים שעונים על הצורך של הקוראים במידע, וכך מאפשר תהליך קבלת החלטות אחראי שקובע את ההתאמה של מערך הנתונים למשימות ולמטרות שלהם.
אזורים לדוגמה | שאלות לדוגמה |
צרכים של יוצרים,צרכים של סוכנים, צרכים של משתמשים, צרכים חברתיים | בתור [פרספקטיבה], אני רוצה לדעת... |
איכות
כרטיס נתונים איכותי מסכם את רמת הדיוק, השלמות והמהימנות של מערך הנתונים, ולרוב מנוסח בצורה נגישה ומובנת לקוראים מרקעים שונים.
אזורים לדוגמה | שאלות לדוגמה |
תוקף,מהימנות, תקינות, יכולת שחזור | בתור [נקודת מבט], אני רוצה לדעת... |
ההשפעה או ההשלכות של השימוש
כרטיס נתונים שמפרט באופן הולם את ההשפעה של השימוש במערך הנתונים, מציג את התוצאות הצפויות מהשימוש במערך הנתונים ומהניהול שלו, ומציין את ההשלכות האפשריות (מדרגה ראשונה או שנייה) שעלולות להשפיע באופן שלילי על המטרות של הקוראים.
אזורים לדוגמה | שאלות לדוגמה |
יעילות, רלוונטיות, תועלת לקבוצה,השלכות של סטיות | בתור [פרספקטיבה], אני רוצה לדעת... |
סיכונים והמלצות
כרטיס נתונים שמציע המלצות טובות מאפשר לקוראים להכיר סיכונים ומגבלות ידועים ופוטנציאליים שנובעים מהמקור, מהייצוג, מהשימוש או מההקשר של השימוש, ומספק מספיק מידע ואפשרויות חלופיות כדי לעזור לקוראים לקבל החלטות אחראיות.
אזורים לדוגמה | שאלות לדוגמה |
גודל הסיכון, אמצעים לצמצום הסיכון, המלצות, פגיעה בקבוצה | בתור [נקודת מבט], אני רוצה לדעת... |
סיכום
בעזרת מאפיינים, אפשר להעריך את מערך השאלות כדי לוודא שהן תואמות ליעדים ולתוצאות הרצויות. גם אם עדיין לא עניתם על שאלה בכרטיס הנתונים, כדאי לזהות טעויות לפני שמתקדמים יותר מדי בתהליך של יצירת תיעוד למערך הנתונים.
בטבלה הבאה מפורטים חמשת המאפיינים:
Stage | תיאור |
אחריותיות | הצהרות שמבטאות החלטות רפלקטיביות, סבירות ושיטתיות של בעלי עניין שונים לגבי האמון במערך הנתונים. |
תועלת | המאמר מספק פרטים שעונים על הצרכים של הקוראים בתהליך קבלת ההחלטות האחראי שלהם, ומציג תרחישי שימוש שמתאימים למטרות שלהם. |
איכות | סיכום של רמת הדיוק, השלמות והמהימנות של מערך הנתונים, באופן שנגיש לקוראים רבים. |
השפעה והשלכות | מידע שעוזר לקוראים להשיג את התוצאות הרצויות כשהם משתמשים במערך הנתונים ומנהלים אותו, וכולל התייחסות להשלכות שעלולות להשפיע לרעה על היעדים שלהם. |
סיכונים והמלצות | הסעיף הזה נועד להעלות את המודעות של הקוראים לסיכונים ידועים ופוטנציאליים שקשורים למערך הנתונים, שנובעים מהייצוג, מהשימוש או מהקשר השימוש. |
בעזרת סוגי המאפיינים השונים האלה, תוכלו לקבל תובנות לגבי איכות התוכן, קלות הקריאה והשימושיות של כרטיס הנתונים עוד לפני שתתחילו למלא אותו. הם עוזרים לכם לזהות פעולות שיובילו ליצירת תבנית כרטיס נתונים חזקה ומדויקת יותר.
4. הערכת השאלות באמצעות מימדים
- מתחילים עם מאפיין אחד, ואז קובעים כמה מיומנות ומומחיות נדרשות כדי להגיע למסקנה מושכלת על סמך מורכבות השאלות.
- צריך לספק הסבר ונימוקים לגבי רמת התמיכה הנוכחית במאפיין הזה על ידי קבוצת השאלות שלך.
- צריך לספק הוכחה שתומכת בהסבר שלכם באמצעות שאלה לדוגמה אחת או שתיים מתוך קבוצת השאלות.
- אם המאפיין לא נראה לכם מתאים, כדאי לציין את השלבים שצריך לבצע כדי לשפר אותו או לטפל בחוסרים. אם אתם עובדים עם צוות של בעלי עניין, כדאי להקצות אחריות לבעלי עניין מסוימים שיש להם את היכולת לתת מענה לשאלות מסוימות.
- חוזרים על השלבים האלה עבור המאפיין הבא.
זוהי תבנית לדוגמה שבה אפשר להשתמש כדי לתעד את ההערכה של המאפיינים:
תהליך ההערכה הזה יכול להימשך בין 15 דקות לשעה, בהתאם למספר השאלות שאתם יוצרים ולמגוון בעלי העניין שאתם צריכים להתייחס אליהם בכרטיס הנתונים.
5. מזל טוב
מעולה! יש לכם אפשרות לבדוק את השאלות שיצרתם בכרטיס הנתונים. עכשיו אפשר לענות על השאלות.