ניתוח נתונים טוב

מחבר: פטריק ריילי

תודה מיוחדת ל: דיאן טאנג, רהאן חאן, אליזבת טוקר, אמיר נג'מי, הילרי האצ'ינסון, ג'ואל דרנאואר, דייל ניל, ענר בן-ארטי, סנדרס קליינפלד, דייוויד ווסטברוק ובארי רוזנברג.

היסטוריה

סקירה כללית

הסקת אמת ותובנות מערימה של נתונים היא עבודה רבת-עוצמה, אך חשופה לשגיאות. מנתחי הנתונים הטובים ביותר ומהנדסי התוכנה שמתמקדים בנתונים מפתחים מוניטין של מתן הצהרות אמינות על סמך הנתונים. אבל מה הם עושים שמספק להם אמינות? לעיתים קרובות אני שומע תיאורים כמו זהירות ושיטתי, אבל מה בפועל עושים האנליסטים הזהירים והשיטתיים ביותר?

זו לא שאלה טריוויאלית, במיוחד בגלל סוג הנתונים שאנחנו אוספים ב-Google באופן קבוע. לא רק שאנחנו עובדים בדרך כלל עם מערכי נתונים גדולים מאוד, אלא גם קבוצות הנתונים האלה עשירות מאוד. כלומר, לכל שורת נתונים יש בדרך כלל מאפיינים רבים. כשמשלבים את הנתונים האלה עם רצפי האירועים הזמניים של משתמש נתון, יש מספר עצום של דרכים שבהן אפשר לבחון את הנתונים. ניתן להשוות זאת לניסוי אופייני של פסיכולוגיה אקדמית, שבו לחוקר חשוב לבחון כל נקודה על הגרף. הבעיות שנוצרות מקבוצות הנתונים הגדולות והממדיות גבוהות שונות מאוד מאלה שנתקלו בהן לאורך רוב ההיסטוריה של העבודה המדעית.

המסמך הזה מסכם את הרעיונות והטכניקות שבהם משתמשים אנליסטים זהירים ושיטתיים בקבוצות נתונים גדולות וממדיות. על אף שהמסמך מתמקד בנתונים מיומנים וניתוחים ניסיוניים, רבות מהשיטות האלה רלוונטיות באופן נרחב יותר.

שאר המסמך מורכב משלושה קטעים שעוסקים בהיבטים שונים של ניתוח נתונים:

  • טכני: רעיונות וטכניקות לשימוש בנתונים ולבדיקה שלהם.
  • עיבוד: המלצות לגבי הגישה לנתונים, שאלות שכדאי לשאול ודברים שכדאי לבדוק.
  • Mindset: איך לעבוד עם אחרים ולהעביר תובנות.

טכני

עכשיו נבחן כמה טכניקות לבדיקת הנתונים שלכם.

הצגת ההתפלגויות שלך

רוב בעלי המקצוע משתמשים במדדי סיכום (למשל, ממוצע, חציון, סטיית תקן וכן הלאה) כדי להסביר על התפלגויות. עם זאת, בדרך כלל כדאי לבחון ייצוגים של התפלגות עשירה יותר באמצעות יצירת היסטוגרמות, פונקציות התפלגות מצטברת (CDF), תרשים רבועים (Q-Q) וכו'. הייצוגים העשירים האלה מאפשרים לזהות תכונות חשובות של הנתונים, כמו התנהגות מרובת מצבים או קבוצה משמעותית של יוצאי דופן.

צריך לקחת בחשבון את הגורמים יוצאי הדופן

חשוב לבחון היטב יוצאים מן הכלל, כי הם עלולים להיות קנררים במכרה הפחם, שמצביעים על בעיות בסיסיות יותר בניתוח. אין בעיה להחריג מהנתונים יוצאי דופן או לאחד אותם לקטגוריה "יוצאת דופן", אבל אתם צריכים לוודא שאתם יודעים למה הנתונים הגיעו לקטגוריה הזו.

לדוגמה, בחינת השאילתות עם מספר הקליקים הנמוך ביותר עשויה להציג קליקים על רכיבים שאתם לא סופרים. עיון בשאילתות עם מספר הקליקים הגבוה ביותר עשוי לחשוף קליקים שלא אמורים להיות סופרים. מצד שני, יכול להיות שיהיו דברים יוצאי דופן שלעולם לא תוכלו להסביר, כך שתצטרכו לשקול היטב כמה זמן אתם מקדישים למשימה הזו.

התחשבות ברעש

קיימת אקראיות והיא מטעה אותנו. אנשים מסוימים חושבים: "ל-Google יש כל כך הרבה נתונים, הרעש נעלם". זה פשוט לא נכון. לכל מספר או סיכום של הנתונים שאתם מייצרים צריך להיות מידע נלווה לגבי המהימנות שלכם באומדן הזה (בעזרת מדדים כמו רווח בר-סמך ו-p-values).

הצגת דוגמאות

בכל פעם שאתם מפיקים קוד ניתוח חדש, אתם צריכים לבחון דוגמאות של נתוני הבסיס ואיך הקוד מפרש את הדוגמאות האלה. כמעט בלתי אפשרי ליצור קוד פעולה מורכב מכל סוג בלי לבצע את השלב הזה. הניתוח מפחית מפרטים רבים מהנתונים הבסיסיים כדי ליצור סיכומים מועילים. אם תבחנו את המורכבות המלאה של כל אחת מהדוגמאות, תוכלו להיות בטוחים שהסיכום שלכם הגיוני.

חשוב להקפיד על דגימת הדוגמאות האלה:

  • אם אתם מסווגים את הנתונים הבסיסיים, בדקו דוגמאות ששייכות לכל כיתה.
  • אם מדובר בכיתה גדולה יותר, יש לבחון דוגמאות נוספות.
  • אם אתם מחשבים מספר (למשל, זמן טעינת דף), הקפידו לבחון דוגמאות קיצוניות (המהירה והאיטית ביותר, ב-5%, אולי; אתם יודעים איך נראית ההתפלגות, נכון?) וכן נקודות לאורך זמן המדידות.

פילוח הנתונים

חיתוך הוא הפרדת הנתונים לקבוצות משנה ובדיקת ערכי מדדים לכל קבוצת משנה בנפרד. בדרך כלל אנחנו פורסים לפי מאפיינים כמו דפדפן, מקום, דומיין, סוג מכשיר וכו'. אם יש סיכוי גבוה שהתופעה מתבססת על הנתונים בקבוצות משנה, תצטרכו לפלח את הנתונים כדי לוודא שזה אכן המצב. גם אם לא ציפיתם שהחיתוך יניב תוצאות שונות, בדיקה של כמה מקטעים כדי לוודא את העקביות הפנימית מאפשרת לכם להיות בטוחים יותר שאתם מודדים את הדבר הנכון. בחלק מהמקרים, פלח מסוים עשוי לכלול נתונים בעייתיים, אינטראקציה לא תקינה עם המשתמש או בצורה אחרת במהותו.

בכל פעם שפורסים נתונים כדי להשוות בין שתי קבוצות (למשל: ניסוי לעומת קבוצת בקרה, או אפילו 'זמן א'' לעומת 'זמן ב'), חשוב לשים לב לתנודות בתמהיל. שינוי משולב הוא מצב שבו כמות הנתונים בפרוסות לכל קבוצה שונה. הפרדוקס של סימפסון ובלבולים אחרים עלולים לגרום. באופן כללי, אם כמות הנתונים היחסית בכל פלח נתונים זהה בשתי הקבוצות, תוכלו לבצע השוואה בטוחה.

חשוב להתייחס לחשיבות מעשית

כשיש כמות גדולה של נתונים, מפתה להתמקד אך ורק במובהקות סטטיסטית או להתעמק בפרטים של כל חלק מהנתונים. אבל אתם צריכים לשאול את עצמכם: "גם אם זה נכון, הערך X גדול ב-0.1% מהערך Y, האם זה משנה?" זה חשוב במיוחד אם אתם לא יכולים להבין/לסווג חלק מהנתונים. אם אתם לא מצליחים להבין כמה מחרוזות של סוכני משתמש ביומנים שלכם, חשוב לזכור אם הן מייצגות 0.1% או 10% מהנתונים.

לחלופין, לפעמים יש לכם נפח נתונים קטן. שינויים רבים לא ייראו מובהקות סטטיסטית, אבל זה שונה מטענה שהשינויים האלה הם "ניטרליים". עליכם לשאול את עצמכם: "מה הסבירות שעדיין יש שינוי משמעותי?"

בדיקת עקביות לאורך זמן

כמעט תמיד כדאי לנסות לחלק את הנתונים לפי יחידות זמן, מכיוון ששיבושים רבים בנתונים הבסיסיים מתרחשים ככל שהמערכות שלנו מתפתחות עם הזמן. (בדרך כלל אנחנו משתמשים בימים, אבל גם יחידות זמן אחרות עשויות להיות שימושיות). במהלך ההשקה הראשונית של תכונה או של איסוף נתונים חדש, בעלי המקצוע בודקים לעתים קרובות שהכול פועל כמו שצריך. עם זאת, לאורך זמן יכולים להתרחש תקלות רבות או התנהגות בלתי צפויה.

גם אם יום מסוים או קבוצת ימים מסוימת יוצאים מן הכלל, זה לא אומר שצריך להתעלם מהנתונים התואמים להם. ניתן להשתמש בנתונים כמו שצריך כדי לזהות סיבה סיבתית שונה מהיום או הימים האלה לפני שמוחקים אותם.

עיון בנתונים היומיים עוזר גם להבין את ההבדלים בנתונים שיובילו בסופו של דבר לרווח בר-סמך או לטענות בעלות מובהקות סטטיסטית. בדרך כלל, החישוב הזה לא אמור להחליף חישוב קפדני של מרווח הוודאות, אבל לעיתים קרובות עם שינויים גדולים אפשר לראות שהם יהיו בעלי מובהקות סטטיסטית רק לפי התרשימים של יום מסוים.

אישור הסינון וספירה שלו

כמעט כל ניתוח נתונים גדול מתחיל בסינון נתונים בשלבים שונים. אולי אתם רוצים להשתמש רק במשתמשים בארה"ב, בחיפושים באינטרנט או בחיפושים עם מודעות. לגבי כל מקרה, עליך:

  • לאשר ולציין בבירור איזה סינון אתם מבצעים.
  • ספירת כמות הנתונים המסוננים בכל שלב.

לעיתים קרובות, הדרך הטובה ביותר לעשות זאת היא לחשב את כל המדדים, גם עבור האוכלוסייה שאתם מחריגים. לאחר מכן תוכלו לבחון את הנתונים האלה כדי לענות על שאלות כמו "איזה חלק מהשאילתות הוסר מהסינון של הספאם?" (לא תמיד ניתן יהיה לבצע ניתוח מסוג כזה, בהתאם לסיבת הסינון).

ליחסים צריכים להיות מונה ומכנה ברורים

המדדים המעניינים ביותר הם היחסים בין המדדים הבסיסיים. לעיתים קרובות, סינון או אפשרויות אחרות של נתונים נסתרות בהגדרות המדויקות של המונה והמכנה. לדוגמה, מה המשמעות של "שאילתות / משתמש" בפועל?

  • שאילתות / משתמשים עם שאילתה
  • שאילתות / משתמשים שביקרו היום ב-Google
  • שאילתות / משתמשים עם חשבון פעיל (כן, עליי להגדיר כפעיל)

הקפדה על תוכן ברור כאן יכולה למנוע בלבול לכם ולאחרים.

עוד מקרה מיוחד הוא מדדים שניתן לחשב רק על חלק מהנתונים. לדוגמה, המשמעות של "Time to click" היא בדרך כלל "הזמן ללחוץ בהתחשב בכך שהיה קליק". בכל פעם שבודקים מדד כזה, צריך להכיר בסינון הזה ולחפש שינוי בסינון בין הקבוצות שמשווים.

התהליך

בקטע הזה נסביר איך לגשת לנתונים, אילו שאלות כדאי לשאול לגבי הנתונים ומה כדאי לבדוק.

אימות, תיאור והערכה נפרדים

לדעתי יש שלושה שלבים שקשורים לניתוח נתונים:

  1. אימות1: האם לדעתי הנתונים עקביים, האם הנתונים נאספו כראוי ושהם מייצגים את מה שהם חושבים?
  2. תיאור: מהי הפרשנות המטרה של הנתונים האלה? לדוגמה, "משתמשים מבצעים פחות שאילתות המסווגות כ-X", "בקבוצת הניסוי, הזמן בין X ל-Y גדול ב-1%" ו"פחות משתמשים עוברים לדף הבא של התוצאות".
  3. הערכה: על סמך התיאור, האם הנתונים מראים לנו שמשהו טוב קורה למשתמשים, ל-Google או לעולם?

אם מפרידים בין השלבים האלה, קל יותר להגיע להסכמה עם אחרים. התיאור צריך לכלול פרטים שכולם יכולים להסכים עליהם בנוגע לנתונים. הערכה צפויה לעורר הרבה יותר דיון. אם לא מפרידים בין המאפיינים 'תיאור' ו'הערכה', יש סיכוי הרבה יותר גבוה שתראו רק פרשנות של הנתונים שמקווה לראות. כמו כן, בדרך כלל קשה יותר לבצע הערכה כי קביעת הערך הנורמלי של מדד, בדרך כלל באמצעות השוואות קפדניות לפיצ'רים ומדדים אחרים, דורשת השקעה משמעותית.

השלבים האלה לא מתקדמים באופן לינארי. במהלך עיון בנתונים, תוכלו לעבור בין השלבים, אבל בכל זמן שתרצו להיות ברור באיזה שלב אתם נמצאים.

אישור ההגדרה של ניסוי ואיסוף נתונים

לפני שמעיינים בנתונים, חשוב לוודא שמבינים את ההקשר שבו הנתונים נאספו. אם הנתונים מגיעים מניסוי, כדאי לבדוק את הגדרות הניסוי. אם המקור נוצר באמצעות אינסטרומנטציית לקוח חדשה, חשוב לוודא שאתם מבינים לפחות את אופן האיסוף של הנתונים. ייתכן שזיהית הגדרות חריגות/פגומות או הגבלות אוכלוסיה (כמו נתונים תקפים רק ל-Chrome). כל מידע חשוב כאן יכול לעזור לכם לבנות ולאמת תיאוריות מאוחר יותר. דברים שצריך לקחת בחשבון:

  • אם הניסוי פועל, תוכלו לנסות אותו בעצמכם. אם לא הצלחתם, לפחות מומלץ לבדוק בצילומי המסך או בתיאורים של ההתנהגות.
  • בדקו אם היה משהו חריג בטווח הזמן שבו הניסוי פעל (חגים, השקות גדולות וכו').
  • לקבוע אילו אוכלוסיות של משתמשים השתתפו בניסוי.

מה לא אמור להשתנות?

כחלק משלב ה "אימות", לפני שתענו בפועל על השאלה שבה אתם מעוניינים (לדוגמה, "האם הוספת תמונה של פנים מגדילה או מקטינה את מספר הקליקים?") כדאי לשלול כל שינוי אחר בנתונים שעשוי להשפיע על הניסוי. לדוגמה:

  • האם מספר המשתמשים השתנה?
  • האם המספר הנכון של השאילתות שהושפעו הופיע בכל קבוצות המשנה?
  • האם שיעורי השגיאות השתנו?

השאלות האלה הגיוניות, גם לצורך השוואות בין ניסויים ובדיקות, וגם בעת בחינת מגמות לאורך זמן.

רגיל תחילה, שנייה מותאמת אישית

כשמעיינים בתכונות חדשות ובנתונים חדשים, מפתה במיוחד לעבור ישירות למדדים החדשים או המיוחדים של התכונה החדשה הזו. עם זאת, תמיד צריך לבחון קודם כל את המדדים הרגילים, גם אם הם צפויים להשתנות. לדוגמה, בעת הוספת בלוק אוניברסלי חדש לדף, חשוב לוודא שאתם מבינים את ההשפעה על מדדים סטנדרטיים כמו "קליקים על תוצאות אינטרנט", לפני שאתם מתעמקים במדדים המותאמים אישית לגבי התוצאה החדשה הזו.

מדדים רגילים מאומתים בצורה טובה יותר וקיימת סבירות גבוהה יותר שהם נכונים ממדדים מותאמים אישית. אם המדדים המותאמים אישית לא מתאימים למדדים הרגילים, סביר להניח שהמדדים המותאמים אישית שגויים.

מדידה פעמיים או יותר

במיוחד אם אתם מנסים לזהות תופעה חדשה, נסו למדוד את אותה תופעה במספר דרכים. לאחר מכן צריך לקבוע אם המדידות המרובות האלה עקביות. אם תשתמשו בכמה מדידות, תוכלו לזהות באגים במדידה או בקוד הרישום ביומן, תכונות לא צפויות של הנתונים הבסיסיים או שלבי הסינון החשובים. שיטה טובה עוד יותר היא להשתמש במקורות נתונים שונים לביצוע מדידות.

בדיקת יכולת שחזור

חיתוך ועקביות לאורך זמן הם דוגמאות ספציפיות לבדיקת האפשרות לשחזור. אם תופעה מסוימת חשובה ומשמעותית, כדאי לראות אותה באוכלוסיות שונות של משתמשים ובזמנים שונים. אבל כדי לוודא שהיכולת לשחזר קיימת, חשוב יותר מביצוע שתי הבדיקות האלה. אם אתם בונים מודלים של הנתונים, כדאי שהמודלים האלה יהיו יציבים בתגובה להפרעות קטנות בנתונים הבסיסיים. על סמך טווחי זמן שונים או דגימות משנה אקראיות של הנתונים, תוכלו לדעת עד כמה המודל הזה אמין או ניתן לשחזור.

אם לא ניתן לשחזר מודל מסוים, סביר להניח שאתם לא מתעדים משהו מהותי לגבי התהליך הבסיסי שבו נוצרו הנתונים.

בדיקת עקביות למדידות קודמות

לעיתים קרובות תחשבו מדד שדומה למדדים שנספרו בעבר. עליכם להשוות את המדדים למדדים שדווחו בעבר, גם אם המדידות האלה מתייחסות לאוכלוסיות שונות של משתמשים.

לדוגמה, אם אתם בוחנים תנועת שאילתות באוכלוסייה מיוחדת ואתם מודדים שזמן הטעינה הממוצע של דף הוא 5 שניות, אבל ניתוחי העבר לגבי כל המשתמשים גרמו לזמן טעינה ממוצע של 2 שניות, עליכם לחקור את העניין. ייתכן שהמספר שלכם מתאים לאוכלוסייה הזו, אבל עכשיו צריך לבצע יותר עבודה כדי לאמת זאת.

אתם לא צריכים לקבל הסכמה מדויקת, אבל אתם אמורים להיות באותו מקום. אם התשובה לא נכונה, כנראה שאתם טועים עד שיוכלו לשכנע אתכם. רוב הנתונים המפתיעים יתגלו כשגיאה, ולא כתובנה חדשה נפלאה.

קודם צריך להחיל מדדים חדשים על נתונים או על תכונות ישנים

אם תיצרו מדדים חדשים (אולי על ידי איסוף של מקור נתונים חדשני) ותנסו ללמוד משהו חדש, לא תוכלו לדעת אם המדד החדש נכון. כשמשתמשים במדדים חדשים, צריך להחיל אותם קודם על תכונה או נתונים ידועים. לדוגמה, אם יש לכם מדד חדש לשביעות רצון המשתמשים, עליכם לוודא שהוא מציין אם התכונות הטובות ביותר עוזרות לכם להגביר את שביעות הרצון. אם יש לכם מדד חדש למקום שבו המשתמשים מפנים את תשומת הלב שלהם לדף, ודאו שהוא תואם למה שאנחנו יודעים ממחקר של מעקב אחר תנועות העיניים או של המדרגים לגבי האופן שבו תמונות משפיעות על תשומת הלב בדף. כך תוכלו לקבל אימות אם אתם לומדים משהו חדש.

מעלים השערות ומחפשים ראיות

בדרך כלל, ניתוח הנתונים לבעיה מורכבת הוא איטרטיבי.2 תגלו חריגות, מגמות או תכונות אחרות של הנתונים. באופן טבעי, מפתחים תיאוריות שיסבירו את הנתונים האלה. לא כדאי סתם לפתח תיאוריה ולהצהיר שהיא נכונה. חפשו ראיות (בתוך הנתונים או מחוצה להם) כדי לאשר או לדחות את התיאוריה הזו. לדוגמה:

  • אם רואים משהו שנראה כמו מגמת למידה, בדקו אם הוא בא לידי ביטוי בעיקר בקרב משתמשים בעלי תדירות גבוהה.
  • אם אתם סבורים שהחריגה נובעת מהשקה של תכונות מסוימות, ודאו שהאוכלוסייה שאליה התכונה הושקה היא היחידה שמושפעת מהחריגה. לחלופין, חשוב לוודא שההיקף של השינוי תואם לציפיות של ההשקה.
  • אם שיעורי הצמיחה במספר המשתמשים משתנים בלוקאל מסוים, נסו למצוא מקור חיצוני שמאמת את שיעור השינוי של אוכלוסיית המשתמשים.

לניתוח טוב של נתונים יהיה סיפור לספר. כדי לוודא שזה הסיפור הנכון, עליכם לספר לעצמכם את הסיפור ולחפש ראיות לכך. אחת הדרכים לעשות זאת היא לשאול את עצמכם, "אילו ניסויים כדאי להפעיל כדי לאמת או לבטל את תוקף הסיפור שאני מספר?"

החדשות הטובות הן שהתיאוריות והניסויים האפשריים האלה יכולים להוביל לקווי מחקר חדשים שמעבר לניסיון ללמוד על תכונות או נתונים מסוימים. אחר כך אפשר להבין לא רק את הנתונים האלה, אלא גם הפקת מדדים ושיטות חדשים שמתאימים לכל סוגי הניתוחים העתידיים.

היתרונות של ניתוח מחקרי מחזרה מקצה לקצה

כשמבצעים ניתוח מחקרי, בצעו כמה שיותר חזרות של ניתוח כל הנתונים. בדרך כלל יש צורך לבצע מספר שלבים של איסוף אותות, עיבוד, בניית מודלים וכו'. אם אתם משקיעים יותר מדי זמן בהשגת השלב הראשון של האותות הראשוניים, בצורה מושלמת, אתם מחמיצים הזדמנויות לבצע איטרציות נוספות בתוך אותו פרק זמן. יותר מכך, כשתסתכלו על הנתונים בסוף, תוכלו לגלות תגליות שישנו את הכיוון שלכם. לכן ההתמקדות הראשונית לא צריכה להיות מושלמת, אלא להשיג משהו הגיוני לאורך כל הדרך. הוסיפו הערות לעצמכם וציינו דברים כמו שלבי סינון ובקשות יוצאות דופן או שאי אפשר לנתח, אבל אל תבזבזו זמן בניסיון להיפטר מכולן כבר בתחילת הניתוח.

חשוב לשים לב למשוב

בדרך כלל אנחנו מגדירים מדדים שונים להצלחת המשתמשים. לדוגמה, האם המשתמשים לחצו על תוצאה? אם לאחר מכן מזינים את הנתונים במערכת (פעולה שאנחנו מבצעים בפועל במספר מקומות), נוצרות הזדמנויות רבות לבלבול ההערכה.

לא ניתן להשתמש במדד שהוזן במערכת כבסיס להערכת השינוי. אם אתם מציגים יותר מודעות שמניבות יותר קליקים, לא תוכלו להשתמש ב"יותר קליקים" כבסיס להחלטה לגבי המשתמשים מרוצים, למרות ש"יותר קליקים" בדרך כלל פירושו "מרוצים יותר". כמו כן, לא מומלץ אפילו לפלח את המשתנים שהזנתם חזרה וטיפלתם בהם, כך שהתוצאה תהיה שילובים שיהיה קשה או בלתי אפשרי להבין.

המחשבות

בקטע הזה מוסבר איך לעבוד עם אחרים ולהציג תובנות.

ניתוח הנתונים מתחיל בשאלות, לא בנתונים או בטכניקה

תמיד יש מוטיבציה לנתח נתונים. ניסוח הצרכים שלכם באמצעות שאלות או השערות עוזר להבטיח שאתם אוספים את הנתונים שאמורים לאסוף, ושחושבים על הפערים האפשריים בנתונים. כמובן, השאלות שאתם שואלים עשויות להשתנות בזמן שאתם בוחנים את הנתונים. עם זאת, ניתוח ללא שאלה יסתיים ללא מטרה.

מומלץ להימנע ממציאת טכניקה שאוהבים, ולמצוא רק את החלקים של הבעיות שהטכניקה הזו עובדת עליהם. שוב, כדאי ליצור שאלות ברורות כדי להימנע מהמלכוד הזה.

היה גם ספקן וגם אלוף

בזמן העבודה עם נתונים, אתם צריכים להיות הדוגלים בתובנות שאתם מקבלים וגם ספקנים בהן. אני מקווה שתראו כמה תופעות מעניינות בנתונים שאתם בוחנים. כשאתם מזהים תופעה מעניינת, כדאי לשאול את עצמכם את השאלות הבאות:

  • אילו נתונים נוספים אפשר לאסוף כדי להראות עד כמה זה מדהים?
  • מה אפשר למצוא לגבי ביטול התוקף?"

במיוחד במקרים שבהם אתם עורכים ניתוח נתונים למישהו שבאמת רוצה לקבל תשובה מסוימת (לדוגמה, "התכונה שלי מדהימה!"), עליכם להיות ספקנים כדי להימנע משגיאות.

קורלציה != סיבתיות

בעת העלאת תיאוריות לגבי נתונים, לעתים קרובות אנחנו רוצים לטעון ש"X גורם ל-Y" - לדוגמה, "הדף נהיה איטי יותר גרם למשתמשים ללחוץ פחות". גם xkcd יודעים שאי אפשר פשוט לקבוע סיבתיות בגלל מתאם. כשאתם שוקלים איך לאמת את תיאוריית הסיבתיות, בדרך כלל אפשר לפתח מושג טוב לגבי האמינות של תיאוריה סיבתית.

לפעמים אנשים מנסים לחזק את המתאם הזה בצורה משמעותית, על ידי טענה שגם אם אין קשר סיבתי בין א' ל-ב', חייב להיות משהו בבסיס של צירוף המקרים, כדי שאות אחד יוכל לשמש כאינדיקטור טוב או כאות ביטוי לאחר. התחום הזה מסוכן למספר בעיות של בדיקת השערות. כפי ש-xkcd יודע גם, אם תספקו מספיק ניסויים ומספיק מימדים, חלק מהאותות יתאימו לניסוי ספציפי. זה לא אומר שאותם אותות יסתנכרנו בעתיד, לכן יש לכם אותה מחויבות לשקול תיאוריית סיבתיות, למשל "יש אפקט נסתר שגורם גם ל-A וגם ל-B", כדי לנסות ולבדוק עד כמה זה סביר.

לעיתים קרובות, מנתחי נתונים צריכים לנווט בשאלות הסיבתיות האלה כדי לשקלל את האנשים שרוצים לצרוך את הנתונים. צריך להיות ברור לצרכנים האלה מה אפשר לומר ומה אסור לומר לגבי סיבתיות.

שיתוף עם עמיתים תחילה, ואחרי זה צרכנים חיצוניים

בנקודות הקודמות הציעו כמה דרכים שיאפשרו לכם לבצע את הסוגים הנכונים של בדיקת תקינות ותיקוף. אבל שיתוף עם עמיתים הוא אחת הדרכים הטובות ביותר להכריח את עצמכם לעשות את כל הפעולות האלה. עמיתים מוסמכים יכולים לתת משוב שונה מבחינה איכותית לעומת צרכני הנתונים, במיוחד כי בדרך כלל לצרכנים יש סדר יום. אפליקציות להשוואה יכולות להועיל במספר נקודות במהלך הניתוח. בשלב מוקדם תוכלו לקבל מידע על דברים שהעמיתים שלכם יודעים, הצעות לדברים למדידה ומחקרים קודמים בנושא הזה. לקראת הסוף, עמיתים טובים מאוד בציון פרטים מוזרים, חוסר עקביות או בלבול אחר.

במצב אידיאלי תקבלו משוב מעמית שיודע משהו על הנתונים שבהם אתם מעיינים, אבל חשוב מאוד גם לעמית שיש לו ניסיון כללי בניתוח נתונים.

לצפות ולקבל טעויות ועל בורות

יש מגבלות רבות על מה שאפשר ללמוד מהנתונים. נייט סילבר (Nate Silver) מציג דוגמה טובה ל-The Signal and the Noise: רק על ידי מודעות במגבלות הוודאות שלנו, נוכל להתקדם בחיזוי טוב יותר. ההכרה בבורות היא חוזק שלא בדרך כלל מתוגמל מיידית. זו הרגשה רעה כרגע, אבל זה יתרון מעולה לכם ולצוות שלכם בטווח הארוך. זה מרגיש אפילו יותר גרוע אם טועים ומגלים אותה מאוחר יותר (או אפילו מאוחר מדי!), אבל באופן יזום, הבעלים של הטעויות שלכם מזכה אתכם בכבוד. המשמעות היא אמינות והשפעה.

סגירת המחשבות

רוב העבודה לניתוח נתונים טוב לא ברורה מיד לצרכנים. אם בדקתם בקפידה את גודל האוכלוסיה ווידאתם שההשפעה הייתה עקבית בכל הדפדפנים, סביר להניח שהיא לא תגיע למודעות של האנשים שמנסים לקבל החלטות על סמך הנתונים האלה. כך גם מוסבר למה ניתוח נתונים טוב נמשך יותר זמן ממה שנראה לרוב האנשים (במיוחד כשהם רואים רק את הפלט הסופי). חלק מהתפקיד שלנו כאנליסטים הוא ללמד צרכנים בהדרגה תובנות מבוססות-נתונים לגבי השלבים האלה ולמה הם חשובים.

בנוסף, צריך לבצע את כל השינויים והניתוחים האלה כדי להגדיר שפה וסביבה טובה לניתוח נתונים. יש לנו כלים רבים שעוזרים לנו לבחון נתונים. שפות וכלים שונים מתאימים יותר לשיטות השונות שעליהן דיברנו למעלה. חשוב לבחור את הכלי המתאים למנתח נתונים. חשוב לזכור שהיכולות של הכלי שהכי נוח לכם לא יהיו מוגבלות, כי התפקיד שלכם הוא לספק תובנות אמיתיות, ולא להשתמש בכלי מסוים.

 


  1. הקטע הזה נקרא לפעמים "ניתוח נתונים ראשוני". אפשר לקרוא את המאמר ב-וויקיפדיה על ניתוח נתונים 

  2. מבחינה טכנית, הבדיקה צריכה להיות חזרתית רק אם מדובר בניתוחים מחקריים, ולא בניתוח מאמת.