تحليل جيد للبيانات

تأليف: باتريك رايلي

شكر خاص لكل من "ديان تانغ" و"ريهان خان" و"إليزابيث تاكر" و"أمير نجمي" و"هيلاري هاتشينسون" و"جويل دارناور" و"ديل نيل" و"أنير بن أرتزي" و"ساندرز كلاينفيلد" و"ديفيد ويستبروك" و"باري روزنبرغ".

السجلّ

نظرة عامة

يعد الحصول على الحقيقة والرؤى من كومة من البيانات مهمة قوية لكنها عرضة للخطأ. يتمتع أفضل محللي البيانات والمهندسين المهتمين بالبيانات بسمعة طيبة في تقديم تصريحات موثوقة من البيانات. لكن ما الذي يفعلونه مما يمنحهم المصداقية؟ غالبًا ما أسمع صفات مثل انتباه ومنهجية، ولكن ماذا يفعل المحللون الأكثر حرصًا ومنهجيًا في الواقع؟

هذا ليس سؤالاً تافهًا، لا سيما بالنظر إلى نوع البيانات التي نجمعها بانتظام في Google. لا نعمل عادةً مع مجموعات بيانات كبيرة جدًا، ولكن مجموعات البيانات هذه غنية للغاية. أي أن كل صف من البيانات يحتوي عادةً على العديد والعديد من السمات. عندما تدمج هذا مع التسلسلات الزمنية للأحداث لمستخدم معين، فهناك عدد هائل من الطرق للنظر إلى البيانات. قارن هذا مع تجربة نفس أكاديمية نموذجية حيث يكون من التافه للباحث النظر في كل نقطة بيانات على حدة. تختلف المشكلات التي تتسبب فيها مجموعات البيانات الكبيرة ذات الأبعاد الكبيرة عن تلك التي تمت مواجهتها خلال معظم تاريخ العمل العلمي.

تلخص هذه الوثيقة الأفكار والتقنيات التي يستخدمها المحللون المنهجيون الدقيقون في مجموعات البيانات الكبيرة وعالية الأبعاد. على الرغم من أن هذا المستند يركز على البيانات من السجلات والتحليل التجريبي، إلا أن العديد من هذه الأساليب قابلة للتطبيق على نطاق أوسع.

يتكون باقي المستند من ثلاثة أقسام تغطي جوانب مختلفة من تحليل البيانات:

  • الفنية: أفكار وأساليب لمعالجة البيانات وفحصها.
  • العملية: توصيات حول كيفية التعامل مع بياناتك، والأسئلة التي يجب طرحها، والأشياء التي يجب التحقق منها.
  • عقلية: طريقة العمل مع الآخرين وإيصال إحصاءاتهم

تقني

لنلقِ نظرة على بعض الأساليب لفحص بياناتك.

الاطّلاع على توزيعاتك

يستخدم معظم الممارسين مقاييس تلخيصية (على سبيل المثال، المتوسط، والمتوسط، والانحراف المعياري، وما إلى ذلك) للتواصل بشأن عمليات التوزيع. ومع ذلك، يجب عليك عادةً فحص تمثيلات توزيع أكثر ثراءً عن طريق إنشاء مدرجات تكرارية ودوال التوزيع التراكمي (CDFs) ومخططات Quantile-Quantile (Q-Q) وما إلى ذلك. تسمح لك هذه التمثيلات الأغنى باكتشاف الميزات المهمة للبيانات، مثل السلوك متعدد الوسائط أو فئة كبيرة من القيم المتطرفة.

مراعاة القيم الاستثنائية

افحص القيم الاستثنائية بعناية لأنها يمكن أن تكون كناري في منجم الفحم والتي تشير إلى مشكلات أكثر أهمية في تحليلك. لا بأس في استبعاد القيم الاستثنائية من بياناتك أو تجميعها معًا في فئة "غير معتادة"، ولكن يجب عليك التأكد من معرفة سبب وصول البيانات في تلك الفئة.

على سبيل المثال، قد يؤدي النظر إلى طلبات البحث التي سجّلت أقل عدد من النقرات إلى اكتشاف نقرات على عناصر يتعذّر عليك احتسابها. قد يؤدي الاطلاع على طلبات البحث التي تحظى بأكبر عدد من النقرات إلى معرفة عدد النقرات التي لا يجب حسابها. من ناحية أخرى، قد تكون هناك بعض القيم الاستثنائية التي لن يمكنك أبدًا شرحها، لذلك عليك توخي الحذر في مقدار الوقت الذي تكرسه لهذه المهمة.

مراعاة الضوضاء

العشوائية موجودة وستخدعنا. يعتقد بعض الأشخاص أن "Google لديها الكثير من البيانات ؛لذلك يتم التخلص من التشويش". وهذا ببساطة ليس صحيحًا. يجب أن يكون لكل رقم أو ملخص للبيانات التي تنتجها فكرة مصاحبة لثقتك في هذا التقدير (من خلال مقاييس مثل فواصل الثقة وp-values).

الاطّلاع على أمثلة

في أي وقت تقوم فيه بإنتاج رمز تحليل جديد، يجب أن تنظر إلى أمثلة من البيانات الأساسية وكيف تفسر التعليمة البرمجية هذه الأمثلة. يكاد يكون من المستحيل إنتاج رمز عمل بأي تعقيد دون تنفيذ هذه الخطوة. يسحب تحليلك العديد من التفاصيل من البيانات الأساسية لإنتاج ملخصات مفيدة. من خلال النظر إلى التعقيد الكامل للأمثلة الفردية، يمكنك اكتساب الثقة في أن التلخيص الخاص بك معقول.

إن كيفية أخذ عينات من هذه الأمثلة مهمة:

  • إذا كنت تصنف البيانات الأساسية، فابحث في الأمثلة التي تنتمي إلى كل فئة.
  • إذا كانت الدراسة أكبر، فابحث عن المزيد من العينات.
  • إذا كنت تقوم بحساب عدد (على سبيل المثال، وقت تحميل الصفحة)، فتأكد من إلقاء نظرة على الأمثلة القصوى (قد تكون الأسرع والأبطأ 5%؛ فأنت تعرف كيف يبدو التوزيع، أليس كذلك؟) بالإضافة إلى النقاط في مساحة القياسات.

تقسيم البيانات

يعني التقسيم فصل بياناتك إلى مجموعات فرعية والنظر في قيم المقاييس لكل مجموعة فرعية على حدة. وعادةً ما يتم التقسيم إلى شرائح بالأبعاد مثل المتصفح واللغة والنطاق ونوع الجهاز وما إلى ذلك. إذا كان من المحتمل أن تعمل الظاهرة الأساسية بشكل مختلف عبر المجموعات الفرعية، فيجب عليك تقسيم البيانات لتأكيد ما إذا كان ذلك هو الحال بالفعل. حتى إذا كنت لا تتوقع أن يؤدي التقسيم إلى نتائج مختلفة، فإن النظر إلى بعض الشرائح للحفاظ على الاتساق الداخلي يمنحك ثقة أكبر بأنك تقيس الشيء الصحيح. في بعض الحالات، قد تحتوي شريحة معينة على بيانات سيئة، أو تفاعل مستخدم معطل، أو تكون مختلفة تمامًا بطريقة ما.

في أي وقت تقسّم فيه البيانات لمقارنة مجموعتين (مثل التجربة مقابل مجموعة التحكم، أو حتى "الوقت أ" مقابل "الوقت ب")، يجب أن تكون على دراية بمتغيّرات المزيج. يحدث تغير المزيج عندما يختلف مقدار البيانات في الشرائح لكل مجموعة. متناقضة سيمبسون وغير ذلك من الالتباسات يمكن أن تنشأ. بشكل عام، إذا كان القدر النسبي للبيانات في شريحة هو ذاته عبر المجموعتين، يمكنك إجراء مقارنة بأمان.

ضع في اعتبارك الأهمية العملية

مع وجود حجم كبير من البيانات، قد يكون من المغري التركيز فقط على الدلالة الإحصائية أو التركيز على تفاصيل كل جزء من البيانات. لكنك تحتاج إلى أن تسأل نفسك، "حتى لو كان ذلك صحيحًا أن القيمة س أكثر من 0.1٪ من القيمة ص، هل هذا مهم؟" قد يكون هذا مهمًا بشكل خاص إذا كنت غير قادر على فهم/تصنيف جزء من بياناتك. إذا لم تتمكّن من فهم بعض سلاسل وكيل المستخدم في سجلّاتك، سواء كانت تمثل 0.1% أو 10% من البيانات، يكون هناك فارق كبير في مقدار التحقيق في هذه الحالات.

بدلاً من ذلك، لديك أحيانًا كمية صغيرة من البيانات. لن تبدو العديد من التغييرات ذات دلالة إحصائية، ولكن هذا الاختلاف يختلف عن الادعاء بأنّ هذه التغييرات "محايدة". عليك أن تطرح على نفسك السؤال التالي: "ما مدى احتمالية استمرار وجود تغيير مهم عمليًا؟"

التحقّق من الاتساق بمرور الوقت

ينبغي أن تحاول دائمًا تقسيم البيانات حسب الوحدات الزمنية لأن العديد من الاضطرابات في البيانات الأساسية تحدث مع تطور أنظمتنا بمرور الوقت. (غالبًا ما نستخدم الأيام، ولكن قد تكون الوحدات الزمنية الأخرى مفيدة أيضًا). أثناء الإطلاق الأولي لميزة أو جمع بيانات جديد، غالبًا ما يتحقق الممارسون بعناية من أن كل شيء يعمل كما هو متوقع. ومع ذلك، يمكن أن تنشأ العديد من الأعطال أو السلوكيات غير المتوقعة بمرور الوقت.

لا يعني مجرد أن يومًا معينًا أو مجموعة من الأيام هي قيمة استثنائية أنه يجب عليك تجاهل البيانات المقابلة. استخدم البيانات كعنصر جذب لتحديد سبب سببي لاختلاف هذا اليوم أو الأيام قبل تجاهلها.

يمنحك الاطلاع على البيانات اليومية أيضًا فكرة عن التباين في البيانات التي ستؤدي في النهاية إلى فواصل ثقة أو ادعاءات ذات أهمية إحصائية. ولا ينبغي أن يحل ذلك عمومًا محل الحساب الصارم للفاصل الزمني للثقة، ولكن غالبًا ما يؤدي إلى تغييرات كبيرة يمكنك أن تلاحظ أنها ستكون ذات دلالة إحصائية فقط من الرسوم البيانية اليومية.

الإقرار بالفلترة واحتسابها

يبدأ كل تحليل بيانات كبير تقريبًا بتصفية البيانات في مراحل مختلفة. ربما تريد أن تضع في اعتبارك مستخدمي الولايات المتحدة فقط، أو عمليات بحث الويب، أو عمليات البحث التي تتضمن إعلانات. وأيًا كانت الحالة، عليك تنفيذ ما يلي:

  • الاعتراف بالتصفية التي تجريها وتحديدها بوضوح.
  • حساب مقدار البيانات التي تتم تصفيتها في كل خطوة.

غالبًا ما تكون أفضل طريقة لاحتساب الخيار الثاني هي حساب جميع المقاييس، حتى مع المجموعة بالكامل التي تستبعدها. يمكنك بعد ذلك إلقاء نظرة على تلك البيانات للإجابة عن أسئلة مثل، "ما نسبة طلبات البحث التي أزالتها تصفية الرسائل غير المرغوب فيها؟" (بناءً على سبب التصفية، قد لا يكون هذا النوع من التحليل ممكنًا في بعض الأحيان).

يجب أن تحتوي النسب على بسط ومقام واضحين.

المقاييس الأكثر إثارة للاهتمام هي نسب المقاييس الأساسية. في كثير من الأحيان، يتم إخفاء التصفية المثيرة للاهتمام أو خيارات البيانات الأخرى في التعريفات الدقيقة للبسط والمقام. على سبيل المثال، أي مما يلي يعنيه بالفعل "طلبات البحث / المستخدم"؟

  • طلبات البحث / المستخدمون الذين تم إدخال طلب بحث لهم
  • طلبات البحث / المستخدمون الذين زاروا Google اليوم
  • طلبات البحث / المستخدمون الذين لديهم حساب نشط (نعم، يجب تحديد active)

الوضوح حقًا هنا يمكن أن يتجنب الالتباس بالنسبة لك وللآخرين.

وهناك حالة خاصة أخرى وهي المقاييس التي يمكن حسابها فقط على بعض بياناتك. على سبيل المثال، عادةً ما يعني "الوقت المستغرق حتى النقر" "الوقت المستغرق حتى النقر نظرًا لوجود نقرة". في أي وقت تنظر فيه إلى مقياس كهذا، عليك أن تدرك أن التصفية والبحث عن تغيير في التصفية بين المجموعات التي تقارنها.

العملية

يحتوي هذا القسم على توصيات حول كيفية التعامل مع بياناتك، والأسئلة التي يجب طرحها حول بياناتك، وما يجب التحقق منه.

فصل من التحقق من الصحة والوصف والتقييم

أعتقد أن تحليل البيانات ينطوي على ثلاث مراحل مترابطة:

  1. التحقق1: هل أعتقد أن البيانات متسقة ذاتيًا وأنها قد تم جمعها بشكل صحيح وتمثِّل ما أعتقد أنها تفعله؟
  2. الوصف: ما التفسير الموضوعي لهذه البيانات؟ على سبيل المثال، "يجري المستخدمون طلبات بحث مصنّفة بالتصنيف "س"، و"في مجموعة التجربة، يكون الوقت بين "س" و"ص" أكبر بنسبة 1%، و"ينتقل عدد أقل من المستخدمين إلى الصفحة التالية من النتائج".
  3. التقييم: بالنظر إلى الوصف، هل تخبرنا البيانات بأنّ شيئًا جيدًا يحدث للمستخدم أو لشركة Google أو للعالم؟

من خلال فصل هذه المراحل، يمكنك التوصل إلى اتفاق مع الآخرين بسهولة أكبر. يجب أن يكون الوصف أشياء يمكن للجميع الاتفاق عليها فيما يتعلق بالبيانات. من المرجح أن يؤدي التقييم إلى مزيد من الجدل. إذا لم تقم بفصل الوصف والتقييم، فمن المرجح أن ترى تفسير البيانات التي تأمل في رؤيتها فقط. علاوة على ذلك، يميل التقييم إلى أن يكون أكثر صعوبة لأن تحديد القيمة المعيارية للمقياس، عادةً من خلال مقارنات صارمة مع الميزات والمقاييس الأخرى، يتطلب استثمارًا كبيرًا.

لا تتقدم هذه المراحل بشكل خطي. أثناء استكشاف البيانات، يمكنك الانتقال ذهابًا وإيابًا بين المراحل، ولكن في أي وقت يجب أن تكون واضحًا في المرحلة التي وصلت إليها.

تأكيد إعداد التجربة وجمع البيانات

قبل النظر في أي بيانات، تأكد من فهم السياق الذي تم جمع البيانات فيه. إذا جاءت البيانات من تجربة، اطّلع على إعدادات التجربة. وإذا كانت من أداة عميل جديد، فتأكد من أن لديك على الأقل فهمًا تقريبيًا لكيفية جمع البيانات. قد تكتشف إعدادات غير عادية/سيئة أو قيود على عدد السكان (مثل البيانات الصالحة لمتصفِّح Chrome فقط). قد يساعدك أي شيء بارز هنا في إنشاء النظريات والتحقق منها لاحقًا. بعض الأمور التي يجب مراعاتها:

  • إذا كانت التجربة قيد التنفيذ، جرِّبها بنفسك. إذا لم تتمكن من ذلك، انظر على الأقل من خلال لقطات الشاشة/أوصاف السلوك.
  • تحقق مما إذا كان هناك أي شيء غير عادي بشأن النطاق الزمني الذي تجاوزته التجربة (العطلات أو عمليات الإطلاق الكبيرة أو غير ذلك).
  • تحديد السكان الذين خضعوا للتجربة.

التحقّق ممّا لا يجب تغييره

كجزء من مرحلة "التحقق"، وقبل الإجابة فعليًا على السؤال محل اهتمامك (على سبيل المثال، "هل تؤدي إضافة صورة لوجه إلى زيادة عدد النقرات أم تقليلها؟")، استبعد أي تباين آخر في البيانات قد يؤثر على التجربة. مثلاً:

  • هل تغير عدد المستخدمين؟
  • هل ظهر العدد الصحيح من طلبات البحث المتأثّرة في جميع مجموعاتي الفرعية؟
  • هل تغيرت معدلات الخطأ؟

هذه الأسئلة منطقية لكل من مقارنات التجربة/التحكم وعند فحص الاتجاهات بمرور الوقت.

عادي أولاً، ثم مخصّص ثانيًا

عند النظر إلى الميزات الجديدة والبيانات الجديدة، قد يكون من المغري بشكلٍ خاص الانتقال مباشرةً إلى المقاييس الجديدة أو الخاصة لهذه الميزة الجديدة. ومع ذلك، يجب دائمًا النظر إلى المقاييس القياسية أولاً، حتى لو كنت تتوقع أن تتغير. على سبيل المثال، عند إضافة قالب عمومي جديد إلى الصفحة، تأكد من فهم التأثير على المقاييس القياسية مثل "عدد النقرات على نتائج الويب" قبل التعمق في المقاييس المخصصة حول هذه النتيجة الجديدة.

يتم التحقّق من صحة المقاييس القياسية بشكل أفضل بكثير، ويُرجح أن تكون صحيحة مقارنةً بالمقاييس المخصصة. إذا لم تكن مقاييسك المخصّصة منطقية في مقاييسك القياسية، من المحتمل أن تكون مقاييسك المخصّصة خاطئة.

القياس مرَّتان أو أكثر

خاصة إذا كنت تحاول تسجيل ظاهرة جديدة، فحاول قياس الشيء الأساسي نفسه بعدة طرق. بعد ذلك، حدد ما إذا كانت هذه القياسات المتعددة متسقة. باستخدام قياسات متعددة، يمكنك تحديد الأخطاء في رمز القياس أو التسجيل، أو الميزات غير المتوقعة للبيانات الأساسية، أو خطوات الفلترة المهمة. والأفضل من ذلك إذا كان بإمكانك استخدام مصادر بيانات مختلفة للقياسات.

التحقق من قابلية التكرار

يعد كل من التقسيم والاتساق بمرور الوقت أمثلة خاصة على التحقق من قابلية التكرار. إذا كانت الظاهرة مهمة وذات مغزى، فيجب أن تراها عبر مجموعات المستخدمين المختلفة والوقت. لكن التحقق من قابلية التكرار يعني أكثر من إجراء هاتين العمليتين. إذا كنت تقوم بإنشاء نماذج من البيانات، فأنت تريد أن تكون هذه النماذج مستقرة عبر الاضطرابات الصغيرة في البيانات الأساسية. إنّ استخدام نطاقات زمنية مختلفة أو عينات فرعية عشوائية من بياناتك يخبرك بمدى موثوقية هذا النموذج وقابلية التكرار.

إذا كان النموذج غير قابل للتكرار، فعلى الأرجح أنك لا تلتقط شيئًا أساسيًا حول العملية الأساسية التي أنتجت البيانات.

التحقّق من الاتساق مع القياسات السابقة

غالبًا ما ستحسب مقياسًا مشابهًا للأشياء التي تم حسابها في الماضي. يجب عليك مقارنة المقاييس بالمقاييس التي تم الإبلاغ عنها في الماضي، حتى لو كانت هذه القياسات في مجموعات مستخدمين مختلفة.

على سبيل المثال، إذا كنت تنظر إلى عدد زيارات طلبات البحث على مجموعة خاصة، وتم قياس أن متوسط وقت تحميل الصفحة هو 5 ثوانٍ، لكن التحليلات السابقة لجميع المستخدمين أعطت متوسط وقت تحميل للصفحة يبلغ ثانيتين، فأنت بحاجة إلى التحقيق. قد يكون رقمك مناسبًا لهذه المجموعة، ولكن عليك الآن بذل المزيد من العمل للتحقق من ذلك.

لست بحاجة إلى الحصول على اتفاق دقيق، ولكن يجب أن تكون في نفس المسار. إذا لم تكن كذلك، افترض أنك مخطئ حتى يمكنك أن تقنع نفسك تمامًا. ستتحول أكثر البيانات إثارة للدهشة إلى خطأ، وليست رؤية جديدة رائعة.

يجب تطبيق المقاييس الجديدة على البيانات/الميزات القديمة أولاً.

إذا أنشأت مقاييس جديدة (ربما عن طريق جمع مصدر بيانات جديد) وحاولت تعلم شيء جديد، فلن تعرف ما إذا كان مقياسك الجديد صحيحًا. باستخدام المقاييس الجديدة، يجب أولاً تطبيقها على ميزة أو بيانات معروفة. على سبيل المثال، إذا كان لديك مقياس جديد لرضا المستخدم، فيجب عليك التأكد من أنه يخبرك بأفضل الميزات للمساعدة في الرضا. إذا كان لديك مقياس جديد للمكان الذي يوجّه إليه المستخدمون انتباههم إلى الصفحة، تأكّد من أنّه يتطابق مع ما نعرفه من الاطّلاع على دراسات تتبُّع العين أو المصنِّفين حول كيفية تأثير الصور على انتباه الصفحة. يوفر القيام بذلك التحقق عندما تذهب لتعلم شيء جديد.

وضع فرضيات والبحث عن الأدلة

عادةً ما يكون تحليل البيانات لمشكلة معقدة تكرارًا.2 ستكتشف الانحرافات أو الاتجاهات أو ميزات أخرى للبيانات. بطبيعة الحال، ستقوم بتطوير نظريات لشرح هذه البيانات. لا تنشئ نظرية فقط وتعلن أنها صحيحة. ابحث عن دليل (داخل البيانات أو خارجها) لتأكيد/رفض هذه النظرية. مثلاً:

  • إذا لاحظت شيئًا يبدو كمؤشر تعليمي، تحقَّق مما إذا كان له أثر كبير في المستخدمين ذوي التكرار العالي.
  • إذا كنت تعتقد أنّ إحدى القيم الشاذة تعود إلى إطلاق بعض الميزات، تأكَّد من أنّ المجموعة بالكامل التي تم إطلاق الميزة فيها هي الوحيدة المتأثرة بهذه القيمة الشاذة. بدلاً من ذلك، تأكد من أن حجم التغيير يتماشى مع توقعات الإطلاق.
  • إذا لاحظت تغير معدلات نمو المستخدمين في لغة ما، فحاول العثور على مصدر خارجي يتحقق من معدل تغيير السكان هذا.

سيكون لتحليل البيانات الجيد قصة. للتأكد من أنها القصة الصحيحة، عليك إخبار القصة لنفسك، ثم البحث عن دليل على أنها خاطئة. تتمثل إحدى طرق القيام بذلك في أن تسأل نفسك، "ما التجارب التي يمكنني إجراؤها والتي من شأنها التحقق من/إلغاء صحة القصة التي أسردها؟" وحتى في حالة عدم/لم تتمكن من إجراء هذه التجارب، فقد يمنحك ذلك أفكارًا حول كيفية التحقق من صحة البيانات التي لديك.

الخبر السار هو أن هذه النظريات والتجارب المحتملة قد تؤدي إلى خطوط استفسار جديدة تتجاوز محاولة معرفة أي ميزة أو بيانات معينة. يمكنك بعد ذلك دخول مجال فهم ليس فقط هذه البيانات، ولكن يمكنك اشتقاق مقاييس وتقنيات جديدة لجميع أنواع التحليلات المستقبلية.

يستفيد التحليل الاستكشافي من التكرار الشامل

عند إجراء تحليل استكشافي، قم بإجراء أكبر عدد ممكن من التكرارات للتحليل الكامل. وعادةً ما سيكون لديك خطوات متعددة لجمع الإشارات ومعالجتها ووضع نماذج لها، وما إلى ذلك. إذا أمضيت وقتًا طويلاً في الحصول على المرحلة الأولى من إشاراتك الأولية بشكلٍ مثالي، فستفقد فرص إجراء المزيد من التكرارات في نفس القدر من الوقت. علاوة على ذلك، عندما تنظر أخيرًا إلى بياناتك في النهاية، قد تكتشف اكتشافات تغير اتجاهك. لذلك، ينبغي ألا يكون تركيزك الأولي على الكمال ولكن على الحصول على شيء معقول طوال العملية. اترك ملاحظات لنفسك واعترف بأشياء مثل تصفية الخطوات والطلبات غير القابلة للتحليل أو غير المعتادة، لكن لا تضيع الوقت في محاولة التخلص منها جميعًا في بداية التحليل الاستكشافي.

يُرجى الانتباه إلى الملاحظات

نحدّد عادةً مقاييس مختلفة حول نجاح المستخدم. على سبيل المثال، هل نقر المستخدمون على نتيجة؟ إذا قمت بعد ذلك بتغذية هذه البيانات مرة أخرى للنظام (وهو ما نفعله بالفعل في عدد من الأماكن)، فإنك تخلق الكثير من الفرص للارتباك في التقييم.

لا يمكنك استخدام المقياس الذي أُضيف إلى نظامك كأساس لتقييم التغيير الذي أجريته. إذا عرضت المزيد من الإعلانات التي تتلقى المزيد من النقرات، لن تتمكن من استخدام "المزيد من النقرات" كأساس لتحديد مدى سعادة المستخدمين، رغم أن "المزيد من النقرات" تعني غالبًا "أكثر سعادة". بالإضافة إلى ذلك، يجب عدم تقسيم المتغيّرات التي طبّقتها وعالجتها، لأنّ ذلك سيؤدي إلى حدوث متغيّرات في المزيج قد يكون من الصعب أو المستحيل فهمه.

التفكير

يوضّح هذا القسم كيفية العمل مع الآخرين وإيصال أفكارهم.

يبدأ تحليل البيانات بالأسئلة، وليس البيانات أو الأسلوب

هناك دائمًا دافع لتحليل البيانات. تساعد صياغة احتياجاتك كأسئلة أو فرضيات على ضمان أنك تجمع البيانات التي يجب أن تجمعها وأنك تفكر في الفجوات المحتملة في البيانات. بالطبع، يجب أن تتطور الأسئلة التي تطرحها أثناء النظر إلى البيانات. ومع ذلك، فإن التحليل بدون سؤال سينتهي به الأمر بلا هدف.

تجنب فخ العثور على بعض الأساليب المفضلة ثم العثور فقط على أجزاء المشكلات التي تعمل عليها هذه التقنية. مرة أخرى، سيساعدك إنشاء أسئلة واضحة على تجنب هذا الفخ.

كن متشككًا وبطلاً في الوقت نفسه

أثناء عملك على البيانات، يجب أن تصبح بطلاً للرؤى التي تكتسبها ومتشككًا فيها. نأمل أن تجد بعض الظواهر المثيرة للاهتمام في البيانات التي تنظر إليها. عندما تكتشف ظاهرة مثيرة للاهتمام، اسأل نفسك الأسئلة التالية:

  • ما البيانات الأخرى التي يمكنني جمعها لإظهار مدى روعة ذلك؟
  • ما الذي أجده يبطل صلاحية هذا؟"

خاصة في الحالات التي تجري فيها تحليلاً لشخص ما يريد حقًا إجابة معينة (على سبيل المثال، "ميزة لدي رائعة!")، يجب أن تكون شككًا لتجنب الوقوع في الأخطاء.

الارتباط != السببية

عند وضع نظريات حول البيانات، نرغب في كثير من الأحيان في التأكيد على أن "X تتسبب في Y" - على سبيل المثال، "تسبب بطء الصفحة في نقر المستخدمين على عدد أقل من النقرات". حتى xkcd يعلم أنه لا يمكنك مجرد إنشاء السببية بسبب الارتباط. من خلال التفكير في كيفية التحقق من صحة نظرية السببية، يمكنك عادةً ما يكون لديك فكرة جيدة عن مدى مصداقية النظرية السببية.

في بعض الأحيان، يحاول الأشخاص التمسك بالارتباط بوصفه ذي مغزى من خلال التأكيد على أنه حتى لو لم تكن هناك علاقة سببية بين "أ" و"ب"، فلا بد أن يكون هناك شيء يستند إلى المصادفة حتى يمكن أن تكون إحدى الإشارات مؤشرًا جيدًا أو وكيلاً للأخرى. ويُعدّ هذا المجال خطيرًا بالنسبة إلى مشاكل اختبار الفرضيات المتعددة. وكما تعرف xkcd أيضًا، وفقًا لعدد كافٍ من التجارب والأبعاد الكافية، ستتوافق بعض الإشارات مع تجربة محدّدة. وهذا لا يعني أن تتماشى نفس الإشارات في المستقبل، لذلك عليك أن تلتزم بنفس النظر في نظرية سببية مثل "هناك تأثير خفي ج قد يسبب كلاً من "أ" و"ب" بحيث يمكنك محاولة التحقق من مدى صحة ذلك.

يجب على محلل البيانات غالبًا التنقل في هذه الأسئلة السببية للأشخاص الذين يرغبون في استهلاك البيانات. ينبغي أن تكون واضحًا مع هؤلاء المستهلكين ما يمكنك وما لا يمكنك قوله عن السببية.

المشاركة مع التطبيقات المشابهة أولاً، والمستهلكين الخارجيين أولاً

اقترحت النقاط السابقة بعض الطرق التي تجعل نفسك تقوم بالأنواع الصحيحة من التحقق من الصحة والتحقق من الصحة. لكن المشاركة مع زميل هي إحدى أفضل الطرق لإجبار نفسك على القيام بكل هذه الأشياء. يمكن للزميل الماهر تقديم ملاحظات نوعية مختلفة عن ما يمكن لمستهلكي بياناتك، خاصة وأن المستهلكين لديهم جدول أعمال بشكل عام. الزملاء مفيدون في نقاط متعددة من خلال التحليل. يمكنك في وقت مبكر معرفة المشكلات التي يعرفها زميلك واقتراحات لأشياء يمكن قياسها والأبحاث السابقة في هذا المجال. في النهاية، يعتبر الأقران جيدًا جدًا في الإشارة إلى التناقضات أو التناقضات أو غيرها من الالتباسات.

من الناحية المثالية، يجب أن تحصل على ملاحظات من زميل يعرف شيئًا ما عن البيانات التي تبحث عنها، ولكن حتى الزميل الذي لديه تجربة تحليل بيانات عامة يعد أمرًا ذا قيمة للغاية.

توقع الجهل والأخطاء وقبولها

هناك العديد من الحدود لما يمكن أن نتعلمه من البيانات. يوضح "نيت سيلفر" مثالاً قويًا في مقالة The Signal and the Noise أنه من خلال الاعتراف بحدود الثقة لدينا، يمكننا تحقيق تقدّم في التنبؤ بشكل أفضل. الاعتراف بالجهل هو قوة لا تكافئ عادةً على الفور. نشعر بالاستياء في ذلك الوقت، ولكنّه يعود بفائدة كبيرة لك ولفريقك على المدى الطويل. تزداد الأمور سوءًا عندما ترتكب خطأ وتكتشفه لاحقًا (أو حتى بعد فوات الأوان!)، لكن التعاطف مع أخطائك بشكل استباقي يكسبك الاحترام. إن هذا الاحترام يترجم إلى المصداقية والتأثير.

الأفكار الختامية

لا يظهر الكثير من العمل المطلوب لتحليل بيانات جيد على الفور لمستهلكي تحليلك. وحقيقة أنك راجعت أحجام المستخدمين بعناية وتحققت من أن التأثير كان متسقًا عبر المتصفحات قد لا تصل إلى وعي الأشخاص الذين يحاولون اتخاذ القرارات بالاستناد إلى هذه البيانات. يوضح هذا أيضًا سبب استغراق تحليل البيانات الجيد وقتًا أطول مما يبدو عليه لمعظم الأشخاص (خاصة عندما يرون النتيجة النهائية فقط). جزء من مهمتنا كمحللين هو تزويد المستهلكين تدريجيًا بالرؤى المستندة إلى البيانات حول ماهية هذه الخطوات وسبب أهميتها.

إن الحاجة إلى كل هذه المعالجة والاستكشافات لبياناتك تحدد أيضًا متطلبات لغة وبيئة جيدة لتحليل البيانات. لدينا العديد من الأدوات المتاحة لنا لفحص البيانات. تعد الأدوات واللغات المختلفة مناسبة بشكل أفضل للتقنيات المختلفة التي تمت مناقشتها أعلاه؛ يعد اختيار الأداة المناسبة مهارة مهمة للمحلل. لا يجب أن تكون مقيدًا بإمكانيات الأداة التي تناسبك أكثر، فوظيفتك هي تقديم رؤى حقيقية، وليس تطبيق أداة معينة.

 


  1. ويُعرف ذلك أحيانًا باسم "التحليل الأولي للبيانات". يمكنك الاطّلاع على مقالة على wikipedia عن تحليل البيانات .

  2. من الناحية الفنية، يجب أن تكون هذه الإجابة تكرارية فقط إذا كنت تجري تحليلاً استكشافيًا، وليس تحليلاً تأكيديًا.