این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

تجزیه و تحلیل خوب داده ها

نویسنده: پاتریک رایلی

تشکر ویژه از: دایان تانگ، ریحان خان، الیزابت تاکر، امیر نجمی، هیلاری هاچینسون، جوئل دارنائر، دیل نیل، آنر بن آرتزی، سندرز کلاینفلد، دیوید وستبروک و بری روزنبرگ.

تاریخ

آخرین به روز رسانی اصلی: ژوئن 2019
نسخه قبلی برخی از این مطالب در وبلاگ غیر رسمی Google Data Science ظاهر شد: اکتبر 2016

بررسی اجمالی

استخراج حقیقت و بینش از انبوهی از داده ها یک کار قدرتمند اما مستعد خطا است. بهترین تحلیلگران داده و مهندسان داده اندیش به دلیل اظهارات معتبر از داده ها شهرت پیدا می کنند. اما آنها چه کاری انجام می دهند که به آنها اعتبار می دهد؟ من اغلب صفاتی مانند دقیق و روشمند را می شنوم، اما دقیق ترین و روشمندترین تحلیلگران واقعاً چه می کنند؟

این یک سوال پیش پا افتاده نیست، به خصوص با توجه به نوع داده هایی که به طور مرتب در گوگل جمع آوری می کنیم. نه تنها ما معمولاً با مجموعه داده های بسیار بزرگ کار می کنیم، بلکه این مجموعه داده ها بسیار غنی هستند. یعنی هر ردیف از داده‌ها معمولاً دارای ویژگی‌های بسیار زیادی هستند. هنگامی که شما این را با توالی زمانی رویدادها برای یک کاربر معین ترکیب می کنید، تعداد زیادی راه برای مشاهده داده ها وجود دارد. این را با یک آزمایش روانشناسی آکادمیک معمولی مقایسه کنید که در آن نگاه کردن به تک تک نقاط داده برای محقق امری بی اهمیت است. مشکلات ناشی از مجموعه داده‌های بزرگ و با ابعاد بالا بسیار متفاوت از مشکلاتی است که در بیشتر تاریخ کار علمی با آن مواجه هستیم.

این سند ایده ها و تکنیک هایی را که تحلیلگران دقیق و روشمند در مجموعه داده های بزرگ و با ابعاد بالا استفاده می کنند، خلاصه می کند. اگرچه این سند بر روی داده‌های گزارش‌ها و تجزیه و تحلیل تجربی تمرکز دارد، بسیاری از این تکنیک‌ها به طور گسترده‌تری قابل استفاده هستند.

بقیه سند شامل سه بخش است که جنبه های مختلف تجزیه و تحلیل داده ها را پوشش می دهد:

فنی : ایده ها و تکنیک هایی برای دستکاری و بررسی داده های شما.
فرآیند : توصیه هایی در مورد نحوه برخورد با داده های خود، سؤالاتی که باید بپرسید و مواردی که باید بررسی شوند.
طرز فکر : نحوه کار با دیگران و ارتباط بینش

فنی

بیایید به چند تکنیک برای بررسی داده های شما نگاه کنیم.

به توزیع های خود نگاه کنید

اکثر پزشکان از معیارهای خلاصه (مثلاً میانگین، میانه، انحراف معیار و غیره) برای برقراری ارتباط در مورد توزیع ها استفاده می کنند. با این حال، معمولاً باید نمایش های توزیع غنی تر را با تولید هیستوگرام، توابع توزیع تجمعی (CDF)، نمودارهای Quantile-Quantile (QQ) و غیره بررسی کنید. این نمایش‌های غنی‌تر به شما امکان می‌دهند ویژگی‌های مهم داده‌ها، مانند رفتار چندوجهی یا دسته قابل توجهی از نقاط پرت را شناسایی کنید.

موارد پرت را در نظر بگیرید

موارد پرت را به دقت بررسی کنید زیرا آنها می توانند قناری هایی در معدن زغال سنگ باشند که نشان دهنده مشکلات اساسی تری در تجزیه و تحلیل شما هستند. خوب است که موارد پرت را از داده های خود حذف کنید یا آنها را با هم در یک دسته "غیر معمول" قرار دهید، اما باید مطمئن شوید که چرا داده ها در آن دسته قرار گرفتند.

به عنوان مثال، نگاه کردن به جستجوهایی که کمترین تعداد کلیک را دارند، ممکن است کلیک‌هایی را بر روی عناصری که شما در شمارش آن‌ها ناتوان هستید نشان دهد. نگاه کردن به جستجوهایی با بیشترین تعداد کلیک ممکن است کلیک هایی را نشان دهد که نباید آنها را بشمارید. از سوی دیگر، ممکن است برخی موارد دور از ذهن وجود داشته باشد که هرگز نتوانید توضیح دهید، بنابراین باید مراقب باشید که چقدر زمان برای این کار اختصاص می دهید.

سر و صدا را در نظر بگیرید

تصادفی وجود دارد و ما را فریب خواهد داد. برخی از مردم فکر می کنند، "گوگل داده های زیادی دارد. سر و صدا از بین می رود.» این به سادگی درست نیست. هر تعداد یا خلاصه‌ای از داده‌هایی که تولید می‌کنید باید مفهومی از اعتماد شما به این تخمین داشته باشد (از طریق معیارهایی مانند فواصل اطمینان و مقادیر p ).

به نمونه ها نگاه کنید

هر زمان که کد تجزیه و تحلیل جدیدی تولید می کنید، باید به نمونه هایی از داده های زیربنایی و نحوه تفسیر کد شما این نمونه ها نگاه کنید. تولید کد کاری با هر پیچیدگی بدون انجام این مرحله تقریبا غیرممکن است. تجزیه و تحلیل شما بسیاری از جزئیات را از داده های اساسی برای تولید خلاصه های مفید حذف می کند. با نگاه کردن به پیچیدگی کامل مثال‌ها، می‌توانید اطمینان حاصل کنید که خلاصه‌سازی شما معقول است.

نحوه نمونه برداری از این نمونه ها مهم است:

اگر داده‌های اساسی را طبقه‌بندی می‌کنید، به نمونه‌های متعلق به هر کلاس نگاه کنید.
اگر کلاس بزرگتر است، به نمونه های بیشتری نگاه کنید.
اگر عددی را محاسبه می‌کنید (مثلاً زمان بارگذاری صفحه)، مطمئن شوید که به مثال‌های شدید (سریع‌ترین و کندترین 5٪ شاید؛ می‌دانید توزیع شما چگونه به نظر می‌رسد، درست است؟) و همچنین نقاط در سراسر فضا را بررسی کنید. از اندازه گیری ها

داده های خود را برش دهید

برش به این معنی است که داده های خود را به زیر گروه ها جدا کنید و به مقادیر متریک برای هر زیرگروه به طور جداگانه نگاه کنید. ما معمولاً ابعادی مانند مرورگر، محلی، دامنه، نوع دستگاه و غیره را برش می‌دهیم. اگر احتمالاً پدیده اساسی در بین زیرگروه‌ها متفاوت عمل می‌کند، باید داده‌ها را برش دهید تا تأیید کنید که آیا واقعاً چنین است یا خیر. حتی اگر انتظار ندارید که برش نتایج متفاوتی را به همراه داشته باشد، نگاه کردن به چند برش برای سازگاری درونی به شما اطمینان بیشتری می دهد که کار درست را اندازه گیری می کنید. در برخی موارد، یک بخش خاص ممکن است داده های بدی داشته باشد، تعامل کاربر خراب باشد یا به نوعی تفاوت اساسی داشته باشد.

هر زمان که داده‌ها را برای مقایسه دو گروه برش می‌دهید (مانند آزمایش در مقابل کنترل، یا حتی «زمان A» در مقابل «زمان B»)، باید از تغییرات ترکیبی آگاه باشید. تغییر ترکیب زمانی است که مقدار داده در برش ها برای هر گروه متفاوت است. پارادوکس سیمپسون و سردرگمی های دیگر می تواند منجر شود. به طور کلی، اگر مقدار نسبی داده در یک برش در دو گروه شما یکسان باشد، می‌توانید با خیال راحت مقایسه کنید.

اهمیت عملی را در نظر بگیرید

با حجم زیاد داده، تمرکز صرفاً بر اهمیت آماری یا دقت در جزئیات هر بیت داده می تواند وسوسه انگیز باشد. اما باید از خود بپرسید، "حتی اگر درست باشد که مقدار X 0.1٪ بیشتر از مقدار Y است، آیا این مهم است؟" اگر قادر به درک/ طبقه بندی بخشی از داده های خود نباشید، این می تواند به ویژه مهم باشد. اگر قادر به درک برخی رشته‌های عامل کاربر در گزارش‌های خود نیستید، اینکه آیا 0.1% یا 10% از داده‌ها را نشان می‌دهد، تفاوت زیادی در میزان بررسی آن موارد ایجاد می‌کند.

از طرف دیگر، گاهی اوقات حجم کمی از داده ها دارید. بسیاری از تغییرات از نظر آماری معنی دار به نظر نمی رسند، اما این با ادعای "خنثی" بودن این تغییرات متفاوت است. باید از خود بپرسید: "چقدر احتمال دارد که هنوز یک تغییر عملا قابل توجه وجود داشته باشد؟"

سازگاری را در طول زمان بررسی کنید

تقریباً همیشه باید داده ها را بر اساس واحدهای زمان برش دهید زیرا با تکامل سیستم های ما در طول زمان، اختلالات زیادی در داده های اساسی رخ می دهد. (ما اغلب از روزها استفاده می کنیم، اما واحدهای دیگر زمان نیز ممکن است مفید باشند.) در طول راه اندازی اولیه یک ویژگی یا جمع آوری داده های جدید، پزشکان اغلب به دقت بررسی می کنند که همه چیز طبق انتظار کار می کند. با این حال، بسیاری از شکستگی ها یا رفتارهای غیرمنتظره می توانند در طول زمان ایجاد شوند.

فقط به این دلیل که یک روز خاص یا مجموعه ای از روزها دور از ذهن است، به این معنی نیست که باید داده های مربوطه را کنار بگذارید. قبل از اینکه داده ها را دور بیندازید، از داده ها به عنوان یک قلاب برای تعیین دلیل علّی متفاوت بودن آن روز یا روزها استفاده کنید.

نگاه کردن به داده‌های روز به روز همچنین به شما احساس تنوع در داده‌ها می‌دهد که در نهایت منجر به فواصل اطمینان یا ادعاهایی با اهمیت آماری می‌شود. این به طور کلی نباید جایگزین محاسبه دقیق فاصله اطمینان شود، اما اغلب با تغییرات بزرگ می توانید ببینید که آنها از نظر آماری فقط از نمودارهای روز به روز قابل توجه هستند.

تصدیق و شمارش فیلتر خود را

تقریباً هر تجزیه و تحلیل داده های بزرگ با فیلتر کردن داده ها در مراحل مختلف شروع می شود. شاید بخواهید فقط کاربران ایالات متحده، یا جستجوهای وب، یا جستجوهایی با تبلیغات را در نظر بگیرید. در هر صورت، شما باید:

تصدیق کنید و به وضوح مشخص کنید که چه فیلتری انجام می دهید.
تعداد داده های فیلتر شده را در هر مرحله بشمارید.

اغلب بهترین راه برای انجام دومی این است که تمام معیارهای خود را محاسبه کنید، حتی برای جمعیتی که از آن حذف می کنید. سپس می‌توانید به آن داده‌ها نگاه کنید تا به سؤالاتی پاسخ دهید، "فیلتر هرزنامه چه بخشی از جستارها را حذف کرد؟" (بسته به دلیل فیلتر کردن، آن نوع تحلیل ممکن است همیشه امکان پذیر نباشد.)

نسبت ها باید دارای صورت و مخرج واضح باشند

جالب‌ترین معیارها، نسبت‌های معیارهای اساسی هستند. اغلب اوقات، فیلترهای جالب یا دیگر انتخاب های داده در تعاریف دقیق صورت و مخرج پنهان می شوند. به عنوان مثال، «پرسش‌ها / کاربر» واقعاً به معنای کدام یک از موارد زیر است؟

پرس و جوها / کاربران با یک پرس و جو
پرسش‌ها / کاربرانی که امروز از Google بازدید کردند
پرس و جوها / کاربران با یک حساب فعال (بله، من باید فعال را تعریف کنم)

واضح بودن در اینجا می تواند از سردرگمی برای خود و دیگران جلوگیری کند.

مورد خاص دیگر معیارهایی است که فقط بر روی برخی از داده های شما قابل محاسبه است. به عنوان مثال "زمان برای کلیک کردن" به طور معمول به معنای "زمان کلیک کردن با توجه به اینکه یک کلیک وجود دارد." هر زمان که به معیاری مانند این نگاه می کنید، باید آن فیلتر را تصدیق کنید و به دنبال تغییر در فیلتر کردن بین گروه هایی باشید که در حال مقایسه هستید.

روند

این بخش حاوی توصیه‌هایی در مورد نحوه نزدیک شدن به داده‌های خود، سؤالاتی درباره داده‌های خود و مواردی است که باید بررسی کنید.

اعتبارسنجی، توصیف و ارزیابی را جدا کنید

به نظر من تجزیه و تحلیل داده ها دارای سه مرحله مرتبط با یکدیگر است:

اعتبار سنجی ¹ : آیا معتقدم که داده ها خودسازگار هستند، به درستی جمع آوری شده اند، و نشان دهنده کاری است که فکر می کنم انجام می دهد؟
توضیحات: تفسیر عینی این داده ها چیست؟ به عنوان مثال، "کاربران پرس و جوهای کمتری را به عنوان X طبقه بندی می کنند"، "در گروه آزمایش، زمان بین X و Y 1٪ بزرگتر است" و "کاربران کمتری به صفحه بعدی نتایج می روند."
ارزیابی: با توجه به توضیحات، آیا داده ها به ما می گویند که اتفاق خوبی برای کاربر، برای گوگل یا برای جهان در حال رخ دادن است؟

با تفکیک این مراحل می توانید راحتتر با دیگران به توافق برسید. توضیحات باید مواردی باشد که همه بتوانند در مورد داده ها توافق کنند. ارزیابی احتمالاً بحث های بسیار بیشتری را برانگیزد. اگر توضیحات و ارزیابی را از هم جدا نکنید، احتمالاً فقط تفسیر داده‌هایی را خواهید دید که امیدوارید ببینید. علاوه بر این، ارزیابی بسیار سخت‌تر است، زیرا تعیین ارزش هنجاری یک معیار، معمولاً از طریق مقایسه‌های دقیق با سایر ویژگی‌ها و معیارها، سرمایه‌گذاری قابل توجهی را می‌طلبد.

این مراحل به صورت خطی پیشرفت نمی کنند. همانطور که داده ها را بررسی می کنید، ممکن است بین مراحل به جلو و عقب بپرید، اما در هر زمان باید مشخص کنید که در چه مرحله ای هستید.

آزمایش و تنظیم مجموعه داده را تأیید کنید

قبل از مشاهده هر داده، مطمئن شوید که زمینه جمع آوری داده ها را درک کرده اید. اگر داده ها از یک آزمایش می آیند، به پیکربندی آزمایش نگاه کنید. اگر از ابزار دقیق مشتری جدید است، مطمئن شوید که حداقل درک تقریبی از نحوه جمع‌آوری داده‌ها دارید. ممکن است پیکربندی‌های غیرعادی/بد یا محدودیت‌های جمعیت (مانند داده‌های معتبر فقط برای Chrome) را مشاهده کنید. هر چیزی که در اینجا قابل توجه است ممکن است به شما در ساختن و تأیید نظریه‌ها بعداً کمک کند. برخی موارد را باید در نظر گرفت:

اگر آزمایش در حال اجرا است، خودتان آن را امتحان کنید. اگر نمی توانید، حداقل به تصاویر/توضیحات رفتار نگاه کنید.
بررسی کنید که آیا در محدوده زمانی آزمایش (تعطیلات، پرتاب‌های بزرگ و غیره) چیز غیرعادی وجود دارد یا خیر.
تعیین کنید که کدام جمعیت کاربران تحت آزمایش قرار گرفتند.

آنچه را که نباید تغییر کند بررسی کنید

به‌عنوان بخشی از مرحله «اعتبارسنجی»، قبل از پاسخ دادن به سؤالی که به آن علاقه دارید (به عنوان مثال، «آیا افزودن تصویری از چهره، کلیک‌ها را افزایش یا کاهش داد؟»)، هر گونه تغییر در داده‌ها را که ممکن است بر آزمایش مثلا:

آیا تعداد کاربران تغییر کرده است؟
آیا تعداد مناسب پرس و جوهای تحت تأثیر در همه زیرگروه های من نشان داده شد؟
آیا نرخ خطا تغییر کرد؟

این سوالات هم برای مقایسه آزمایش/کنترل و هم هنگام بررسی روندها در طول زمان معقول هستند.

اول استاندارد، دوم سفارشی

وقتی به ویژگی‌های جدید و داده‌های جدید نگاه می‌کنید، به‌ویژه وسوسه‌انگیز است که مستقیماً به معیارهایی که جدید یا ویژه این ویژگی جدید هستند، بروید. با این حال، شما همیشه باید ابتدا به معیارهای استاندارد نگاه کنید، حتی اگر انتظار دارید تغییر کنند. به عنوان مثال، هنگام افزودن یک بلوک جهانی جدید به صفحه، مطمئن شوید که تأثیر آن بر معیارهای استاندارد مانند «کلیک‌ها بر روی نتایج وب» را قبل از بررسی معیارهای سفارشی در مورد این نتیجه جدید درک کرده‌اید.

معیارهای استاندارد بسیار بهتر از معیارهای سفارشی معتبر هستند و احتمال درستی آنها بیشتر است. اگر معیارهای سفارشی شما با معیارهای استاندارد شما منطقی نیست، احتمالاً معیارهای سفارشی شما اشتباه است.

دو بار یا بیشتر اندازه گیری کنید

به خصوص اگر در تلاش برای ثبت یک پدیده جدید هستید، سعی کنید همان چیز زیربنایی را به روش های مختلف اندازه گیری کنید. سپس، تعیین کنید که آیا این اندازه گیری های چندگانه سازگار هستند یا خیر. با استفاده از اندازه‌گیری‌های متعدد، می‌توانید اشکالات در اندازه‌گیری یا کد ثبت‌نام، ویژگی‌های غیرمنتظره داده‌های زیربنایی، یا فیلتر کردن مراحل مهم را شناسایی کنید. حتی بهتر است اگر بتوانید از منابع داده های مختلف برای اندازه گیری ها استفاده کنید.

تکرارپذیری را بررسی کنید

هم برش و هم ثبات در طول زمان نمونه های خاصی از بررسی تکرارپذیری هستند. اگر یک پدیده مهم و معنادار است، باید آن را در جمعیت‌ها و زمان‌های مختلف کاربران مشاهده کنید. اما تأیید تکرارپذیری بیش از انجام این دو بررسی است. اگر در حال ساخت مدل‌هایی از داده‌ها هستید، می‌خواهید آن مدل‌ها در میان آشفتگی‌های کوچک در داده‌های زیربنایی پایدار باشند. استفاده از بازه‌های زمانی مختلف یا نمونه‌های فرعی تصادفی از داده‌های شما نیز به شما نشان می‌دهد که این مدل چقدر قابل اعتماد/تکرارپذیر است.

اگر یک مدل قابل تکرار نباشد، احتمالاً چیزی اساسی در مورد فرآیند زیربنایی که داده ها را تولید کرده است، دریافت نمی کنید.

سازگاری با اندازه گیری های گذشته را بررسی کنید

اغلب شما معیاری را محاسبه می کنید که مشابه مواردی است که در گذشته شمارش شده است. شما باید معیارهای خود را با معیارهای گزارش شده در گذشته مقایسه کنید، حتی اگر این اندازه‌گیری‌ها بر روی جمعیت‌های مختلف کاربران باشد.

به عنوان مثال، اگر به ترافیک پرس و جو در یک جمعیت خاص نگاه می کنید و اندازه می گیرید که میانگین زمان بارگذاری صفحه 5 ثانیه است، اما تجزیه و تحلیل های گذشته روی همه کاربران میانگین زمان بارگذاری صفحه را 2 ثانیه نشان می دهد، پس باید بررسی کنید. ممکن است شماره شما برای این جمعیت مناسب باشد، اما اکنون باید کار بیشتری برای تأیید این موضوع انجام دهید.

شما نیازی به توافق دقیق ندارید، اما باید در همان محوطه باشید. اگر اینطور نیستید، تا زمانی که بتوانید کاملاً خود را متقاعد کنید، فرض کنید که اشتباه می کنید. بیشتر داده‌های شگفت‌انگیز یک خطا خواهند بود، نه یک بینش جدید افسانه‌ای.

معیارهای جدید باید ابتدا روی داده ها/ویژگی های قدیمی اعمال شوند

اگر معیارهای جدیدی ایجاد کنید (احتمالاً با جمع‌آوری یک منبع داده جدید) و سعی کنید چیز جدیدی یاد بگیرید، نمی‌دانید که معیار جدید شما درست است یا خیر. با معیارهای جدید، ابتدا باید آنها را روی یک ویژگی یا داده شناخته شده اعمال کنید. به عنوان مثال، اگر معیار جدیدی برای رضایت کاربر دارید، باید مطمئن شوید که بهترین ویژگی‌های شما را به رضایت شما می‌گوید. اگر معیار جدیدی برای مکان‌هایی که کاربران توجه خود را به صفحه معطوف می‌کنند دارید، مطمئن شوید که با آنچه ما از بررسی‌های ردیابی چشم یا ارزیابی‌کننده‌ها در مورد چگونگی تأثیر تصاویر بر توجه صفحه می‌دانیم مطابقت دارد. انجام این کار زمانی که برای یادگیری چیزی جدید می روید، اعتبار سنجی را فراهم می کند.

فرضیه بسازید و به دنبال شواهد باشید

به طور معمول، تجزیه و تحلیل داده ها برای یک مسئله پیچیده تکراری است. ² ناهنجاری ها، روندها یا سایر ویژگی های داده ها را کشف خواهید کرد. به طور طبیعی، شما نظریه هایی را برای توضیح این داده ها ایجاد خواهید کرد. فقط یک نظریه ایجاد نکنید و آن را درست اعلام نکنید. به دنبال شواهد (داخل یا خارج از داده ها) برای تایید/رد این نظریه باشید. مثلا:

اگر چیزی را می بینید که شبیه یک روند یادگیری است، ببینید آیا آن را به شدت در کاربران فرکانس بالا نشان می دهد یا خیر.
اگر فکر می‌کنید ناهنجاری به دلیل راه‌اندازی برخی از ویژگی‌ها است، مطمئن شوید که جمعیتی که ویژگی برای آن راه‌اندازی شده است، تنها جمعیتی است که تحت تأثیر این ناهنجاری قرار گرفته است. از طرف دیگر، مطمئن شوید که بزرگی تغییر با انتظارات پرتاب مطابقت دارد.
اگر می‌بینید که نرخ رشد کاربران در یک منطقه تغییر می‌کند، سعی کنید یک منبع خارجی پیدا کنید که آن نرخ تغییر جمعیت کاربر را تأیید کند.

تجزیه و تحلیل خوب داده ها داستانی برای گفتن دارد. برای اینکه مطمئن شوید داستان درست است، باید داستان را برای خودتان بگویید، سپس به دنبال شواهدی مبنی بر اشتباه بودن آن باشید. یکی از راه‌های انجام این کار این است که از خود بپرسید، "چه آزمایش‌هایی را اجرا می‌کنم که داستانی را که می‌گویم اعتبار/بی اعتبار کند؟" حتی اگر این آزمایش‌ها را انجام ندهید/نمی‌توانید، ممکن است ایده‌هایی در مورد نحوه اعتبارسنجی با داده‌هایی که دارید به شما بدهد.

خبر خوب این است که این نظریه‌ها و آزمایش‌های احتمالی ممکن است به خطوط جدیدی از تحقیق منجر شود که فراتر از تلاش برای یادگیری در مورد هر ویژگی یا داده‌ای خاص است. سپس وارد قلمرو درک نه تنها این داده ها، بلکه استخراج معیارها و تکنیک های جدید برای انواع تحلیل های آینده می شوید.

تحلیل اکتشافی از تکرار انتها به انتها سود می برد

هنگام انجام تجزیه و تحلیل اکتشافی، تا آنجا که ممکن است تکرارهای کل آنالیز را انجام دهید. معمولاً شما چندین مرحله از جمع‌آوری سیگنال، پردازش، مدل‌سازی و غیره خواهید داشت. اگر برای تکمیل اولین مرحله سیگنال‌های اولیه خود زمان زیادی صرف کنید، فرصت‌هایی را برای انجام تکرارهای بیشتر در همان زمان از دست خواهید داد. علاوه بر این، هنگامی که در پایان به داده های خود نگاه می کنید، ممکن است اکتشافاتی داشته باشید که مسیر شما را تغییر دهد. بنابراین، تمرکز اولیه شما نباید روی کمال باشد، بلکه باید روی دستیابی به چیزی معقول باشد. برای خود یادداشت بگذارید و مواردی مانند فیلتر کردن مراحل و درخواست‌های غیرقابل تجزیه یا غیرعادی را تأیید کنید، اما زمان را برای خلاص شدن از شر همه آنها در ابتدای تجزیه و تحلیل اکتشافی تلف نکنید.

مراقب بازخورد باشید

ما معمولاً معیارهای مختلفی را در مورد موفقیت کاربر تعریف می کنیم. به عنوان مثال، آیا کاربران روی یک نتیجه کلیک کردند؟ اگر سپس آن داده ها را به سیستم برگردانید (که در واقع در تعدادی از مکان ها انجام می دهیم)، فرصت های زیادی برای سردرگمی ارزیابی ایجاد می کنید.

شما نمی توانید از معیاری که به سیستم شما بازگردانده می شود به عنوان مبنایی برای ارزیابی تغییرات خود استفاده کنید. اگر آگهی‌های بیشتری را نشان دهید که کلیک‌های بیشتری دریافت می‌کنند، نمی‌توانید از «کلیک‌های بیشتر» به عنوان مبنایی برای تصمیم‌گیری درباره شادتر بودن کاربران استفاده کنید، حتی اگر «کلیک‌های بیشتر» اغلب به معنای «شادتر» است. بعلاوه، شما حتی نباید بر روی متغیرهایی که بازخورد داده و دستکاری کرده اید، برش دهید، زیرا باعث تغییر ترکیبی می شود که درک آن دشوار یا غیرممکن خواهد بود.

طرز فکر

این بخش نحوه کار با دیگران و ارتباط بینش را شرح می دهد.

تجزیه و تحلیل داده ها با سؤالات شروع می شود، نه داده ها یا تکنیک

همیشه انگیزه ای برای تجزیه و تحلیل داده ها وجود دارد. فرمول‌بندی نیازهای خود به‌عنوان سؤال یا فرضیه کمک می‌کند تا اطمینان حاصل شود که در حال جمع‌آوری داده‌هایی هستید که باید جمع‌آوری کنید و به شکاف‌های احتمالی در داده‌ها فکر می‌کنید. البته، سوالاتی که می‌پرسید باید با نگاه کردن به داده‌ها تکامل پیدا کنند. با این حال، تجزیه و تحلیل بدون سوال در نهایت بی هدف خواهد بود.

از تله یافتن تکنیک مورد علاقه و سپس یافتن بخش هایی از مشکلات که این تکنیک روی آنها کار می کند اجتناب کنید. باز هم، ایجاد سؤالات روشن به شما کمک می کند تا از این دام جلوگیری کنید.

هم شکاک باشید و هم قهرمان

همانطور که با داده ها کار می کنید، باید هم قهرمان بینش هایی شوید که به دست می آورید و هم نسبت به آنها بدبین باشید. امیدواریم در داده هایی که به آنها نگاه می کنید، پدیده های جالبی پیدا کنید. هنگامی که یک پدیده جالب را تشخیص دادید، سوالات زیر را از خود بپرسید:

چه داده های دیگری را می توانم جمع آوری کنم تا نشان دهم این چقدر عالی است؟
چه چیزی می توانستم پیدا کنم که این را باطل کند؟»

مخصوصاً در مواردی که در حال تجزیه و تحلیل برای کسی هستید که واقعاً یک پاسخ خاص می‌خواهد (مثلاً «ویژگی من عالی است!»)، برای جلوگیری از خطا، باید شکاک را بازی کنید.

همبستگی != علیت

هنگام ایجاد تئوری در مورد داده‌ها، اغلب می‌خواهیم ادعا کنیم که «X باعث Y می‌شود» – برای مثال، «آهسته‌تر شدن صفحه باعث می‌شود کاربران کمتر کلیک کنند». حتی xkcd می داند که به دلیل همبستگی نمی توان به سادگی علیت را ایجاد کرد. با در نظر گرفتن اینکه چگونه یک نظریه علیت را تأیید می کنید، معمولاً می توانید درک خوبی از اعتبار یک نظریه علی ایجاد کنید.

گاهی اوقات، افراد سعی می‌کنند با این ادعا که حتی اگر هیچ رابطه علّی بین A و B وجود نداشته باشد، یک همبستگی معنادار را حفظ کنند، باید چیزی زیربنای تصادف وجود داشته باشد تا یک سیگنال بتواند نشانگر یا نماینده خوبی برای سیگنال دیگر باشد. این ناحیه برای مشکلات متعدد آزمون فرضیه خطرناک است. همانطور که xkcd نیز می‌داند ، با توجه به آزمایش‌های کافی و ابعاد کافی، برخی از سیگنال‌ها برای یک آزمایش خاص تراز خواهند شد. این بدان معنا نیست که سیگنال‌های یکسانی در آینده همسو خواهند شد، بنابراین شما باید یکسان را در نظر بگیرید که یک نظریه علی مانند "یک اثر پنهان C وجود دارد که باعث A و B می شود" را در نظر بگیرید تا بتوانید اعتبار سنجی کنید که چقدر قابل قبول است. این هست.

یک تحلیلگر داده اغلب باید این سؤالات علّی را برای افرادی که می خواهند از داده ها استفاده کنند، بررسی کند. شما باید با آن مصرف کنندگان روشن باشید که در مورد علیت چه می توانید بگویید و چه نمی توانید بگویید.

اول با همتایان، در مرحله بعد با مصرف کنندگان خارجی به اشتراک بگذارید

نکات قبلی راه‌هایی را پیشنهاد می‌کنند که می‌توانید انواع درستی از بررسی و اعتبارسنجی درستی را انجام دهید. اما اشتراک گذاری با همسالان یکی از بهترین راه ها برای وادار کردن خودتان به انجام همه این کارها است. یک همتای ماهر می‌تواند بازخورد کیفی متفاوتی نسبت به مصرف‌کنندگان داده‌های شما ارائه دهد، به‌ویژه که مصرف‌کنندگان معمولاً دستور کار دارند. همتایان در چندین نقطه از طریق تجزیه و تحلیل مفید هستند. در همان ابتدا می‌توانید درباره مشکلاتی که همتایانتان درباره آن‌ها می‌دانند، پیشنهادهایی برای اندازه‌گیری و تحقیقات گذشته در این زمینه اطلاعات کسب کنید. نزدیک به پایان، همسالان در اشاره به موارد عجیب و غریب، ناسازگاری یا سایر سردرگمی ها بسیار خوب هستند.

در حالت ایده‌آل، باید از یک همتا بازخورد دریافت کنید که چیزی در مورد داده‌هایی که شما به آن نگاه می‌کنید می‌داند، اما حتی یک همتا با تجربه‌ی کلی در تجزیه و تحلیل داده‌ها بسیار ارزشمند است.

جهل و اشتباه را انتظار داشته باشید و بپذیرید

محدودیت های زیادی برای آنچه می توانیم از داده ها یاد بگیریم وجود دارد. نیت سیلور در The Signal and the Noise یک مورد قوی ارائه می‌کند که تنها با پذیرش محدودیت‌های اطمینان خود می‌توانیم در پیش‌بینی بهتر پیشرفت کنیم. اعتراف به نادانی یک قدرت است که معمولاً فوراً پاداش نمی‌گیرد. در آن زمان احساس بدی دارد، اما در درازمدت برای شما و تیمتان یک مزیت بزرگ است. وقتی اشتباهی مرتکب می‌شوید و آن را دیرتر (یا حتی خیلی دیر) کشف می‌کنید، حتی بدتر می‌شود، اما تسلط فعالانه به اشتباهاتتان باعث احترام شما می‌شود. این احترام به اعتبار و تأثیر ترجمه می شود.

بستن افکار

بسیاری از کارها برای انجام تجزیه و تحلیل خوب داده ها بلافاصله برای مصرف کنندگان تجزیه و تحلیل شما آشکار نیست. این واقعیت که شما اندازه جمعیت را به دقت بررسی کردید و تأیید کردید که تأثیر آن در مرورگرها ثابت است، احتمالاً به آگاهی افرادی که سعی در تصمیم گیری از این داده ها دارند نمی رسد. این همچنین توضیح می‌دهد که چرا تجزیه و تحلیل داده‌های خوب بیشتر از آن چیزی که برای اکثر مردم به نظر می‌رسد طول می‌کشد (مخصوصاً زمانی که آنها فقط خروجی نهایی را می‌بینند). بخشی از کار ما به عنوان تحلیلگر این است که به تدریج بینش های مبتنی بر داده را در مورد اینکه این مراحل چیست و چرا اهمیت دارند به مصرف کنندگان آموزش دهیم.

نیاز به تمام این دستکاری‌ها و کاوش‌های داده‌های شما، الزامات یک زبان و محیط تجزیه و تحلیل داده‌ها را نیز مشخص می‌کند. ما ابزارهای زیادی برای بررسی داده ها در دسترس داریم. ابزارها و زبان‌های مختلف برای تکنیک‌های مختلفی که در بالا مورد بحث قرار گرفت، مناسب‌تر هستند. انتخاب ابزار مناسب یک مهارت مهم برای یک تحلیلگر است. شما نباید توسط قابلیت های ابزاری که بیشتر با آن راحت هستید محدود شوید. وظیفه شما ارائه بینش واقعی است، نه استفاده از ابزار خاصی.

گاهی اوقات به این "تحلیل داده های اولیه" گفته می شود. مقاله ویکی پدیا در مورد تجزیه و تحلیل داده ها را ببینید ↩
از نظر فنی، تنها زمانی باید تکراری باشد که در حال انجام تجزیه و تحلیل اکتشافی هستید، نه تحلیل تاییدی. ↩