এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

ভাল ডেটা বিশ্লেষণ

লেখক: প্যাট্রিক রিলি

বিশেষ ধন্যবাদ: ডায়ান ট্যাং, রেহান খান, এলিজাবেথ টাকার, আমির নাজমি, হিলারি হাচিনসন, জোয়েল ডার্নাউয়ার, ডেল নিল, অ্যানার বেন-আর্টজি, স্যান্ডার্স ক্লেইনফেল্ড, ডেভিড ওয়েস্টব্রুক এবং ব্যারি রোজেনবার্গ।

ইতিহাস

শেষ প্রধান আপডেট: জুন 2019
এই উপাদানগুলির কিছু পূর্ববর্তী সংস্করণ অনানুষ্ঠানিক Google ডেটা সায়েন্স ব্লগে উপস্থিত হয়েছিল: অক্টোবর 2016

ওভারভিউ

তথ্যের স্তূপ থেকে সত্য এবং অন্তর্দৃষ্টি অর্জন একটি শক্তিশালী কিন্তু ত্রুটি-প্রবণ কাজ। সেরা ডেটা বিশ্লেষক এবং ডেটা-মনস্ক ইঞ্জিনিয়াররা ডেটা থেকে বিশ্বাসযোগ্য উচ্চারণ করার জন্য একটি খ্যাতি তৈরি করে। কিন্তু তারা কি করছে যা তাদের বিশ্বাসযোগ্যতা দেয়? আমি প্রায়শই সাবধান এবং পদ্ধতিগত বিশেষণ শুনি, কিন্তু সবচেয়ে সতর্ক এবং পদ্ধতিগত বিশ্লেষকরা আসলে কী করেন?

এটি একটি তুচ্ছ প্রশ্ন নয়, বিশেষ করে আমরা নিয়মিত Google-এ যে ধরনের ডেটা সংগ্রহ করি তা বিবেচনা করে। আমরা সাধারণত খুব বড় ডেটা সেট নিয়ে কাজ করি না, কিন্তু সেই ডেটা সেটগুলি অত্যন্ত সমৃদ্ধ। অর্থাৎ, ডেটার প্রতিটি সারিতে সাধারণত অনেকগুলি, অনেকগুলি বৈশিষ্ট্য থাকে৷ আপনি যখন একটি প্রদত্ত ব্যবহারকারীর জন্য ইভেন্টের সাময়িক ক্রমগুলির সাথে এটি একত্রিত করেন, তখন ডেটা দেখার জন্য প্রচুর উপায় রয়েছে৷ এটিকে একটি সাধারণ একাডেমিক মনোবিজ্ঞান পরীক্ষার সাথে তুলনা করুন যেখানে গবেষকের জন্য প্রতিটি একক ডেটা পয়েন্টের দিকে তাকানো তুচ্ছ। আমাদের বৃহৎ, উচ্চ-মাত্রিক ডেটা সেটগুলির দ্বারা উত্থাপিত সমস্যাগুলি বৈজ্ঞানিক কাজের ইতিহাসের বেশিরভাগ সময়ে সম্মুখীন হওয়া সমস্যাগুলির থেকে অনেক আলাদা।

এই দস্তাবেজটি ধারনা এবং কৌশলগুলির সংক্ষিপ্তসার করে যা যত্নশীল, পদ্ধতিগত বিশ্লেষকরা বড়, উচ্চ-মাত্রিক ডেটা সেটগুলিতে ব্যবহার করেন। যদিও এই নথিটি লগ এবং পরীক্ষামূলক বিশ্লেষণের ডেটার উপর ফোকাস করে, এই কৌশলগুলির মধ্যে অনেকগুলি আরও ব্যাপকভাবে প্রযোজ্য।

নথির অবশিষ্টাংশে ডেটা বিশ্লেষণের বিভিন্ন দিক কভার করে তিনটি বিভাগ রয়েছে:

প্রযুক্তিগত : আপনার ডেটা ম্যানিপুলেট এবং পরীক্ষা করার বিষয়ে ধারণা এবং কৌশল।
প্রক্রিয়া : আপনি কীভাবে আপনার ডেটার কাছে যান, কী প্রশ্ন জিজ্ঞাসা করতে হবে এবং কী জিনিসগুলি পরীক্ষা করতে হবে সে সম্পর্কে সুপারিশ।
মানসিকতা : কীভাবে অন্যদের সাথে কাজ করবেন এবং অন্তর্দৃষ্টি যোগাযোগ করবেন।

প্রযুক্তিগত

আসুন আপনার ডেটা পরীক্ষা করার জন্য কিছু কৌশল দেখুন।

আপনার বিতরণ দেখুন

বেশিরভাগ অনুশীলনকারীরা বন্টন সম্পর্কে যোগাযোগ করতে সারাংশ মেট্রিক্স (উদাহরণস্বরূপ, গড়, মধ্যক, মানক বিচ্যুতি ইত্যাদি) ব্যবহার করে। যাইহোক, আপনার সাধারণত হিস্টোগ্রাম, ক্রমবর্ধমান বিতরণ ফাংশন (সিডিএফ), কোয়ান্টাইল-কোয়ান্টাইল (কিউকিউ) প্লট তৈরি করে আরও সমৃদ্ধ বিতরণ উপস্থাপনা পরীক্ষা করা উচিত। এই সমৃদ্ধ উপস্থাপনাগুলি আপনাকে ডেটার গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি সনাক্ত করতে দেয়, যেমন মাল্টিমোডাল আচরণ বা বহিরাগতদের একটি উল্লেখযোগ্য শ্রেণি।

বহিরাগতদের বিবেচনা করুন

আউটলিয়ারদের সাবধানে পরীক্ষা করুন কারণ তারা কয়লা খনিতে ক্যানারি হতে পারে যা আপনার বিশ্লেষণের সাথে আরও মৌলিক সমস্যা নির্দেশ করে। আপনার ডেটা থেকে বহিরাগতদের বাদ দেওয়া বা একটি "অস্বাভাবিক" বিভাগে একত্রিত করা ভাল, তবে আপনাকে নিশ্চিত করতে হবে যে কেন ডেটা সেই বিভাগে শেষ হয়েছে তা আপনি জানেন।

উদাহরণ স্বরূপ, সর্বনিম্ন সংখ্যক ক্লিক সহ ক্যোয়ারীগুলি দেখলে এমন উপাদানগুলির উপর ক্লিকগুলি প্রকাশ হতে পারে যেগুলি আপনি গণনা করতে ব্যর্থ হচ্ছেন৷ সর্বাধিক সংখ্যক ক্লিকের প্রশ্নগুলির দিকে তাকালে এমন ক্লিকগুলি প্রকাশ হতে পারে যা আপনাকে গণনা করা উচিত নয়৷ অন্যদিকে, এমন কিছু বহিরাগত হতে পারে যা আপনি কখনই ব্যাখ্যা করতে পারবেন না, তাই আপনি এই কাজের জন্য কতটা সময় ব্যয় করবেন সে সম্পর্কে আপনাকে সতর্ক থাকতে হবে।

গোলমাল বিবেচনা করুন

এলোমেলোতা বিদ্যমান এবং আমাদের বোকা তৈরি করবে। কেউ কেউ মনে করেন, “গুগলের এত ডেটা আছে; গোলমাল চলে যায়।" এই সহজভাবে সত্য নয়. আপনার তৈরি করা ডেটার প্রতিটি সংখ্যা বা সারাংশের এই অনুমানে আপনার আস্থার একটি সহগামী ধারণা থাকা উচিত (আস্থার ব্যবধান এবং p-মানগুলির মতো পরিমাপের মাধ্যমে)।

উদাহরণ তাকান

যে কোনো সময় আপনি নতুন বিশ্লেষণ কোড তৈরি করছেন, আপনাকে অন্তর্নিহিত ডেটা থেকে উদাহরণগুলি দেখতে হবে এবং কীভাবে আপনার কোড সেই উদাহরণগুলিকে ব্যাখ্যা করছে। এই ধাপটি সম্পাদন না করে কোনো জটিলতার কাজের কোড তৈরি করা প্রায় অসম্ভব। আপনার বিশ্লেষণ দরকারী সারাংশ তৈরি করার জন্য অন্তর্নিহিত ডেটা থেকে অনেক বিবরণ বিমূর্ত করছে। স্বতন্ত্র উদাহরণগুলির সম্পূর্ণ জটিলতা দেখে, আপনি আস্থা অর্জন করতে পারেন যে আপনার সংক্ষিপ্তকরণ যুক্তিসঙ্গত।

আপনি এই উদাহরণগুলি কীভাবে নমুনা করেন তা গুরুত্বপূর্ণ:

আপনি যদি অন্তর্নিহিত ডেটা শ্রেণীবদ্ধ করছেন, প্রতিটি শ্রেণীর অন্তর্গত উদাহরণগুলি দেখুন।
যদি এটি একটি বড় শ্রেণী হয়, আরও নমুনা দেখুন।
আপনি যদি একটি সংখ্যা গণনা করেন (উদাহরণস্বরূপ, পৃষ্ঠা লোডের সময়), নিশ্চিত করুন যে আপনি চরম উদাহরণগুলি দেখেছেন (সম্ভবত দ্রুততম এবং সবচেয়ে ধীর 5%; আপনি জানেন আপনার বিতরণটি কেমন দেখাচ্ছে, তাই না?) পাশাপাশি পুরো স্থান জুড়ে পয়েন্টগুলি পরিমাপের

আপনার ডেটা স্লাইস করুন

স্লাইস করার অর্থ হল আপনার ডেটাকে সাবগ্রুপে আলাদা করা এবং প্রতিটি সাবগ্রুপের জন্য আলাদাভাবে মেট্রিক মান দেখা। আমরা সাধারণত ব্রাউজার, লোকেল, ডোমেন, ডিভাইসের ধরন ইত্যাদির মতো মাত্রাগুলিকে স্লাইস করি। যদি অন্তর্নিহিত ঘটনাটি সাবগ্রুপ জুড়ে ভিন্নভাবে কাজ করার সম্ভাবনা থাকে, তাহলে নিশ্চিত করার জন্য আপনাকে অবশ্যই ডেটা টুকরো টুকরো করে ফেলতে হবে। এমনকি যদি আপনি স্লাইসিং থেকে ভিন্ন ফলাফলের আশা না করেন, তবে অভ্যন্তরীণ সামঞ্জস্যের জন্য কয়েকটি স্লাইস দেখে আপনাকে আরও বেশি আত্মবিশ্বাস দেয় যে আপনি সঠিক জিনিসটি পরিমাপ করছেন। কিছু ক্ষেত্রে, একটি নির্দিষ্ট স্লাইসে খারাপ ডেটা থাকতে পারে, একটি ভাঙা ব্যবহারকারীর মিথস্ক্রিয়া, বা কোনও উপায়ে মৌলিকভাবে আলাদা হতে পারে।

যে কোনো সময় আপনি দুটি গোষ্ঠীর (যেমন পরীক্ষা বনাম নিয়ন্ত্রণ, বা এমনকি "সময় A" বনাম "টাইম বি") তুলনা করার জন্য ডেটা স্লাইস করেন, আপনাকে মিক্স শিফট সম্পর্কে সচেতন হতে হবে। একটি মিক্স শিফ্ট হল যখন প্রতিটি গ্রুপের জন্য স্লাইসে ডেটার পরিমাণ আলাদা। সিম্পসনের প্যারাডক্স এবং অন্যান্য বিভ্রান্তি হতে পারে। সাধারণত, যদি আপনার দুটি গ্রুপে একটি স্লাইসে ডেটার আপেক্ষিক পরিমাণ একই হয়, আপনি নিরাপদে একটি তুলনা করতে পারেন।

ব্যবহারিক গুরুত্ব বিবেচনা করুন

প্রচুর পরিমাণে ডেটা সহ, এটি শুধুমাত্র পরিসংখ্যানগত তাত্পর্যের উপর ফোকাস করতে বা প্রতিটি বিট ডেটার বিশদ বিবরণের উপর আলোকপাত করতে প্রলুব্ধ হতে পারে। কিন্তু আপনাকে নিজেকে জিজ্ঞাসা করতে হবে, "যদিও এটা সত্য যে X মান Y মানের থেকে 0.1% বেশি, তাতে কি কিছু যায় আসে?" এটি বিশেষভাবে গুরুত্বপূর্ণ হতে পারে যদি আপনি আপনার ডেটার অংশ বুঝতে/শ্রেণীবদ্ধ করতে না পারেন। আপনি যদি আপনার লগগুলিতে কিছু ব্যবহারকারী-এজেন্ট স্ট্রিং বোঝাতে অক্ষম হন, এটি 0.1% বা 10% ডেটা প্রতিনিধিত্ব করে কিনা সে ক্ষেত্রে আপনার কতটা তদন্ত করা উচিত তার মধ্যে একটি বড় পার্থক্য করে।

বিকল্পভাবে, আপনার কাছে মাঝে মাঝে অল্প পরিমাণ ডেটা থাকে। অনেক পরিবর্তন পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ দেখাবে না, কিন্তু এই পরিবর্তনগুলিকে "নিরপেক্ষ" দাবি করার চেয়ে এটি ভিন্ন। আপনাকে অবশ্যই নিজেকে জিজ্ঞাসা করতে হবে, "এখনও কার্যত উল্লেখযোগ্য পরিবর্তনের সম্ভাবনা কতটা?"

সময়ের সাথে ধারাবাহিকতা পরীক্ষা করুন

আপনার প্রায় সর্বদা সময়ের একক দ্বারা ডেটা কাটার চেষ্টা করা উচিত কারণ আমাদের সিস্টেম সময়ের সাথে সাথে বিকশিত হওয়ার সাথে সাথে অন্তর্নিহিত ডেটাতে অনেক ব্যাঘাত ঘটে। (আমরা প্রায়শই দিনগুলি ব্যবহার করি, তবে সময়ের অন্যান্য ইউনিটগুলিও কার্যকর হতে পারে।) একটি বৈশিষ্ট্য বা নতুন ডেটা সংগ্রহের প্রাথমিক প্রবর্তনের সময়, অনুশীলনকারীরা প্রায়শই সাবধানতার সাথে পরীক্ষা করে যে সবকিছু প্রত্যাশা অনুযায়ী কাজ করছে। যাইহোক, সময়ের সাথে সাথে অনেক ভাঙ্গন বা অপ্রত্যাশিত আচরণ দেখা দিতে পারে।

শুধুমাত্র একটি নির্দিষ্ট দিন বা দিনের সেট একটি আউটলায়ার মানে এই নয় যে আপনাকে সংশ্লিষ্ট ডেটা বাতিল করতে হবে। আপনি এটি বাতিল করার আগে সেই দিন বা দিনগুলি কেন আলাদা তা একটি কার্যকারণ কারণ নির্ধারণ করতে একটি হুক হিসাবে ডেটা ব্যবহার করুন৷

দিনের-পরে-দিনের ডেটার দিকে তাকানো আপনাকে ডেটার তারতম্যের একটি ধারনা দেয় যা শেষ পর্যন্ত আত্মবিশ্বাসের ব্যবধান বা পরিসংখ্যানগত তাত্পর্যের দাবির দিকে নিয়ে যায়। এটি সাধারণত কঠোর আত্মবিশ্বাস-ব্যবধানের গণনাকে প্রতিস্থাপন করা উচিত নয়, তবে প্রায়শই বড় পরিবর্তনের সাথে আপনি দেখতে পারেন যে তারা কেবলমাত্র দিনের গ্রাফ থেকে পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ হবে।

আপনার ফিল্টারিং স্বীকার করুন এবং গণনা করুন

প্রায় প্রতিটি বড় ডেটা বিশ্লেষণ বিভিন্ন পর্যায়ে ডেটা ফিল্টার করে শুরু হয়। হতে পারে আপনি শুধুমাত্র মার্কিন ব্যবহারকারীদের বিবেচনা করতে চান, বা ওয়েব অনুসন্ধান, বা বিজ্ঞাপন সহ অনুসন্ধানগুলি। যাই হোক না কেন, আপনাকে অবশ্যই:

আপনি কি ফিল্টারিং করছেন তা স্বীকার করুন এবং স্পষ্টভাবে উল্লেখ করুন।
প্রতিটি ধাপে ফিল্টার করা ডেটার পরিমাণ গণনা করুন।

প্রায়শই পরবর্তীটি করার সর্বোত্তম উপায় হল আপনার সমস্ত মেট্রিক্স গণনা করা, এমনকি আপনি যে জনসংখ্যা বাদ দিচ্ছেন তার জন্যও। তারপরে আপনি প্রশ্নগুলির উত্তর দিতে সেই ডেটা দেখতে পারেন, "স্প্যাম ফিল্টারিং প্রশ্নগুলির কোন ভগ্নাংশকে সরিয়ে দিয়েছে?" (আপনি কেন ফিল্টার করছেন তার উপর নির্ভর করে, এই ধরনের বিশ্লেষণ সবসময় সম্ভব নাও হতে পারে।)

অনুপাতের স্পষ্ট লব এবং হর থাকা উচিত

সবচেয়ে আকর্ষণীয় মেট্রিক হল অন্তর্নিহিত পরিমাপের অনুপাত। প্রায়শই, আকর্ষণীয় ফিল্টারিং বা অন্যান্য ডেটা পছন্দগুলি লব এবং হরের সুনির্দিষ্ট সংজ্ঞার মধ্যে লুকিয়ে থাকে। উদাহরণস্বরূপ, "কোয়েরি/ব্যবহারকারী" বলতে নিচের কোনটি আসলে বোঝায়?

একটি প্রশ্ন সহ প্রশ্ন / ব্যবহারকারী
প্রশ্ন / ব্যবহারকারীরা যারা আজ Google পরিদর্শন করেছেন৷
একটি সক্রিয় অ্যাকাউন্ট সহ প্রশ্ন / ব্যবহারকারী (হ্যাঁ, আমাকে সক্রিয় সংজ্ঞায়িত করতে হবে)

এখানে সত্যিই পরিষ্কার হওয়া নিজের এবং অন্যদের জন্য বিভ্রান্তি এড়াতে পারে।

আরেকটি বিশেষ ক্ষেত্রে মেট্রিক্স যা শুধুমাত্র আপনার কিছু ডেটাতে গণনা করা যেতে পারে। উদাহরণস্বরূপ "ক্লিক করার সময়" এর অর্থ সাধারণত "ক্লিক করার সময় দেওয়া হয় যে একটি ক্লিক ছিল।" যে কোনো সময় আপনি এই ধরনের একটি মেট্রিক দেখছেন, আপনাকে সেই ফিল্টারিংকে স্বীকার করতে হবে এবং আপনি তুলনা করছেন এমন গ্রুপগুলির মধ্যে ফিল্টারিংয়ে একটি পরিবর্তনের সন্ধান করতে হবে।

প্রক্রিয়া

এই বিভাগে কীভাবে আপনার ডেটার কাছে যেতে হবে, আপনার ডেটা সম্পর্কে কী প্রশ্ন জিজ্ঞাসা করতে হবে এবং কী পরীক্ষা করতে হবে সে সম্পর্কে সুপারিশ রয়েছে৷

পৃথক বৈধতা, বর্ণনা, এবং মূল্যায়ন

আমি ডেটা বিশ্লেষণকে তিনটি আন্তঃসম্পর্কিত পর্যায় বলে মনে করি:

বৈধতা ¹ : আমি কি বিশ্বাস করি যে ডেটা স্ব-সংগতিপূর্ণ, যে এটি সঠিকভাবে সংগ্রহ করা হয়েছে, এবং এটি উপস্থাপন করে যা আমি মনে করি এটি করে?
বর্ণনা: এই তথ্যের উদ্দেশ্য ব্যাখ্যা কি? উদাহরণস্বরূপ, "ব্যবহারকারীরা X হিসাবে শ্রেণীবদ্ধ করা কম প্রশ্ন করে," "পরীক্ষা গ্রুপে, X এবং Y এর মধ্যে সময় 1% বড়," এবং "কম ব্যবহারকারী ফলাফলের পরবর্তী পৃষ্ঠায় যান।"
মূল্যায়ন: বর্ণনা দেওয়া হলে, ডেটা কি আমাদের বলে যে ব্যবহারকারীর জন্য, গুগলের জন্য বা বিশ্বের জন্য ভালো কিছু ঘটছে?

এই ধাপগুলিকে আলাদা করে, আপনি অন্যদের সাথে আরও সহজে চুক্তিতে পৌঁছাতে পারেন। বর্ণনা এমন হওয়া উচিত যা প্রত্যেকে ডেটার জন্য একমত হতে পারে। মূল্যায়ন অনেক বেশি বিতর্ক উস্কে দিতে পারে। আপনি যদি বর্ণনা এবং মূল্যায়নকে আলাদা না করেন তবে আপনি যে ডেটা দেখার আশা করছেন তার ব্যাখ্যাটি দেখতে পাওয়ার সম্ভাবনা বেশি। আরও, মূল্যায়ন অনেক কঠিন হতে থাকে কারণ একটি মেট্রিকের আদর্শিক মান প্রতিষ্ঠা করতে, সাধারণত অন্যান্য বৈশিষ্ট্য এবং মেট্রিক্সের সাথে কঠোর তুলনার মাধ্যমে, উল্লেখযোগ্য বিনিয়োগ লাগে।

এই ধাপগুলো রৈখিকভাবে অগ্রসর হয় না। আপনি ডেটা অন্বেষণ করার সময়, আপনি ধাপগুলির মধ্যে পিছনে পিছনে লাফ দিতে পারেন, কিন্তু যে কোনও সময় আপনি কোন পর্যায়ে আছেন তা পরিষ্কার হওয়া উচিত।

পরীক্ষা এবং ডেটা সংগ্রহ সেটআপ নিশ্চিত করুন

কোনো ডেটা দেখার আগে, নিশ্চিত করুন যে আপনি যে প্রেক্ষাপটে ডেটা সংগ্রহ করেছেন তা বুঝতে পেরেছেন। যদি একটি পরীক্ষা থেকে ডেটা আসে, তাহলে পরীক্ষার কনফিগারেশন দেখুন। যদি এটি নতুন ক্লায়েন্ট ইন্সট্রুমেন্টেশন থেকে হয় তবে নিশ্চিত করুন যে কীভাবে ডেটা সংগ্রহ করা হয় সে সম্পর্কে আপনার অন্তত একটি মোটামুটি ধারণা রয়েছে। আপনি অস্বাভাবিক/খারাপ কনফিগারেশন বা জনসংখ্যার সীমাবদ্ধতা (যেমন শুধুমাত্র Chrome এর জন্য বৈধ ডেটা) দেখতে পারেন। এখানে উল্লেখযোগ্য যেকোন কিছু আপনাকে পরবর্তীতে তত্ত্ব তৈরি এবং যাচাই করতে সাহায্য করতে পারে। কিছু বিষয় বিবেচনা করা:

পরীক্ষা চলমান থাকলে, নিজে চেষ্টা করে দেখুন। আপনি যদি না করতে পারেন, অন্তত আচরণের স্ক্রিনশট/বিবরণের মাধ্যমে দেখুন।
পরীক্ষাটি চালানোর সময়সীমা সম্পর্কে অস্বাভাবিক কিছু ছিল কিনা তা পরীক্ষা করুন (ছুটি, বড় লঞ্চ, ইত্যাদি)।
কোন ব্যবহারকারী জনসংখ্যা পরীক্ষার অধীন ছিল তা নির্ধারণ করুন।

কি পরিবর্তন করা উচিত নয় তা পরীক্ষা করুন

"বৈধকরণ" পর্যায়ের অংশ হিসেবে, আপনি যে প্রশ্নে আগ্রহী সেই প্রশ্নের উত্তর দেওয়ার আগে (উদাহরণস্বরূপ, "মুখের ছবি যোগ করলে ক্লিক বেড়েছে নাকি কমেছে?"), ডেটার অন্য কোনো পরিবর্তনশীলতা বাতিল করুন পরীক্ষা যেমন:

ব্যবহারকারীর সংখ্যা কি পরিবর্তন হয়েছে?
আমার সমস্ত সাবগ্রুপে কি সঠিক সংখ্যক প্রভাবিত প্রশ্ন দেখা গেছে?
ত্রুটি হার পরিবর্তন হয়েছে?

এই প্রশ্নগুলি পরীক্ষা/নিয়ন্ত্রণ তুলনা এবং সময়ের সাথে প্রবণতা পরীক্ষা করার সময় উভয়ের জন্যই বোধগম্য।

স্ট্যান্ডার্ড প্রথম, কাস্টম দ্বিতীয়

নতুন বৈশিষ্ট্য এবং নতুন ডেটা দেখার সময়, এই নতুন বৈশিষ্ট্যটির জন্য নতুন বা বিশেষ মেট্রিক্সে সরাসরি ঝাঁপ দিতে বিশেষভাবে প্রলুব্ধ হয়৷ যাইহোক, আপনার সর্বদা প্রথমে স্ট্যান্ডার্ড মেট্রিক্সের দিকে নজর দেওয়া উচিত, এমনকি যদি আপনি সেগুলি পরিবর্তন করার আশা করেন। উদাহরণস্বরূপ, পৃষ্ঠায় একটি নতুন সার্বজনীন ব্লক যোগ করার সময়, এই নতুন ফলাফল সম্পর্কে কাস্টম মেট্রিক্সে ডুব দেওয়ার আগে নিশ্চিত করুন যে আপনি "ওয়েব ফলাফলে ক্লিক" এর মতো স্ট্যান্ডার্ড মেট্রিক্সের প্রভাব বুঝতে পেরেছেন৷

স্ট্যান্ডার্ড মেট্রিকগুলি কাস্টম মেট্রিক্সের চেয়ে অনেক ভাল যাচাই করা এবং সঠিক হওয়ার সম্ভাবনা বেশি। যদি আপনার কাস্টম মেট্রিক্স আপনার স্ট্যান্ডার্ড মেট্রিক্সের সাথে অর্থপূর্ণ না হয়, তাহলে আপনার কাস্টম মেট্রিক্স সম্ভবত ভুল।

দুইবার, বা তার বেশি পরিমাপ করুন

বিশেষ করে যদি আপনি একটি নতুন ঘটনা ক্যাপচার করার চেষ্টা করছেন, একই অন্তর্নিহিত জিনিসটি একাধিক উপায়ে পরিমাপ করার চেষ্টা করুন। তারপর, এই একাধিক পরিমাপ সামঞ্জস্যপূর্ণ কিনা তা নির্ধারণ করুন। একাধিক পরিমাপ ব্যবহার করে, আপনি পরিমাপ বা লগিং কোড, অন্তর্নিহিত ডেটার অপ্রত্যাশিত বৈশিষ্ট্য, বা গুরুত্বপূর্ণ ফিল্টারিং পদক্ষেপগুলিতে বাগগুলি সনাক্ত করতে পারেন৷ আপনি যদি পরিমাপের জন্য বিভিন্ন ডেটা উত্স ব্যবহার করতে পারেন তবে এটি আরও ভাল।

প্রজননযোগ্যতা পরীক্ষা করুন

সময়ের সাথে সাথে স্লাইসিং এবং ধারাবাহিকতা উভয়ই প্রজননযোগ্যতা পরীক্ষা করার বিশেষ উদাহরণ। যদি একটি ঘটনা গুরুত্বপূর্ণ এবং অর্থবহ হয়, তাহলে আপনার এটি বিভিন্ন ব্যবহারকারীর জনসংখ্যা এবং সময় জুড়ে দেখা উচিত। কিন্তু প্রজননযোগ্যতা যাচাই করার অর্থ এই দুটি পরীক্ষা করার চেয়ে বেশি। আপনি যদি ডেটার মডেল তৈরি করেন, তাহলে আপনি চান যে সেই মডেলগুলি অন্তর্নিহিত ডেটাতে ছোট ছোট ঝামেলার মধ্যে স্থিতিশীল থাকুক। আপনার ডেটার বিভিন্ন সময়সীমা বা এলোমেলো উপ-নমুনা ব্যবহার করেও আপনাকে বলবে যে এই মডেলটি কতটা নির্ভরযোগ্য/পুনরুত্পাদনযোগ্য।

যদি একটি মডেল পুনরুত্পাদনযোগ্য না হয়, তাহলে আপনি সম্ভবত ডেটা উত্পাদিত অন্তর্নিহিত প্রক্রিয়া সম্পর্কে মৌলিক কিছু ক্যাপচার করছেন না।

অতীত পরিমাপের সাথে সামঞ্জস্যের জন্য পরীক্ষা করুন

প্রায়শই আপনি একটি মেট্রিক গণনা করবেন যা অতীতে গণনা করা জিনিসগুলির অনুরূপ। অতীতে রিপোর্ট করা মেট্রিকগুলির সাথে আপনার মেট্রিক্সের তুলনা করা উচিত, এমনকি যদি এই পরিমাপগুলি বিভিন্ন ব্যবহারকারীর জনসংখ্যাতে হয়।

উদাহরণস্বরূপ, যদি আপনি একটি বিশেষ জনসংখ্যার উপর ক্যোয়ারী ট্র্যাফিকের দিকে তাকান এবং আপনি পরিমাপ করেন যে গড় পৃষ্ঠা লোডের সময় 5 সেকেন্ড, কিন্তু সমস্ত ব্যবহারকারীর অতীত বিশ্লেষণগুলি 2 সেকেন্ডের একটি গড় পৃষ্ঠা লোড সময় দিয়েছে, তাহলে আপনাকে তদন্ত করতে হবে। আপনার সংখ্যা এই জনসংখ্যার জন্য সঠিক হতে পারে, কিন্তু এখন এটি যাচাই করার জন্য আপনাকে আরও কাজ করতে হবে।

আপনি সঠিক চুক্তি পেতে হবে না, কিন্তু আপনি একই বলপার্কে থাকা উচিত. আপনি যদি না হন তবে ধরে নিন যে আপনি ভুল করছেন যতক্ষণ না আপনি নিজেকে পুরোপুরি বোঝাতে পারবেন। সবচেয়ে আশ্চর্যজনক তথ্য একটি ত্রুটি হতে চালু হবে, একটি কল্পিত নতুন অন্তর্দৃষ্টি নয়.

নতুন মেট্রিকগুলি প্রথমে পুরানো ডেটা/বৈশিষ্ট্যগুলিতে প্রয়োগ করা উচিত৷

আপনি যদি নতুন মেট্রিক তৈরি করেন (সম্ভবত একটি অভিনব ডেটা উৎস সংগ্রহ করে) এবং নতুন কিছু শেখার চেষ্টা করেন, তাহলে আপনার নতুন মেট্রিক সঠিক কিনা তা আপনি জানতে পারবেন না। নতুন মেট্রিক্সের সাথে, আপনাকে প্রথমে একটি পরিচিত বৈশিষ্ট্য বা ডেটাতে প্রয়োগ করতে হবে। উদাহরণস্বরূপ, যদি আপনার কাছে ব্যবহারকারীর সন্তুষ্টির জন্য একটি নতুন মেট্রিক থাকে, তাহলে আপনাকে নিশ্চিত করতে হবে যে এটি আপনাকে আপনার সেরা বৈশিষ্ট্যগুলি সন্তুষ্টিতে সহায়তা করে। ব্যবহারকারীরা যেখানে পৃষ্ঠার দিকে তাদের মনোযোগ দিচ্ছেন তার জন্য যদি আপনার কাছে একটি নতুন মেট্রিক থাকে, তাহলে নিশ্চিত করুন যে এটি আই-ট্র্যাকিং বা চিত্রগুলি কীভাবে পৃষ্ঠার মনোযোগকে প্রভাবিত করে সে সম্পর্কে আমরা যা জানি তার সাথে মেলে। আপনি যখন নতুন কিছু শিখতে যান তখন এটি করা বৈধতা প্রদান করে।

অনুমান তৈরি করুন এবং প্রমাণ সন্ধান করুন

সাধারণত, একটি জটিল সমস্যার জন্য ডেটা বিশ্লেষণ পুনরাবৃত্তিমূলক। ² আপনি ডেটার অসঙ্গতি, প্রবণতা বা অন্যান্য বৈশিষ্ট্যগুলি আবিষ্কার করবেন৷ স্বাভাবিকভাবেই, আপনি এই ডেটা ব্যাখ্যা করার জন্য তত্ত্বগুলি বিকাশ করবেন। শুধু একটি তত্ত্ব বিকাশ করবেন না এবং এটিকে সত্য বলে ঘোষণা করবেন না। এই তত্ত্বটি নিশ্চিত/অস্বীকার করার জন্য প্রমাণ (ডেটার ভিতরে বা বাইরে) সন্ধান করুন। যেমন:

আপনি যদি এমন কিছু দেখেন যা শেখার প্রবণতার মতো দেখায়, তাহলে দেখুন যে এটি উচ্চ ফ্রিকোয়েন্সি ব্যবহারকারীদের কাছে সবচেয়ে বেশি দৃঢ়ভাবে প্রকাশ করে কিনা।
আপনি যদি বিশ্বাস করেন যে কিছু বৈশিষ্ট্যের লঞ্চের কারণে কোনো অসামঞ্জস্যতা হয়েছে, তাহলে নিশ্চিত করুন যে বৈশিষ্ট্যটি যে জনসংখ্যার জন্য চালু করা হয়েছে শুধুমাত্র তারাই এই অসঙ্গতি দ্বারা প্রভাবিত। বিকল্পভাবে, নিশ্চিত করুন যে পরিবর্তনের মাত্রা লঞ্চের প্রত্যাশার সাথে সামঞ্জস্যপূর্ণ।
আপনি যদি একটি লোকেলে ব্যবহারকারীদের বৃদ্ধির হার দেখেন, তাহলে একটি বাহ্যিক উত্স খুঁজে বের করার চেষ্টা করুন যা সেই ব্যবহারকারী-জনসংখ্যা পরিবর্তনের হারকে বৈধ করে।

ভাল তথ্য বিশ্লেষণ বলতে একটি গল্প থাকবে. এটি সঠিক গল্প কিনা তা নিশ্চিত করতে, আপনাকে গল্পটি নিজের কাছে বলতে হবে, তারপরে এটি ভুল বলে প্রমাণ সন্ধান করুন। এটি করার একটি উপায় হল নিজেকে জিজ্ঞাসা করা, "আমি কোন পরীক্ষা চালাব যা আমি যে গল্পটি বলছি তা বৈধ/অবৈধ করবে?" এমনকি আপনি যদি এই পরীক্ষাগুলি না করেন/নাও পারেন, তবে আপনার কাছে থাকা ডেটা দিয়ে কীভাবে যাচাই করা যায় সে সম্পর্কে এটি আপনাকে ধারণা দিতে পারে।

ভাল খবর হল যে এই তত্ত্বগুলি এবং সম্ভাব্য পরীক্ষাগুলি তদন্তের নতুন লাইনের দিকে নিয়ে যেতে পারে যা কোনও নির্দিষ্ট বৈশিষ্ট্য বা ডেটা সম্পর্কে জানার চেষ্টাকে অতিক্রম করে। তারপরে আপনি কেবল এই ডেটা নয়, সমস্ত ধরণের ভবিষ্যতের বিশ্লেষণের জন্য নতুন মেট্রিক্স এবং কৌশলগুলি বোঝার ক্ষেত্রে প্রবেশ করুন৷

এন্ড-টু-এন্ড পুনরাবৃত্তি থেকে অনুসন্ধানমূলক বিশ্লেষণের সুবিধা

অনুসন্ধানমূলক বিশ্লেষণ করার সময়, সমগ্র বিশ্লেষণের যতটা সম্ভব পুনরাবৃত্তি করুন। সাধারণত আপনার কাছে সিগন্যাল সংগ্রহ, প্রক্রিয়াকরণ, মডেলিং ইত্যাদির একাধিক ধাপ থাকবে৷ আপনি যদি আপনার প্রাথমিক সংকেতগুলির একেবারে প্রথম ধাপটি নিখুঁত পেতে খুব বেশি সময় ব্যয় করেন তবে আপনি একই সময়ে আরও পুনরাবৃত্তি করার সুযোগগুলি হারাবেন৷ আরও, আপনি যখন শেষ পর্যন্ত আপনার ডেটা দেখেন, তখন আপনি এমন আবিষ্কার করতে পারেন যা আপনার দিক পরিবর্তন করে। অতএব, আপনার প্রাথমিক মনোযোগ নিখুঁততার দিকে নয় বরং সমস্ত উপায়ে যুক্তিসঙ্গত কিছু পাওয়ার দিকে হওয়া উচিত। নিজের জন্য নোটগুলি রেখে দিন এবং ফিল্টারিং পদক্ষেপগুলি এবং অপার্জযোগ্য বা অস্বাভাবিক অনুরোধগুলির মতো জিনিসগুলি স্বীকার করুন, তবে অনুসন্ধানমূলক বিশ্লেষণের শুরুতে সেগুলি থেকে মুক্তি পাওয়ার চেষ্টা করে সময় নষ্ট করবেন না।

প্রতিক্রিয়া জন্য দেখুন

আমরা সাধারণত ব্যবহারকারীর সাফল্যের চারপাশে বিভিন্ন মেট্রিক্স সংজ্ঞায়িত করি। উদাহরণস্বরূপ, ব্যবহারকারীরা কি একটি ফলাফলে ক্লিক করেছেন? তারপরে আপনি যদি সেই ডেটা সিস্টেমে ফেরত দেন (যা আমরা আসলে অনেক জায়গায় করি), আপনি মূল্যায়ন বিভ্রান্তির জন্য প্রচুর সুযোগ তৈরি করেন।

আপনি আপনার পরিবর্তনের মূল্যায়নের ভিত্তি হিসাবে আপনার সিস্টেমে খাওয়ানো মেট্রিক ব্যবহার করতে পারবেন না। আপনি যদি আরও বেশি বিজ্ঞাপন দেখান যা আরও ক্লিক পায়, তাহলে ব্যবহারকারীরা বেশি খুশি তা নির্ধারণ করার জন্য আপনি "আরো ক্লিক" ব্যবহার করতে পারবেন না, যদিও "আরো ক্লিক" এর অর্থ প্রায়ই "সুখী।" এছাড়াও, আপনি যে ভেরিয়েবলগুলিকে ফিড ব্যাক করেছেন এবং ম্যানিপুলেট করেছেন সেগুলির উপর স্লাইসিংও করা উচিত নয়, কারণ এর ফলে মিক্স শিফট হবে যা বোঝা কঠিন বা অসম্ভব।

মানসিকতা

এই বিভাগটি বর্ণনা করে কিভাবে অন্যদের সাথে কাজ করতে হয় এবং অন্তর্দৃষ্টি যোগাযোগ করতে হয়।

ডেটা বিশ্লেষণ প্রশ্ন দিয়ে শুরু হয়, ডেটা বা কৌশল নয়

তথ্য বিশ্লেষণ করার জন্য সবসময় একটি প্রেরণা আছে. প্রশ্ন বা অনুমান হিসাবে আপনার প্রয়োজনগুলি প্রণয়ন করা নিশ্চিত করতে সাহায্য করে যে আপনি যে ডেটা সংগ্রহ করছেন তা আপনি সংগ্রহ করছেন এবং আপনি ডেটার সম্ভাব্য ফাঁকগুলি সম্পর্কে চিন্তা করছেন৷ অবশ্যই, আপনি যে প্রশ্নগুলি জিজ্ঞাসা করেন তা আপনার ডেটা দেখার সাথে সাথে বিকাশ হওয়া উচিত। যাইহোক, একটি প্রশ্ন ছাড়া বিশ্লেষণ লক্ষ্যহীন শেষ হবে.

কিছু প্রিয় কৌশল খোঁজার ফাঁদ এড়িয়ে চলুন এবং তারপরে শুধুমাত্র সমস্যার অংশগুলি খুঁজে বের করুন যা এই কৌশলটি কাজ করে। আবার, স্পষ্ট প্রশ্ন তৈরি করা আপনাকে এই ফাঁদ এড়াতে সাহায্য করবে।

সংশয়বাদী এবং চ্যাম্পিয়ন উভয়ই হোন

আপনি ডেটা নিয়ে কাজ করার সময়, আপনি যে অন্তর্দৃষ্টিগুলি অর্জন করছেন তার চ্যাম্পিয়ন এবং সেগুলির প্রতি সন্দেহবাদী উভয়ই হতে হবে৷ আপনি যে ডেটা দেখছেন তাতে আশাকরি কিছু আকর্ষণীয় ঘটনা পাবেন। আপনি যখন একটি আকর্ষণীয় ঘটনা সনাক্ত করেন, নিজেকে নিম্নলিখিত প্রশ্নগুলি জিজ্ঞাসা করুন:

এটি কতটা দুর্দান্ত তা দেখানোর জন্য আমি অন্য কোন ডেটা সংগ্রহ করতে পারি?
আমি কি খুঁজে পেতে পারি যা এটিকে বাতিল করবে?"

বিশেষ করে এমন ক্ষেত্রে যেখানে আপনি এমন একজনের জন্য বিশ্লেষণ করছেন যিনি সত্যিই একটি নির্দিষ্ট উত্তর চান (উদাহরণস্বরূপ, "আমার বৈশিষ্ট্যটি দুর্দান্ত!"), ভুল করা এড়াতে আপনাকে অবশ্যই সন্দেহবাদীর ভূমিকা পালন করতে হবে।

পারস্পরিক সম্পর্ক!= কার্যকারণ

ডেটা সম্পর্কে তত্ত্ব তৈরি করার সময়, আমরা প্রায়শই জোর দিয়ে বলতে চাই যে "X এর কারণ Y"—উদাহরণস্বরূপ, "পৃষ্ঠা ধীর হয়ে যাওয়ার ফলে ব্যবহারকারীরা কম ক্লিক করে।" এমনকি xkcd জানে যে পারস্পরিক সম্পর্কের কারণে আপনি কেবল কার্যকারণ প্রতিষ্ঠা করতে পারবেন না। আপনি কীভাবে কার্যকারণ তত্ত্বকে বৈধতা দেবেন তা বিবেচনা করে, আপনি সাধারণত একটি কার্যকারণ তত্ত্ব কতটা বিশ্বাসযোগ্য তা সম্পর্কে ভাল ধারণা বিকাশ করতে পারেন।

কখনও কখনও, লোকেরা একটি পারস্পরিক সম্পর্ককে অর্থপূর্ণ হিসাবে ধরে রাখার চেষ্টা করে এই দাবি করে যে A এবং B এর মধ্যে কোনও কার্যকারণ সম্পর্ক না থাকলেও, কাকতালীয়তার অন্তর্নিহিত কিছু থাকতে হবে যাতে একটি সংকেত অন্যটির জন্য একটি ভাল সূচক বা প্রক্সি হতে পারে। এই এলাকা একাধিক হাইপোথিসিস পরীক্ষার সমস্যার জন্য বিপজ্জনক; যেমন xkcd এটাও জানে , পর্যাপ্ত পরীক্ষা এবং পর্যাপ্ত মাত্রা দেওয়া হলে, কিছু সংকেত একটি নির্দিষ্ট পরীক্ষার জন্য সারিবদ্ধ হবে। এটি বোঝায় না যে একই সংকেতগুলি ভবিষ্যতে সারিবদ্ধ হবে, তাই আপনার একটি কার্যকারণ তত্ত্ব বিবেচনা করার একই বাধ্যবাধকতা রয়েছে যেমন "একটি লুকানো প্রভাব C রয়েছে যা A এবং B উভয়ের কারণ হয়" যাতে আপনি কতটা যুক্তিসঙ্গত তা যাচাই করার চেষ্টা করতে পারেন এই

একজন ডেটা বিশ্লেষককে প্রায়শই এই কার্যকারণ প্রশ্নগুলি নেভিগেট করতে হবে যারা ডেটা ব্যবহার করতে চান। আপনি এই ভোক্তাদের সাথে পরিষ্কার হওয়া উচিত যে আপনি কার্যকারণ সম্পর্কে কী বলতে পারেন এবং কী বলতে পারেন না।

সমবয়সীদের সাথে শেয়ার করুন প্রথম, বহিরাগত ভোক্তাদের দ্বিতীয়

পূর্ববর্তী পয়েন্টগুলি আপনাকে সঠিক ধরণের সুস্থতা পরীক্ষা এবং বৈধতা দেওয়ার জন্য কিছু উপায়ের পরামর্শ দিয়েছে। কিন্তু একজন সহকর্মীর সাথে ভাগ করে নেওয়া হল এই সমস্ত জিনিসগুলি করতে নিজেকে বাধ্য করার সেরা উপায়গুলির মধ্যে একটি৷ একজন দক্ষ সহকর্মী আপনার ডেটার ভোক্তাদের তুলনায় গুণগতভাবে ভিন্ন প্রতিক্রিয়া প্রদান করতে পারে, বিশেষ করে যেহেতু ভোক্তাদের সাধারণত একটি এজেন্ডা থাকে। সহকর্মীরা বিশ্লেষণের মাধ্যমে একাধিক পয়েন্টে দরকারী। প্রথম দিকে আপনি আপনার সমবয়সীদের সম্পর্কে জানেন, পরিমাপের জিনিসগুলির জন্য পরামর্শ এবং এই এলাকায় অতীত গবেষণা সম্পর্কে জানতে পারেন। শেষের দিকে, সহকর্মীরা অদ্ভুততা, অসঙ্গতি বা অন্যান্য বিভ্রান্তিগুলি নির্দেশ করতে খুব ভাল।

আদর্শভাবে, আপনার এমন একজন সহকর্মীর কাছ থেকে প্রতিক্রিয়া পাওয়া উচিত যিনি আপনি যে ডেটা দেখছেন সে সম্পর্কে কিছু জানেন, তবে এমনকি সাধারণ ডেটা-বিশ্লেষণ অভিজ্ঞতা সহ একজন সহকর্মী অত্যন্ত মূল্যবান।

অজ্ঞতা এবং ভুল আশা করুন এবং গ্রহণ করুন

ডেটা থেকে আমরা যা শিখতে পারি তার অনেক সীমাবদ্ধতা রয়েছে। নেট সিলভার দ্য সিগন্যাল এবং নয়েজ- এ একটি শক্তিশালী কেস তৈরি করেছে যে শুধুমাত্র আমাদের নিশ্চিততার সীমা স্বীকার করে আমরা আরও ভাল ভবিষ্যদ্বাণীতে অগ্রগতি করতে পারি। অজ্ঞতা স্বীকার করা একটি শক্তি যা সাধারণত অবিলম্বে পুরস্কৃত হয় না। এটা তখন খারাপ লাগে, কিন্তু দীর্ঘমেয়াদে এটি আপনার এবং আপনার দলের জন্য একটি বড় সুবিধা। এটি আরও খারাপ লাগে যখন আপনি একটি ভুল করেন এবং পরে এটি আবিষ্কার করেন (অথবা এমনকি খুব দেরীতেও!), কিন্তু সক্রিয়ভাবে আপনার ভুলগুলির মালিকানা আপনাকে সম্মান দেয়। যে সম্মান বিশ্বাসযোগ্যতা এবং প্রভাব অনুবাদ.

বন্ধ চিন্তা

ভাল ডেটা বিশ্লেষণ করার জন্য বেশিরভাগ কাজ আপনার বিশ্লেষণের ভোক্তাদের কাছে অবিলম্বে স্পষ্ট হয় না। সত্য যে আপনি জনসংখ্যার আকার সাবধানে পরীক্ষা করেছেন এবং যাচাই করেছেন যে প্রভাবটি ব্রাউজার জুড়ে সামঞ্জস্যপূর্ণ ছিল সম্ভবত এই ডেটা থেকে সিদ্ধান্ত নেওয়ার চেষ্টা করা লোকেদের সচেতনতার কাছে পৌঁছাবে না। এটি আরও ব্যাখ্যা করে যে কেন ভাল ডেটা বিশ্লেষণ বেশিরভাগ লোকের কাছে মনে হয় তার চেয়ে বেশি সময় নেয় (বিশেষত যখন তারা শুধুমাত্র চূড়ান্ত আউটপুট দেখে)। বিশ্লেষক হিসাবে আমাদের কাজের অংশ হল এই পদক্ষেপগুলি কী এবং কেন সেগুলি গুরুত্বপূর্ণ সে সম্পর্কে ডেটা-ভিত্তিক অন্তর্দৃষ্টির গ্রাহকদের ধীরে ধীরে শিক্ষিত করা।

আপনার ডেটার এই সমস্ত হেরফের এবং অন্বেষণের প্রয়োজনীয়তা একটি ভাল ডেটা বিশ্লেষণ ভাষা এবং পরিবেশের প্রয়োজনীয়তাগুলিও তৈরি করে। ডেটা পরীক্ষা করার জন্য আমাদের কাছে অনেক সরঞ্জাম উপলব্ধ রয়েছে। উপরে আলোচিত বিভিন্ন কৌশলের জন্য বিভিন্ন টুল এবং ভাষা ভালোভাবে উপযোগী; সঠিক টুল বাছাই করা একজন বিশ্লেষকের জন্য একটি গুরুত্বপূর্ণ দক্ষতা। আপনি যে টুলটির সাথে সবচেয়ে স্বাচ্ছন্দ্য বোধ করেন তার ক্ষমতার দ্বারা সীমাবদ্ধ থাকা উচিত নয়; আপনার কাজ হল সত্যিকারের অন্তর্দৃষ্টি প্রদান করা, কোনো নির্দিষ্ট টুল প্রয়োগ করা নয়।

একে কখনও কখনও "প্রাথমিক ডেটা বিশ্লেষণ" বলা হয়। তথ্য বিশ্লেষণ ↩ সম্পর্কিত উইকিপিডিয়া নিবন্ধটি দেখুন
টেকনিক্যালি, এটা শুধুমাত্র পুনরাবৃত্তিমূলক হওয়া উচিত যদি আপনি অনুসন্ধানমূলক বিশ্লেষণ করছেন, নিশ্চিত বিশ্লেষণ নয়। ↩

লেখক: প্যাট্রিক রিলি

ইতিহাস

শেষ প্রধান আপডেট: জুন 2019
এই উপাদানগুলির কিছু পূর্ববর্তী সংস্করণ অনানুষ্ঠানিক Google ডেটা সায়েন্স ব্লগে উপস্থিত হয়েছিল: অক্টোবর 2016

ওভারভিউ

নথির অবশিষ্টাংশে ডেটা বিশ্লেষণের বিভিন্ন দিক কভার করে তিনটি বিভাগ রয়েছে:

প্রযুক্তিগত : আপনার ডেটা ম্যানিপুলেট এবং পরীক্ষা করার বিষয়ে ধারণা এবং কৌশল।
প্রক্রিয়া : আপনি কীভাবে আপনার ডেটার কাছে যান, কী প্রশ্ন জিজ্ঞাসা করতে হবে এবং কী জিনিসগুলি পরীক্ষা করতে হবে সে সম্পর্কে সুপারিশ।
মানসিকতা : কীভাবে অন্যদের সাথে কাজ করবেন এবং অন্তর্দৃষ্টি যোগাযোগ করবেন।

প্রযুক্তিগত

আপনার ডেটা পরীক্ষা করার জন্য কিছু কৌশল দেখুন।

আপনার বিতরণ দেখুন

বেশিরভাগ অনুশীলনকারী বন্টন সম্পর্কে যোগাযোগের জন্য সারাংশ মেট্রিক্স (উদাহরণস্বরূপ, গড়, মধ্যক, মানক বিচ্যুতি এবং তাই) ব্যবহার করে। যাইহোক, আপনার সাধারণত হিস্টোগ্রাম, ক্রমবর্ধমান বিতরণ ফাংশন (সিডিএফ), কোয়ান্টাইল-কোয়ান্টাইল (কিউকিউ) প্লট তৈরি করে আরও সমৃদ্ধ বিতরণ উপস্থাপনা পরীক্ষা করা উচিত। এই সমৃদ্ধ উপস্থাপনাগুলি আপনাকে ডেটার গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি সনাক্ত করতে দেয়, যেমন মাল্টিমোডাল আচরণ বা বহিরাগতদের একটি উল্লেখযোগ্য শ্রেণি।

বহিরাগতদের বিবেচনা করুন

গোলমাল বিবেচনা করুন

উদাহরণ তাকান

আপনি এই উদাহরণগুলি কীভাবে নমুনা করেন তা গুরুত্বপূর্ণ:

আপনি যদি অন্তর্নিহিত ডেটা শ্রেণীবদ্ধ করছেন, প্রতিটি শ্রেণীর অন্তর্গত উদাহরণগুলি দেখুন।
যদি এটি একটি বড় শ্রেণী হয়, আরও নমুনা দেখুন।
আপনি যদি একটি সংখ্যা গণনা করেন (উদাহরণস্বরূপ, পৃষ্ঠা লোডের সময়), নিশ্চিত করুন যে আপনি চরম উদাহরণগুলি দেখেছেন (সম্ভবত দ্রুততম এবং সবচেয়ে ধীর 5%; আপনি জানেন আপনার বিতরণটি কেমন দেখাচ্ছে, তাই না?) পাশাপাশি পুরো স্থান জুড়ে পয়েন্টগুলি পরিমাপের

আপনার ডেটা স্লাইস করুন

ব্যবহারিক গুরুত্ব বিবেচনা করুন

প্রচুর পরিমাণে ডেটা সহ, এটি শুধুমাত্র পরিসংখ্যানগত তাত্পর্যের উপর ফোকাস করতে বা প্রতিটি বিট ডেটার বিশদ বিবরণের উপর আলোকপাত করতে প্রলুব্ধ হতে পারে। কিন্তু আপনাকে নিজেকে জিজ্ঞাসা করতে হবে, "যদিও এটা সত্য যে X মান Y মানের থেকে 0.1% বেশি, তাতে কি কিছু যায় আসে?" এটি বিশেষভাবে গুরুত্বপূর্ণ হতে পারে যদি আপনি আপনার ডেটার অংশ বুঝতে/শ্রেণীবদ্ধ করতে না পারেন। আপনি যদি আপনার লগগুলিতে কিছু ব্যবহারকারী-এজেন্ট স্ট্রিংগুলি অনুধাবন করতে অক্ষম হন তবে এটি 0.1% বা 10% ডেটা উপস্থাপন করে কিনা তা আপনার এই ক্ষেত্রে কতটা তদন্ত করা উচিত তাতে একটি বড় পার্থক্য তৈরি করে।

বিকল্পভাবে, আপনার মাঝে মাঝে ডেটা একটি ছোট ভলিউম থাকে। অনেক পরিবর্তন পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ দেখাবে না, তবে এই পরিবর্তনগুলি "নিরপেক্ষ" দাবি করার চেয়ে এটি আলাদা। আপনাকে অবশ্যই নিজেকে জিজ্ঞাসা করতে হবে, "এখনও এটি কতটা সম্ভবত ব্যবহারিকভাবে উল্লেখযোগ্য পরিবর্তন রয়েছে?"

সময়ের সাথে ধারাবাহিকতা পরীক্ষা করুন

আপনার প্রায় সর্বদা সময়ের ইউনিটগুলির দ্বারা ডেটা টুকরো টুকরো করার চেষ্টা করা উচিত কারণ আমাদের সিস্টেমগুলি সময়ের সাথে সাথে বিকশিত হওয়ার সাথে সাথে অন্তর্নিহিত ডেটাতে অনেক ব্যাঘাত ঘটে। (আমরা প্রায়শই দিনগুলি ব্যবহার করি, তবে সময়ের অন্যান্য ইউনিটগুলিও কার্যকর হতে পারে)) কোনও বৈশিষ্ট্য বা নতুন ডেটা সংগ্রহের প্রাথমিক প্রবর্তনের সময়, অনুশীলনকারীরা প্রায়শই সাবধানতার সাথে পরীক্ষা করে দেখুন যে সবকিছু প্রত্যাশার মতো কাজ করছে। তবে সময়ের সাথে সাথে অনেকগুলি ভাঙ্গন বা অপ্রত্যাশিত আচরণ দেখা দিতে পারে।

কেবলমাত্র একটি নির্দিষ্ট দিন বা দিনের সেট একটি আউটলেটর হওয়ার অর্থ এই নয় যে আপনার সংশ্লিষ্ট ডেটা বাতিল করা উচিত। আপনি যে দিন বা দিনগুলি বাতিল করার আগে সেই দিন বা দিনগুলি আলাদা হয় তা নির্ধারণের জন্য ডেটা হুক হিসাবে ব্যবহার করুন।

ডে-ওভার-ডে ডেটা দেখার জন্য আপনাকে ডেটাগুলির মধ্যে পরিবর্তনের একটি ধারণাও দেয় যা অবশেষে আত্মবিশ্বাসের অন্তর বা পরিসংখ্যানগত তাত্পর্যগুলির দাবির দিকে পরিচালিত করে। এটি সাধারণত কঠোর আত্মবিশ্বাস-বিরোধী গণনা প্রতিস্থাপন করা উচিত নয়, তবে প্রায়শই বড় পরিবর্তনগুলির সাথে আপনি দেখতে পাচ্ছেন যে তারা কেবল দিনের ওভার-দিনের গ্রাফগুলি থেকে পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ হবে।

আপনার ফিল্টারিং স্বীকার করুন এবং গণনা করুন

প্রায় প্রতিটি বড় ডেটা বিশ্লেষণ বিভিন্ন পর্যায়ে ডেটা ফিল্টার করে শুরু হয়। হতে পারে আপনি কেবল মার্কিন ব্যবহারকারী, বা ওয়েব অনুসন্ধানগুলি, বা বিজ্ঞাপনগুলির সাথে অনুসন্ধানগুলি বিবেচনা করতে চান। যাই হোক না কেন, আপনার অবশ্যই:

আপনি কোন ফিল্টারিং করছেন তা স্বীকৃতি দিন এবং স্পষ্টভাবে নির্দিষ্ট করুন।
প্রতিটি পদক্ষেপে ফিল্টার করা ডেটা পরিমাণ গণনা করুন।

প্রায়শই পরবর্তীকালের সর্বোত্তম উপায় হ'ল আপনার সমস্ত মেট্রিকগুলি গণনা করা, এমনকি আপনি যে জনগোষ্ঠীর বাদে রয়েছেন তাদের জন্যও। তারপরে আপনি সেই তথ্যের উত্তর দেওয়ার জন্য সেই ডেটা দেখতে পারেন, "স্প্যাম ফিল্টারিং কোন প্রশ্নের ভগ্নাংশ অপসারণ করেছে?" (আপনি কেন ফিল্টার করছেন তার উপর নির্ভর করে এই ধরণের বিশ্লেষণ সর্বদা সম্ভব নাও হতে পারে))

অনুপাতের পরিষ্কার সংখ্যা এবং ডিনোমিনেটর থাকা উচিত

সর্বাধিক আকর্ষণীয় মেট্রিকগুলি অন্তর্নিহিত ব্যবস্থাগুলির অনুপাত। প্রায়শই, আকর্ষণীয় ফিল্টারিং বা অন্যান্য ডেটা পছন্দগুলি সংখ্যার এবং ডিনোমিনেটরের সুনির্দিষ্ট সংজ্ঞাগুলিতে লুকানো থাকে। উদাহরণস্বরূপ, নিম্নলিখিতগুলির মধ্যে কোনটি "প্রশ্ন / ব্যবহারকারী" আসলে বোঝায়?

ক্যোয়ারী / ব্যবহারকারীরা একটি ক্যোয়ারী সহ
প্রশ্ন / ব্যবহারকারী যারা আজ গুগল পরিদর্শন করেছেন
সক্রিয় অ্যাকাউন্ট সহ প্রশ্ন / ব্যবহারকারীরা (হ্যাঁ, আমাকে সক্রিয় সংজ্ঞা দিতে হবে)

এখানে সত্যই পরিষ্কার হওয়া নিজের এবং অন্যদের জন্য বিভ্রান্তি এড়াতে পারে।

আর একটি বিশেষ কেস হ'ল মেট্রিক যা কেবল আপনার কিছু ডেটাতে গণনা করা যায়। উদাহরণস্বরূপ "ক্লিক করার সময়" "সাধারণত অর্থ" ক্লিক করার সময়টি ক্লিক করার সময় "" আপনি যে কোনও সময় এই জাতীয় মেট্রিকের দিকে তাকিয়ে আছেন, আপনাকে সেই ফিল্টারিংটি স্বীকার করতে হবে এবং আপনি যে গোষ্ঠীগুলির তুলনা করছেন তার মধ্যে ফিল্টারিংয়ের শিফট সন্ধান করতে হবে।

প্রক্রিয়া

এই বিভাগে আপনার ডেটা কীভাবে যোগাযোগ করা যায়, আপনার ডেটা সম্পর্কে কী প্রশ্ন জিজ্ঞাসা করতে হবে এবং কী পরীক্ষা করতে হবে সে সম্পর্কে সুপারিশ রয়েছে।

পৃথক বৈধতা, বিবরণ এবং মূল্যায়ন পৃথক

আমি ডেটা বিশ্লেষণকে তিনটি আন্তঃসম্পর্কিত পর্যায়ে রয়েছে বলে মনে করি:

বৈধতা ¹ : আমি কি বিশ্বাস করি যে ডেটা স্ব-সামঞ্জস্যপূর্ণ, এটি সঠিকভাবে সংগ্রহ করা হয়েছিল এবং এটি আমার মনে হয় এটি উপস্থাপন করে?
বর্ণনা: এই ডেটার উদ্দেশ্যমূলক ব্যাখ্যা কী? উদাহরণস্বরূপ, "ব্যবহারকারীরা এক্স হিসাবে শ্রেণিবদ্ধ কম ক্যোয়ারী তৈরি করে" "এক্স এবং ওয়াইয়ের মধ্যে সময়টি 1% বড়," এবং "কম ব্যবহারকারী ফলাফলের পরবর্তী পৃষ্ঠায় যান" "
মূল্যায়ন: বিবরণ দেওয়া, ডেটা কি আমাদের বলে যে ব্যবহারকারীর জন্য, গুগল বা বিশ্বের জন্য ভাল কিছু ঘটছে?

এই পর্যায়গুলি পৃথক করে আপনি আরও সহজেই অন্যের সাথে চুক্তিতে পৌঁছাতে পারেন। বিবরণ এমন জিনিস হওয়া উচিত যা প্রত্যেকে ডেটার জন্য একমত হতে পারে। মূল্যায়ন সম্ভবত অনেক বেশি বিতর্ককে উত্সাহিত করতে পারে। আপনি যদি বিবরণ এবং মূল্যায়ন আলাদা না করেন তবে আপনি কেবল যে ডেটা দেখার আশা করছেন তার ব্যাখ্যাটি দেখার সম্ভাবনা রয়েছে। তদুপরি, মূল্যায়ন অনেক বেশি শক্ত হতে থাকে কারণ সাধারণত অন্যান্য বৈশিষ্ট্য এবং মেট্রিকগুলির সাথে কঠোর তুলনার মাধ্যমে একটি মেট্রিকের আদর্শিক মান প্রতিষ্ঠা করা, উল্লেখযোগ্য বিনিয়োগ নেয়।

এই পর্যায়গুলি রৈখিকভাবে অগ্রগতি করে না। আপনি ডেটা অন্বেষণ করার সাথে সাথে আপনি পর্যায়গুলির মধ্যে পিছনে পিছনে ঝাঁপিয়ে পড়তে পারেন তবে যে কোনও সময় আপনি কোন পর্যায়ে রয়েছেন তা পরিষ্কার হওয়া উচিত।

পরীক্ষা এবং ডেটা সংগ্রহের সেটআপ নিশ্চিত করুন

কোনও ডেটা দেখার আগে, নিশ্চিত হয়ে নিন যে আপনি যে প্রসঙ্গে ডেটা সংগ্রহ করা হয়েছিল তা আপনি বুঝতে পেরেছেন। যদি ডেটা কোনও পরীক্ষা থেকে আসে তবে পরীক্ষার কনফিগারেশনটি দেখুন। যদি এটি নতুন ক্লায়েন্ট ইনস্ট্রুমেন্টেশন থেকে আসে তবে কীভাবে ডেটা সংগ্রহ করা হয় সে সম্পর্কে আপনার কমপক্ষে মোটামুটি ধারণা রয়েছে তা নিশ্চিত করুন। আপনি অস্বাভাবিক/খারাপ কনফিগারেশন বা জনসংখ্যার বিধিনিষেধগুলি (যেমন কেবল ক্রোমের জন্য বৈধ ডেটা) স্পট করতে পারেন। এখানে উল্লেখযোগ্য যে কোনও কিছু আপনাকে পরে তত্ত্বগুলি তৈরি এবং যাচাই করতে সহায়তা করতে পারে। কিছু বিষয় বিবেচনা করা:

যদি পরীক্ষাটি চলছে তবে নিজেই চেষ্টা করে দেখুন। আপনি যদি না করতে পারেন তবে কমপক্ষে স্ক্রিনশট/আচরণের বিবরণগুলি দেখুন।
পরীক্ষাটি যে সময়ের পরিসীমাটি চালিয়েছিল সে সম্পর্কে অস্বাভাবিক কিছু ছিল কিনা তা পরীক্ষা করে দেখুন (ছুটির দিনগুলি, বড় লঞ্চ ইত্যাদি)।
কোন ব্যবহারকারীর জনসংখ্যা পরীক্ষার শিকার হয়েছিল তা নির্ধারণ করুন।

কি পরিবর্তন করা উচিত নয় তার জন্য পরীক্ষা করুন

"বৈধতা" পর্যায়ে অংশ হিসাবে, আপনার আগ্রহী প্রশ্নের উত্তর দেওয়ার আগে (উদাহরণস্বরূপ, "মুখের বৃদ্ধি বা হ্রাস ক্লিকগুলির ছবি যুক্ত করা হয়েছে?"), ডেটাতে অন্য কোনও পরিবর্তনশীলতা বাতিল করে যা প্রভাবিত হতে পারে পরীক্ষা। যেমন:

ব্যবহারকারীর সংখ্যা পরিবর্তন হয়েছে?
আমার সমস্ত উপগোষ্ঠীতে কি আক্রান্ত প্রশ্নের সঠিক সংখ্যা প্রদর্শিত হয়েছিল?
ত্রুটির হার কি বদলে গেছে?

এই প্রশ্নগুলি পরীক্ষা/নিয়ন্ত্রণের তুলনা এবং সময়ের সাথে ট্রেন্ডগুলি পরীক্ষা করার সময় উভয়ই বুদ্ধিমান।

স্ট্যান্ডার্ড প্রথম, কাস্টম দ্বিতীয়

নতুন বৈশিষ্ট্য এবং নতুন ডেটা দেখার সময়, বিশেষত এই নতুন বৈশিষ্ট্যের জন্য নতুন বা বিশেষ মেট্রিকগুলিতে সরাসরি ঝাঁপিয়ে পড়ার লোভনীয়। তবে আপনি সর্বদা প্রথমে স্ট্যান্ডার্ড মেট্রিকগুলির দিকে নজর দেওয়া উচিত, এমনকি যদি আপনি সেগুলি পরিবর্তনের প্রত্যাশা করেন। উদাহরণস্বরূপ, পৃষ্ঠায় একটি নতুন ইউনিভার্সাল ব্লক যুক্ত করার সময়, এই নতুন ফলাফল সম্পর্কে কাস্টম মেট্রিকগুলিতে ডাইভিংয়ের আগে "ওয়েব ফলাফলগুলিতে ক্লিকগুলি" এর মতো স্ট্যান্ডার্ড মেট্রিকগুলিতে প্রভাবটি বুঝতে পেরেছেন তা নিশ্চিত করুন।

স্ট্যান্ডার্ড মেট্রিকগুলি কাস্টম মেট্রিকগুলির চেয়ে আরও ভাল বৈধ এবং সঠিক হওয়ার সম্ভাবনা বেশি। যদি আপনার কাস্টম মেট্রিকগুলি আপনার স্ট্যান্ডার্ড মেট্রিকগুলির সাথে অর্থবোধ না করে তবে আপনার কাস্টম মেট্রিকগুলি সম্ভবত ভুল।

দু'বার বা আরও বেশি পরিমাপ করুন

বিশেষত যদি আপনি একটি নতুন ঘটনাটি ক্যাপচার করার চেষ্টা করছেন তবে একাধিক উপায়ে একই অন্তর্নিহিত জিনিসটি পরিমাপ করার চেষ্টা করুন। তারপরে, এই একাধিক পরিমাপ সামঞ্জস্যপূর্ণ কিনা তা নির্ধারণ করুন। একাধিক পরিমাপ ব্যবহার করে আপনি পরিমাপ বা লগিং কোড, অন্তর্নিহিত ডেটার অপ্রত্যাশিত বৈশিষ্ট্য বা গুরুত্বপূর্ণ যে ফিল্টারিং পদক্ষেপগুলি সনাক্ত করতে পারেন। আপনি যদি পরিমাপের জন্য বিভিন্ন ডেটা উত্স ব্যবহার করতে পারেন তবে এটি আরও ভাল।

পুনরুত্পাদনযোগ্যতার জন্য পরীক্ষা করুন

সময়ের সাথে সাথে স্লাইসিং এবং ধারাবাহিকতা উভয়ই প্রজননযোগ্যতার জন্য চেক করার বিশেষ উদাহরণ। যদি কোনও ঘটনা গুরুত্বপূর্ণ এবং অর্থবহ হয় তবে আপনার এটি বিভিন্ন ব্যবহারকারীর জনসংখ্যা এবং সময় জুড়ে দেখতে হবে। তবে পুনরুত্পাদনযোগ্যতা যাচাই করার অর্থ এই দুটি চেক সম্পাদন করার চেয়ে বেশি। আপনি যদি ডেটার মডেলগুলি তৈরি করছেন তবে আপনি চান যে এই মডেলগুলি অন্তর্নিহিত ডেটাতে ছোট ছোট্ট পার্টউবেশনগুলিতে স্থিতিশীল হোক। আপনার ডেটার বিভিন্ন সময়ের ব্যাপ্তি বা এলোমেলো উপ-নমুনাগুলি ব্যবহার করাও আপনাকে জানাবে যে এই মডেলটি কতটা নির্ভরযোগ্য/পুনরুত্পাদনযোগ্য।

যদি কোনও মডেল পুনরুত্পাদনযোগ্য না হয় তবে আপনি সম্ভবত অন্তর্নিহিত প্রক্রিয়া সম্পর্কে মৌলিক কিছু ক্যাপচার করছেন না যা ডেটা তৈরি করে।

অতীত পরিমাপের সাথে ধারাবাহিকতার জন্য পরীক্ষা করুন

প্রায়শই আপনি এমন একটি মেট্রিক গণনা করবেন যা অতীতে গণনা করা জিনিসগুলির সাথে সমান। এই পরিমাপগুলি বিভিন্ন ব্যবহারকারীর জনসংখ্যার উপর থাকলেও অতীতে আপনার মেট্রিকগুলির সাথে আপনার মেট্রিকগুলির তুলনা করা উচিত।

উদাহরণস্বরূপ, আপনি যদি কোনও বিশেষ জনগোষ্ঠীর ক্যোয়ারী ট্র্যাফিকের দিকে তাকিয়ে থাকেন এবং আপনি পরিমাপ করেন যে গড় পৃষ্ঠার লোডের সময়টি 5 সেকেন্ড, তবে সমস্ত ব্যবহারকারীর উপর অতীত বিশ্লেষণগুলি 2 সেকেন্ডের গড় পৃষ্ঠা লোড সময় দিয়েছে, তবে আপনাকে তদন্ত করতে হবে। আপনার সংখ্যাটি এই জনসংখ্যার জন্য সঠিক হতে পারে তবে এখন এটি বৈধ করার জন্য আপনাকে আরও কাজ করতে হবে।

আপনার সঠিক চুক্তি করার দরকার নেই, তবে আপনার একই বলপার্কে থাকা উচিত। আপনি যদি না হন তবে ধরে নিন যে আপনি নিজেকে পুরোপুরি বোঝাতে না পারলে আপনি ভুল। সর্বাধিক আশ্চর্যজনক ডেটা একটি ত্রুটি হিসাবে পরিণত হবে, একটি কল্পিত নতুন অন্তর্দৃষ্টি নয়।

নতুন মেট্রিকগুলি প্রথমে পুরানো ডেটা/বৈশিষ্ট্যগুলিতে প্রয়োগ করা উচিত

আপনি যদি নতুন মেট্রিকগুলি তৈরি করেন (সম্ভবত কোনও অভিনব ডেটা উত্স সংগ্রহ করে) এবং নতুন কিছু শেখার চেষ্টা করুন, আপনার নতুন মেট্রিকটি সঠিক কিনা তা আপনি জানতে পারবেন না। নতুন মেট্রিকগুলির সাহায্যে আপনার প্রথমে এগুলি একটি পরিচিত বৈশিষ্ট্য বা ডেটাতে প্রয়োগ করা উচিত। উদাহরণস্বরূপ, যদি আপনার ব্যবহারকারীর সন্তুষ্টির জন্য একটি নতুন মেট্রিক থাকে তবে আপনার নিশ্চিত হওয়া উচিত যে এটি আপনাকে আপনার সেরা বৈশিষ্ট্যগুলি সন্তুষ্টি সহায়তা করে। ব্যবহারকারীরা যেখানে পৃষ্ঠার দিকে তাদের দৃষ্টি আকর্ষণ করছেন তার জন্য যদি আপনার কাছে একটি নতুন মেট্রিক থাকে, তবে চিত্রগুলি কীভাবে পৃষ্ঠার মনোযোগকে প্রভাবিত করে সে সম্পর্কে চোখের ট্র্যাকিং বা রেটার স্টাডিজের দিকে তাকানো থেকে আমরা কী জানি তার সাথে এটি মেলে তা নিশ্চিত হয়ে নিন। আপনি যখন নতুন কিছু শিখতে যান তখন এটি করা বৈধতা সরবরাহ করে।

অনুমান করুন এবং প্রমাণের সন্ধান করুন

সাধারণত, একটি জটিল সমস্যার জন্য ডেটা বিশ্লেষণ পুনরাবৃত্তি হয়। ² আপনি ডেটাগুলির অসঙ্গতি, প্রবণতা বা অন্যান্য বৈশিষ্ট্যগুলি আবিষ্কার করবেন। স্বাভাবিকভাবেই, আপনি এই ডেটা ব্যাখ্যা করার জন্য তত্ত্বগুলি বিকাশ করবেন। কেবল একটি তত্ত্ব বিকাশ করবেন না এবং এটি সত্য বলে ঘোষণা করবেন না। এই তত্ত্বটি নিশ্চিত/অস্বীকার করতে প্রমাণ (ডেটার ভিতরে বা বাইরে) সন্ধান করুন। যেমন:

আপনি যদি এমন কিছু দেখতে পান যা শেখার প্রবণতার মতো দেখায় তবে দেখুন এটি উচ্চ ফ্রিকোয়েন্সি ব্যবহারকারীদের সাথে সবচেয়ে দৃ strongly ়ভাবে প্রকাশিত হয় কিনা।
আপনি যদি বিশ্বাস করেন যে কোনও বৈশিষ্ট্যগুলি কিছু বৈশিষ্ট্য প্রবর্তনের কারণে, তবে নিশ্চিত হয়ে নিন যে বৈশিষ্ট্যটি যে জনসংখ্যা চালু করেছে তা কেবলমাত্র অসঙ্গতি দ্বারা প্রভাবিত। বিকল্পভাবে, নিশ্চিত হয়ে নিন যে পরিবর্তনের পরিমাণটি প্রবর্তনের প্রত্যাশার সাথে সামঞ্জস্যপূর্ণ।
আপনি যদি কোনও লোকালে ব্যবহারকারীদের বৃদ্ধির হার পরিবর্তন দেখতে পান তবে এমন একটি বাহ্যিক উত্স সন্ধান করার চেষ্টা করুন যা সেই ব্যবহারকারী-জনসংখ্যার পরিবর্তনের হারকে বৈধতা দেয়।

ভাল ডেটা বিশ্লেষণে বলার জন্য একটি গল্প থাকবে। এটি সঠিক গল্পটি নিশ্চিত করার জন্য আপনাকে গল্পটি নিজের কাছে বলতে হবে, তারপরে এটি ভুল বলে প্রমাণের সন্ধান করুন। এটি করার একটি উপায় হ'ল নিজেকে জিজ্ঞাসা করা, "আমি কোন পরীক্ষাগুলি চালাব যা আমি যে গল্পটি বলছি তা বৈধতা/অকার্যকর করে দেবে?" এমনকি যদি আপনি এই পরীক্ষাগুলি না করতে পারেন/না করতে পারেন তবে এটি আপনাকে যে ডেটা রয়েছে তা দিয়ে কীভাবে বৈধতা দেওয়া যায় সে সম্পর্কে আপনাকে ধারণা দিতে পারে।

সুসংবাদটি হ'ল এই তত্ত্বগুলি এবং সম্ভাব্য পরীক্ষাগুলি কোনও নির্দিষ্ট বৈশিষ্ট্য বা ডেটা সম্পর্কে শিখতে চেষ্টা করে এমন নতুন তদন্তের দিকে পরিচালিত করতে পারে। তারপরে আপনি কেবল এই ডেটা নয়, ভবিষ্যতের সমস্ত ধরণের বিশ্লেষণের জন্য নতুন মেট্রিক এবং কৌশল অর্জনের ক্ষেত্রে বোঝার ক্ষেত্রটি প্রবেশ করুন।

অনুসন্ধান বিশ্লেষণ শেষ থেকে শেষের পুনরাবৃত্তি থেকে সুবিধা

অনুসন্ধান বিশ্লেষণ করার সময়, পুরো বিশ্লেষণের যতটা সম্ভব পুনরাবৃত্তি সম্পাদন করুন। সাধারণত আপনার কাছে সিগন্যাল সংগ্রহ, প্রক্রিয়াজাতকরণ, মডেলিং ইত্যাদির একাধিক পদক্ষেপ থাকবে যদি আপনি আপনার প্রাথমিক সংকেতগুলির প্রথম পর্যায়ে নিখুঁত পেতে খুব বেশি সময় ব্যয় করেন তবে আপনি একই সময়ে আরও পুনরাবৃত্তি করার সুযোগগুলি হারিয়ে ফেলছেন। আরও, আপনি যখন শেষ পর্যন্ত শেষে আপনার ডেটা দেখেন, আপনি আবিষ্কারগুলি তৈরি করতে পারেন যা আপনার দিক পরিবর্তন করে। অতএব, আপনার প্রাথমিক ফোকাসটি পরিপূর্ণতার দিকে নয় তবে পুরো পথটি যুক্তিসঙ্গত কিছু পাওয়ার জন্য হওয়া উচিত। নিজের জন্য নোটগুলি ছেড়ে দিন এবং ফিল্টারিং পদক্ষেপগুলি এবং অবিচ্ছিন্ন বা অস্বাভাবিক অনুরোধগুলির মতো বিষয়গুলি স্বীকৃতি দিন, তবে অনুসন্ধানের বিশ্লেষণের শুরুতে সেগুলি থেকে মুক্তি পাওয়ার চেষ্টা করার সময় নষ্ট করবেন না।

প্রতিক্রিয়া জন্য দেখুন

আমরা সাধারণত ব্যবহারকারীর সাফল্যের চারপাশে বিভিন্ন মেট্রিকগুলি সংজ্ঞায়িত করি। উদাহরণস্বরূপ, ব্যবহারকারীরা কি ফলাফলটিতে ক্লিক করেছেন? আপনি যদি সেই ডেটাটিকে সিস্টেমে ফেরত খাওয়ান (যা আমরা আসলে বেশ কয়েকটি জায়গায় করি), আপনি মূল্যায়ন বিভ্রান্তির জন্য প্রচুর সুযোগ তৈরি করেন।

আপনার পরিবর্তনের মূল্যায়নের ভিত্তি হিসাবে আপনার সিস্টেমে ফেরত খাওয়ানো মেট্রিকটি আপনি ব্যবহার করতে পারবেন না। আপনি যদি আরও বেশি বিজ্ঞাপন দেখায় যা আরও ক্লিকগুলি পায় তবে আপনি "আরও ক্লিক" এর অর্থ প্রায়শই "সুখী" হলেও ব্যবহারকারীরা আরও সুখী হওয়ার সিদ্ধান্ত নেওয়ার ভিত্তি হিসাবে "আরও ক্লিক" ব্যবহার করতে পারবেন না। তদুপরি, আপনি যে ভেরিয়েবলগুলি খাওয়ানো এবং ম্যানিপুলেটেড করেছেন সেগুলিও আপনার টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো

মানসিকতা

এই বিভাগটি কীভাবে অন্যের সাথে কাজ করতে এবং অন্তর্দৃষ্টি যোগাযোগ করতে হয় তা বর্ণনা করে।

ডেটা বিশ্লেষণ প্রশ্নগুলির সাথে শুরু হয়, ডেটা বা কোনও কৌশল নয়

ডেটা বিশ্লেষণ করার জন্য সর্বদা একটি অনুপ্রেরণা থাকে। প্রশ্ন বা অনুমান হিসাবে আপনার প্রয়োজনগুলি তৈরি করা নিশ্চিত করতে সহায়তা করে যে আপনি যে ডেটা সংগ্রহ করছেন তা আপনি সংগ্রহ করছেন এবং আপনি ডেটার সম্ভাব্য ফাঁকগুলি সম্পর্কে ভাবছেন তা নিশ্চিত করতে সহায়তা করে। অবশ্যই, আপনি যে প্রশ্নগুলি জিজ্ঞাসা করেছেন সেগুলি আপনি ডেটা দেখার সাথে সাথে বিকশিত হওয়া উচিত। তবে কোনও প্রশ্ন ছাড়াই বিশ্লেষণ লক্ষ্যহীন শেষ হবে।

কিছু প্রিয় কৌশল সন্ধানের ফাঁদ এড়িয়ে চলুন এবং তারপরে কেবল এই কৌশলটি যে সমস্যার কাজ করে তা সন্ধান করুন। আবার, পরিষ্কার প্রশ্ন তৈরি করা আপনাকে এই ফাঁদ এড়াতে সহায়তা করবে।

উভয় সংশয়ী এবং চ্যাম্পিয়ন হন

আপনি যখন ডেটা নিয়ে কাজ করেন, আপনি অবশ্যই যে অন্তর্দৃষ্টিগুলি অর্জন করছেন তার চ্যাম্পিয়ন এবং সেগুলির সন্দেহজনক উভয়ই হতে হবে। আপনি আশা করি আপনি যে ডেটা দেখছেন সেগুলিতে আপনি কিছু আকর্ষণীয় ঘটনা খুঁজে পাবেন। আপনি যখন একটি আকর্ষণীয় ঘটনা সনাক্ত করেন, তখন নিজেকে নিম্নলিখিত প্রশ্নগুলি জিজ্ঞাসা করুন:

এটি কতটা দুর্দান্ত তা দেখানোর জন্য আমি আর কোন ডেটা সংগ্রহ করতে পারি?
আমি কী খুঁজে পেতে পারি যে এটি বাতিল করে দেবে? "

বিশেষত এমন ক্ষেত্রে যেখানে আপনি এমন কোনও ব্যক্তির জন্য বিশ্লেষণ করছেন যিনি সত্যই একটি নির্দিষ্ট উত্তর চান (উদাহরণস্বরূপ, "আমার বৈশিষ্ট্যটি দুর্দান্ত!"), ত্রুটিগুলি এড়াতে আপনাকে অবশ্যই সংশয়ী খেলতে হবে।

পারস্পরিক সম্পর্ক! = কার্যকারিতা

ডেটা সম্পর্কে তত্ত্বগুলি তৈরি করার সময়, আমরা প্রায়শই দৃ sert ়ভাবে বলতে চাই যে "এক্স কারণ ওয়াই" - উদাহরণস্বরূপ, "পৃষ্ঠাটি ধীর হয়ে যাওয়ার কারণে ব্যবহারকারীরা কম ক্লিক করতে পারে।" এমনকি এক্সকেসিডিও জানে যে আপনি পারস্পরিক সম্পর্কের কারণে কেবল কার্যকারিতা প্রতিষ্ঠা করতে পারবেন না। আপনি কীভাবে কার্যকারণের তত্ত্বকে বৈধতা দেবেন তা বিবেচনা করে আপনি সাধারণত কার্যকারণ তত্ত্বটি কতটা বিশ্বাসযোগ্য তা সম্পর্কে একটি ভাল ধারণা বিকাশ করতে পারেন।

কখনও কখনও, লোকেরা এ এবং বি এর মধ্যে কোনও কার্যকারণ সম্পর্ক না থাকলেও কাকতালীয় কিছু থাকতে হবে যাতে একটি সংকেত অন্যের জন্য একটি ভাল সূচক বা প্রক্সি হতে পারে তা জোর দিয়ে এই জোর দিয়ে একটি সম্পর্ককে অর্থবহ হিসাবে ধরে রাখার চেষ্টা করে। এই অঞ্চলটি একাধিক হাইপোথিসিস পরীক্ষার সমস্যার জন্য বিপজ্জনক; যেমন এক্সকেসিডিও জানে , পর্যাপ্ত পরীক্ষা -নিরীক্ষা এবং পর্যাপ্ত মাত্রা দেওয়া হয়েছে, কিছু সংকেত একটি নির্দিষ্ট পরীক্ষার জন্য সারিবদ্ধ হবে। এটি বোঝায় না যে একই সংকেতগুলি ভবিষ্যতে সারিবদ্ধ হবে, সুতরাং আপনার কার্যকারণ তত্ত্ব বিবেচনা করার একই বাধ্যবাধকতা রয়েছে যেমন "এখানে একটি লুকানো প্রভাব সি রয়েছে যা এ এবং বি উভয়ই ঘটায়" যাতে আপনি কীভাবে প্রশংসনীয় বৈধতা দেওয়ার চেষ্টা করতে পারেন এই

একজন ডেটা বিশ্লেষককে প্রায়শই ডেটা গ্রাস করতে চান এমন লোকদের জন্য এই কার্যকারণ প্রশ্নগুলি নেভিগেট করতে হবে। কার্যকারিতা সম্পর্কে আপনি কী বলতে পারবেন এবং কী বলতে পারবেন না তা আপনার গ্রাহকদের সাথে পরিষ্কার হওয়া উচিত।

প্রথম সহকর্মীদের সাথে ভাগ করুন, বাহ্যিক গ্রাহকরা দ্বিতীয়

পূর্ববর্তী পয়েন্টগুলি নিজেকে সঠিক ধরণের সাউন্ডনেস চেকিং এবং বৈধতা করার জন্য কিছু উপায়ের পরামর্শ দিয়েছে। তবে পিয়ারের সাথে ভাগ করে নেওয়া নিজেকে এই সমস্ত কাজ করতে বাধ্য করার অন্যতম সেরা উপায়। একজন দক্ষ পিয়ার আপনার ডেটার গ্রাহকদের তুলনায় গুণগতভাবে বিভিন্ন প্রতিক্রিয়া সরবরাহ করতে পারে, বিশেষত যেহেতু গ্রাহকদের সাধারণত একটি এজেন্ডা থাকে। সহকর্মীরা বিশ্লেষণের মাধ্যমে একাধিক পয়েন্টে দরকারী। প্রথম দিকে আপনি গোটচাস সম্পর্কে জানতে পারেন আপনার পিয়ার সম্পর্কে জানেন, জিনিসগুলি পরিমাপ করার জন্য পরামর্শ এবং এই অঞ্চলে অতীত গবেষণা। শেষের দিকে, সমবয়সীরা বিজোড়তা, অসঙ্গতি বা অন্যান্য বিভ্রান্তিগুলি নির্দেশ করে খুব ভাল।

আদর্শভাবে, আপনার এমন একজন পিয়ারের কাছ থেকে প্রতিক্রিয়া পাওয়া উচিত যিনি আপনি যে ডেটা দেখছেন সে সম্পর্কে কিছু জানেন তবে এমনকি কেবল সাধারণ ডেটা-বিশ্লেষণ অভিজ্ঞতার সাথে একজন পিয়ারও অত্যন্ত মূল্যবান।

অজ্ঞতা এবং ভুলগুলি প্রত্যাশা করুন এবং গ্রহণ করুন

আমরা ডেটা থেকে কী শিখতে পারি তার অনেক সীমা রয়েছে। নেট সিলভার সিগন্যাল এবং আওয়াজে একটি শক্তিশালী কেস তৈরি করে যা কেবলমাত্র আমাদের নিশ্চিততার সীমা স্বীকার করেই আমরা আরও ভাল ভবিষ্যদ্বাণীতে অগ্রগতি করতে পারি। অজ্ঞতা স্বীকার করা একটি শক্তি যা সাধারণত তাত্ক্ষণিকভাবে পুরস্কৃত হয় না। এটি তখন খারাপ লাগে তবে এটি দীর্ঘমেয়াদে আপনার এবং আপনার দলের পক্ষে একটি দুর্দান্ত উপকার। আপনি যখন কোনও ভুল করেন এবং পরে এটি আবিষ্কার করেন (বা এমনকি দেরী!) এটি আরও খারাপ মনে হয় তবে সক্রিয়ভাবে আপনার ভুলগুলি অনুসারে আপনার সম্মান অর্জন করে। এই শ্রদ্ধা বিশ্বাসযোগ্যতা এবং প্রভাব মধ্যে অনুবাদ করে।

বন্ধ চিন্তা

ভাল ডেটা বিশ্লেষণ করার বেশিরভাগ কাজ আপনার বিশ্লেষণের গ্রাহকদের কাছে তাত্ক্ষণিকভাবে স্পষ্ট নয়। আপনি জনসংখ্যার আকারগুলি সাবধানতার সাথে পরীক্ষা করেছেন এবং বৈধতা দিয়েছেন যে ব্রাউজারগুলিতে প্রভাবটি সামঞ্জস্যপূর্ণ ছিল তা সম্ভবত এই ডেটা থেকে সিদ্ধান্ত নেওয়ার চেষ্টা করা লোকদের সচেতনতায় পৌঁছাবে না। এটি আরও ব্যাখ্যা করে যে কেন ভাল ডেটা বিশ্লেষণটি বেশিরভাগ লোকের কাছে মনে হয় তার চেয়ে বেশি সময় নেয় (বিশেষত যখন তারা কেবল চূড়ান্ত আউটপুট দেখেন)। বিশ্লেষক হিসাবে আমাদের কাজের একটি অংশ হ'ল এই পদক্ষেপগুলি কী এবং কেন সেগুলি গুরুত্বপূর্ণ তা নিয়ে ধীরে ধীরে ডেটা-ভিত্তিক অন্তর্দৃষ্টি সম্পর্কে গ্রাহকদের শিক্ষিত করা।

আপনার ডেটার এই সমস্ত হেরফের এবং অনুসন্ধানের প্রয়োজনীয়তা একটি ভাল ডেটা বিশ্লেষণ ভাষা এবং পরিবেশের জন্য প্রয়োজনীয়তাও দেয়। ডেটা পরীক্ষা করার জন্য আমাদের কাছে অনেকগুলি সরঞ্জাম উপলব্ধ। বিভিন্ন সরঞ্জাম এবং ভাষা উপরে আলোচিত বিভিন্ন কৌশলগুলির জন্য আরও উপযুক্ত; সঠিক সরঞ্জামটি বাছাই করা বিশ্লেষকের জন্য একটি গুরুত্বপূর্ণ দক্ষতা। আপনি যে সরঞ্জামটির সাথে সবচেয়ে বেশি স্বাচ্ছন্দ্য বোধ করছেন তার ক্ষমতা দ্বারা আপনার সীমাবদ্ধ হওয়া উচিত নয়; আপনার কাজটি হ'ল সত্য অন্তর্দৃষ্টি সরবরাহ করা, কোনও নির্দিষ্ট সরঞ্জাম প্রয়োগ না করা।

এটিকে কখনও কখনও "প্রাথমিক ডেটা বিশ্লেষণ" বলা হয়। ডেটা বিশ্লেষণ সম্পর্কিত উইকিপিডিয়া নিবন্ধ দেখুন ↩
প্রযুক্তিগতভাবে, এটি কেবল তখনই পুনরাবৃত্তি হওয়া উচিত যদি আপনি অনুসন্ধান বিশ্লেষণ করছেন না, নিশ্চিতকরণের বিশ্লেষণ নয়। ↩