লেখক: প্যাট্রিক রিলি
বিশেষ ধন্যবাদ: ডায়ান ট্যাং, রেহান খান, এলিজাবেথ টাকার, আমির নাজমি, হিলারি হাচিনসন, জোয়েল ডার্নাউয়ার, ডেল নিল, অ্যানার বেন-আর্টজি, স্যান্ডার্স ক্লেইনফেল্ড, ডেভিড ওয়েস্টব্রুক এবং ব্যারি রোজেনবার্গ।
ইতিহাস
- শেষ প্রধান আপডেট: জুন 2019
- এই উপাদানগুলির কিছু পূর্ববর্তী সংস্করণ অনানুষ্ঠানিক Google ডেটা সায়েন্স ব্লগে উপস্থিত হয়েছিল: অক্টোবর 2016
ওভারভিউ
তথ্যের স্তূপ থেকে সত্য এবং অন্তর্দৃষ্টি অর্জন একটি শক্তিশালী কিন্তু ত্রুটি-প্রবণ কাজ। সেরা ডেটা বিশ্লেষক এবং ডেটা-মনস্ক ইঞ্জিনিয়াররা ডেটা থেকে বিশ্বাসযোগ্য উচ্চারণ করার জন্য একটি খ্যাতি তৈরি করে। কিন্তু তারা কি করছে যা তাদের বিশ্বাসযোগ্যতা দেয়? আমি প্রায়শই সাবধান এবং পদ্ধতিগত বিশেষণ শুনি, কিন্তু সবচেয়ে সতর্ক এবং পদ্ধতিগত বিশ্লেষকরা আসলে কী করেন?
এটি একটি তুচ্ছ প্রশ্ন নয়, বিশেষ করে আমরা নিয়মিত Google-এ যে ধরনের ডেটা সংগ্রহ করি তা বিবেচনা করে। আমরা সাধারণত খুব বড় ডেটা সেট নিয়ে কাজ করি না, কিন্তু সেই ডেটা সেটগুলি অত্যন্ত সমৃদ্ধ। অর্থাৎ, ডেটার প্রতিটি সারিতে সাধারণত অনেকগুলি, অনেকগুলি বৈশিষ্ট্য থাকে৷ আপনি যখন একটি প্রদত্ত ব্যবহারকারীর জন্য ইভেন্টের সাময়িক ক্রমগুলির সাথে এটি একত্রিত করেন, তখন ডেটা দেখার জন্য প্রচুর উপায় রয়েছে৷ এটিকে একটি সাধারণ একাডেমিক মনোবিজ্ঞান পরীক্ষার সাথে তুলনা করুন যেখানে গবেষকের জন্য প্রতিটি একক ডেটা পয়েন্টের দিকে তাকানো তুচ্ছ। আমাদের বৃহৎ, উচ্চ-মাত্রিক ডেটা সেটগুলির দ্বারা উত্থাপিত সমস্যাগুলি বৈজ্ঞানিক কাজের ইতিহাসের বেশিরভাগ সময়ে সম্মুখীন হওয়া সমস্যাগুলির থেকে অনেক আলাদা।
এই দস্তাবেজটি ধারনা এবং কৌশলগুলির সংক্ষিপ্তসার করে যা যত্নশীল, পদ্ধতিগত বিশ্লেষকরা বড়, উচ্চ-মাত্রিক ডেটা সেটগুলিতে ব্যবহার করেন। যদিও এই নথিটি লগ এবং পরীক্ষামূলক বিশ্লেষণের ডেটার উপর ফোকাস করে, এই কৌশলগুলির মধ্যে অনেকগুলি আরও ব্যাপকভাবে প্রযোজ্য।
নথির অবশিষ্টাংশে ডেটা বিশ্লেষণের বিভিন্ন দিক কভার করে তিনটি বিভাগ রয়েছে:
- প্রযুক্তিগত : আপনার ডেটা ম্যানিপুলেট এবং পরীক্ষা করার বিষয়ে ধারণা এবং কৌশল।
- প্রক্রিয়া : আপনি কীভাবে আপনার ডেটার কাছে যান, কী প্রশ্ন জিজ্ঞাসা করতে হবে এবং কী জিনিসগুলি পরীক্ষা করতে হবে সে সম্পর্কে সুপারিশ।
- মানসিকতা : কীভাবে অন্যদের সাথে কাজ করবেন এবং অন্তর্দৃষ্টি যোগাযোগ করবেন।
প্রযুক্তিগত
আপনার ডেটা পরীক্ষা করার জন্য কিছু কৌশল দেখুন।
আপনার বিতরণ দেখুন
বেশিরভাগ অনুশীলনকারীরা বন্টন সম্পর্কে যোগাযোগ করতে সারাংশ মেট্রিক্স (উদাহরণস্বরূপ, গড়, মধ্যক, মানক বিচ্যুতি ইত্যাদি) ব্যবহার করে। যাইহোক, আপনার সাধারণত হিস্টোগ্রাম, ক্রমবর্ধমান বিতরণ ফাংশন (সিডিএফ), কোয়ান্টাইল-কোয়ান্টাইল (কিউকিউ) প্লট তৈরি করে আরও সমৃদ্ধ বিতরণ উপস্থাপনা পরীক্ষা করা উচিত। এই সমৃদ্ধ উপস্থাপনাগুলি আপনাকে ডেটার গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি সনাক্ত করতে দেয়, যেমন মাল্টিমোডাল আচরণ বা বহিরাগতদের একটি উল্লেখযোগ্য শ্রেণি।
বহিরাগতদের বিবেচনা করুন
আউটলিয়ারদের সাবধানে পরীক্ষা করুন কারণ তারা কয়লা খনিতে ক্যানারি হতে পারে যা আপনার বিশ্লেষণের সাথে আরও মৌলিক সমস্যা নির্দেশ করে। আপনার ডেটা থেকে বহিরাগতদের বাদ দেওয়া বা একটি "অস্বাভাবিক" বিভাগে একত্রিত করা ভাল, তবে আপনাকে নিশ্চিত করতে হবে যে কেন ডেটা সেই বিভাগে শেষ হয়েছে তা আপনি জানেন।
উদাহরণ স্বরূপ, সর্বনিম্ন সংখ্যক ক্লিক সহ ক্যোয়ারীগুলি দেখলে এমন উপাদানগুলির উপর ক্লিকগুলি প্রকাশ হতে পারে যেগুলি আপনি গণনা করতে ব্যর্থ হচ্ছেন৷ সর্বাধিক সংখ্যক ক্লিকের প্রশ্নগুলির দিকে তাকালে এমন ক্লিকগুলি প্রকাশ হতে পারে যা আপনাকে গণনা করা উচিত নয়৷ অন্যদিকে, এমন কিছু বহিরাগত হতে পারে যা আপনি কখনই ব্যাখ্যা করতে পারবেন না, তাই আপনি এই কাজের জন্য কতটা সময় ব্যয় করবেন সে সম্পর্কে আপনাকে সতর্ক থাকতে হবে।
গোলমাল বিবেচনা করুন
এলোমেলোতা বিদ্যমান এবং আমাদের বোকা তৈরি করবে। কেউ কেউ মনে করেন, “গুগলের এত ডেটা আছে; গোলমাল চলে যায়।" এই সহজভাবে সত্য নয়. আপনার তৈরি করা ডেটার প্রতিটি সংখ্যা বা সারাংশের এই অনুমানে আপনার আস্থার একটি সহগামী ধারণা থাকা উচিত (আস্থার ব্যবধান এবং p-মানগুলির মতো পরিমাপের মাধ্যমে)।
উদাহরণ তাকান
যে কোনো সময় আপনি নতুন বিশ্লেষণ কোড তৈরি করছেন, আপনাকে অন্তর্নিহিত ডেটা থেকে উদাহরণগুলি দেখতে হবে এবং কীভাবে আপনার কোড সেই উদাহরণগুলিকে ব্যাখ্যা করছে। এই ধাপটি সম্পাদন না করে কোনো জটিলতার কাজের কোড তৈরি করা প্রায় অসম্ভব। আপনার বিশ্লেষণ দরকারী সারাংশ তৈরি করার জন্য অন্তর্নিহিত ডেটা থেকে অনেক বিবরণ বিমূর্ত করছে। স্বতন্ত্র উদাহরণগুলির সম্পূর্ণ জটিলতা দেখে, আপনি আস্থা অর্জন করতে পারেন যে আপনার সংক্ষিপ্তকরণ যুক্তিসঙ্গত।
আপনি এই উদাহরণগুলি কীভাবে নমুনা করেন তা গুরুত্বপূর্ণ:
- আপনি যদি অন্তর্নিহিত ডেটা শ্রেণীবদ্ধ করছেন, প্রতিটি শ্রেণীর অন্তর্গত উদাহরণগুলি দেখুন।
- যদি এটি একটি বড় শ্রেণী হয়, আরও নমুনা দেখুন।
- আপনি যদি একটি সংখ্যা গণনা করেন (উদাহরণস্বরূপ, পৃষ্ঠা লোডের সময়), নিশ্চিত করুন যে আপনি চরম উদাহরণগুলি দেখেছেন (সম্ভবত দ্রুততম এবং সবচেয়ে ধীর 5%; আপনি জানেন আপনার বিতরণটি কেমন দেখাচ্ছে, তাই না?) পাশাপাশি পুরো স্থান জুড়ে পয়েন্টগুলি পরিমাপের
আপনার ডেটা স্লাইস করুন
স্লাইস করার অর্থ হল আপনার ডেটাকে সাবগ্রুপে আলাদা করা এবং প্রতিটি সাবগ্রুপের জন্য আলাদাভাবে মেট্রিক মান দেখা। আমরা সাধারণত ব্রাউজার, লোকেল, ডোমেন, ডিভাইসের ধরন ইত্যাদির মতো মাত্রাগুলিকে স্লাইস করি। যদি অন্তর্নিহিত ঘটনাটি সাবগ্রুপ জুড়ে ভিন্নভাবে কাজ করার সম্ভাবনা থাকে, তাহলে নিশ্চিত করার জন্য আপনাকে অবশ্যই ডেটা টুকরো টুকরো করে ফেলতে হবে। এমনকি যদি আপনি স্লাইসিং থেকে ভিন্ন ফলাফলের আশা না করেন, তবে অভ্যন্তরীণ সামঞ্জস্যের জন্য কয়েকটি স্লাইস দেখে আপনাকে আরও বেশি আত্মবিশ্বাস দেয় যে আপনি সঠিক জিনিসটি পরিমাপ করছেন। কিছু ক্ষেত্রে, একটি নির্দিষ্ট স্লাইসে খারাপ ডেটা থাকতে পারে, একটি ভাঙা ব্যবহারকারীর মিথস্ক্রিয়া, বা কোনও উপায়ে মৌলিকভাবে আলাদা হতে পারে।
যে কোনো সময় আপনি দুটি গোষ্ঠীর (যেমন পরীক্ষা বনাম নিয়ন্ত্রণ, বা এমনকি "সময় A" বনাম "টাইম বি") তুলনা করার জন্য ডেটা স্লাইস করেন, আপনাকে মিক্স শিফট সম্পর্কে সচেতন হতে হবে। একটি মিক্স শিফ্ট হল যখন প্রতিটি গ্রুপের জন্য স্লাইসে ডেটার পরিমাণ আলাদা। সিম্পসনের প্যারাডক্স এবং অন্যান্য বিভ্রান্তি হতে পারে। সাধারণত, যদি আপনার দুটি গ্রুপে একটি স্লাইসে ডেটার আপেক্ষিক পরিমাণ একই হয়, আপনি নিরাপদে একটি তুলনা করতে পারেন।
ব্যবহারিক গুরুত্ব বিবেচনা করুন
প্রচুর পরিমাণে ডেটা সহ, এটি শুধুমাত্র পরিসংখ্যানগত তাত্পর্যের উপর ফোকাস করতে বা প্রতিটি বিট ডেটার বিশদ বিবরণের উপর আলোকপাত করতে প্রলুব্ধ হতে পারে। কিন্তু আপনাকে নিজেকে জিজ্ঞাসা করতে হবে, "যদিও এটা সত্য যে X মান Y মানের থেকে 0.1% বেশি, তাতে কি কিছু যায় আসে?" এটি বিশেষভাবে গুরুত্বপূর্ণ হতে পারে যদি আপনি আপনার ডেটার অংশ বুঝতে/শ্রেণীবদ্ধ করতে না পারেন। আপনি যদি আপনার লগগুলিতে কিছু ব্যবহারকারী-এজেন্ট স্ট্রিং বোঝাতে অক্ষম হন, এটি 0.1% বা 10% ডেটা প্রতিনিধিত্ব করে কিনা সে ক্ষেত্রে আপনার কতটা তদন্ত করা উচিত তার মধ্যে একটি বড় পার্থক্য করে।
বিকল্পভাবে, আপনার কাছে মাঝে মাঝে অল্প পরিমাণ ডেটা থাকে। অনেক পরিবর্তন পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ দেখাবে না, কিন্তু এই পরিবর্তনগুলিকে "নিরপেক্ষ" দাবি করার চেয়ে এটি ভিন্ন। আপনাকে অবশ্যই নিজেকে জিজ্ঞাসা করতে হবে, "এখনও কার্যত উল্লেখযোগ্য পরিবর্তনের সম্ভাবনা কতটা?"
সময়ের সাথে ধারাবাহিকতা পরীক্ষা করুন
আপনার প্রায় সর্বদা সময়ের একক দ্বারা ডেটা কাটার চেষ্টা করা উচিত কারণ আমাদের সিস্টেম সময়ের সাথে সাথে বিকশিত হওয়ার সাথে সাথে অন্তর্নিহিত ডেটাতে অনেক ব্যাঘাত ঘটে। (আমরা প্রায়শই দিনগুলি ব্যবহার করি, তবে সময়ের অন্যান্য ইউনিটগুলিও কার্যকর হতে পারে।) একটি বৈশিষ্ট্য বা নতুন ডেটা সংগ্রহের প্রাথমিক প্রবর্তনের সময়, অনুশীলনকারীরা প্রায়শই সাবধানতার সাথে পরীক্ষা করে যে সবকিছু প্রত্যাশা অনুযায়ী কাজ করছে। যাইহোক, সময়ের সাথে সাথে অনেক ভাঙ্গন বা অপ্রত্যাশিত আচরণ দেখা দিতে পারে।
শুধুমাত্র একটি নির্দিষ্ট দিন বা দিনের সেট একটি আউটলায়ার মানে এই নয় যে আপনাকে সংশ্লিষ্ট ডেটা বাতিল করতে হবে। আপনি এটি বাতিল করার আগে সেই দিন বা দিনগুলি কেন আলাদা তা একটি কার্যকারণ কারণ নির্ধারণ করতে একটি হুক হিসাবে ডেটা ব্যবহার করুন৷
দিনের-পরে-দিনের ডেটার দিকে তাকানো আপনাকে ডেটার তারতম্যের একটি ধারনা দেয় যা শেষ পর্যন্ত আত্মবিশ্বাসের ব্যবধান বা পরিসংখ্যানগত তাত্পর্যের দাবির দিকে নিয়ে যায়। এটি সাধারণত কঠোর আত্মবিশ্বাস-ব্যবধানের গণনাকে প্রতিস্থাপন করা উচিত নয়, তবে প্রায়শই বড় পরিবর্তনের সাথে আপনি দেখতে পারেন যে তারা কেবলমাত্র দিনের গ্রাফ থেকে পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ হবে।
আপনার ফিল্টারিং স্বীকার করুন এবং গণনা করুন
প্রায় প্রতিটি বড় ডেটা বিশ্লেষণ বিভিন্ন পর্যায়ে ডেটা ফিল্টার করে শুরু হয়। হতে পারে আপনি শুধুমাত্র মার্কিন ব্যবহারকারীদের বিবেচনা করতে চান, বা ওয়েব অনুসন্ধান, বা বিজ্ঞাপন সহ অনুসন্ধানগুলি। যাই হোক না কেন, আপনাকে অবশ্যই:
- আপনি কি ফিল্টারিং করছেন তা স্বীকার করুন এবং স্পষ্টভাবে উল্লেখ করুন।
- প্রতিটি ধাপে ফিল্টার করা ডেটার পরিমাণ গণনা করুন।
প্রায়শই পরবর্তীটি করার সর্বোত্তম উপায় হল আপনার সমস্ত মেট্রিক্স গণনা করা, এমনকি আপনি যে জনসংখ্যা বাদ দিচ্ছেন তার জন্যও। তারপরে আপনি প্রশ্নগুলির উত্তর দিতে সেই ডেটা দেখতে পারেন, "স্প্যাম ফিল্টারিং প্রশ্নগুলির কোন ভগ্নাংশকে সরিয়ে দিয়েছে?" (আপনি কেন ফিল্টার করছেন তার উপর নির্ভর করে, এই ধরনের বিশ্লেষণ সবসময় সম্ভব নাও হতে পারে।)
অনুপাতের স্পষ্ট লব এবং হর থাকা উচিত
সবচেয়ে আকর্ষণীয় মেট্রিক হল অন্তর্নিহিত পরিমাপের অনুপাত। প্রায়শই, আকর্ষণীয় ফিল্টারিং বা অন্যান্য ডেটা পছন্দগুলি লব এবং হরের সুনির্দিষ্ট সংজ্ঞার মধ্যে লুকিয়ে থাকে। উদাহরণস্বরূপ, "কোয়েরি/ব্যবহারকারী" বলতে নিচের কোনটি আসলে বোঝায়?
- একটি প্রশ্ন সহ প্রশ্ন / ব্যবহারকারী
- প্রশ্ন / ব্যবহারকারীরা যারা আজ Google পরিদর্শন করেছেন৷
- একটি সক্রিয় অ্যাকাউন্ট সহ প্রশ্ন / ব্যবহারকারী (হ্যাঁ, আমাকে সক্রিয় সংজ্ঞায়িত করতে হবে)
এখানে সত্যিই পরিষ্কার হওয়া নিজের এবং অন্যদের জন্য বিভ্রান্তি এড়াতে পারে।
আরেকটি বিশেষ ক্ষেত্রে মেট্রিক্স যা শুধুমাত্র আপনার কিছু ডেটাতে গণনা করা যেতে পারে। উদাহরণস্বরূপ "ক্লিক করার সময়" এর অর্থ সাধারণত "ক্লিক করার সময় দেওয়া হয় যে একটি ক্লিক ছিল।" যে কোনো সময় আপনি এই ধরনের একটি মেট্রিক দেখছেন, আপনাকে সেই ফিল্টারিংকে স্বীকার করতে হবে এবং আপনি তুলনা করছেন এমন গ্রুপগুলির মধ্যে ফিল্টারিংয়ে একটি পরিবর্তনের সন্ধান করতে হবে।
প্রক্রিয়া
এই বিভাগে কীভাবে আপনার ডেটার কাছে যেতে হবে, আপনার ডেটা সম্পর্কে কী প্রশ্ন জিজ্ঞাসা করতে হবে এবং কী পরীক্ষা করতে হবে সে সম্পর্কে সুপারিশ রয়েছে৷
পৃথক বৈধতা, বর্ণনা, এবং মূল্যায়ন
আমি ডেটা বিশ্লেষণকে তিনটি আন্তঃসম্পর্কিত পর্যায় বলে মনে করি:
- বৈধতা 1 : আমি কি বিশ্বাস করি যে ডেটা স্ব-সংগতিপূর্ণ, যে এটি সঠিকভাবে সংগ্রহ করা হয়েছে, এবং এটি উপস্থাপন করে যা আমি মনে করি এটি করে?
- বর্ণনা: এই তথ্যের উদ্দেশ্য ব্যাখ্যা কি? উদাহরণস্বরূপ, "ব্যবহারকারীরা X হিসাবে শ্রেণীবদ্ধ করা কম প্রশ্ন করে," "পরীক্ষা গ্রুপে, X এবং Y এর মধ্যে সময় 1% বড়," এবং "কম ব্যবহারকারী ফলাফলের পরবর্তী পৃষ্ঠায় যান।"
- মূল্যায়ন: বর্ণনা দেওয়া হলে, ডেটা কি আমাদের বলে যে ব্যবহারকারীর জন্য, গুগলের জন্য বা বিশ্বের জন্য ভালো কিছু ঘটছে?
এই ধাপগুলিকে আলাদা করে, আপনি অন্যদের সাথে আরও সহজে চুক্তিতে পৌঁছাতে পারেন। বর্ণনা এমন হওয়া উচিত যা প্রত্যেকে ডেটার জন্য একমত হতে পারে। মূল্যায়ন অনেক বেশি বিতর্ক উস্কে দিতে পারে। আপনি যদি বর্ণনা এবং মূল্যায়নকে আলাদা না করেন তবে আপনি যে ডেটা দেখার আশা করছেন তার ব্যাখ্যাটি দেখতে পাওয়ার সম্ভাবনা বেশি। আরও, মূল্যায়ন অনেক কঠিন হতে থাকে কারণ একটি মেট্রিকের আদর্শিক মান প্রতিষ্ঠা করতে, সাধারণত অন্যান্য বৈশিষ্ট্য এবং মেট্রিক্সের সাথে কঠোর তুলনার মাধ্যমে, উল্লেখযোগ্য বিনিয়োগ লাগে।
এই ধাপগুলো রৈখিকভাবে অগ্রসর হয় না। আপনি ডেটা অন্বেষণ করার সময়, আপনি ধাপগুলির মধ্যে পিছনে পিছনে লাফ দিতে পারেন, কিন্তু যে কোনও সময় আপনি কোন পর্যায়ে আছেন তা পরিষ্কার হওয়া উচিত।
পরীক্ষা এবং ডেটা সংগ্রহ সেটআপ নিশ্চিত করুন
কোনো ডেটা দেখার আগে, নিশ্চিত করুন যে আপনি যে প্রেক্ষাপটে ডেটা সংগ্রহ করেছেন তা বুঝতে পেরেছেন। যদি একটি পরীক্ষা থেকে ডেটা আসে, তাহলে পরীক্ষার কনফিগারেশন দেখুন। যদি এটি নতুন ক্লায়েন্ট ইন্সট্রুমেন্টেশন থেকে হয় তবে নিশ্চিত করুন যে কীভাবে ডেটা সংগ্রহ করা হয় সে সম্পর্কে আপনার অন্তত একটি মোটামুটি ধারণা রয়েছে। আপনি অস্বাভাবিক/খারাপ কনফিগারেশন বা জনসংখ্যার সীমাবদ্ধতা (যেমন শুধুমাত্র Chrome এর জন্য বৈধ ডেটা) দেখতে পারেন। এখানে উল্লেখযোগ্য যেকোন কিছু আপনাকে পরবর্তীতে তত্ত্ব তৈরি এবং যাচাই করতে সাহায্য করতে পারে। কিছু বিষয় বিবেচনা করা:
- পরীক্ষা চলমান থাকলে, নিজে চেষ্টা করে দেখুন। আপনি যদি না করতে পারেন, অন্তত আচরণের স্ক্রিনশট/বিবরণের মাধ্যমে দেখুন।
- পরীক্ষাটি চালানোর সময়সীমা সম্পর্কে অস্বাভাবিক কিছু ছিল কিনা তা পরীক্ষা করুন (ছুটি, বড় লঞ্চ, ইত্যাদি)।
- কোন ব্যবহারকারী জনসংখ্যা পরীক্ষার অধীন ছিল তা নির্ধারণ করুন।
কি পরিবর্তন করা উচিত নয় তা পরীক্ষা করুন
"বৈধকরণ" পর্যায়ের অংশ হিসেবে, আপনি যে প্রশ্নে আগ্রহী সেই প্রশ্নের উত্তর দেওয়ার আগে (উদাহরণস্বরূপ, "মুখের ছবি যোগ করলে ক্লিক বেড়েছে নাকি কমেছে?"), ডেটার অন্য কোনো পরিবর্তনশীলতা বাতিল করুন পরীক্ষা উদাহরণ স্বরূপ:
- ব্যবহারকারীর সংখ্যা কি পরিবর্তন হয়েছে?
- আমার সমস্ত সাবগ্রুপে কি সঠিক সংখ্যক প্রভাবিত প্রশ্ন দেখা গেছে?
- ত্রুটি হার পরিবর্তন হয়েছে?
এই প্রশ্নগুলি পরীক্ষা/নিয়ন্ত্রণ তুলনা এবং সময়ের সাথে প্রবণতা পরীক্ষা করার সময় উভয়ের জন্যই বোধগম্য।
স্ট্যান্ডার্ড প্রথম, কাস্টম দ্বিতীয়
নতুন বৈশিষ্ট্য এবং নতুন ডেটা দেখার সময়, এই নতুন বৈশিষ্ট্যটির জন্য নতুন বা বিশেষ মেট্রিক্সে সরাসরি ঝাঁপ দিতে বিশেষভাবে প্রলুব্ধ হয়৷ যাইহোক, আপনার সর্বদা প্রথমে স্ট্যান্ডার্ড মেট্রিক্সের দিকে নজর দেওয়া উচিত, এমনকি যদি আপনি সেগুলি পরিবর্তন করার আশা করেন। উদাহরণস্বরূপ, পৃষ্ঠায় একটি নতুন সার্বজনীন ব্লক যোগ করার সময়, এই নতুন ফলাফল সম্পর্কে কাস্টম মেট্রিক্সে ডুব দেওয়ার আগে নিশ্চিত করুন যে আপনি "ওয়েব ফলাফলে ক্লিক" এর মতো স্ট্যান্ডার্ড মেট্রিক্সের প্রভাব বুঝতে পেরেছেন৷
স্ট্যান্ডার্ড মেট্রিকগুলি কাস্টম মেট্রিক্সের চেয়ে অনেক ভাল যাচাই করা এবং সঠিক হওয়ার সম্ভাবনা বেশি। যদি আপনার কাস্টম মেট্রিক্স আপনার স্ট্যান্ডার্ড মেট্রিক্সের সাথে অর্থপূর্ণ না হয়, তাহলে আপনার কাস্টম মেট্রিক্স সম্ভবত ভুল।
দুইবার, বা তার বেশি পরিমাপ করুন
বিশেষ করে যদি আপনি একটি নতুন ঘটনা ক্যাপচার করার চেষ্টা করছেন, একই অন্তর্নিহিত জিনিসটি একাধিক উপায়ে পরিমাপ করার চেষ্টা করুন। তারপর, এই একাধিক পরিমাপ সামঞ্জস্যপূর্ণ কিনা তা নির্ধারণ করুন। একাধিক পরিমাপ ব্যবহার করে, আপনি পরিমাপ বা লগিং কোড, অন্তর্নিহিত ডেটার অপ্রত্যাশিত বৈশিষ্ট্য, বা গুরুত্বপূর্ণ ফিল্টারিং পদক্ষেপগুলিতে বাগগুলি সনাক্ত করতে পারেন৷ আপনি যদি পরিমাপের জন্য বিভিন্ন ডেটা উত্স ব্যবহার করতে পারেন তবে এটি আরও ভাল।
প্রজননযোগ্যতা পরীক্ষা করুন
সময়ের সাথে সাথে স্লাইসিং এবং ধারাবাহিকতা উভয়ই প্রজননযোগ্যতা পরীক্ষা করার বিশেষ উদাহরণ। যদি একটি ঘটনা গুরুত্বপূর্ণ এবং অর্থবহ হয়, তাহলে আপনার এটি বিভিন্ন ব্যবহারকারীর জনসংখ্যা এবং সময় জুড়ে দেখা উচিত। কিন্তু প্রজননযোগ্যতা যাচাই করার অর্থ এই দুটি পরীক্ষা করার চেয়ে বেশি। আপনি যদি ডেটার মডেল তৈরি করেন, তাহলে আপনি চান যে সেই মডেলগুলি অন্তর্নিহিত ডেটাতে ছোট ছোট ঝামেলার মধ্যে স্থিতিশীল থাকুক। আপনার ডেটার বিভিন্ন সময়সীমা বা এলোমেলো উপ-নমুনা ব্যবহার করেও আপনাকে বলবে যে এই মডেলটি কতটা নির্ভরযোগ্য/পুনরুত্পাদনযোগ্য।
যদি একটি মডেল পুনরুত্পাদনযোগ্য না হয়, তাহলে আপনি সম্ভবত ডেটা উত্পাদিত অন্তর্নিহিত প্রক্রিয়া সম্পর্কে মৌলিক কিছু ক্যাপচার করছেন না।
অতীত পরিমাপের সাথে সামঞ্জস্যের জন্য পরীক্ষা করুন
প্রায়শই আপনি একটি মেট্রিক গণনা করবেন যা অতীতে গণনা করা জিনিসগুলির অনুরূপ। অতীতে রিপোর্ট করা মেট্রিকগুলির সাথে আপনার মেট্রিক্সের তুলনা করা উচিত, এমনকি যদি এই পরিমাপগুলি বিভিন্ন ব্যবহারকারীর জনসংখ্যাতে হয়।
উদাহরণস্বরূপ, যদি আপনি একটি বিশেষ জনসংখ্যার উপর ক্যোয়ারী ট্র্যাফিকের দিকে তাকান এবং আপনি পরিমাপ করেন যে গড় পৃষ্ঠা লোডের সময় 5 সেকেন্ড, কিন্তু সমস্ত ব্যবহারকারীর অতীত বিশ্লেষণগুলি 2 সেকেন্ডের একটি গড় পৃষ্ঠা লোড সময় দিয়েছে, তাহলে আপনাকে তদন্ত করতে হবে। আপনার সংখ্যা এই জনসংখ্যার জন্য সঠিক হতে পারে, কিন্তু এখন এটি যাচাই করার জন্য আপনাকে আরও কাজ করতে হবে।
আপনি সঠিক চুক্তি পেতে হবে না, কিন্তু আপনি একই বলপার্কে থাকা উচিত. আপনি যদি না হন তবে ধরে নিন যে আপনি ভুল করছেন যতক্ষণ না আপনি নিজেকে পুরোপুরি বোঝাতে পারবেন। সবচেয়ে আশ্চর্যজনক তথ্য একটি ত্রুটি হতে চালু হবে, একটি কল্পিত নতুন অন্তর্দৃষ্টি নয়.
নতুন মেট্রিকগুলি প্রথমে পুরানো ডেটা/বৈশিষ্ট্যগুলিতে প্রয়োগ করা উচিত৷
আপনি যদি নতুন মেট্রিক তৈরি করেন (সম্ভবত একটি অভিনব ডেটা উৎস সংগ্রহ করে) এবং নতুন কিছু শেখার চেষ্টা করেন, তাহলে আপনার নতুন মেট্রিক সঠিক কিনা তা আপনি জানতে পারবেন না। নতুন মেট্রিক্সের সাথে, আপনাকে প্রথমে একটি পরিচিত বৈশিষ্ট্য বা ডেটাতে প্রয়োগ করতে হবে। উদাহরণস্বরূপ, যদি আপনার কাছে ব্যবহারকারীর সন্তুষ্টির জন্য একটি নতুন মেট্রিক থাকে, তাহলে আপনাকে নিশ্চিত করতে হবে যে এটি আপনাকে আপনার সেরা বৈশিষ্ট্যগুলি সন্তুষ্টিতে সহায়তা করে। ব্যবহারকারীরা যেখানে পৃষ্ঠার দিকে তাদের মনোযোগ দিচ্ছেন তার জন্য যদি আপনার কাছে একটি নতুন মেট্রিক থাকে, তাহলে নিশ্চিত করুন যে এটি আই-ট্র্যাকিং বা চিত্রগুলি কীভাবে পৃষ্ঠার মনোযোগকে প্রভাবিত করে সে সম্পর্কে আমরা যা জানি তার সাথে মেলে। আপনি যখন নতুন কিছু শিখতে যান তখন এটি করা বৈধতা প্রদান করে।
অনুমান তৈরি করুন এবং প্রমাণ সন্ধান করুন
সাধারণত, একটি জটিল সমস্যার জন্য ডেটা বিশ্লেষণ পুনরাবৃত্তিমূলক। 2 আপনি ডেটার অসঙ্গতি, প্রবণতা বা অন্যান্য বৈশিষ্ট্যগুলি আবিষ্কার করবেন৷ স্বাভাবিকভাবেই, আপনি এই ডেটা ব্যাখ্যা করার জন্য তত্ত্বগুলি বিকাশ করবেন। শুধু একটি তত্ত্ব বিকাশ করবেন না এবং এটিকে সত্য বলে ঘোষণা করবেন না। এই তত্ত্বটি নিশ্চিত/অস্বীকার করার জন্য প্রমাণ (ডেটার ভিতরে বা বাইরে) সন্ধান করুন। উদাহরণ স্বরূপ:
- আপনি যদি এমন কিছু দেখেন যা শেখার প্রবণতার মতো দেখায়, তাহলে দেখুন যে এটি উচ্চ ফ্রিকোয়েন্সি ব্যবহারকারীদের কাছে সবচেয়ে বেশি দৃঢ়ভাবে প্রকাশ করে কিনা।
- আপনি যদি বিশ্বাস করেন যে কিছু বৈশিষ্ট্যের লঞ্চের কারণে কোনো অসামঞ্জস্যতা হয়েছে, তাহলে নিশ্চিত করুন যে বৈশিষ্ট্যটি যে জনসংখ্যার জন্য চালু করা হয়েছে শুধুমাত্র তারাই এই অসঙ্গতি দ্বারা প্রভাবিত। বিকল্পভাবে, নিশ্চিত করুন যে পরিবর্তনের মাত্রা লঞ্চের প্রত্যাশার সাথে সামঞ্জস্যপূর্ণ।
- আপনি যদি একটি লোকেলে ব্যবহারকারীদের বৃদ্ধির হার দেখেন, তাহলে একটি বাহ্যিক উত্স খুঁজে বের করার চেষ্টা করুন যা সেই ব্যবহারকারী-জনসংখ্যা পরিবর্তনের হারকে বৈধ করে।
ভাল তথ্য বিশ্লেষণ বলতে একটি গল্প থাকবে. এটি সঠিক গল্প কিনা তা নিশ্চিত করতে, আপনাকে গল্পটি নিজের কাছে বলতে হবে, তারপরে এটি ভুল বলে প্রমাণ সন্ধান করুন। এটি করার একটি উপায় হল নিজেকে জিজ্ঞাসা করা, "আমি কোন পরীক্ষা চালাব যা আমি যে গল্পটি বলছি তা বৈধ/অবৈধ করবে?" এমনকি আপনি যদি এই পরীক্ষাগুলি না করেন/নাও পারেন, তবে আপনার কাছে থাকা ডেটা দিয়ে কীভাবে যাচাই করা যায় সে সম্পর্কে এটি আপনাকে ধারণা দিতে পারে।
ভাল খবর হল যে এই তত্ত্বগুলি এবং সম্ভাব্য পরীক্ষাগুলি তদন্তের নতুন লাইনের দিকে নিয়ে যেতে পারে যা কোনও নির্দিষ্ট বৈশিষ্ট্য বা ডেটা সম্পর্কে জানার চেষ্টাকে অতিক্রম করে। তারপরে আপনি কেবল এই ডেটা নয়, সমস্ত ধরণের ভবিষ্যতের বিশ্লেষণের জন্য নতুন মেট্রিক্স এবং কৌশলগুলি বোঝার ক্ষেত্রে প্রবেশ করুন৷
এন্ড-টু-এন্ড পুনরাবৃত্তি থেকে অনুসন্ধানমূলক বিশ্লেষণের সুবিধা
অনুসন্ধানমূলক বিশ্লেষণ করার সময়, সমগ্র বিশ্লেষণের যতটা সম্ভব পুনরাবৃত্তি করুন। সাধারণত আপনার কাছে সিগন্যাল সংগ্রহ, প্রক্রিয়াকরণ, মডেলিং ইত্যাদির একাধিক ধাপ থাকবে৷ আপনি যদি আপনার প্রাথমিক সংকেতগুলির একেবারে প্রথম ধাপটি নিখুঁত পেতে খুব বেশি সময় ব্যয় করেন তবে আপনি একই সময়ে আরও পুনরাবৃত্তি করার সুযোগগুলি হারাবেন৷ আরও, আপনি যখন শেষ পর্যন্ত আপনার ডেটা দেখেন, তখন আপনি এমন আবিষ্কার করতে পারেন যা আপনার দিক পরিবর্তন করে। অতএব, আপনার প্রাথমিক মনোযোগ নিখুঁততার দিকে নয় বরং সমস্ত উপায়ে যুক্তিসঙ্গত কিছু পাওয়ার দিকে হওয়া উচিত। নিজের জন্য নোটগুলি রেখে দিন এবং ফিল্টারিং পদক্ষেপগুলি এবং অপার্জযোগ্য বা অস্বাভাবিক অনুরোধগুলির মতো জিনিসগুলি স্বীকার করুন, তবে অনুসন্ধানমূলক বিশ্লেষণের শুরুতে সেগুলি থেকে মুক্তি পাওয়ার চেষ্টা করে সময় নষ্ট করবেন না।
প্রতিক্রিয়া জন্য দেখুন
আমরা সাধারণত ব্যবহারকারীর সাফল্যের চারপাশে বিভিন্ন মেট্রিক্স সংজ্ঞায়িত করি। উদাহরণস্বরূপ, ব্যবহারকারীরা কি একটি ফলাফলে ক্লিক করেছেন? তারপরে আপনি যদি সেই ডেটা সিস্টেমে ফেরত দেন (যা আমরা আসলে অনেক জায়গায় করি), আপনি মূল্যায়ন বিভ্রান্তির জন্য প্রচুর সুযোগ তৈরি করেন।
আপনি আপনার পরিবর্তনের মূল্যায়নের ভিত্তি হিসাবে আপনার সিস্টেমে খাওয়ানো মেট্রিক ব্যবহার করতে পারবেন না। আপনি যদি আরও বেশি বিজ্ঞাপন দেখান যা আরও ক্লিক পায়, তাহলে ব্যবহারকারীরা বেশি খুশি তা নির্ধারণ করার জন্য আপনি "আরো ক্লিক" ব্যবহার করতে পারবেন না, যদিও "আরো ক্লিক" এর অর্থ প্রায়ই "সুখী।" এছাড়াও, আপনি যে ভেরিয়েবলগুলিকে ফিড ব্যাক করেছেন এবং ম্যানিপুলেট করেছেন সেগুলির উপর স্লাইসিংও করা উচিত নয়, কারণ এর ফলে মিক্স শিফট হবে যা বোঝা কঠিন বা অসম্ভব।
মানসিকতা
এই বিভাগটি বর্ণনা করে কিভাবে অন্যদের সাথে কাজ করতে হয় এবং অন্তর্দৃষ্টি যোগাযোগ করতে হয়।
ডেটা বিশ্লেষণ প্রশ্ন দিয়ে শুরু হয়, ডেটা বা কৌশল নয়
তথ্য বিশ্লেষণ করার জন্য সবসময় একটি প্রেরণা আছে. প্রশ্ন বা অনুমান হিসাবে আপনার প্রয়োজনগুলি প্রণয়ন করা নিশ্চিত করতে সাহায্য করে যে আপনি যে ডেটা সংগ্রহ করছেন তা আপনি সংগ্রহ করছেন এবং আপনি ডেটার সম্ভাব্য ফাঁকগুলি সম্পর্কে চিন্তা করছেন৷ অবশ্যই, আপনি যে প্রশ্নগুলি জিজ্ঞাসা করেন তা আপনার ডেটা দেখার সাথে সাথে বিকাশ হওয়া উচিত। যাইহোক, একটি প্রশ্ন ছাড়া বিশ্লেষণ লক্ষ্যহীন শেষ হবে.
কিছু প্রিয় কৌশল খোঁজার ফাঁদ এড়িয়ে চলুন এবং তারপরে শুধুমাত্র সমস্যার অংশগুলি খুঁজে বের করুন যা এই কৌশলটি কাজ করে। আবার, স্পষ্ট প্রশ্ন তৈরি করা আপনাকে এই ফাঁদ এড়াতে সাহায্য করবে।
সংশয়বাদী এবং চ্যাম্পিয়ন উভয়ই হোন
আপনি ডেটা নিয়ে কাজ করার সময়, আপনি যে অন্তর্দৃষ্টিগুলি অর্জন করছেন তার চ্যাম্পিয়ন এবং সেগুলির প্রতি সন্দেহবাদী উভয়ই হতে হবে৷ আপনি যে ডেটা দেখছেন তাতে আশাকরি কিছু আকর্ষণীয় ঘটনা পাবেন। আপনি যখন একটি আকর্ষণীয় ঘটনা সনাক্ত করেন, নিজেকে নিম্নলিখিত প্রশ্নগুলি জিজ্ঞাসা করুন:
- এটি কতটা দুর্দান্ত তা দেখানোর জন্য আমি অন্য কোন ডেটা সংগ্রহ করতে পারি?
- আমি কি খুঁজে পেতে পারি যা এটিকে বাতিল করবে?"
বিশেষ করে এমন ক্ষেত্রে যেখানে আপনি এমন একজনের জন্য বিশ্লেষণ করছেন যিনি সত্যিই একটি নির্দিষ্ট উত্তর চান (উদাহরণস্বরূপ, "আমার বৈশিষ্ট্যটি দুর্দান্ত!"), ভুল করা এড়াতে আপনাকে অবশ্যই সন্দেহবাদীর ভূমিকা পালন করতে হবে।
পারস্পরিক সম্পর্ক!= কার্যকারণ
ডেটা সম্পর্কে তত্ত্ব তৈরি করার সময়, আমরা প্রায়শই জোর দিয়ে বলতে চাই যে "X এর কারণ Y"—উদাহরণস্বরূপ, "পৃষ্ঠা ধীর হয়ে যাওয়ার ফলে ব্যবহারকারীরা কম ক্লিক করে।" এমনকি xkcd জানে যে পারস্পরিক সম্পর্কের কারণে আপনি কেবল কার্যকারণ প্রতিষ্ঠা করতে পারবেন না। আপনি কীভাবে কার্যকারণ তত্ত্বকে বৈধতা দেবেন তা বিবেচনা করে, আপনি সাধারণত একটি কার্যকারণ তত্ত্ব কতটা বিশ্বাসযোগ্য তা সম্পর্কে ভাল ধারণা বিকাশ করতে পারেন।
কখনও কখনও, লোকেরা একটি পারস্পরিক সম্পর্ককে অর্থপূর্ণ হিসাবে ধরে রাখার চেষ্টা করে এই দাবি করে যে A এবং B এর মধ্যে কোনও কার্যকারণ সম্পর্ক না থাকলেও, কাকতালীয়তার অন্তর্নিহিত কিছু থাকতে হবে যাতে একটি সংকেত অন্যটির জন্য একটি ভাল সূচক বা প্রক্সি হতে পারে। এই এলাকা একাধিক হাইপোথিসিস পরীক্ষার সমস্যার জন্য বিপজ্জনক; যেমন xkcd এটাও জানে , পর্যাপ্ত পরীক্ষা এবং পর্যাপ্ত মাত্রা দেওয়া হলে, কিছু সংকেত একটি নির্দিষ্ট পরীক্ষার জন্য সারিবদ্ধ হবে। এটি বোঝায় না যে একই সংকেতগুলি ভবিষ্যতে সারিবদ্ধ হবে, তাই আপনার একটি কার্যকারণ তত্ত্ব বিবেচনা করার একই বাধ্যবাধকতা রয়েছে যেমন "একটি লুকানো প্রভাব C রয়েছে যা A এবং B উভয়ের কারণ হয়" যাতে আপনি কতটা যুক্তিসঙ্গত তা যাচাই করার চেষ্টা করতে পারেন এই.
একজন ডেটা বিশ্লেষককে প্রায়শই এই কার্যকারণ প্রশ্নগুলি নেভিগেট করতে হবে যারা ডেটা ব্যবহার করতে চান। আপনি এই ভোক্তাদের সাথে পরিষ্কার হওয়া উচিত যে আপনি কার্যকারণ সম্পর্কে কী বলতে পারেন এবং কী বলতে পারেন না।
সমবয়সীদের সাথে শেয়ার করুন প্রথম, বহিরাগত ভোক্তাদের দ্বিতীয়
পূর্ববর্তী পয়েন্টগুলি আপনাকে সঠিক ধরণের সুস্থতা পরীক্ষা এবং বৈধতা দেওয়ার জন্য কিছু উপায়ের পরামর্শ দিয়েছে। কিন্তু একজন সহকর্মীর সাথে ভাগ করে নেওয়া হল এই সমস্ত জিনিসগুলি করতে নিজেকে বাধ্য করার সেরা উপায়গুলির মধ্যে একটি৷ একজন দক্ষ সহকর্মী আপনার ডেটার ভোক্তাদের তুলনায় গুণগতভাবে ভিন্ন প্রতিক্রিয়া প্রদান করতে পারে, বিশেষ করে যেহেতু ভোক্তাদের সাধারণত একটি এজেন্ডা থাকে। সহকর্মীরা বিশ্লেষণের মাধ্যমে একাধিক পয়েন্টে দরকারী। প্রথম দিকে আপনি আপনার সমবয়সীদের সম্পর্কে জানেন, পরিমাপের জিনিসগুলির জন্য পরামর্শ এবং এই এলাকায় অতীত গবেষণা সম্পর্কে জানতে পারেন। শেষের দিকে, সহকর্মীরা অদ্ভুততা, অসঙ্গতি বা অন্যান্য বিভ্রান্তিগুলি নির্দেশ করতে খুব ভাল।
আদর্শভাবে, আপনার এমন একজন সহকর্মীর কাছ থেকে প্রতিক্রিয়া পাওয়া উচিত যিনি আপনি যে ডেটা দেখছেন সে সম্পর্কে কিছু জানেন, তবে এমনকি সাধারণ ডেটা-বিশ্লেষণ অভিজ্ঞতা সহ একজন সহকর্মী অত্যন্ত মূল্যবান।
অজ্ঞতা এবং ভুল আশা করুন এবং গ্রহণ করুন
ডেটা থেকে আমরা যা শিখতে পারি তার অনেক সীমাবদ্ধতা রয়েছে। নেট সিলভার দ্য সিগন্যাল এবং নয়েজ- এ একটি শক্তিশালী কেস তৈরি করেছে যে শুধুমাত্র আমাদের নিশ্চিততার সীমা স্বীকার করে আমরা আরও ভাল ভবিষ্যদ্বাণীতে অগ্রগতি করতে পারি। অজ্ঞতা স্বীকার করা একটি শক্তি যা সাধারণত অবিলম্বে পুরস্কৃত হয় না। এটা তখন খারাপ লাগে, কিন্তু দীর্ঘমেয়াদে এটি আপনার এবং আপনার দলের জন্য একটি বড় সুবিধা। এটি আরও খারাপ লাগে যখন আপনি একটি ভুল করেন এবং পরে এটি আবিষ্কার করেন (অথবা এমনকি খুব দেরীতেও!), কিন্তু সক্রিয়ভাবে আপনার ভুলগুলির মালিকানা আপনাকে সম্মান দেয়। যে সম্মান বিশ্বাসযোগ্যতা এবং প্রভাব অনুবাদ.
বন্ধ চিন্তা
ভাল ডেটা বিশ্লেষণ করার জন্য বেশিরভাগ কাজ আপনার বিশ্লেষণের ভোক্তাদের কাছে অবিলম্বে স্পষ্ট হয় না। সত্য যে আপনি জনসংখ্যার আকার সাবধানে পরীক্ষা করেছেন এবং যাচাই করেছেন যে প্রভাবটি ব্রাউজার জুড়ে সামঞ্জস্যপূর্ণ ছিল সম্ভবত এই ডেটা থেকে সিদ্ধান্ত নেওয়ার চেষ্টা করা লোকেদের সচেতনতার কাছে পৌঁছাবে না। এটি আরও ব্যাখ্যা করে যে কেন ভাল ডেটা বিশ্লেষণ বেশিরভাগ লোকের কাছে মনে হয় তার চেয়ে বেশি সময় নেয় (বিশেষত যখন তারা শুধুমাত্র চূড়ান্ত আউটপুট দেখে)। বিশ্লেষক হিসাবে আমাদের কাজের অংশ হল এই পদক্ষেপগুলি কী এবং কেন সেগুলি গুরুত্বপূর্ণ সে সম্পর্কে ডেটা-ভিত্তিক অন্তর্দৃষ্টির গ্রাহকদের ধীরে ধীরে শিক্ষিত করা।
আপনার ডেটার এই সমস্ত হেরফের এবং অন্বেষণের প্রয়োজনীয়তা একটি ভাল ডেটা বিশ্লেষণ ভাষা এবং পরিবেশের প্রয়োজনীয়তাগুলিও তৈরি করে। ডেটা পরীক্ষা করার জন্য আমাদের কাছে অনেক সরঞ্জাম উপলব্ধ রয়েছে। উপরে আলোচিত বিভিন্ন কৌশলের জন্য বিভিন্ন টুল এবং ভাষা ভালোভাবে উপযোগী; সঠিক টুল বাছাই করা একজন বিশ্লেষকের জন্য একটি গুরুত্বপূর্ণ দক্ষতা। আপনি যে টুলটির সাথে সবচেয়ে স্বাচ্ছন্দ্য বোধ করেন তার ক্ষমতার দ্বারা সীমাবদ্ধ থাকা উচিত নয়; আপনার কাজ হল সত্যিকারের অন্তর্দৃষ্টি প্রদান করা, কোনো নির্দিষ্ট টুল প্রয়োগ করা নয়।
একে কখনও কখনও "প্রাথমিক ডেটা বিশ্লেষণ" বলা হয়। তথ্য বিশ্লেষণ ↩ সম্পর্কিত উইকিপিডিয়া নিবন্ধটি দেখুন
টেকনিক্যালি, এটা শুধুমাত্র পুনরাবৃত্তিমূলক হওয়া উচিত যদি আপনি অনুসন্ধানমূলক বিশ্লেষণ করছেন, নিশ্চিত বিশ্লেষণ নয়। ↩