BigQuery হল Google-এর সম্পূর্ণরূপে পরিচালিত, NoOps, কম খরচে অ্যানালিটিক্স ডেটাবেস৷ BigQuery-এর মাধ্যমে আপনি ডাটাবেস অ্যাডমিনিস্ট্রেটর বা পরিচালনার জন্য কোনো পরিকাঠামোর প্রয়োজন ছাড়াই টেরাবাইট ডেটা জিজ্ঞাসা করতে পারেন। BigQuery পরিচিত SQL ব্যবহার করে এবং একটি পে-অনলি-এর জন্য-আপনি-কি ব্যবহার করেন চার্জিং মডেল। BigQuery আপনাকে অর্থপূর্ণ অন্তর্দৃষ্টি খুঁজতে ডেটা বিশ্লেষণে ফোকাস করতে দেয়।
এই ল্যাবে আমরা দেখব কিভাবে GitHub পাবলিক ডেটাসেটকে প্রশ্ন করতে হয়, BigQuery-এ উপলব্ধ অনেকগুলি পাবলিক ডেটাসেটের মধ্যে একটি।
আপনি কি শিখবেন
- BigQuery ব্যবহার করা হচ্ছে
- একটি বৃহৎ ডেটাসেটের অন্তর্দৃষ্টি অর্জনের জন্য একটি প্রশ্ন লেখা
আপনি কি প্রয়োজন হবে
- একটি Google ক্লাউড প্ল্যাটফর্ম প্রকল্প
- একটি ব্রাউজার, যেমন ক্রোম বা ফায়ারফক্স
BigQuery সক্ষম করুন
আপনার যদি ইতিমধ্যে একটি Google অ্যাকাউন্ট না থাকে (Gmail বা Google Apps), তাহলে আপনাকে অবশ্যই একটি তৈরি করতে হবে।
- Google ক্লাউড প্ল্যাটফর্ম কনসোলে সাইন-ইন করুন ( console.cloud.google.com ) এবং BigQuery-এ নেভিগেট করুন। এছাড়াও আপনি আপনার ব্রাউজারে নিম্নলিখিত URLটি প্রবেশ করে সরাসরি BigQuery ওয়েব UI খুলতে পারেন।
https://console.cloud.google.com/bigquery
- পরিষেবার শর্তাবলী গ্রহণ করুন.
- আপনি BigQuery ব্যবহার করার আগে, আপনাকে অবশ্যই একটি প্রকল্প তৈরি করতে হবে। আপনার নতুন প্রকল্প তৈরি করতে প্রম্পট অনুসরণ করুন.
একটি প্রকল্পের নাম চয়ন করুন এবং প্রকল্প আইডি নোট করুন।
প্রোজেক্ট আইডি সমস্ত Google ক্লাউড প্রোজেক্ট জুড়ে একটি অনন্য নাম। এটি পরে এই কোডল্যাবেPROJECT_ID
হিসাবে উল্লেখ করা হবে।
এই কোডল্যাব BigQuery স্যান্ডবক্স সীমার মধ্যে BigQuery সম্পদ ব্যবহার করে। একটি বিলিং অ্যাকাউন্ট প্রয়োজন হয় না. আপনি যদি পরে স্যান্ডবক্স সীমা সরাতে চান, তাহলে আপনি Google ক্লাউড প্ল্যাটফর্ম বিনামূল্যে ট্রায়ালের জন্য সাইন আপ করে একটি বিলিং অ্যাকাউন্ট যোগ করতে পারেন।
BigQuery ওয়েব UI-তে GitHub ডেটাসেট খুলুন।
https://console.cloud.google.com/bigquery?p=bigquery-public-data&d=github_repos&t=commits&page=table
ডেটা কেমন দেখায় তার একটি দ্রুত পূর্বরূপ পান।
ক্যোয়ারী সম্পাদক খুলুন,
GitHub পাবলিক ডেটাসেটে সবচেয়ে সাধারণ কমিট বার্তাগুলি খুঁজে পেতে এই প্রশ্নটি লিখুন,
SELECT subject AS subject,
COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100
যেহেতু GitHub ডেটাসেটটি বড়, তাই এটি একটি ছোট নমুনা ডেটাসেট ব্যবহার করতে সাহায্য করে যখন আপনি খরচ বাঁচাতে পরীক্ষা করছেন। ক্যোয়ারী খরচ অনুমান করতে সম্পাদকের নীচে প্রক্রিয়া করা বাইট ব্যবহার করুন।
রান কোয়েরি বোতামে ক্লিক করুন।
কয়েক সেকেন্ডের মধ্যে, ফলাফলটি নীচে তালিকাভুক্ত করা হবে, এবং এটি আপনাকেও বলবে যে কত ডেটা প্রক্রিয়া করা হয়েছে এবং কত সময় লেগেছে:
যদিও, sample_commits
টেবিলটি 2.49 GB, ক্যোয়ারীটি শুধুমাত্র 35.8 MB প্রক্রিয়া করা হয়েছে। BigQuery শুধুমাত্র কলামের বাইটগুলিকে প্রসেস করে যা ক্যোয়ারীতে ব্যবহার করা হয়, তাই প্রক্রিয়াকৃত ডেটার মোট পরিমাণ টেবিলের আকারের থেকে উল্লেখযোগ্যভাবে কম হতে পারে। ক্লাস্টারিং এবং পার্টিশনিংয়ের সাথে, প্রক্রিয়াকৃত ডেটার পরিমাণ আরও কমানো যেতে পারে।
এখন অন্য একটি ডেটাসেট অনুসন্ধান করার চেষ্টা করুন, যেমন অন্যান্য পাবলিক ডেটাসেটগুলির একটি৷
উদাহরণস্বরূপ, এই ক্যোয়ারীটি Libraries.io পাবলিক ডেটাসেটে জনপ্রিয় অপ্রচলিত বা অপরিবর্তিত প্রকল্পগুলি খুঁজে পায় যেগুলি এখনও অন্যান্য প্রকল্পগুলিতে নির্ভরতা হিসাবে ব্যবহৃত হয়৷
SELECT
name,
dependent_projects_count,
language,
status
FROM
`bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100
অন্যান্য সংস্থাগুলিও তাদের ডেটা সর্বজনীনভাবে BigQuery-এ উপলব্ধ করেছে৷ উদাহরণস্বরূপ, GitHub আর্কাইভ ডেটাসেটটি GitHub- এ পাবলিক ইভেন্টগুলি যেমন পুল অনুরোধ, সংগ্রহস্থল স্টার এবং খোলা সমস্যাগুলি বিশ্লেষণ করতে ব্যবহার করা যেতে পারে। পাইথন সফ্টওয়্যার ফাউন্ডেশনের PyPI ডেটাসেটটি পাইথন প্যাকেজগুলির জন্য ডাউনলোডের অনুরোধগুলি বিশ্লেষণ করতে ব্যবহার করা যেতে পারে।
আপনি GitHub পাবলিক ডেটাসেট জিজ্ঞাসা করতে BigQuery এবং SQL ব্যবহার করেছেন৷ আপনার কাছে পেটাবাইট-স্কেল ডেটাসেটগুলি অনুসন্ধান করার ক্ষমতা আছে!
আমরা কভার করেছি কি
- GitHub কমিট রেকর্ডগুলি জিজ্ঞাসা করতে SQL সিনট্যাক্স ব্যবহার করে
- একটি বৃহৎ ডেটাসেটের অন্তর্দৃষ্টি অর্জনের জন্য একটি প্রশ্ন লেখা
আরও জানুন
- কাগল ইন্ট্রো টু এসকিউএল কোর্সের মাধ্যমে এসকিউএল শিখুন।
- BigQuery ডকুমেন্টেশন এক্সপ্লোর করুন।
- এই ব্লগ পোস্টে অন্যরা কিভাবে GitHub ডেটাসেট ব্যবহার করছে তা দেখুন।
- BigQuery-এর সাথে TIL- এ আবহাওয়ার ডেটা, অপরাধের ডেটা এবং আরও অনেক কিছু দেখুন।
- BigQuery কমান্ড-লাইন টুল ব্যবহার করে কীভাবে BigQuery-এ ডেটা লোড করতে হয় তা শিখুন।
- আজকে অন্যরা কীভাবে BigQuery ব্যবহার করছে তার জন্য BigQuery subreddit দেখুন