BigQuery پایگاه داده تحلیلی کاملاً مدیریت شده، NoOps و کم هزینه Google است. با BigQuery می توانید بدون نیاز به مدیر پایگاه داده یا زیرساختی برای مدیریت، ترابایت داده را پرس و جو کنید. BigQuery از SQL آشنا و یک مدل شارژ فقط پرداخت برای آنچه شما استفاده می کنید استفاده می کند. BigQuery به شما اجازه می دهد تا بر تجزیه و تحلیل داده ها تمرکز کنید تا بینش های معنی دار پیدا کنید.
در این آزمایشگاه خواهیم دید که چگونه مجموعه داده عمومی GitHub را پرس و جو کنیم، یکی از مجموعههای داده عمومی موجود در BigQuery .
چیزی که یاد خواهید گرفت
- با استفاده از BigQuery
- نوشتن یک پرس و جو برای به دست آوردن بینش در مورد یک مجموعه داده بزرگ
آنچه شما نیاز دارید
BigQuery را فعال کنید
اگر قبلاً یک حساب Google (Gmail یا Google Apps) ندارید، باید یک حساب ایجاد کنید .
- به کنسول Google Cloud Platform ( consol.cloud.google.com ) وارد شوید و به BigQuery بروید. همچنین می توانید با وارد کردن URL زیر در مرورگر خود، رابط وب BigQuery را مستقیماً باز کنید.
https://console.cloud.google.com/bigquery
- شرایط خدمات را بپذیرید.
- قبل از اینکه بتوانید از BigQuery استفاده کنید، باید یک پروژه ایجاد کنید. برای ایجاد پروژه جدید خود، دستورات را دنبال کنید.
نام پروژه را انتخاب کنید و شناسه پروژه را یادداشت کنید.
شناسه پروژه یک نام منحصر به فرد در تمام پروژه های Google Cloud است. بعداً در این آزمایشگاه کد به عنوانPROJECT_ID
خواهد شد.
این کد لبه از منابع BigQuery در محدوده جعبه ایمنی BigQuery استفاده می کند. حساب صورتحساب مورد نیاز نیست. اگر بعداً میخواهید محدودیتهای جعبه ایمنی را حذف کنید، میتوانید با ثبتنام در نسخه آزمایشی رایگان Google Cloud Platform یک حساب صورتحساب اضافه کنید.
مجموعه داده GitHub را در رابط کاربری وب BigQuery باز کنید.
https://console.cloud.google.com/bigquery?p=bigquery-public-data&d=github_repos&t=commits&page=table
یک پیش نمایش سریع از نحوه ظاهر داده ها دریافت کنید.
ویرایشگر Query را باز کنید،
برای یافتن رایجترین پیامهای commit در مجموعه داده عمومی GitHub ، این عبارت را وارد کنید.
SELECT subject AS subject,
COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100
از آنجایی که مجموعه داده GitHub بزرگ است، استفاده از مجموعه داده های نمونه کوچکتر در حالی که در حال آزمایش برای صرفه جویی در هزینه هستید کمک می کند. برای تخمین هزینه پرس و جو از بایت های پردازش شده در زیر ویرایشگر استفاده کنید.
روی دکمه Run query کلیک کنید.
در عرض چند ثانیه، نتیجه در پایین لیست میشود و همچنین به شما میگوید که چه مقدار داده پردازش شده و چه مدت طول کشیده است:
اگرچه جدول sample_commits
2.49 گیگابایت است، پرس و جو فقط 35.8 مگابایت پردازش شده است. BigQuery فقط بایت های ستون هایی را که در پرس و جو استفاده می شود پردازش می کند، بنابراین مقدار کل داده های پردازش شده می تواند به طور قابل توجهی کمتر از اندازه جدول باشد. با خوشه بندی و پارتیشن بندی ، میزان داده های پردازش شده را می توان حتی بیشتر کاهش داد.
اکنون سعی کنید از مجموعه داده دیگری مانند یکی از مجموعه داده های عمومی دیگر پرس و جو کنید.
به عنوان مثال، این پرس و جو پروژه های محبوب منسوخ یا نگهداری نشده را در مجموعه داده عمومی Libraries.io می یابد که هنوز به عنوان یک وابستگی در پروژه های دیگر استفاده می شوند.
SELECT
name,
dependent_projects_count,
language,
status
FROM
`bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100
سازمانهای دیگر نیز دادههای خود را در BigQuery در دسترس عموم قرار دادهاند. به عنوان مثال، مجموعه داده بایگانی GitHub می تواند برای تجزیه و تحلیل رویدادهای عمومی در GitHub مانند درخواست های کشش، ستاره های مخزن و مسائل باز شده مورد استفاده قرار گیرد. مجموعه داده PyPI بنیاد نرم افزار پایتون را می توان برای تجزیه و تحلیل درخواست های دانلود برای بسته های پایتون استفاده کرد.
شما از BigQuery و SQL برای پرس و جو از مجموعه داده عمومی GitHub استفاده کرده اید. شما این قدرت را دارید که مجموعه داده های مقیاس پتابایت را پرس و جو کنید!
آنچه را پوشش داده ایم
- استفاده از نحو SQL برای پرس و جو از رکوردهای commit GitHub
- نوشتن یک پرس و جو برای به دست آوردن بینش در مورد یک مجموعه داده بزرگ
بیشتر بدانید
- SQL را با دوره Kaggle Intro to SQL بیاموزید.
- اسناد BigQuery را کاوش کنید.
- ببینید دیگران چگونه از مجموعه داده GitHub در این پست وبلاگ استفاده می کنند.
- دادههای آبوهوا، دادههای جرم و جنایت و موارد دیگر را در TIL با BigQuery کاوش کنید.
- با استفاده از ابزار خط فرمان BigQuery، نحوه بارگذاری داده ها در BigQuery را بیاموزید.
- برای اطلاع از نحوه استفاده دیگران از BigQuery امروز، زیرمجموعه BigQuery را بررسی کنید