BigQuery adalah database analisis berbiaya rendah dan terkelola sepenuhnya milik Google, tanpa pengoperasian. Dengan BigQuery, Anda dapat membuat kueri data berukuran terabyte tanpa memerlukan administrator database atau infrastruktur apa pun untuk mengelolanya. BigQuery menggunakan SQL yang sudah dikenal dan model pengisian daya bayar sesuai penggunaan. BigQuery memungkinkan Anda berfokus pada analisis data untuk menemukan insight yang bermakna.
Di lab ini, kita akan melihat cara membuat kueri set data publik GitHub, salah satu dari banyak set data publik yang tersedia di BigQuery.
Yang akan Anda pelajari
- Menggunakan BigQuery
- Menulis kueri untuk mendapatkan insight tentang set data besar
Yang Anda butuhkan
Mengaktifkan BigQuery
Jika belum memiliki Akun Google (Gmail atau Google Apps), Anda harus membuatnya.
- Login ke Google Cloud Platform console (console.cloud.google.com) dan buka BigQuery. Anda juga dapat membuka UI web BigQuery secara langsung dengan memasukkan URL berikut di browser.
https://console.cloud.google.com/bigquery
- Setujui persyaratan layanan.
- Sebelum dapat menggunakan BigQuery, Anda harus membuat project. Ikuti petunjuk untuk membuat project baru Anda.
Pilih nama project dan catat project ID tersebut.
Project ID adalah nama unik di semua project Google Cloud. Project ID tersebut selanjutnya akan dirujuk di codelab ini sebagaiPROJECT_ID
.
Codelab ini menggunakan resource BigQuery dengan batas sandbox BigQuery. Akun penagihan tidak diperlukan. Jika nantinya Anda ingin menghapus batas sandbox, Anda dapat menambahkan akun penagihan dengan mendaftar ke uji coba gratis Google Cloud Platform.
Buka set data GitHub di UI web BigQuery.
https://console.cloud.google.com/bigquery?p=bigquery-public-data&d=github_repos&t=commits&page=table
Dapatkan pratinjau singkat tentang tampilan data.
Buka Editor kueri,
masukkan kueri ini untuk menemukan pesan commit yang paling umum di set data publik GitHub,
SELECT subject AS subject,
COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100
Karena set data GitHub berukuran besar, Anda dapat menggunakan set data sampel yang lebih kecil saat bereksperimen untuk menghemat biaya. Gunakan byte yang diproses di bawah editor untuk memperkirakan biaya kueri.
Klik tombol Run query.
Dalam beberapa detik, hasilnya akan tercantum di bagian bawah, dan Anda juga akan mengetahui berapa banyak data yang telah diproses dan berapa lama waktu yang dibutuhkan:
Meskipun tabel sample_commits
adalah 2,49 GB, kueri hanya memproses 35,8 MB. BigQuery hanya memproses byte dari kolom yang digunakan dalam kueri, sehingga jumlah total data yang diproses dapat jauh lebih kecil dari ukuran tabel. Dengan pengelompokan dan partisi, jumlah data yang diproses dapat dikurangi lebih jauh lagi.
Sekarang, coba buat kueri set data lain, seperti salah satu set data publik lainnya.
Misalnya, kueri ini menemukan project populer yang tidak digunakan lagi atau tidak dikelola dalam set data publik Libraries.io yang masih digunakan sebagai dependensi di project lain.
SELECT
name,
dependent_projects_count,
language,
status
FROM
`bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100
Organisasi lain juga telah membuat data mereka tersedia secara publik di BigQuery. Misalnya, set data Arsip GitHub dapat digunakan untuk menganalisis peristiwa publik di GitHub seperti permintaan pull, bintang repositori, dan masalah yang dibuka. Set data PyPI Python Software Foundation dapat digunakan untuk menganalisis permintaan download paket Python.
Anda telah menggunakan BigQuery dan SQL untuk mengkueri set data publik GitHub. Anda dapat mengkueri set data berskala petabyte.
Yang telah kita bahas
- Menggunakan sintaksis SQL untuk mengkueri data commit GitHub
- Menulis kueri untuk mendapatkan insight tentang set data besar
Pelajari Lebih Lanjut
- Pelajari SQL dengan kursus Pengantar Kaggle Pengantar SQL.
- Pelajari dokumentasi BigQuery.
- Lihat bagaimana orang lain menggunakan set data GitHub di postingan blog ini.
- Jelajahi data cuaca, data kejahatan, dan lainnya di TIL dengan BigQuery.
- Pelajari cara memuat data ke BigQuery dengan menggunakan alat command line BigQuery.
- Lihat subreddit BigQuery untuk mengetahui cara orang lain menggunakan BigQuery saat ini