BigQuery — это полностью управляемая, недорогая аналитическая база данных Google, не требующая операций. С помощью BigQuery вы можете запрашивать терабайты данных, не нуждаясь в администраторе базы данных или какой-либо инфраструктуре для управления. BigQuery использует знакомый SQL и модель оплаты только за то, что вы используете. BigQuery позволяет вам сосредоточиться на анализе данных, чтобы найти важные идеи.
В этом практическом занятии мы увидим, как запрашивать общедоступный набор данных GitHub , один из многих общедоступных наборов данных, доступных в BigQuery .
Что вы узнаете
- Использование BigQuery
- Написание запроса, чтобы получить представление о большом наборе данных
Что вам понадобится
Включить BigQuery
Если у вас еще нет учетной записи Google (Gmail или Google Apps), вы должны создать ее.
- Войдите в консоль Google Cloud Platform ( console.cloud.google.com ) и перейдите к BigQuery. Вы также можете напрямую открыть веб-интерфейс BigQuery, введя следующий URL-адрес в браузере.
https://console.cloud.google.com/bigquery
- Примите условия обслуживания.
- Прежде чем вы сможете использовать BigQuery, вы должны создать проект. Следуйте инструкциям, чтобы создать новый проект.
Выберите имя проекта и запишите идентификатор проекта.
Идентификатор проекта — это уникальное имя для всех проектов Google Cloud. Позже в этой кодовой лаборатории он будет упоминаться какPROJECT_ID
.
В этой лаборатории кода используются ресурсы BigQuery в пределах ограничений песочницы BigQuery . Платежный аккаунт не требуется. Если позже вы захотите снять ограничения песочницы, вы можете добавить платежный аккаунт, подписавшись на бесплатную пробную версию Google Cloud Platform.
Откройте набор данных GitHub в веб-интерфейсе BigQuery.
https://console.cloud.google.com/bigquery?p=bigquery-public-data&d=github_repos&t=commits&page=table
Получите быстрый предварительный просмотр того, как выглядят данные.
Откройте редактор запросов,
введите этот запрос, чтобы найти наиболее распространенные сообщения фиксации в общедоступном наборе данных GitHub ,
SELECT subject AS subject,
COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100
Поскольку набор данных GitHub большой, рекомендуется использовать меньший образец набора данных, пока вы экспериментируете, чтобы сэкономить на расходах. Используйте байты, обработанные ниже редактора, чтобы оценить стоимость запроса.
Нажмите кнопку Выполнить запрос .
Через несколько секунд результат будет указан внизу, а также будет указано, сколько данных было обработано и сколько времени это заняло:
Несмотря на то, что размер таблицы sample_commits
составляет 2,49 ГБ, запрос обработал только 35,8 МБ. BigQuery обрабатывает только байты из тех столбцов, которые используются в запросе, поэтому общий объем обрабатываемых данных может быть значительно меньше размера таблицы. Благодаря кластеризации и секционированию объем обрабатываемых данных можно еще больше сократить.
Теперь попробуйте запросить другой набор данных, например один из общедоступных наборов данных .
Например, этот запрос находит популярные устаревшие или неподдерживаемые проекты в общедоступном наборе данных Libraries.io , которые все еще используются в качестве зависимости в других проектах.
SELECT
name,
dependent_projects_count,
language,
status
FROM
`bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100
Другие организации также сделали свои данные общедоступными в BigQuery. Например, набор данных GitHub Archive можно использовать для анализа общедоступных событий на GitHub, таких как запросы на вытягивание, звезды репозитория и открытые задачи. Набор данных PyPI от Python Software Foundation можно использовать для анализа запросов на загрузку пакетов Python.
Вы использовали BigQuery и SQL для запроса общедоступного набора данных GitHub. У вас есть возможность запрашивать петабайтные наборы данных!
Что мы рассмотрели
- Использование синтаксиса SQL для запроса записей коммитов GitHub
- Написание запроса, чтобы получить представление о большом наборе данных
Учить больше
- Изучайте SQL с помощью курса Kaggle Intro to SQL .
- Изучите документацию BigQuery .
- Посмотрите, как другие используют набор данных GitHub, в этой записи блога .
- Изучайте данные о погоде, данные о преступлениях и многое другое в TIL с помощью BigQuery .
- Узнайте, как загружать данные в BigQuery с помощью инструмента командной строки BigQuery .
- Посетите сабреддит BigQuery , чтобы узнать, как другие используют BigQuery сегодня.