Что такое кластеризация?

Когда вы пытаетесь что-то узнать, скажем, о музыке, одним из подходов может быть поиск значимых групп или коллекций. Вы можете упорядочить музыку по жанрам, а ваш друг — по десятилетиям. То, как вы группируете элементы, поможет вам лучше понять их как отдельные музыкальные произведения. Вы можете обнаружить, что у вас есть глубокая близость к панк-року, и далее разбить жанр на разные подходы или музыку из разных мест. С другой стороны, ваш друг может посмотреть на музыку 1980-х годов и понять, как музыка разных жанров того времени находилась под влиянием социально-политического климата. В обоих случаях вы и ваш друг узнали что-то интересное о музыке, несмотря на то, что у вас разные подходы.

В машинном обучении мы также часто группируем примеры в качестве первого шага к пониманию предмета (набора данных) в системе машинного обучения. Группировка неразмеченных примеров называется кластеризацией .

Поскольку примеры не помечены, кластеризация основана на неконтролируемом машинном обучении. Если примеры помечены, то кластеризация становится классификацией . Для более подробного обсуждения контролируемых и неконтролируемых методов см. Введение в формулирование задач машинного обучения .

График, отображающий три кластера
Рисунок 1: Примеры без меток, сгруппированные в три кластера.

Прежде чем вы сможете сгруппировать похожие примеры, вам сначала нужно найти похожие примеры. Вы можете измерить сходство между примерами, объединив данные о характеристиках примеров в показатель, который называется мерой сходства . Когда каждый пример определяется одним или двумя признаками, легко измерить сходство. Например, вы можете найти похожие книги их авторов. По мере увеличения количества признаков создание меры подобия становится более сложным. Позже мы увидим, как создать меру сходства в различных сценариях.

Каковы виды использования кластеризации?

Кластеризация имеет множество применений в различных отраслях. Некоторые распространенные приложения для кластеризации включают следующее:

  • сегментация рынка
  • анализ социальных сетей
  • группировка результатов поиска
  • медицинская визуализация
  • сегментация изображения
  • обнаружение аномалий

После кластеризации каждому кластеру присваивается номер, называемый идентификатором кластера . Теперь вы можете объединить весь набор функций для примера в его идентификатор кластера. Представление сложного примера простым идентификатором кластера делает кластеризацию мощной. Расширяя идею, кластеризация данных может упростить большие наборы данных.

Например, вы можете группировать элементы по различным признакам, как показано в следующих примерах:

Примеры
  • Сгруппируйте звезды по яркости.
  • Сгруппируйте организмы по генетической информации в таксономию.
  • Группируйте документы по темам.

Затем системы машинного обучения могут использовать идентификаторы кластеров для упрощения обработки больших наборов данных. Таким образом, выходные данные кластеризации служат в качестве данных признаков для нижестоящих систем машинного обучения.

В Google кластеризация используется для обобщения, сжатия данных и сохранения конфиденциальности в таких продуктах, как видео YouTube, приложения Play и музыкальные треки.

Обобщение

Когда в некоторых примерах в кластере отсутствуют данные о функциях, вы можете сделать вывод об отсутствующих данных из других примеров в кластере.

Пример
Менее популярные видео можно объединить с более популярными, чтобы улучшить рекомендации видео.

Сжатие данных

Как уже говорилось, данные признаков для всех примеров в кластере можно заменить соответствующим идентификатором кластера. Эта замена упрощает данные объекта и экономит память. Эти преимущества становятся значительными при масштабировании до больших наборов данных. Кроме того, системы машинного обучения могут использовать идентификатор кластера в качестве входных данных вместо всего набора данных объектов. Снижение сложности входных данных делает модель ML более простой и быстрой для обучения.

Пример
Данные о функциях для одного видео YouTube могут включать:
  • данные о зрителях о местоположении, времени и демографии
  • данные комментариев с отметками времени, текстом и идентификаторами пользователей
  • видео теги
Кластеризация видео YouTube позволяет вам заменить этот набор функций одним идентификатором кластера, тем самым сжимая ваши данные.

Сохранение конфиденциальности

Вы можете сохранить конфиденциальность, объединив пользователей в кластеры и связав пользовательские данные с идентификаторами кластера, а не с конкретными пользователями. Чтобы гарантировать, что вы не сможете связать пользовательские данные с конкретным пользователем, кластер должен группировать достаточное количество пользователей.

Пример
Допустим, вы хотите добавить в свою модель историю видео для пользователей YouTube. Вместо того, чтобы полагаться на идентификатор пользователя, вы можете сгруппировать пользователей и вместо этого полагаться на идентификатор кластера. Теперь ваша модель не может связать историю видео с конкретным пользователем, а только с идентификатором кластера, представляющим большую группу пользователей.