Рабочий процесс кластеризации

Чтобы сгруппировать данные, выполните следующие действия:

  1. Подготовьте данные.
  2. Создайте метрику сходства.
  3. Запустите алгоритм кластеризации.
  4. Интерпретируйте результаты и скорректируйте кластеризацию.

На этой странице кратко представлены шаги. Мы углубимся в последующие разделы.

Четыре шага рабочего процесса кластеризации

Подготовить данные

Как и в случае с любой проблемой машинного обучения, вы должны нормализовать, масштабировать и преобразовывать данные объектов. Однако при кластеризации вы должны дополнительно убедиться, что подготовленные данные позволяют точно рассчитать сходство между примерами. В следующих разделах обсуждается это соображение.

Создать показатель сходства

Прежде чем алгоритм кластеризации сможет сгруппировать данные, он должен знать, насколько похожи пары примеров. Вы количественно определяете сходство между примерами, создавая метрику сходства. Создание метрики подобия требует от вас тщательного понимания ваших данных и того, как получить сходство из ваших функций.

Запустите алгоритм кластеризации

Алгоритм кластеризации использует показатель сходства с данными кластера. Этот курс посвящен k-средним.

Интерпретация результатов и корректировка

Проверка качества ваших выходных данных кластеризации является итеративной и исследовательской, потому что кластеризации не хватает «истины», которая может проверить выходные данные. Вы проверяете результат на соответствие ожиданиям на уровне кластера и на уровне примера. Для улучшения результата необходимо многократно экспериментировать с предыдущими шагами, чтобы увидеть, как они влияют на кластеризацию.