Эта страница содержит термины глоссария кластеризации. Чтобы просмотреть все термины глоссария, щелкните здесь .
А
агломеративная кластеризация
См. иерархическая кластеризация .
С
центр тяжести
Центр кластера, определенный алгоритмом k-средних или k-медиан . Например, если k равно 3, то алгоритм k-средних или k-медиан находит 3 центроида.
кластеризация на основе центроида
Категория алгоритмов кластеризации , которая организует данные в неиерархические кластеры. k-means — это наиболее широко используемый алгоритм кластеризации на основе центроидов.
В отличие от алгоритмов иерархической кластеризации .
кластеризация
Группировка связанных примеров , особенно во время неконтролируемого обучения . После того, как все примеры сгруппированы, человек может дополнительно придать значение каждому кластеру.
Существует множество алгоритмов кластеризации. Например, алгоритм k-средних группирует примеры на основе их близости к центроиду , как показано на следующей диаграмме:
Затем человек-исследователь может просмотреть кластеры и, например, пометить кластер 1 как «карликовые деревья», а кластер 2 — как «полноразмерные деревья».
В качестве другого примера рассмотрим алгоритм кластеризации, основанный на расстоянии примера от центральной точки, показанном ниже:
Д
разделяющая кластеризация
См. иерархическая кластеризация .
ЧАС
иерархическая кластеризация
Категория алгоритмов кластеризации , которые создают дерево кластеров. Иерархическая кластеризация хорошо подходит для иерархических данных, таких как ботанические таксономии. Существует два типа алгоритмов иерархической кластеризации:
- Агломеративная кластеризация сначала назначает каждому примеру свой собственный кластер, а затем итеративно объединяет ближайшие кластеры для создания иерархического дерева.
- Разделительная кластеризация сначала группирует все примеры в один кластер, а затем итеративно делит кластер на иерархическое дерево.
В отличие от кластеризации на основе центроида .
К
k-значит
Популярный алгоритм кластеризации , который группирует примеры в неконтролируемом обучении. Алгоритм k-средних в основном делает следующее:
- Итеративно определяет k лучших центральных точек (известных как центроиды ).
- Назначает каждый пример ближайшему центроиду. Ближайшие к одному и тому же центроиду примеры принадлежат к одной и той же группе.
Алгоритм k-средних выбирает местоположения центроидов, чтобы минимизировать кумулятивный квадрат расстояний от каждого примера до его ближайшего центроида.
Например, рассмотрим следующий график отношения высоты собаки к ширине собаки:
Если k=3, алгоритм k-средних определит три центроида. Каждому примеру присваивается его ближайший центроид, что дает три группы:
Представьте, что производитель хочет определить идеальные размеры маленьких, средних и больших свитеров для собак. Три центроида определяют среднюю высоту и среднюю ширину каждой собаки в этом кластере. Таким образом, производитель, вероятно, должен основывать размеры свитера на этих трех центроидах. Обратите внимание, что центроид кластера обычно не является примером в кластере.
На предыдущих иллюстрациях показаны k-средние для примеров только с двумя функциями (высота и ширина). Обратите внимание, что k-средние могут группировать примеры по многим функциям.
k-медиана
Алгоритм кластеризации, тесно связанный с k-means . Практическая разница между ними заключается в следующем:
- В k-средних центроиды определяются путем минимизации суммы квадратов расстояния между кандидатом в центроид и каждым из его примеров.
- В k-медиане центроиды определяются путем минимизации суммы расстояний между кандидатом на центроид и каждым из его примеров.
Обратите внимание, что определения расстояния также различаются:
- k-means зависит от евклидова расстояния от центроида до примера. (В двух измерениях евклидово расстояние означает использование теоремы Пифагора для вычисления гипотенузы.) Например, расстояние k-средних между (2,2) и (5,-2) будет:
- k-медиана зависит от манхэттенского расстояния от центроида до примера. Это расстояние представляет собой сумму абсолютных дельт в каждом измерении. Например, k-медианное расстояние между (2,2) и (5,-2) будет:
С
мера подобия
В алгоритмах кластеризации метрика, используемая для определения того, насколько похожи (насколько похожи) любые два примера.
зарисовка
В неконтролируемом машинном обучении — категория алгоритмов, выполняющих предварительный анализ подобия на примерах. Алгоритмы создания набросков используют хеш-функцию с учетом местоположения для определения точек, которые могут быть похожими, а затем группируют их в сегменты.
Наброски уменьшают объем вычислений, необходимых для расчета сходства в больших наборах данных. Вместо вычисления сходства для каждой отдельной пары примеров в наборе данных мы вычисляем сходство только для каждой пары точек в каждом сегменте.
Т
анализ временных рядов
Подобласть машинного обучения и статистики, анализирующая временные данные . Многие типы задач машинного обучения требуют анализа временных рядов, включая классификацию, кластеризацию, прогнозирование и обнаружение аномалий. Например, вы можете использовать анализ временных рядов, чтобы спрогнозировать будущие продажи зимних пальто по месяцам на основе исторических данных о продажах.
U
неконтролируемое машинное обучение
Обучение модели поиску закономерностей в наборе данных, обычно немаркированном наборе данных.
Наиболее распространенное использование неконтролируемого машинного обучения — кластеризация данных в группы похожих примеров. Например, неконтролируемый алгоритм машинного обучения может группировать песни на основе различных свойств музыки. Полученные кластеры могут стать входными данными для других алгоритмов машинного обучения (например, для службы музыкальных рекомендаций). Кластеризация может помочь, когда полезных меток мало или они отсутствуют. Например, в таких областях, как борьба со злоупотреблениями и мошенничеством, кластеры могут помочь людям лучше понять данные.
В отличие от контролируемого машинного обучения .