Глоссарий по машинному обучению: кластеризация

Эта страница содержит термины глоссария кластеризации. Чтобы просмотреть все термины глоссария, щелкните здесь .

А

агломеративная кластеризация

#кластеризация

См. иерархическая кластеризация .

С

центр тяжести

#кластеризация

Центр кластера, определенный алгоритмом k-средних или k-медиан . Например, если k равно 3, то алгоритм k-средних или k-медиан находит 3 центроида.

кластеризация на основе центроида

#кластеризация

Категория алгоритмов кластеризации , которая организует данные в неиерархические кластеры. k-means — это наиболее широко используемый алгоритм кластеризации на основе центроидов.

В отличие от алгоритмов иерархической кластеризации .

кластеризация

#кластеризация

Группировка связанных примеров , особенно во время неконтролируемого обучения . После того, как все примеры сгруппированы, человек может дополнительно придать значение каждому кластеру.

Существует множество алгоритмов кластеризации. Например, алгоритм k-средних группирует примеры на основе их близости к центроиду , как показано на следующей диаграмме:

Двумерный график, на котором ось X обозначена как «ширина дерева», а ось Y — как «высота дерева». График содержит два центроида и несколько десятков точек данных. Точки данных классифицируются в зависимости от их близости. То есть точки данных, ближайшие к одному центроиду, классифицируются как «кластер 1», а точки данных, ближайшие к другому центроиду, классифицируются как «кластер 2».

Затем человек-исследователь может просмотреть кластеры и, например, пометить кластер 1 как «карликовые деревья», а кластер 2 — как «полноразмерные деревья».

В качестве другого примера рассмотрим алгоритм кластеризации, основанный на расстоянии примера от центральной точки, показанном ниже:

Десятки точек данных расположены концентрическими кругами, почти как отверстия вокруг центра доски для дартса. Самое внутреннее кольцо точек данных классифицируется как «кластер 1», среднее кольцо — как «кластер 2», а самое внешнее кольцо — как «кластер 3».

Д

разделяющая кластеризация

#кластеризация

См. иерархическая кластеризация .

ЧАС

иерархическая кластеризация

#кластеризация

Категория алгоритмов кластеризации , которые создают дерево кластеров. Иерархическая кластеризация хорошо подходит для иерархических данных, таких как ботанические таксономии. Существует два типа алгоритмов иерархической кластеризации:

  • Агломеративная кластеризация сначала назначает каждому примеру свой собственный кластер, а затем итеративно объединяет ближайшие кластеры для создания иерархического дерева.
  • Разделительная кластеризация сначала группирует все примеры в один кластер, а затем итеративно делит кластер на иерархическое дерево.

В отличие от кластеризации на основе центроида .

К

k-значит

#кластеризация

Популярный алгоритм кластеризации , который группирует примеры в неконтролируемом обучении. Алгоритм k-средних в основном делает следующее:

  • Итеративно определяет k лучших центральных точек (известных как центроиды ).
  • Назначает каждый пример ближайшему центроиду. Ближайшие к одному и тому же центроиду примеры принадлежат к одной и той же группе.

Алгоритм k-средних выбирает местоположения центроидов, чтобы минимизировать кумулятивный квадрат расстояний от каждого примера до его ближайшего центроида.

Например, рассмотрим следующий график отношения высоты собаки к ширине собаки:

Декартов график с несколькими десятками точек данных.

Если k=3, алгоритм k-средних определит три центроида. Каждому примеру присваивается его ближайший центроид, что дает три группы:

Тот же декартов график, что и на предыдущей иллюстрации, за исключением добавления трех центроидов. Предыдущие точки данных сгруппированы в три отдельные группы, каждая из которых представляет точки данных, наиболее близкие к определенному центроиду.

Представьте, что производитель хочет определить идеальные размеры маленьких, средних и больших свитеров для собак. Три центроида определяют среднюю высоту и среднюю ширину каждой собаки в этом кластере. Таким образом, производитель, вероятно, должен основывать размеры свитера на этих трех центроидах. Обратите внимание, что центроид кластера обычно не является примером в кластере.

На предыдущих иллюстрациях показаны k-средние для примеров только с двумя функциями (высота и ширина). Обратите внимание, что k-средние могут группировать примеры по многим функциям.

k-медиана

#кластеризация

Алгоритм кластеризации, тесно связанный с k-means . Практическая разница между ними заключается в следующем:

  • В k-средних центроиды определяются путем минимизации суммы квадратов расстояния между кандидатом в центроид и каждым из его примеров.
  • В k-медиане центроиды определяются путем минимизации суммы расстояний между кандидатом на центроид и каждым из его примеров.

Обратите внимание, что определения расстояния также различаются:

  • k-means зависит от евклидова расстояния от центроида до примера. (В двух измерениях евклидово расстояние означает использование теоремы Пифагора для вычисления гипотенузы.) Например, расстояние k-средних между (2,2) и (5,-2) будет:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-медиана зависит от манхэттенского расстояния от центроида до примера. Это расстояние представляет собой сумму абсолютных дельт в каждом измерении. Например, k-медианное расстояние между (2,2) и (5,-2) будет:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

С

мера сходства

#кластеризация

В алгоритмах кластеризации метрика, используемая для определения того, насколько похожи (насколько похожи) любые два примера.

зарисовка

#кластеризация

В неконтролируемом машинном обучении — категория алгоритмов, выполняющих предварительный анализ подобия на примерах. Алгоритмы создания набросков используют хеш-функцию с учетом местоположения для определения точек, которые могут быть похожими, а затем группируют их в сегменты.

Наброски уменьшают объем вычислений, необходимых для расчета сходства в больших наборах данных. Вместо вычисления сходства для каждой отдельной пары примеров в наборе данных мы вычисляем сходство только для каждой пары точек в каждом сегменте.

Т

анализ временных рядов

#кластеризация

Подобласть машинного обучения и статистики, анализирующая временные данные . Многие типы задач машинного обучения требуют анализа временных рядов, включая классификацию, кластеризацию, прогнозирование и обнаружение аномалий. Например, вы можете использовать анализ временных рядов, чтобы спрогнозировать будущие продажи зимних пальто по месяцам на основе исторических данных о продажах.

U

неконтролируемое машинное обучение

#кластеризация
#основы

Обучение модели поиску закономерностей в наборе данных, обычно немаркированном наборе данных.

Наиболее распространенное использование неконтролируемого машинного обучения — кластеризация данных в группы похожих примеров. Например, неконтролируемый алгоритм машинного обучения может группировать песни на основе различных свойств музыки. Полученные кластеры могут стать входными данными для других алгоритмов машинного обучения (например, для службы музыкальных рекомендаций). Кластеризация может помочь, когда полезных меток мало или они отсутствуют. Например, в таких областях, как борьба со злоупотреблениями и мошенничеством, кластеры могут помочь людям лучше понять данные.

В отличие от контролируемого машинного обучения .