Эта страница переведена с помощью Cloud Translation API.

Глоссарий машинного обучения: кластеризация

Эта страница содержит термины глоссария кластеризации. Чтобы просмотреть все термины глоссария, нажмите здесь .

А

агломеративная кластеризация

#кластеризация

См. иерархическую кластеризацию .

С

центроид

#кластеризация

Центр кластера, определенный алгоритмом k-средних или k-медианы . Например, если k равно 3, то алгоритм k-средних или k-медианы находит 3 центроида.

кластеризация на основе центроидов

#кластеризация

Категория алгоритмов кластеризации , которая организует данные в неиерархические кластеры. k-means — наиболее широко используемый алгоритм кластеризации на основе центроидов.

В отличие от алгоритмов иерархической кластеризации .

кластеризация

#кластеризация

Группирование связанных примеров , особенно во время обучения без учителя . После того как все примеры сгруппированы, человек может при желании придать смысл каждому кластеру.

Существует множество алгоритмов кластеризации. Например, алгоритм k-средних кластеризует примеры на основе их близости к центроиду , как показано на следующей диаграмме:

Двумерный график, на котором ось X обозначает ширину дерева, а ось Y — высоту дерева. График содержит два центроида и несколько десятков точек данных. Точки данных классифицируются в зависимости от их близости. То есть точки данных, ближайшие к одному центроиду, относятся к категории кластера 1, а точки данных, ближайшие к другому центроиду, относятся к категории кластера 2.

Затем исследователь-человек может просмотреть кластеры и, например, обозначить кластер 1 как «карликовые деревья», а кластер 2 — как «полноразмерные деревья».

В качестве другого примера рассмотрим алгоритм кластеризации, основанный на расстоянии примера от центральной точки, проиллюстрированный следующим образом:

Десятки точек данных расположены в виде концентрических кругов, почти как отверстия вокруг центра дартса. Самое внутреннее кольцо точек данных относится к категории кластера 1, среднее кольцо относится к категории кластера 2, а самое внешнее кольцо — к кластеру 3.

Д

разделительная кластеризация

#кластеризация

См. иерархическую кластеризацию .

ЧАС

иерархическая кластеризация

#кластеризация

Категория алгоритмов кластеризации , создающих дерево кластеров. Иерархическая кластеризация хорошо подходит для иерархических данных, таких как ботаническая таксономия. Существует два типа алгоритмов иерархической кластеризации:

Агломеративная кластеризация сначала присваивает каждый пример отдельному кластеру и итеративно объединяет ближайшие кластеры для создания иерархического дерева.
Разделительная кластеризация сначала группирует все примеры в один кластер, а затем итеративно делит кластер на иерархическое дерево.

Сравните с кластеризацией на основе центроидов .

К

k-средство

#кластеризация

Популярный алгоритм кластеризации , группирующий примеры при обучении без учителя. Алгоритм k-средних в основном делает следующее:

Итеративно определяет k лучших центральных точек (известных как центроиды ).
Назначает каждый пример ближайшему центроиду. Примеры, ближайшие к одному и тому же центроиду, принадлежат к одной группе.

Алгоритм k-средних выбирает местоположения центроидов, чтобы минимизировать совокупный квадрат расстояний от каждого примера до ближайшего к нему центроида.

Например, рассмотрим следующий график зависимости высоты собаки от ширины собаки:

Декартов график с несколькими десятками точек данных.

Если k=3, алгоритм k-средних определит три центроида. Каждому примеру присваивается ближайший к нему центроид, что дает три группы:

Тот же декартов график, что и на предыдущей иллюстрации, за исключением добавления трех центроидов. Предыдущие точки данных сгруппированы в три отдельные группы, каждая из которых представляет точки данных, наиболее близкие к определенному центроиду.

Представьте, что производитель хочет определить идеальные размеры маленьких, средних и больших свитеров для собак. Три центроида определяют среднюю высоту и среднюю ширину каждой собаки в этом кластере. Таким образом, производителю, вероятно, следует основывать размеры свитеров на этих трех центроидах. Обратите внимание, что центроид кластера обычно не является примером в кластере.

На предыдущих иллюстрациях показаны k-средние для примеров только с двумя признаками (высотой и шириной). Обратите внимание, что k-средние могут группировать примеры по множеству функций.

k-медиана

#кластеризация

Алгоритм кластеризации, тесно связанный с k-means . Практическая разница между ними заключается в следующем:

В k-средних центроиды определяются путем минимизации суммы квадратов расстояния между кандидатом на центроид и каждым из его примеров.
В k-медиане центроиды определяются путем минимизации суммы расстояний между кандидатом на центроид и каждым из его примеров.

Обратите внимание, что определения расстояния также различаются:

k-means опирается на евклидово расстояние от центроида до примера. (В двух измерениях евклидово расстояние означает использование теоремы Пифагора для расчета гипотенузы.) Например, k-среднее расстояние между (2,2) и (5,-2) будет следующим:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-медиана основана на манхэттенском расстоянии от центроида до примера. Это расстояние представляет собой сумму абсолютных дельт в каждом измерении. Например, k-медианное расстояние между (2,2) и (5,-2) будет следующим:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

С

мера сходства

#кластеризация

В алгоритмах кластеризации — метрика, используемая для определения того, насколько похожи (насколько похожи) любые два примера.

зарисовка

#кластеризация

В машинном обучении без учителя — категория алгоритмов, выполняющих предварительный анализ сходства на примерах. Алгоритмы создания эскизов используют хэш-функцию, чувствительную к местонахождению, для определения точек, которые могут быть похожими, а затем группируют их в сегменты.

Создание эскизов уменьшает объем вычислений, необходимых для расчета сходства в больших наборах данных. Вместо расчета сходства для каждой пары примеров в наборе данных мы рассчитываем сходство только для каждой пары точек в каждом сегменте.

Т

анализ временных рядов

#кластеризация

Подобласть машинного обучения и статистики, которая анализирует временные данные . Многие типы задач машинного обучения требуют анализа временных рядов, включая классификацию, кластеризацию, прогнозирование и обнаружение аномалий. Например, вы можете использовать анализ временных рядов для прогнозирования будущих продаж зимних пальто по месяцам на основе исторических данных о продажах.

ты

машинное обучение без учителя

#кластеризация

#основы

Обучение модели поиску закономерностей в наборе данных, обычно в немаркированном наборе данных.

Наиболее распространенным применением машинного обучения без учителя является кластеризация данных в группы похожих примеров. Например, алгоритм машинного обучения без учителя может группировать песни на основе различных свойств музыки. Полученные кластеры могут стать входными данными для других алгоритмов машинного обучения (например, для службы музыкальных рекомендаций). Кластеризация может помочь, когда полезных меток мало или они отсутствуют. Например, в таких областях, как борьба со злоупотреблениями и мошенничеством, кластеры могут помочь людям лучше понять данные.

Сравните с контролируемым машинным обучением .

Нажмите на значок, чтобы просмотреть дополнительные примечания.

Другим примером машинного обучения без учителя является анализ главных компонентов (PCA) . Например, применение PCA к набору данных, содержащему содержимое миллионов тележек для покупок, может выявить, что тележки для покупок, содержащие лимоны, часто также содержат антациды.